500 milliárd szó között kutakodhatunk
- 2010. december 30.
Először nyílik ilyen kutatási távlat a
tudósok, a diákok és bárki más számára. Ez azért fontos, mert az 1500
és 2008 között megjelent angol, francia, spanyol, német, kínai és orosz
nyelvű kötetekből a Google által digitálisan már feldolgozott rész
összesen 500 milliárd szót tartalmaz.
Elsősorban a tudomány embereit fogja mozgósítani ez a csábítás, de egy egyszerű online eszköz (http://ngrams.googlelabs.com/)
bármely számítógép-tulajdonos számára is lehetővé teszi, hogy egy-egy
szó vagy legfeljebb ötszavas kifejezés gyakoriságát kutassa a több mint
ötmillió kötetben – tűnik ki a The New York Times egyik írásából.
Így például össze lehet hasonlítani, milyen gyakran szerepelt a nők (women) kifejezés a férfiak (men) szóhoz
képest az idők során. Kitűnik: a nőket nem nagyon emlegették az 1970-es
évek kezdetéig, amikor végül teret nyert a feminizmus. A két görbe
1986-ban keresztezte egymást.
Kideríthető, hogy Jimmy Carter elnököt egy időben Miki egérnél vagy
Marilyn Monroe-nál is gyakrabban emlegették; vagy hogy 1989 után
angolul jóval többször említették a Tienanmen-teret, mint kínaiul; de
az is, hogy miként változott a hétköznapi szóhasználat.
"Ezzel a módszerrel akár egy nyolcéves gyerek is felmérheti, miként
alakultak a kulturális trendek, divatok az évszázadok során" –
magyarázta Erez Lieberman Aiden fiatal harvardi kutató. Az egyetemen ő
és Jean-Baptiste Michel, egy másik szakember dolgozta ki a Google
céggel együtt a digitális módszert a nyelv, a kultúra és az eszmék
változásainak tanulmányozására és megértésére.
A Journal of Science hasábjain a páros külön közleményben
írta le tapasztalatait, és a folyóirat, tekintettel a téma
jelentőségére, a világhálón is közzétette a cikket.
Lieberman Aiden az alkalmazott matematika és a genomika (genomics),
vagyis a gének által tárolt információk tudományának szakértője. A
Google digitális könyvtárában tárolt adatok feldolgozásának
"felturbózott elemzése", amelyre az általa "kulturomikának" (culturomics)
nevezett kutatási módszer alkalmas, számtalan új lehetőséget nyit a
humán tudományokban. A szakértők letölthetik a grafikonok alapjául
szolgáló adatokat és így felépíthetik saját adatbázisukat is a
kiválasztott kutatási témában.
Egy 1800-ig visszanyúló, a héber nyelvet is magában foglaló adatbázis
alapján a kutatók példának okáért azt vizsgálták, hogy mennyi ideig
tart a világhír. Azt tapasztalták, hogy a hírességek írásos említése a
20. század közepén kétszer olyan gyorsan csökkent, mint a 19. század
elején. Kivetítve a tendenciát, ironikusan megjegyezték: a jövőben
átlagosan mindenki 7 és fél percig lesz csak divatban.
Másfelől úgy találták, hogy míg a 19. század elején a találmányok 66 év
alatt váltak ismertebbé a szélesebb kultúrában, 1880 és 1920 között ez
az idő már 27 évre rövidült.
A rendhagyó igék kutatásától a digitális kulturtár elemzéséig
Steven Pinker harvardi nyelvész 20 éven át tanulmányozta a múlt idő
igeragozási formáit. Meggyőződése szerint az új eszköz sokkal teljesebb
és meggyőzőbb eredményeket szolgáltathat, és a mennyiségi
előfordulásokra alapozott vizsgálatoktól való korábbi idegenkedés
ellenére általánossá válhat.
Más humán kutatási szakértők viszont fenntartásokat hangoztattak. Louis
Menand, az angol nyelv egyik harvardi professzora szerint a módszer
ugyan hasznos lehet, főleg a nyelvészek számára, de a kultúrtörténet
kutatását illetően "talán kissé eltúlozzák" a jelentőségét. Hiányolta,
hogy a projekt kidolgozásában csak informatikusok vettek részt, humán
kutatók nem.
Alan Brinkley történész professzor ugyan elképzelhetőnek tart érdekes
alkalmazásokat, de csak találgatni tudja, milyen téren. Michel és
Lieberman Aiden ezekre az ellenvetésekre azzal válaszol, hogy a
kulturomika egyszerűen csak információkat szolgáltat – a lényeg ezek
értelmezése lesz. "Mi az asztalra teszünk egy csomó érdekes adatot és
megkérdezzük: hogyan értelmezik őket – mondja Lieberman Aiden.
A páros 2004-ben a rendhagyó igéket kezdte kutatni. A Google digitális
könyvtára akkor még nem létezett, így oldalról oldalra vizsgáltak angol
szövegeket – 18 hónapon át, anélkül hogy sejtették volna, sikerül-e a
fárasztó munkával kimutatni valamilyen összefüggést. Amikor értesültek
a Google könyvtártervéről, azonnal felvetették Peter Norvignak, a cég
kutatási igazgatójának, hogy a könyvek digitalizálásával létrejövő
adattömeget statisztikai elemzésekre is fel kellene használni.
"Norvig felismerte, milyen nagy lehetőséget nyújt a módszer a Google és
a tudomány számára. Ezután négy éven át dolgoztunk a projekt során
felmerült problémák, többek között szerzői jogi és számítástechnikai
kérdések megoldásán. A Google szerint a kulturomika-projekt nem érinti
a szerzői jogot, mivel a kutatott szöveget nem lehet elolvasni, csak az
előfordulások gyakoriságát lehet kimutatni.
A Google eddig a megjelent könyvek 11 százalékát digitalizálta. A Science cikkéhez
elemzett anyag a teljes könyvtári szómennyiség 4 százaléka. A
kulturális utalások jóval ritkábbak a nyomtatott szövegben, mint a
mindennapi szavak – hangoztatja Jean-Baptiste Michel, aki biológiai
matematikával és rendszerekkel foglalkozik. Ezért pontos felmérésükhöz,
mondjuk annak megállapításához, hogy egy bizonyos majomfajta fogalma
mennyire válik ismertté, legalább évi egymilliárd szót kell átvizsgálni.
A kulturomika (culturomics) fogalmának terjedését talán 20
év múlva lesz érdemes kimutatni. Csak be kell majd írni az adatbázis
akkori, naprakész változatába.
(MTI)
Hozzászólás