Mitä viidestä miljoonasta kirjasta oppii?

Google digitoi maailmankirjallisuutta kovaa vauhtia. Se on muuttanut digitaaliseksi jo yli 10 prosenttia koko maailman kaikista julkaistuista kirjoista. Mitä ne kertovat meille kulttuuristamme?

Harvardin, MIT:n, American Heritage Dictionaryn, Encyclopedia Britannican ja Googlen yhteinen tutkijaryhmä päätti ottaa asiasta selvää.

Kirjapainon keksimisen jälkeen maailmassa on julkaistu 129 miljoonaa kirjaa. Niistä Google on digitoinut 15 miljoonaa.

Google tarjosi tutkijaryhmälle kaiken datansa näistä kirjoista. Lisäksi tarjolla oli metadataa, eli kirjan kirjoittaja, kirjoitusvuosi ja niin edelleen.

Ryhmä kävi datan läpi ja jätti jäljelle vain datan, joka oli ensiluokkaista laatua. Se tarkoittaa viittä miljoonaa kirjaa, 500 miljardia sanaa ja aakkosten ketjua, joka on tuhat kertaa pitempi kuin ihmisen genomi. Se on aikamoinen pätkä kulttuurihistoriaamme ja yhteiskuntiemme evoluutiota.

Tilastot ja n-grammit

Mitä tällaiselle datamäärälle voi tehdä? Ainakaan sitä ei voi julkaista suoraan, sillä tiedossa olisi kaikkien aikojen tekijänoikeuskäräjät.

Ryhmä päätti julkaista tilastot datasta. Tilastot perustuvat n-grammeihin. N-grammi on n merkin, foneemin tai sanan mittainen jakso. Googlen datassa n-grammit ovat sanoja. Esimerkiksi sana "yksi" on unigrammi, yhden sanan mittainen n-grammi. "Valkoinen lintu" on digrammi, "Pekka ajaa autoa" trigrammi.

Tutkijaryhmän tilastot perustuvat eri sanojen tai sanayhdistelmien yleisyyteen omassa n-grammissaan. Kun tiedetään sanan julkaisuvuosi ja sen yleisyys, saadaan hienoja tilastoja. Google on laittanut tilastot kaikkien tutkittaviksi osoitteeseen http://books.google.com/ngrams.

Valitettavasti suomenkielisestä kirjallisuudesta ei ainakaan vielä ole olemassa samanlaisia tilastoja. Englanninkielisen aineiston tutkiminen on kuitenkin todella koukuttavaa. Englannin lisäksi tarjolla on kiinaa, saksaa, ranskaa, hepreaa, venäjää ja espanjaa.

Mitä tutkijaryhmä sitten löysi? Esimerkiksi sen, että pelkästään tutkimalla influenssa-sanan (engl. influenza) yleisyyttä datassa, voidaan päätellä, milloin maailmalla riehui paha tauti. Kirjailijaa kohdannut sensuuri voidaan myös päätellä suoraan tilastoista.

Tavallisella signaalinkäsittelyllä on mahdollista tavoittaa kulttuurisesta evoluutiostamme jotain, mitä ei aiemmin ole tavoitettu.

Tilastojen avulla pääsee käsiksi myös abstrakteihin asioihin. Me esimerkiksi unohdamme historiamme nopeammin kuin ennen. Kuinka tämä voidaan päätellä? Katsokaa Erez Lieberman Aiden ja Jean-Babtiste Michelin luento projektista TED-puheiden arkistosta.

Luento selvittää projektia tarkemmin ja tarjoaa näkymän tulevaisuuteen, jossa kaikki kulttuuri on saatavilla myös digitaalisesti. Digitaalisuus tulee muuttamaan tai ainakin tarjoamaan uuden tavan, jolla kulttuuria tutkitaan ja ymmärretään.

Lue myös:

    Uusimmat