Google ei löydä kaikkea tietoa

Turun yliopistossa on tänään tarkastattu väitöskirja, jonka mukaan Googleen ei kannata luottaa sokeasti: hakukone ei nimittäin löydä kaikkea netin tietoa, vaikka niin luullaan.

M.Sc. Denis Shestakovin väitöstutkimuksen mukaan Googlen tarjoama hakutulos on oikeastaan vain tiedon jäävuoren huipusta, sillä hakukoneilta jäävät erityisesti piiloon niin sanotut dynaamiset verkkosivut. Ne muodostetaan reaaliaikaisesti vastauksena käyttäjän lähettämään kyselylomakkeeseen. Tällaiset hakulomakkeiden taakse hakukoneilta piiloon jäävät verkkosivut muodostavat suuren osan indeksoimattomasta tietoverkon osasta, jota kutsutaan syväksi verkoksi (Deep Web).

Hakulomakkeet tarjoavat käyttäjälle online-yhteyden internetin lukemattomiin tietokantoihin. Näiden tietokantojen sisältö on usein erityisen korkealaatuista ja äärimmäisen arvokasta käyttäjilleen. Esimerkiksi kansainvälisesti erittäin tunnettu ja käytetty PubMed-tietokantapalvelu tarjoaa pääsyn miljooniin korkealuokkaisiin tieteellisiin tutkimustuloksiin biolääketieteen saralla.

Paikallisista tietokannoista mainittakoon vaikkapa matkatoimistojen ylläpitämät tietokannat, joiden sisältämä tieto on tärkeätä ja arvokasta lomaansa suunnitteleville. Yleensäkin tällainen johonkin tiettyyn aihealueeseen keskittyvä tieto on usein hyvin korkealaatuista ja tarkkaa ja näin käyttäjilleen erityisen hyödyllistä ja arvokasta - ja kuitenkin siis piilossa tavanomaisten hakukoneiden käyttäjiltä.

Näin väitöstutkimus tehtiin

Väittelijä Shestakovin työssä tutkittiin kolmea syvän verkon sisältämän tiedon löytämiseen liittyvää ongelmaa. Ensiksi hän kehitti prototyyppijärjestelmän, joka mahdollistaa pääsyn verkossa olevien tietokantojen sisältämään tietoon täyttämällä hakulomake automaattisesti. Tutkimuksen tuloksena kehitetty kyselykieli säästää käyttäjien työtä merkittävästi sekä haun muodostamisessa että hakutulosten merkityksellisyyden tulkinnassa.

Toiseksi Shestakov kehitti menetelmän verkon sisältämien tietokantojen tarjoamien hakupalveluiden automaattiseksi tunnistamiseksi. Hakulomakkeen sisältävän verkkosivun tunnistaminen saattaa äkkiseltään kuulostaa naiivilta, mutta nykyjärjestelmille se on varsin haastava. Yksi keskeinen ongelma on verkon sisältämien tietokantojen huikea määrä - arvioiden mukaan jo vuonna 2004 niitä oli puolisen miljoonaa.

Syvän verkon laajuuden arvioiminen olikin työn kolmas tutkimuskohde. Laajuuden luotettavaan arvioimiseen esitetään työssä kaksi uutta menetelmää, ja niitä sovelletaan Internetin erään kansallisen osan syvän verkon laajuuden arviointiin.

Väitöksestä hyötyä kaikille

Tutkimustuloksista hyötyvät kaikki, jotka tarvitsevat yleisiltä hakukoneilta piiloon jääviä tietoja. Myös yleisten hakukoneiden kehittäjät hyötyvät tuloksista parantaessaan hakukoneita edelleen.

Lisäksi erityisesti kaksi tahoa voivat soveltaa tuloksia. Ensinnäkin sisällöntarjoajat - vaikkapa kirjastot - ymmärtävät, ettei tiedon paneminen verkossa oleviin tietokantoihin tee tiedosta helposti löydettävää. Erityisesti uudet tietokannat voivat jäädä käytännöllisesti katsoen tuntemattomiksi suurelle yleisölle, vaikka ne sisältäisivät kuinka täsmällistä ja arvokasta tietoa jostakin tietystä aihealueesta.

Toiseksi, syvän verkon louhinta on erityisen arvokasta erikoistuneille, ns. vertikaalisille hakukoneille. Tällaiset hakupalvelut on tarkoitettu kohdennetulle yleisölle ja suunniteltu palvelemaan erikoisaiheista tietoa haluavia käyttäjiä.

Monilla aihealueilla syvän verkon sivut ovat tärkein tai jopa ainoa tietolähde - esimerkiksi auton, asunnon tai hotellihuoneen etsijän täytyy nykyisellään yhdistää tietoa monista eri tietokannoista, kun aiheeseen erikoistunut hakukone tarjoaisi tiedon yhdellä kertaa.

(MTV3)

Lue myös:

    Uusimmat