Google ei löydä kaikkea tietoa
Turun yliopistossa on tänään tarkastattu väitöskirja, jonka mukaan Googleen ei kannata luottaa sokeasti: hakukone ei nimittäin löydä kaikkea netin tietoa, vaikka niin luullaan.
M.Sc. Denis Shestakovin väitöstutkimuksen mukaan Googlen tarjoama hakutulos on oikeastaan vain tiedon jäävuoren huipusta, sillä hakukoneilta jäävät erityisesti piiloon niin sanotut dynaamiset verkkosivut. Ne muodostetaan reaaliaikaisesti vastauksena käyttäjän lähettämään kyselylomakkeeseen. Tällaiset hakulomakkeiden taakse hakukoneilta piiloon jäävät verkkosivut muodostavat suuren osan indeksoimattomasta tietoverkon osasta, jota kutsutaan syväksi verkoksi (Deep Web).
Hakulomakkeet tarjoavat käyttäjälle online-yhteyden internetin lukemattomiin tietokantoihin. Näiden tietokantojen sisältö on usein erityisen korkealaatuista ja äärimmäisen arvokasta käyttäjilleen. Esimerkiksi kansainvälisesti erittäin tunnettu ja käytetty PubMed-tietokantapalvelu tarjoaa pääsyn miljooniin korkealuokkaisiin tieteellisiin tutkimustuloksiin biolääketieteen saralla.
Paikallisista tietokannoista mainittakoon vaikkapa matkatoimistojen ylläpitämät tietokannat, joiden sisältämä tieto on tärkeätä ja arvokasta lomaansa suunnitteleville. Yleensäkin tällainen johonkin tiettyyn aihealueeseen keskittyvä tieto on usein hyvin korkealaatuista ja tarkkaa ja näin käyttäjilleen erityisen hyödyllistä ja arvokasta - ja kuitenkin siis piilossa tavanomaisten hakukoneiden käyttäjiltä.
Näin väitöstutkimus tehtiin
Väittelijä Shestakovin työssä tutkittiin kolmea syvän verkon sisältämän tiedon löytämiseen liittyvää ongelmaa. Ensiksi hän kehitti prototyyppijärjestelmän, joka mahdollistaa pääsyn verkossa olevien tietokantojen sisältämään tietoon täyttämällä hakulomake automaattisesti. Tutkimuksen tuloksena kehitetty kyselykieli säästää käyttäjien työtä merkittävästi sekä haun muodostamisessa että hakutulosten merkityksellisyyden tulkinnassa.
Toiseksi Shestakov kehitti menetelmän verkon sisältämien tietokantojen tarjoamien hakupalveluiden automaattiseksi tunnistamiseksi. Hakulomakkeen sisältävän verkkosivun tunnistaminen saattaa äkkiseltään kuulostaa naiivilta, mutta nykyjärjestelmille se on varsin haastava. Yksi keskeinen ongelma on verkon sisältämien tietokantojen huikea määrä - arvioiden mukaan jo vuonna 2004 niitä oli puolisen miljoonaa.
Syvän verkon laajuuden arvioiminen olikin työn kolmas tutkimuskohde. Laajuuden luotettavaan arvioimiseen esitetään työssä kaksi uutta menetelmää, ja niitä sovelletaan Internetin erään kansallisen osan syvän verkon laajuuden arviointiin.
Väitöksestä hyötyä kaikille
Tutkimustuloksista hyötyvät kaikki, jotka tarvitsevat yleisiltä hakukoneilta piiloon jääviä tietoja. Myös yleisten hakukoneiden kehittäjät hyötyvät tuloksista parantaessaan hakukoneita edelleen.
Lisäksi erityisesti kaksi tahoa voivat soveltaa tuloksia. Ensinnäkin sisällöntarjoajat - vaikkapa kirjastot - ymmärtävät, ettei tiedon paneminen verkossa oleviin tietokantoihin tee tiedosta helposti löydettävää. Erityisesti uudet tietokannat voivat jäädä käytännöllisesti katsoen tuntemattomiksi suurelle yleisölle, vaikka ne sisältäisivät kuinka täsmällistä ja arvokasta tietoa jostakin tietystä aihealueesta.
Toiseksi, syvän verkon louhinta on erityisen arvokasta erikoistuneille, ns. vertikaalisille hakukoneille. Tällaiset hakupalvelut on tarkoitettu kohdennetulle yleisölle ja suunniteltu palvelemaan erikoisaiheista tietoa haluavia käyttäjiä.
Monilla aihealueilla syvän verkon sivut ovat tärkein tai jopa ainoa tietolähde - esimerkiksi auton, asunnon tai hotellihuoneen etsijän täytyy nykyisellään yhdistää tietoa monista eri tietokannoista, kun aiheeseen erikoistunut hakukone tarjoaisi tiedon yhdellä kertaa.
(MTV3)
Uusimmat
-
07:07
Armoton kohtalo MM-kisojen alla – kiekkolupaus vuosiksi ulos maajoukkueesta
-
06:59
Tappara saa ensi kaudelle NHL-superlupauksen – joukkue ”hyvin pitkälle lukittu”
-
06:51
Vihreät ihmettelevät, miksi Keskusta ja Liike Nyt eivät kysyneet puoluetta mukaan välikysymykseen talouspolitiikasta
-
06:37
Tekoäly siivitti Microsoftin hyvään tulokseen – myös Googlen emoyhtiön tulos ylitti odotukset
-
06:29
Suomessa on yksi väestöryhmä, jossa alkoholi on ykköstappaja – taustalla kaksi tekijää
-
06:24
Sebastian Aho tälläsi voittomaalin – Carolina ja Florida jyräävät jatkopaikkaa kohti NHL:ssä
-
06:22
"Hätäinen vastahyökkäys" kostautui – Ukraina menetti arvokkaita Abrams-tankkeja, kuvat todistavat
-
06:04
Eduskunta äänestää ministeri Juuson luottamuksesta ja yöpäivystysten sulkemista koskevasta välikysymyksestä
-
06:03
Politico: Yhdysvallat julkistamassa pian Ukrainalle annettavan kuuden miljardin dollarin aseapupaketin
-
06:02
Kalle Rovanperällä uusi työkalu – "Täyttä tekemistä"
-
05:57
Turku on suomalaisen salatieteen keskus – kaupungin ilmiöitä tutkineet kirjailijat yllättyivät
-
05:40
Korkein oikeus tyrmäsi Trumpin haaveet: Entisellä presidentillä ei ole täydellistä syytesuojaa
-
05:39
LVI-teknikko rakensi taloa Taivalkoskella – sitten tarvikkeita alkoi löytyä oudoista paikoista
-
05:00
Vivi Wahlström poistuu Salkkareista ruutulapsensa Hugon kanssa: "Kaikki hyvä loppuu aikanaan"
-
03:00
THL: Multaa ja kompostituotteita kannattaa käsitellä varoen – vakavan sairauden vaara
-
00:01
Danske selvitti: Vanhemmat auttavat lähes puolta ensiasunnon ostajista
-
22:48
Fitness-naisen kotoa löydettiin läjä kovaa dopingia – Stephanie, 30, koki "nöyryytyksen"
-
22:36
CNN: Rap-muusikolle kuolemantuomio Iranissa osallisuudesta huiviprotesteihin
-
22:10
Lehti: Entisen SM-liigatähden ura jatkuu Venäjällä
-
22:03
Prinssi William vastaanotti oppilailta lahjoja perheelleen prinsessa Catherinen syöpähoitojen keskellä
-
Lataa lisää