Toronto - haku piiloverkosta

Toronto, päivä 3 - piiloverkko

Internetin rooli on merkittävä tutkivassakin journalismissa. Konferenssissä (lisää aiemmissa kirjoituksissa) on käsitelty erilaisia nettihakuja paljon.

Eräs ongelma on se, että arvioiden mukaan 30-60 % nettisivuista on hakukoneiden ulottumattomissa. Tämä tarkoittaa siis sitä, että jokin tieto on olemassa, mutta hakukoneet - kuten google - eivät löydä sivua.

Hollantilainen professori Henk van Ess valotti miten tähän piiloverkkoon pääsee käsiksi.

Hän aloitti piiloverkko-luennon esimerkillä, jossa amerikkalaisen kiinteistövälittäjän sivuilla myynnissä olevaa taloa etsittiin googlesta. Google ei löytänyt taloa osoitteella, vaikka se oli välittäjän sivuilla. Itse asiassa firman mukaan sen sivuilla on tiedot 70 miljoonasta asunnosta, mutta Google antaa yrityksestä vain noin 300-tuhatta hittiä.

Tiedot ovat siis olemassa, mutta hakukoneen ulottumattomissa. Syitä tähän voi olla useita:

- google ei tunnista flash-tiedostoja

- sivun formaatti voi olla googlelle tuntematon, esimerkiksi Access 97

- nettisivut voivat blokata googlen, esimerkiksi belgialaiset lehdet eivät anna googlen hakea sivuiltaan (tämä tehdään ns. robots.txt -tiedostoilla, joita löytyy myös suomalaisten yritysten ja viranomaisten sivuilta)

- kyse on tietokannasta. Google ei osaa luetteloida kaikkia tietokantoja, erityisesti sellaisia joissa hakuun pitää laittaa esimerkiksi nimi. Google näkee näistä siis etuoven, mutta ei sitä mitä sisällä on.

Van Essin hakuneuvot ovat siis nämä:

1) kokeile ensin aivan normaalia google-hakua, mutta jos sillä ei löydy tietoa käytä seuraavia keinoja:

2) käytä googlen erikoishakuja (tästä lisää www.googleguide.com)

3) käytä muita hakupalveluja msn tai alltheweb (Van Essin mukaan molemmat ovat kehittyneet erityisesti viime kuukausien aikana)

4) etsi kaipaamaasi tietoa tietokannoista

Miten 4-kohta toteutetaan?

Van Essin neuvo on yksinkertainen. Tietokannoissa on aina hakukone ja näillä hakusivuilla on tieto siitä mitä haetaan ja mikä on haun toteuttava käsky (esim. search, find, look tai suomeksi vaikkapa etsi tai hae).

Tällaisia tietokantoja kannattaa siis etsiä esimerkiksi kirjoittamalla google-hakuun sanat find ja doctor . Tällöin google tuo esiin esimerkiksi amerikkalaisten lääkärien tietokannan. Sen jälkeen tästä hausta voi selvittää yksittäisten lääkäreiden tietoja, jotka eivät siis suoraan näy googlehauissa.

Van Essillä neuvo on siis yksinkertainen: käytä googlea päästäksesi eroon googlesta.

Kommentteja? Omia hakuvinkkejä?

Lue myös:

    Uusimmat