Internet aut Web

Dalla sua nascita la rete Internet si è continuamente espansa fino ad assumere le enormi proporzioni attuali.

Il Web nacque inizialmente per permettere la collaborazione e lo scambio di informazioni tra i ricercatori nel settore della fisica delle alte energie.

Poi nel Maggio del 1991 il Web divenne un sistema di condivisione dell’informazione basato su HTML, http e un programma client chiamato www: il sistema permetteva di consultare i documenti scritti in HTML che erano memorizzati su un calcolatore ([1] e [2]).

Già nell’anno successivo si contavano una cinquantina di Web servers sparsi per il mondo (soprattutto mantenuti da università e centri di ricerca), nel giugno 1999 se ne contavano 720,000.

Un paio di anni dopo, nell’Aprile del 2001, i Web servers erano saliti a circa 24 milioni, a Marzo del 2007, lo studio condotto periodicamente dalla Netcraft [3] riportava 110,460,149 di Web servers attivi.

La semplicità di utilizzo del Web e la facilità con cui è possibile mettere in linea propri materiali, ha fatto sì che in pochi anni il Web crescesse a dismisura; secondo il già citato studio Netcraft [3] (Fig. 1) si può facilmente notare che ci troviamo di fronte a tassi di crescita fortemente esponenziali.

Purtroppo per l’utente è diventato sempre più difficile trovare le informazioni che gli interessano all’interno di una mole così notevole di dati. Attualmente si stima che solo il 15% degli utenti arrivano ad una certa pagina Web conoscendone direttamente l’indirizzo, nella maggioranza dei casi ci si rivolge ad un motore di ricerca, in grado di fornire un elenco di indirizzi tendenzialmente pertinenti alle parole chiavi digitate, quindi, sono sempre più indispensabili strumenti in grado di ritrovare velocemente le informazioni volute, con il massimo di efficienza ed efficacia.

Quando le dimensioni del web erano ancora piuttosto ridotte riscuotevano un buon successo quei motori di ricerca che si basavano prevalentemente sulle pagine segnalate dagli utilizzatori del servizio o dai gestori delle pagine stesse. I contenuti dei siti segnalati venivano controllati manualmente da esseri umani che, con molta pazienza, si occupavano di classificare i documenti per categorie e indicizzarli per parole chiave.

Un esempio di questo genere di servizio e tutt’ora costituito da Open Directory Project (ODP) [4] che continua ad offrire un ampio archivio di siti Web classificati per categoria, scartando l’inutile ma conservando ed ordinando solo i contenuti realmente interessanti.

I motori di ricerca moderni si basano su un modello comune che consiste nello scaricare un gran numero di pagine Web grazie a programmi appositi, a cui spesso ci si riferisce col nome di Spider, Bot o Web Crawler.

Attualmente i più importanti sono Google, Yahoo, Msn che nonostante stiano creando un oligopolio nel settore, non riescono comunque a coprire l’intero web, ma hanno la capacità di indicizzare miliardi di pagine e di rispondere alle richieste in frazioni di secondo con qualità molto alta.

Purtroppo, non conoscendo con esattezza la formula per definire la rilevanza dei risultati (ranking), non abbiamo la certezza che ci sia la completa trasparenza nel modo di operare questo ordinamento.

Con i software open-source invece, abbiamo a disposizione i codici e siamo liberi di personalizzarli e utilizzarli nel rispetto delle licenze con le quali sono distribuiti; siamo altrettanto consapevoli della maniera in cui il ranking è effettuato.

Il primo obiettivo di questa tesi è di analizzare il panorama offerto dal mondo open-source nell’ambito del progetto e la realizzazione di un motore di ricerca, per collezioni di documenti testuali, con la finalità di individuare i motori "migliori" per flessibilità e semplicità d’uso, per efficacia ed efficienza. I software che ho scelto di esaminare sono quelli che hanno più visibilità nel web, quindi i più utilizzati da siti importanti: Sphider, PhpDig, Nutch, ht://Dig.

Nel seguito della relazione saranno mostrate le caratteristiche generali e implementative di ognuno, poi con un piccolo tutorial sarà descritto il loro funzionamento e si fornirà un giudizio finale.

Per valutare i metodi di ricerca, si sono effettuati dei test su vari tipi di collezioni documentali e di interrogazioni. Nella relazione saranno spiegati e commentati i test effettuati per misurare le loro prestazioni in termini di velocità di indicizzazione, spazio occupato dall’indice, rilevanza delle risposte alle interrogazioni.

L’aspetto progettuale consisteva nella combinazione di più sistemi esistenti e nella risoluzione di tutti i problemi sistemistici e algoritmici ad essa correlati.

Un ulteriore obiettivo, è stato quello di analizzare i tre più grandi crawler ‘Googlebot, Yahoo!, Msnbot’ al fine di studiare il loro comportamento .

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Time limit is exhausted. Please reload CAPTCHA.