Considerazioni finali sui Crawler analizzati

Alla luce dei risultati ottenuti nei test e dalle caratteristiche supportate da ognuno dei motori di ricerca studiati, è possibile trarre le conclusioni finali. Per il filesystem, ht://Dig offre le prestazioni migliori sia per quanto riguarda il tempo di indicizzazione, che di risposta alle query; i risultati forniti alle interrogazioni … Continue reading

Crawler Module

Il Crawler (Spider) [6], si occupa di raccogliere documenti dalla rete a partire da un set S0 fornito in input. Da un punto di vista algoritmico questo task può essere modellato come la visita di un grafo orientato Gweb=( Nweb ,Eweb ) con Nweb pari all’insieme delle pagine web presenti … Continue reading

Ranking System

Le query poste ad una search interface contengono generalmente un numero variabile di keywords e il motore di ricerca risponde estraendo dalle proprie strutture dati un elenco di documenti che sembrano essere di maggiore rilevanza (ranking). Il problema sta nel capire quali siano i documenti più importanti da visualizzare per … Continue reading

Indexer Module

I dati contenuti nel page repository vengono analizzati da un modulo Indexer. L’indexer costruisce tradizionalmente due strutture: il text index (o content index ) e il link index. Entrambi gli indici sono fondamentali per fornire un adeguato supporto al query engine. Dal punto di vista delle strutture dati, il text … Continue reading

Internet aut Web

Dalla sua nascita la rete Internet si è continuamente espansa fino ad assumere le enormi proporzioni attuali. Il Web nacque inizialmente per permettere la collaborazione e lo scambio di informazioni tra i ricercatori nel settore della fisica delle alte energie. Poi nel Maggio del 1991 il Web divenne un sistema … Continue reading