Considerazioni finali sui Crawler analizzati

Alla luce dei risultati ottenuti nei test e dalle caratteristiche supportate da ognuno dei motori di ricerca studiati, è possibile trarre le conclusioni finali.

Per il filesystem, ht://Dig offre le prestazioni migliori sia per quanto riguarda il tempo di indicizzazione, che di risposta alle query; i risultati forniti alle interrogazioni raggiungono sempre i target voluti e la dimensione dell’indice si aggira intorno al 45% rispetto alla dimensione del dataset. Nonostante gli ottimi risultati, c’è da dire in negativo che ht://Dig segue solo i link, quindi le pagine devono essere collegate tra loro, oppure è necessario passare come path un file contenente tutti i percorsi assoluti dei file da indicizzare.

Considerando proprio questo aspetto si può rilevare che Nutch è l’unico spider a non presentare tale problema e quindi, anche se a volte non si mostra altrettanto veloce nella fase di crawling o altrettanto capace nel far sì che il rapporto tra la dimensione dell’indice e quella del dataset sia piuttosto contenuta, è sicuramente il più adatto per ambiziosi progetti di crawling dell’intero web o di un numero elevato di siti internet. Non potendo effettuare prove sull’intero web, ciò che ci fa giungere a questo risultato, è la possibilità di analizzare i link prima di effettuare il crawling e l’efficiente eliminazione dei duplicati che in dataset giganteschi è fondamentale. In più la possibilità di visualizzare le pagine in cache e anchor text dei link che puntano a tali pagine, sono caratteristiche importanti per la ricerca nel web.

Per i piccoli domini, Sphider e PhpDig sono ideali. In particolare Sphider è adatto sia per i complessi che per i siti più semplici, agendo in tempi abbastanza ottimali; la negatività però, sta nel fatto che non è concepito per scalare su dataset di milioni di pagine, quindi non paragonabile né a Nutch né a ht://Dig. Una demo di questo crawler è visibile sul sito www.arredamenti-casa.com.

L’unico pregio di Phpdig invece, è rappresentato dalla possibilità di fare crawling tra siti “vicini” (a distanza di un link) che permettono di indicizzare una ristretta nicchia di domini e che, escludendo spam e pubblicità, possono riguardare lo stesso insieme di argomenti.

Per i domini un po’ più elaborati, ossia contenenti frames o duplicati, Phpdig si dimostra assolutamente inadeguato.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *