Crawlermotori arrow Conclusioni

ht://Dig aut Lhtdig: considerazioni finali

www.aruba.it
 

Per concludere, data la sua versatilità e la sua semplice configurazione, ht://Dig è uno dei motori di ricerca più usati per i singoli domini. Punti a favore sono: la possibilità, grazie a parser esterni, di indicizzare molti tipi di file con vari algoritmi (molto utile è quello per i sinonimi); la possibilità di rieffettuare il crawling senza intaccare il db necessario per le ricerche.

Per la fase di searching, inoltre, è positiva la facoltà di mutare la formula di ranking e restringere la ricerca a parti del dominio; in più, la modifica dei template per l’interfaccia web permette di integrarla a piacimento in una propria. Il riconoscimento dei Meta tag e il rispetto delle regole imposte dal file robots.txt, consentono di sfruttare al meglio le metainformazioni che i webmaster inseriscono nel codice HTML.

Nonostante il crawler sia efficiente, non è designato per l’intero web e quindi non si può scalare più di tanto. Per quanto riguarda il filesystem, ht://Dig è limitato, non prevedendo un meccanismo appropriato per effettuare l’indicizzazione di più directory senza specificare i path dei file. In più, l’utilizzo degli algoritmi fuzzy possono far decadere la velocità di risposta in maniera pesante e la mancanza di una rimozione dei duplicati può fare ritrovare più volte lo stesso documento.

We register it!
 

 
< Prec.
©

Internet e motori di ricerca, Crawler Module, indexer module, Ranking system, motore di ricerca sphider, prerequisiti e installazione sphider, motore di ricerca Nutch, indicizzazione locale o intranet, indicizzazione intero web, query, motore di ricerca ht://dig, prerequisiti e installazione, motore di ricerca phpdig, crawler/spider-serch engine: crawler open source, ricerca, test, tutorial, conclusioni, htdig, web, module, internet, sui.