Motore di ricerca ht://Dig

Informazioni htdig aut ht:/Dig

Lhtdig, o meglio ht://Dig [18] è un progetto di ricerca in stato avanzato, un programma in grado di indicizzare ed effettuare ricerche in siti web, adatto per un piccolo dominio o una intranet e viene distribuito secondo la GPL. ht://Dig è stato sviluppato alla San Diego University a partire dal 1995, è scritto in C++ ed è stato testato sulla maggior parte delle distribuzioni Linux, Sun, Bsd, ed altre; per Microsoft comunque, è possibile eseguire l’istallazione su Cygwin.

Gli eseguibili principali di htdig sono 3:

1. htdig
crea il database necessario alla ricerca; è un crawler che permette di scaricare i documenti dalla rete, in rispetto allo standard robots.txt, partendo da un’URL radice e scendendo in profondità finchè ci sono link da processare. Supporta file html, xml, ps, ppt, doc, xls, pdf grazie all’utilizzo di parser esterni, come catdoc per i file word o pptohtml per i powerpoint, che vanno configurati in maniera appropriata.

2. htmerge
crea gli indici di ricerca e quando si procede all'indicizzazione incrementale esegue il merge dei documenti che sono cambiati nel database di ricerca (merging); “comunica con htdig”.

3. htsearch
applicazione CGI che effettua la ricerca (searching); È possibile personalizzare la formula di ranking assegnando pesi diversi in base alla locazione della parola all’interno dei tag HTML o al numero di link che puntano ad una pagina, per esempio, aumentare l’importanza dei termini contenuti nei titoli (tag <title>). Non è difficile infine, modificare i template dell’interfaccia web, che htsearch utilizza per visualizzare i risultati.

Vi sono anche altre applicazioni che permettono funzioni speciali. htfuzzy è in grado di creare indici con i seguenti algoritmi: soundex, metaphone, stemming, synonyms (preleva le informazioni sui sinonimi da un dizionario precedentemente creato), accent stripping (per parole accentate) , substring e prefix. Inoltre, in fase di ricerca è possibile scegliere quali utilizzare assegnando loro il peso che avranno nell’elaborazione del rank finale.
htnotyfy scandisce l’indice creato da htmerge e invia un’email per ogni documento che è “scaduto”, cioè la sua permanenza nell’indice senza essere aggiornato ha superato una soglia predefinita.

La configurazione di tutte le applicazioni ht://Dig passa attraverso le direttive specificate in un semplice file testuale o tramite gli option tag da linea di comando. Vi sono decine di opzioni da settare per personalizzare e ottimizzare il motore di ricerca secondo i propri bisogni; nel sito http://www.htdig.org la documentazione è ampia e approfondita e le mailing list sono presidiate dagli sviluppatori che colmano qualsiasi lacuna.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *