Indicizzazione in remoto

Prima di lanciare il crawler è necessario impostare il file di configurazione che si trova nella directory CONFIG_DIR; quello di default è htdig.conf e le direttive principali sono:

#directory in cui htdig creerà i database
database_dir: /usr/local/HTDIG/db/

#l’Url di partenza
start_url: http://www.univaq.it

#limitare il crawling a quel dominio
limit_urls_to: ${start_url}

#Per escludere URL contenenti queste sottostringhe
exclude_urls: /cgi-bin/ .cgi

#estensioni escluse
bad_extensions: .wav .gz .z .sit .au .zip .wmv

#dimensione massima di ogni file scaricabile
max_doc_size: 20000000

Dopo la configurazione, è possibile lanciare htdig:

$ $HTDIG_HOME/bin/htdig –vsc $HTDIG_HOME/conf/htdig.conf
dove l’opzione –v è per la verbosità del comando, -s per statistiche sul crawling (Fig. 15) e –c specifica quale file di configurazione usare. Alla fine del processo htdig ha creato, nella directory $HTDIG_HOME/db, i file db.docdb (contente le informazioni sulle pagine scaricate) e db.wordlist (è la lista delle parole trovate con il riferimento ai documenti in cui appaiono).

Dopo il crawling, l’indice viene creato con htmerge:

$ $HTDIG_HOME/bin/htmerge -vc $HTDIG_HOME\conf\htdig.conf
i db prodotti sono db.docs.index (l’indice dei documenti) e db.words.db (il database creato a partire da db.wordlist).

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Time limit is exhausted. Please reload CAPTCHA.