Directory - Ultimi Aggiunti
|
|
|

|
Crawlermotori Indicizzazione in remoto
|
|
ht://Dig aut htdig: indicizzazione remoto
Prima di lanciare il crawler è necessario impostare il file di configurazione che si trova nella directory CONFIG_DIR; quello di default è htdig.conf e le direttive principali sono: #directory in cui htdig creerà i database database_dir: /usr/local/HTDIG/db/ #l’Url di partenza start_url: http://www.univaq.it #limitare il crawling a quel dominio limit_urls_to: ${start_url} #Per escludere URL contenenti queste sottostringhe exclude_urls: /cgi-bin/ .cgi #estensioni escluse bad_extensions: .wav .gz .z .sit .au .zip .wmv #dimensione massima di ogni file scaricabile max_doc_size: 20000000 Dopo la configurazione, è possibile lanciare htdig: $ $HTDIG_HOME/bin/htdig –vsc $HTDIG_HOME/conf/htdig.conf dove l’opzione –v è per la verbosità del comando, -s per statistiche sul crawling (Fig. 15) e –c specifica quale file di configurazione usare. Alla fine del processo htdig ha creato, nella directory $HTDIG_HOME/db, i file db.docdb (contente le informazioni sulle pagine scaricate) e db.wordlist (è la lista delle parole trovate con il riferimento ai documenti in cui appaiono). Dopo il crawling, l’indice viene creato con htmerge: $ $HTDIG_HOME/bin/htmerge -vc $HTDIG_HOME\conf\htdig.conf i db prodotti sono db.docs.index (l’indice dei documenti) e db.words.db (il database creato a partire da db.wordlist).
|
|