ht://Dig aut Lhtdig: query

Per interrogare l’indice si utilizza il CGI htsearch, che è possibile trovare nella directory cgi-bin nel server web, come specificato nel file Config all’inizio dell’istallazione. Quindi, dopo aver modificato il file httpd.conf di Apache aggiungendo il path dell’applicazione, si possono effettuare le query all’indirizzo http://localhost/HTDIG/search.html. Selezionando un’opzione nel campo “Match” dell’interfaccia web, sono possibili le [...]

Indicizzazione in locale

PHt://Dig non è stato progettato esplicitamente per il filesystem, tuttavia può compiere indicizzazione in locale nella stessa maniera in cui lo fa in remoto; è necessario inserire nel file htdig.conf le seguenti direttive: start_url: http://localhost/ local_urls_only: true local_urls: http://localhost/=/home/user/file/ Praticamente, quando l’opzione local_urls_only è settata a true, htdig cerca i file da scaricare nella directory [...]

Indicizzazione in remoto

Prima di lanciare il crawler è necessario impostare il file di configurazione che si trova nella directory CONFIG_DIR; quello di default è htdig.conf e le direttive principali sono: #directory in cui htdig creerà i database database_dir: /usr/local/HTDIG/db/ #l’Url di partenza start_url: http://www.univaq.it #limitare il crawling a quel dominio limit_urls_to: ${start_url} #Per escludere URL contenenti queste [...]

Prerequisiti e installazione ht://Dig aut htdig

LEssendo ht://Dig sviluppato sotto Unix e in C++, qualsiasi distribuzione Linux è adatta; per compilare sia i sorgenti che alcune librerie GNU, si è adottato gcc/g++ con GNU make come makefile; poi bisogna solo verificare la presenza della libreria libstdc++ che, in vecchie versioni del gcc/c++ non è inclusa. Come web server CGI engine, si [...]

Informazioni htdig aut ht:/Dig

Lhtdig, o meglio ht://Dig [18] è un progetto di ricerca in stato avanzato, un programma in grado di indicizzare ed effettuare ricerche in siti web, adatto per un piccolo dominio o una intranet e viene distribuito secondo la GPL. ht://Dig è stato sviluppato alla San Diego University a partire dal 1995, è scritto in C++ [...]

Nutch: Conclusioni

La semplice istallazione e la facilità con cui può essere configurato, pongono Nutch alla portata di tutti i tipi di utenza. Esso si è distinto subito dai concorrenti per la praticità, bontà d’uso e grande scalabilità. I suoi punti forti sono stati riscontrati nel Web, dove grazie alla funzionalità analyze può scalare in qualità, visto [...]

Nutch: query

I Per compiere ricerche sull’indice precedentemente creato, è necessario installare l’applicazione JSP su Jakarta Tomcat. È sufficiente copiare il file $NUTCH_HOME/nutch-*.war e la directory Index/ (dove sono contenuti i segments), creata con uno dei modi visti precedentemente, nella cartella $TOMCAT_HOME/webapps; poi lanciare Tomcat da linea di comando, con $TOMCAT_HOME/bin/startup.sh. Ora bisogna assicurarsi che vada ad [...]

Indicizzazione intero Web

Per fare il crawling di tutto il web o anche di una sua piccola percentuale, sarebbero necessari cluster in funzione per varie settimane e un’ingente disponibilità di hardware, tuttavia il meccanismo che Nutch mette a disposizione è di semplice utilizzo e si può applicare anche a domini di alcune decine di migliaia di pagine. Innanzitutto, [...]

Indicizzazione locale o intranet

I Prima di far partire il crawler, dobbiamo creare un semplice file di testo senza estensione nella sottocartella urls e scrivere in esso l’insieme delle url da cui il crawler inizia a raccogliere tutte le pagine dei relativi siti. Lo strumento crawl usa un filtro per decidere quali URL andranno nel WebDB. Questo può essere [...]

Prerequisiti e Istallazione Nutch

I prerequisiti per l’istallazione sono: • Ambiente java 1.4: per l’esecuzione del codice java. • Jakarta Tomcat: come engine per l’interfaccia web di ricerca. • Cygwin: solo se si vuole utilizzare sotto Windows. Cygwin è un interprete di shell Linux. I codici nel pacchetto Nutch sono già compilati; è ovvio che se si vogliono effettuare [...]

WordPress Themes