Motore di ricerca Nutch Archives

Nutch: Conclusioni

La semplice istallazione e la facilità con cui può essere configurato, pongono Nutch alla portata di tutti i tipi di utenza. Esso si è distinto subito dai concorrenti per la praticità, bontà d’uso e grande scalabilità. I suoi punti forti sono stati riscontrati nel Web, dove grazie alla funzionalità analyze può scalare in qualità, visto… Continua a leggere Nutch: Conclusioni

Nutch: query

I Per compiere ricerche sull’indice precedentemente creato, è necessario installare l’applicazione JSP su Jakarta Tomcat. È sufficiente copiare il file $NUTCH_HOME/nutch-*.war e la directory Index/ (dove sono contenuti i segments), creata con uno dei modi visti precedentemente, nella cartella $TOMCAT_HOME/webapps; poi lanciare Tomcat da linea di comando, con $TOMCAT_HOME/bin/startup.sh. Ora bisogna assicurarsi che vada ad… Continua a leggere Nutch: query

Indicizzazione intero Web

Per fare il crawling di tutto il web o anche di una sua piccola percentuale, sarebbero necessari cluster in funzione per varie settimane e un’ingente disponibilità di hardware, tuttavia il meccanismo che Nutch mette a disposizione è di semplice utilizzo e si può applicare anche a domini di alcune decine di migliaia di pagine. Innanzitutto,… Continua a leggere Indicizzazione intero Web

Indicizzazione locale o intranet

I Prima di far partire il crawler, dobbiamo creare un semplice file di testo senza estensione nella sottocartella urls e scrivere in esso l’insieme delle url da cui il crawler inizia a raccogliere tutte le pagine dei relativi siti. Lo strumento crawl usa un filtro per decidere quali URL andranno nel WebDB. Questo può essere… Continua a leggere Indicizzazione locale o intranet

Prerequisiti e Istallazione Nutch

I prerequisiti per l’istallazione sono: Ambiente java 1.4: per l’esecuzione del codice java. Jakarta Tomcat: come engine per l’interfaccia web di ricerca. Cygwin: solo se si vuole utilizzare sotto Windows. Cygwin è un interprete di shell Linux. I codici nel pacchetto Nutch sono già compilati; è ovvio che se si vogliono effettuare delle modifiche al… Continua a leggere Prerequisiti e Istallazione Nutch

Motore di ricerca Nutch

Informazioni Nutch È uno dei più famosi motori di ricerca open-source oggi disponibili [17]. Benché sia un progetto molto giovane, nato nel 2003, la sua fama è dovuta essenzialmente ai suoi sviluppatori, in particolare Doug Cutting creatore di Apache Lucene, il cuore di Nutch, in quanto costituisce le sue librerie per l’indicizzazione e per la… Continua a leggere Motore di ricerca Nutch