Directory - Ultimi Aggiunti
|
|
|

|
|
|
|
Nutch: query
I Per compiere ricerche sull’indice precedentemente creato, è necessario installare l’applicazione JSP su Jakarta Tomcat. È sufficiente copiare il file $NUTCH_HOME/nutch-*.war e la directory Index/ (dove sono contenuti i segments), creata con uno dei modi visti precedentemente, nella cartella $TOMCAT_HOME/webapps; poi lanciare Tomcat da linea di comando, con $TOMCAT_HOME/bin/startup.sh. Ora bisogna assicurarsi che vada ad eseguire le query sull’indice e i segmenti appena generati; Nutch li cerca nelle sottodirectory index e segments della directory specificata nella proprietà searcher.dir. Il valore di default di searcher.dir è la cartella corrente, ossia dove viene avviato Tomcat. Questo potrebbe essere conveniente durante lo sviluppo, ma più spesso non si sa dove sia installato Tomcat, quindi è preferibile utilizzare il percorso assoluto. Andiamo a modificare il file contenuto nella directory TOMCAT-HOME/webapps/nutch-*/WEB-INF/classes/ chiamato nutch-site.xml.
Ora per effettuare le query bisogna solo andare all’indirizzo http://localhost:8080/nutch-*/ e proviamo qualche ricerca: ecco i risultati generati dal motore digitando la parola “Mignosi” (Fig. 12). La sintassi delle interrogazioni è semplice, poiché per sottomettere una query AND si devono solo inserire nella text-box due o più termini; nelle ricerche per frase si devono usare le virgolette per racchiudere il testo da cercare. Si possono escludere documenti con termini non voluti, utilizzando il segno “-” davanti alla parola non ammessa. Un fattore da non sottovalutare è che la ricerca non è case sensitive e la punteggiatura fra il testo da cercare (www.univaq.it) è elaborata come se si effettuasse una query per frase “www univaq it”. Come vediamo il motore funziona come i motori commerciali ma vi sono alcune differenze: anchors e explain. Cliccando su explain per la prima pagina dei risultati, verrà visualizzata la schermata in figura (Fig. 13). Esso mostra alcuni metadati della pagina e la spiegazione del punteggio. Il punteggio è una caratteristica di Lucene che mostra tutti i fattori che contribuiscono a calcolare il punteggio di una particolare pagina (in base alla parola inserita). La pagina in questione è molto tecnica e qualcuno si chiederà perché essa viene messa in mostra quando qualunque utente non la guarderà mai. La spiegazione sta’ nel fatto che un punto fondamentale nella campagna promossa da Nutch è la trasparenza. I suoi algoritmi per i punteggi sono open source, quindi ognuno può vederli. L’abilità di Nutch di spiegare i punteggi online serve proprio a questa trasparenza, in modo che chiunque possa capire il perché della posizione assunta da una pagina. La pagina anchors fornisce una lista di tutti i link entranti (in formato testuale): anche questa utilità non è utile all’utente medio.
|
|