Nutch: query

I Per compiere ricerche sull’indice precedentemente creato, è necessario installare l’applicazione JSP su Jakarta Tomcat. È sufficiente copiare il file $NUTCH_HOME/nutch-*.war e la directory Index/ (dove sono contenuti i segments), creata con uno dei modi visti precedentemente, nella cartella $TOMCAT_HOME/webapps; poi lanciare Tomcat da linea di comando, con $TOMCAT_HOME/bin/startup.sh.

Ora bisogna assicurarsi che vada ad eseguire le query sull’indice e i segmenti appena generati; Nutch li cerca nelle sottodirectory index e segments della directory specificata nella proprietà searcher.dir. Il valore di default di searcher.dir è la cartella corrente, ossia dove viene avviato Tomcat. Questo potrebbe essere conveniente durante lo sviluppo, ma più spesso non si sa dove sia installato Tomcat, quindi è preferibile utilizzare il percorso assoluto. Andiamo a modificare il file contenuto nella directory TOMCAT-HOME/webapps/nutch-*/WEB-INF/classes/ chiamato nutch-site.xml.

Ora per effettuare le query bisogna solo andare all’indirizzo http://localhost:8080/nutch-*/ e proviamo qualche ricerca:
ecco i risultati generati dal motore digitando la parola “Mignosi” (Fig. 12).

La sintassi delle interrogazioni è semplice, poiché per sottomettere una query AND si devono solo inserire nella text-box due o più termini; nelle ricerche per frase si devono usare le virgolette per racchiudere il testo da cercare. Si possono escludere documenti con termini non voluti, utilizzando il segno “-” davanti alla parola non ammessa. Un fattore da non sottovalutare è che la ricerca non è case sensitive e la punteggiatura fra il testo da cercare (www.univaq.it) è elaborata come se si effettuasse una query per frase “www univaq it”.

Come vediamo il motore funziona come i motori commerciali ma vi sono alcune differenze: anchors e explain.
Cliccando su explain per la prima pagina dei risultati, verrà visualizzata la schermata in figura (Fig. 13). Esso mostra alcuni metadati della pagina e la spiegazione del punteggio. Il punteggio è una caratteristica di Lucene che mostra tutti i fattori che contribuiscono a calcolare il punteggio di una particolare pagina (in base alla parola inserita). La pagina in questione è molto tecnica e qualcuno si chiederà perché essa viene messa in mostra quando qualunque utente non la guarderà mai.

La spiegazione sta’ nel fatto che un punto fondamentale nella campagna promossa da Nutch è la trasparenza. I suoi algoritmi per i punteggi sono open source, quindi ognuno può vederli. L’abilità di Nutch di spiegare i punteggi online serve proprio a questa trasparenza, in modo che chiunque possa capire il perché della posizione assunta da una pagina.
La pagina anchors fornisce una lista di tutti i link entranti (in formato testuale): anche questa utilità non è utile all’utente medio.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *