Test sulle Query

Per effettuare i test sulle query, ho scelto il dataset più grande, cioè composto dalla documentazione Php, più la documentazione del Tomcat per quanto riguarda query in locale e, i due dataset composti da www.univaq.it e www.arredamenti-casa.com per quanto riguarda query svolte in rete. Ho considerato solo query in AND poiché è l’unico tipo di query supportato da tutti i motori di ricerca.

I test consistevano, dopo l’emissione della query, nel misurare tempi di risposta e nell’analizzare la qualità dei primi 10 risultati; per far questo ho scelto alcune pagine target, come metro di giudizio, che soddisfacessero a pieno la richiesta. Il primo test, sul dataset sul filesystem è stato con la query “chmod” (Tab. 5) che si trova al terzo livello di profondità.

Crawler Time Qualità (10 risultati) N° Risultati
ms Buoni Sufficienti Scarsi
HT://DIG 120 2 7 1 15
NUTCH 415 2 7 1 14
SPHIDER 180 2 7 1 10
PHPDIG 0 0 0 0

Tab. 5 Query “chmod” su filesystem

Le pagine target erano due, ma ho considerato sufficienti quelle pagine che attraverso link mi potessero portare alla pagina target.

La seconda query è stata “Security Manager” (Tab.6)

Crawler Time Qualità (10 risultati) N° Risultati
ms Buoni Sufficienti Scarsi
HT://DIG 210 2 6 2 52
NUTCH 641 2 7 1 378
SPHIDER 40 2 6 2 65
PHPDIG 110 2 7 1 44

Tab. 6 Query “Security Manager” su filesystem

Nutch ritorna un numero molto più alto di risultati poichè indicizza anche i path dei file.

Con il dataset www.univaq.it è stata effettuata la query “Mignosi” (Prof. Mignosi) in Tab. 7.

Crawler Time Qualità (10 risultati) N° Risultati
ms Buoni Sufficienti Scarsi
HT://DIG 260 0 1 0 1
NUTCH 200 0 1 0 1
SPHIDER 230 1 1 0 2
PHPDIG 0 0 0 0
UNIVAQ 0 0 0 0

Tab. 7 Query “Mignosi” su www.univaq.it

In questo caso, ho considerato buono la pagina in cui ci sono le informazioni del prof. Mignosi, mentre sufficiente la pagina in cui è presente tutta la lista dei professori, tra cui compare anche il prof. Mignosi.

Possiamo notare come, sia phpdig che il motore interno del sito stesso non raggiungono nemmeno un obbiettivo prefissato, benché, se si effettua una ricerca sul motore interno utilizzato dal sito www.univaq.it sotto la sezione “rubrica”, si ottiene il risultato che solo il motore Sphider riesce a vedere.

Infine, l’ultima query eseguita è stata “tessuti tende” sul sito www.arredamenti-casa.com .

Crawler Time Qualità (10 risultati) N° Risultati
ms Buoni Sufficienti Scarsi
HT://DIG 270 2 8 0 233
NUTCH 325 2 7 1 92
SPHIDER 40 2 7 1 201
PHPDIG 120 4 4 2 259

Tab. 8 Query “Tessuti Tende” su www.arredamenti-casa.com

Da notare che PHPDIG visualizza nei primi 10 risultati quattro target buoni di cui, 2 sono buoni, mentre gli altri 2 sono pagine duplicate.

Sphider si comporta molto bene, anche se la pagina specifica dei “Tessuti per tende” viene collocata solo in settima posizione e non tra le prime, come dovrebbe essere. Inoltre la percentuale di aderenza della notizia alle chiavi di ricerca è solo del 56,86 % e non del 100 %.

ht://Dig riesce a trovare il target principale come primo risultato dandogli il massimo delle stellette (l’aderenza non è espressa in percentuale ma in stelle, con un massimo di cinque), e il secondo risultato buono è collocato in terza posizione con tre stellette.

Nutch riesce a trovare due target buoni e li sistema entrambi nelle prime posizioni.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *