Category: Test sui motori di ricerca nel web

Test sui motori di ricerca

Per confrontare le caratteristiche di scalabilità, efficienza e qualità delle risposte alla query, ho effettuato una serie di test su diversi tipi di dataset.

Innanzitutto ho scelto due documentazioni html di dimensioni diverse nel filesystem, misurando i tempi impiegati dai motori per indicizzarle.

In rete poi, sono stati trattati due siti internet di dimensione crescente per valutare la funzionalità dei crawler.

 Infine, ho compiuto query sugl’indici creati, valutando tempi di risposta e qualità dei risultati restituiti.

Test file system

Come primo dataset ho scelto il manuale in Php, composto da 5185 file per un totale di 25,4 MB, sia HTML che immagini; i risultati ottenuti sono riassunti in Tab.1.

Crawl

File

Time

Dim.Index

%dim.index/dataset

Depth

HT://DIG

5174

03m56 s

12,5 MB

49,21 %

ALL

NUTCH

5180

05m32s

15,7 MB

61,81 %

10

SPHIDER

5172

12m27s

25,89 MB

101,9 %

20

PHPDIG

1228

1m52s

1,4 MB

5,5 %

20

Tab. 1 test su filesystem documentazione php

In questo e nel successivo test sono stati presi in considerazione il numero di file indicizzati, il tempo, la dimensione dell’indice e il rapporto, in percentuale, tra dimensione del dataset e dell’indice.

Per il secondo test, ho aggiunto alla documentazione precedente anche quella dell’apache tomcat 5.5, per raggiungere un totale di 5559 file con dimensione di 31,4 MB; i risultati ottenuti sono in Tab. 2. 

Crawl

File

Time

Dim.Index

%dim.index/dataset

Depth

HT://DIG

5498

11m31s

13,73 MB

43,75 %

ALL

NUTCH

5528

6m41s

19,46 MB

62 %

10

SPHIDER

5519

16m38s

31,44 MB

100,14 %

20

PHPDIG

1365

3m10s

2,1 MB

6,68 %

20

Tab. 2 test su filesystem documentazione php + apache tomcat 5.5

Il numero di file indicizzati da tutti i motori di ricerca è pressoché lo stesso, ma quelli che si distinguono per velocità di indicizzazione e dimensione dell’indice sono Nutch e ht://Dig. Quello invece che si evidenzia per la sua negatività è Phpdig, in quanto riesce a malapena  ad indicizzare 1/5 dei file rispetto agl’altri. Sphider infine, nonostante una buona capacità di indicizzazione presenta problemi a livello di velocità e compressione del dataset.

Test in rete

Il primo sito indicizzato è stato quello dell’Università degli studi dell’Aquila (http://www.univaq.it); questo sito è molto complesso perché possiede frames e pagine duplicate. I risultati ottenuti sono mostrati in Tab. 3.

Crawl

File

Time

Dim.Index

Depth

HT://DIG

940

43m

56,2 MB

all

NUTCH

2325

6h02m

196,3 MB

10

SPHIDER

2569

2h10m

20,39 MB

20

PHPDIG

468

1h40m

966 Kb

20

Tab. 3 test su www.univaq.it

Sphider è il crawl che si è comportato meglio, avendo indicizzato più file di tutti in tempi contenuti. In realtà, i file analizzati raggiungevano il numero di 5662, ma il fatto che ne siano stati indicizzati solo la metà rappresenta un dato positivo, visto che non sono stati considerati quelli con un contenuto minore di 10 parole. 

Inoltre, possiamo evidenziare la grossa dimensione creata da Nutch, grazie al mantenimento delle pagine in cache e dalla memorizzazione della struttura HTML.

Phpdig al contrario, non riesce a eguagliare i risultati ottenuti dagli altri motori di ricerca poiché il sito www.univaq.it è composto da frames e il crawler non riesce a riconoscere i collegamenti tra le varie pagine. Nonostante abbia cercato di risolvere il problema guidando lo spider attraverso il file project.htm, menù principale del sito, non ho ottenuto un considerevole miglioramento.

Il secondo sito scelto per i test è www.arredamenti-casa.com, sito di modeste dimensioni che non possiede frames o codici javascript, ma solo link href (Tab. 4).

Crawl

File

Time

Dim.Index

Depth

HT://DIG

519

18m26s

6,1 MB

all

NUTCH

105

8m13s

8,2 MB

10

SPHIDER

201

14m38s

5,86 MB

10

PHPDIG

290

45m32s

2,7 MB

10

Tab. 4 test su www.arredamenti-casa.com.

È importante notare come ht://Dig indicizza molti più file degli altri, ma, ciò non rappresenta un dato positivo anzi, deriva da una non adeguata trattazione di file duplicati.

Ulteriormente si pone l’attenzione su Phpdig che, come Ht://dig, riesce ad ottenere risultati unicamente nel caso in cui il sito in considerazione possiede solo link href.

Per gli altri crawler, infine, si conferma l’analisi già svolta in precedenza.  In termini di rapporto velocità dimensione indice, Nutch è quello che ha un rendimento migliore.

Test sulle Query

Per effettuare i test sulle query, ho scelto il dataset più grande, cioè composto dalla documentazione Php, più la documentazione del Tomcat per quanto riguarda query in locale e, i due dataset composti da www.univaq.it e www.arredamenti-casa.com per quanto riguarda query svolte in rete. Ho considerato solo query in AND poiché è l’unico tipo di query supportato da tutti i motori di ricerca.

I test consistevano, dopo l’emissione della query, nel misurare tempi di risposta e nell’analizzare la qualità dei primi 10 risultati; per far questo ho scelto alcune pagine target, come metro di giudizio, che soddisfacessero a pieno la richiesta. Il primo test, sul dataset sul filesystem è stato con la query “chmod” (Tab. 5) che si trova al terzo livello di profondità.

Crawler Time Qualità (10 risultati) N° Risultati
  ms Buoni Sufficienti Scarsi  
HT://DIG 120 2 7 1 15
NUTCH 415 2 7 1 14
SPHIDER 180 2 7 1 10
PHPDIG - 0 0 0 0

Tab. 5 Query “chmod” su filesystem

Le pagine target erano due, ma ho considerato sufficienti quelle pagine che attraverso link mi potessero portare alla pagina target.

La seconda query è stata “Security Manager” (Tab.6)

Crawler Time Qualità (10 risultati) N° Risultati
  ms Buoni Sufficienti Scarsi  
HT://DIG 210 2 6 2 52
NUTCH 641 2 7 1 378
SPHIDER 40 2 6 2 65
PHPDIG 110 2 7 1 44

Tab. 6 Query “Security Manager” su filesystem

Nutch ritorna un numero molto più alto di risultati poichè indicizza anche i path dei file.

Con il dataset www.univaq.it è stata effettuata la query “Mignosi” (Prof. Mignosi) in Tab. 7.

Crawler Time Qualità (10 risultati) N° Risultati
  ms Buoni Sufficienti Scarsi  
HT://DIG 260 0 1 0 1
NUTCH 200 0 1 0 1
SPHIDER 230 1 1 0 2
PHPDIG - 0 0 0 0
UNIVAQ - 0 0 0 0

 Tab. 7 Query “Mignosi” su www.univaq.it

In questo caso, ho considerato buono la pagina in cui ci sono le informazioni del prof. Mignosi, mentre sufficiente la pagina in cui è presente tutta la lista dei professori, tra cui compare anche il prof. Mignosi.

Possiamo notare come, sia phpdig che il motore interno del sito stesso non raggiungono nemmeno un obbiettivo prefissato, benché, se si effettua una ricerca sul motore interno utilizzato dal sito  www.univaq.it sotto la sezione “rubrica”, si ottiene il risultato che solo il motore Sphider riesce a vedere.

Infine, l’ultima query eseguita è stata “tessuti tende” sul sito www.arredamenti-casa.com .

Crawler Time Qualità (10 risultati) N° Risultati
  ms Buoni Sufficienti Scarsi  
HT://DIG 270 2 8 0 233
NUTCH 325 2 7 1 92
SPHIDER 40 2 7 1 201
PHPDIG 120 4 4 2 259

Tab. 8 Query “Tessuti Tende” su www.arredamenti-casa.com

Da notare che PHPDIG visualizza nei primi 10 risultati quattro target buoni di cui, 2 sono buoni, mentre gli altri 2 sono pagine duplicate.

Sphider si comporta molto bene, anche se la pagina specifica dei “Tessuti per tende” viene collocata solo in settima posizione e non tra le prime, come dovrebbe essere. Inoltre la percentuale di aderenza della notizia alle chiavi di ricerca è solo del 56,86 % e non del 100 %.

ht://Dig riesce a trovare il target principale come primo risultato dandogli il massimo delle stellette (l’aderenza non è espressa in percentuale ma in stelle, con un massimo di cinque), e il secondo risultato buono è collocato in terza posizione con tre stellette.

Nutch riesce a trovare due target buoni e li sistema entrambi nelle prime posizioni. 

WordPress Themes