Test in Rete

Il primo sito indicizzato è stato quello dell’Università degli studi dell’Aquila (http://www.univaq.it); questo sito è molto complesso perché possiede frames e pagine duplicate. I risultati ottenuti sono mostrati in Tab. 3.

Crawl

File

Time

Dim.Index

Depth

HT://DIG

940

43m

56,2 MB

all

NUTCH

2325

6h02m

196,3 MB

10

SPHIDER

2569

2h10m

20,39 MB

20

PHPDIG

468

1h40m

966 Kb

20

Tab. 3 test su www.univaq.it

Sphider è il crawl che si è comportato meglio, avendo indicizzato più file di tutti in tempi contenuti. In realtà, i file analizzati raggiungevano il numero di 5662, ma il fatto che ne siano stati indicizzati solo la metà rappresenta un dato positivo, visto che non sono stati considerati quelli con un contenuto minore di 10 parole.

Inoltre, possiamo evidenziare la grossa dimensione creata da Nutch, grazie al mantenimento delle pagine in cache e dalla memorizzazione della struttura HTML.

Phpdig al contrario, non riesce a eguagliare i risultati ottenuti dagli altri motori di ricerca poiché il sito www.univaq.it è composto da frames e il crawler non riesce a riconoscere i collegamenti tra le varie pagine. Nonostante abbia cercato di risolvere il problema guidando lo spider attraverso il file project.htm, menù principale del sito, non ho ottenuto un considerevole miglioramento.

Il secondo sito scelto per i test è www.arredamenti-casa.com, sito di modeste dimensioni che non possiede frames o codici javascript, ma solo link href (Tab. 4).

Crawl

File

Time

Dim.Index

Depth

HT://DIG

519

18m26s

6,1 MB

all

NUTCH

105

8m13s

8,2 MB

10

SPHIDER

201

14m38s

5,86 MB

10

PHPDIG

290

45m32s

2,7 MB

10

Tab. 4 test su www.arredamenti-casa.com.

È importante notare come ht://Dig indicizza molti più file degli altri, ma, ciò non rappresenta un dato positivo anzi, deriva da una non adeguata trattazione di file duplicati.

Ulteriormente si pone l’attenzione su Phpdig che, come Ht://dig, riesce ad ottenere risultati unicamente nel caso in cui il sito in considerazione possiede solo link href.

Per gli altri crawler, infine, si conferma l’analisi già svolta in precedenza.  In termini di rapporto velocità dimensione indice, Nutch è quello che ha un rendimento migliore.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *