Test file system

Come primo dataset ho scelto il manuale in Php, composto da 5185 file per un totale di 25,4 MB, sia HTML che immagini; i risultati ottenuti sono riassunti in Tab.1.

Crawl

File

Time

Dim.Index

%dim.index/dataset

Depth

HT://DIG

5174

03m56 s

12,5 MB

49,21 %

ALL

NUTCH

5180

05m32s

15,7 MB

61,81 %

10

SPHIDER

5172

12m27s

25,89 MB

101,9 %

20

PHPDIG

1228

1m52s

1,4 MB

5,5 %

20

Tab. 1 test su filesystem documentazione php

In questo e nel successivo test sono stati presi in considerazione il numero di file indicizzati, il tempo, la dimensione dell’indice e il rapporto, in percentuale, tra dimensione del dataset e dell’indice.

Per il secondo test, ho aggiunto alla documentazione precedente anche quella dell’apache tomcat 5.5, per raggiungere un totale di 5559 file con dimensione di 31,4 MB; i risultati ottenuti sono in Tab. 2.

Crawl

File

Time

Dim.Index

%dim.index/dataset

Depth

HT://DIG

5498

11m31s

13,73 MB

43,75 %

ALL

NUTCH

5528

6m41s

19,46 MB

62 %

10

SPHIDER

5519

16m38s

31,44 MB

100,14 %

20

PHPDIG

1365

3m10s

2,1 MB

6,68 %

20

Tab. 2 test su filesystem documentazione php + apache tomcat 5.5

Il numero di file indicizzati da tutti i motori di ricerca è pressoché lo stesso, ma quelli che si distinguono per velocità di indicizzazione e dimensione dell’indice sono Nutch e ht://Dig. Quello invece che si evidenzia per la sua negatività è Phpdig, in quanto riesce a malapena  ad indicizzare 1/5 dei file rispetto agl’altri. Sphider infine, nonostante una buona capacità di indicizzazione presenta problemi a livello di velocità e compressione del dataset.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *