Test file system
Come primo dataset ho scelto il manuale in Php, composto da 5185 file per un totale di 25,4 MB, sia HTML che immagini; i risultati ottenuti sono riassunti in Tab.1.
|
Crawl |
File |
Time |
Dim.Index |
%dim.index/dataset |
Depth |
|
HT://DIG |
5174 |
03m56 s |
12,5 MB |
49,21 % |
ALL |
|
NUTCH |
5180 |
05m32s |
15,7 MB |
61,81 % |
10 |
|
SPHIDER |
5172 |
12m27s |
25,89 MB |
101,9 % |
20 |
|
PHPDIG |
1228 |
1m52s |
1,4 MB |
5,5 % |
20 |
Tab. 1 test su filesystem documentazione php
In questo e nel successivo test sono stati presi in considerazione il numero di file indicizzati, il tempo, la dimensione dell’indice e il rapporto, in percentuale, tra dimensione del dataset e dell’indice.
Per il secondo test, ho aggiunto alla documentazione precedente anche quella dell’apache tomcat 5.5, per raggiungere un totale di 5559 file con dimensione di 31,4 MB; i risultati ottenuti sono in Tab. 2.
|
Crawl |
File |
Time |
Dim.Index |
%dim.index/dataset |
Depth |
|
HT://DIG |
5498 |
11m31s |
13,73 MB |
43,75 % |
ALL |
|
NUTCH |
5528 |
6m41s |
19,46 MB |
62 % |
10 |
|
SPHIDER |
5519 |
16m38s |
31,44 MB |
100,14 % |
20 |
|
PHPDIG |
1365 |
3m10s |
2,1 MB |
6,68 % |
20 |
Tab. 2 test su filesystem documentazione php + apache tomcat 5.5
Il numero di file indicizzati da tutti i motori di ricerca è pressoché lo stesso, ma quelli che si distinguono per velocità di indicizzazione e dimensione dell’indice sono Nutch e ht://Dig. Quello invece che si evidenzia per la sua negatività è Phpdig, in quanto riesce a malapena ad indicizzare 1/5 dei file rispetto agl’altri. Sphider infine, nonostante una buona capacità di indicizzazione presenta problemi a livello di velocità e compressione del dataset.