|
Test file system
Come primo dataset ho scelto il manuale in Php, composto da 5185 file per un totale di 25,4 MB, sia HTML che immagini; i risultati ottenuti sono riassunti in Tab.1. | Crawl | File | Time | Dim.Index | %dim.index/dataset | Depth | | HT://DIG | 5174 | 03m56 s | 12,5 MB | 49,21 % | ALL | | NUTCH | 5180 | 05m32s | 15,7 MB | 61,81 % | 10 | | SPHIDER | 5172 | 12m27s | 25,89 MB | 101,9 % | 20 | | PHPDIG | 1228 | 1m52s | 1,4 MB | 5,5 % | 20 | Tab. 1 test su filesystem documentazione php In questo e nel successivo test sono stati presi in considerazione il numero di file indicizzati, il tempo, la dimensione dell’indice e il rapporto, in percentuale, tra dimensione del dataset e dell’indice. Per il secondo test, ho aggiunto alla documentazione precedente anche quella dell’apache tomcat 5.5, per raggiungere un totale di 5559 file con dimensione di 31,4 MB; i risultati ottenuti sono in Tab. 2. | Crawl | File | Time | Dim.Index | %dim.index/dataset | Depth | | HT://DIG | 5498 | 11m31s | 13,73 MB | 43,75 % | ALL | | NUTCH | 5528 | 6m41s | 19,46 MB | 62 % | 10 | | SPHIDER | 5519 | 16m38s | 31,44 MB | 100,14 % | 20 | | PHPDIG | 1365 | 3m10s | 2,1 MB | 6,68 % | 20 | Tab. 2 test su filesystem documentazione php + apache tomcat 5.5 Il numero di file indicizzati da tutti i motori di ricerca è pressoché lo stesso, ma quelli che si distinguono per velocità di indicizzazione e dimensione dell’indice sono Nutch e ht://Dig. Quello invece che si evidenzia per la sua negatività è Phpdig, in quanto riesce a malapena ad indicizzare 1/5 dei file rispetto agl’altri. Sphider infine, nonostante una buona capacità di indicizzazione presenta problemi a livello di velocità e compressione del dataset.
|