Crawlermotori arrow Test filesystem

Test file system

www.aruba.it
 

Come primo dataset ho scelto il manuale in Php, composto da 5185 file per un totale di 25,4 MB, sia HTML che immagini; i risultati ottenuti sono riassunti in Tab.1.

Crawl

File

Time

Dim.Index

%dim.index/dataset

Depth

HT://DIG

5174

03m56 s

12,5 MB

49,21 %

ALL

NUTCH

5180

05m32s

15,7 MB

61,81 %

10

SPHIDER

5172

12m27s

25,89 MB

101,9 %

20

PHPDIG

1228

1m52s

1,4 MB

5,5 %

20

Tab. 1 test su filesystem documentazione php

In questo e nel successivo test sono stati presi in considerazione il numero di file indicizzati, il tempo, la dimensione dell’indice e il rapporto, in percentuale, tra dimensione del dataset e dell’indice.

Per il secondo test, ho aggiunto alla documentazione precedente anche quella dell’apache tomcat 5.5, per raggiungere un totale di 5559 file con dimensione di 31,4 MB; i risultati ottenuti sono in Tab. 2. 

Crawl

File

Time

Dim.Index

%dim.index/dataset

Depth

HT://DIG

5498

11m31s

13,73 MB

43,75 %

ALL

NUTCH

5528

6m41s

19,46 MB

62 %

10

SPHIDER

5519

16m38s

31,44 MB

100,14 %

20

PHPDIG

1365

3m10s

2,1 MB

6,68 %

20

Tab. 2 test su filesystem documentazione php + apache tomcat 5.5

Il numero di file indicizzati da tutti i motori di ricerca è pressoché lo stesso, ma quelli che si distinguono per velocità di indicizzazione e dimensione dell’indice sono Nutch e ht://Dig. Quello invece che si evidenzia per la sua negatività è Phpdig, in quanto riesce a malapena  ad indicizzare 1/5 dei file rispetto agl’altri. Sphider infine, nonostante una buona capacità di indicizzazione presenta problemi a livello di velocità e compressione del dataset.

We register it!
 

 
< Prec.   Pros. >
©

Internet e motori di ricerca, Crawler Module, indexer module, Ranking system, motore di ricerca sphider, prerequisiti e installazione sphider, motore di ricerca Nutch, indicizzazione locale o intranet, indicizzazione intero web, query, motore di ricerca ht://dig, prerequisiti e installazione, motore di ricerca phpdig, crawler/spider-serch engine: crawler open source, ricerca, test, tutorial, conclusioni, htdig, web, module, internet, sui.