Test file system

Come primo dataset ho scelto il manuale in Php, composto da 5185 file per un totale di 25,4 MB, sia HTML che immagini; i risultati ottenuti sono riassunti in Tab.1. Crawl File Time Dim.Index %dim.index/dataset Depth HT://DIG 5174 03m56 s 12,5 MB 49,21 % ALL NUTCH 5180 05m32s 15,7 MB … Continue reading

Test in Rete

Il primo sito indicizzato è stato quello dell’Università degli studi dell’Aquila (http://www.univaq.it); questo sito è molto complesso perché possiede frames e pagine duplicate. I risultati ottenuti sono mostrati in Tab. 3. Crawl File Time Dim.Index Depth HT://DIG 940 43m 56,2 MB all NUTCH 2325 6h02m 196,3 MB 10 SPHIDER 2569 … Continue reading

Test sulle Query

Per effettuare i test sulle query, ho scelto il dataset più grande, cioè composto dalla documentazione Php, più la documentazione del Tomcat per quanto riguarda query in locale e, i due dataset composti da www.univaq.it e www.arredamenti-casa.com per quanto riguarda query svolte in rete. Ho considerato solo query in AND … Continue reading

Test sui motori di ricerca nel web

Per confrontare le caratteristiche di scalabilità, efficienza e qualità delle risposte alla query, ho effettuato una serie di test su diversi tipi di dataset. Innanzitutto ho scelto due documentazioni html di dimensioni diverse nel filesystem, misurando i tempi impiegati dai motori per indicizzarle. In rete poi, sono stati trattati due … Continue reading