|
Test dei crawler sul web
Il primo sito indicizzato è stato quello dell’Università degli studi dell’Aquila (http://www.univaq.it); questo sito è molto complesso perché possiede frames e pagine duplicate. I risultati ottenuti sono mostrati in Tab. 3. | Crawl | File | Time | Dim.Index | Depth | | HT://DIG | 940 | 43m | 56,2 MB | all | | NUTCH | 2325 | 6h02m | 196,3 MB | 10 | | SPHIDER | 2569 | 2h10m | 20,39 MB | 20 | | PHPDIG | 468 | 1h40m | 966 Kb | 20 | Tab. 3 test su www.univaq.it Sphider è il crawl che si è comportato meglio, avendo indicizzato più file di tutti in tempi contenuti. In realtà, i file analizzati raggiungevano il numero di 5662, ma il fatto che ne siano stati indicizzati solo la metà rappresenta un dato positivo, visto che non sono stati considerati quelli con un contenuto minore di 10 parole. Inoltre, possiamo evidenziare la grossa dimensione creata da Nutch, grazie al mantenimento delle pagine in cache e dalla memorizzazione della struttura HTML. Phpdig al contrario, non riesce a eguagliare i risultati ottenuti dagli altri motori di ricerca poiché il sito www.univaq.it è composto da frames e il crawler non riesce a riconoscere i collegamenti tra le varie pagine. Nonostante abbia cercato di risolvere il problema guidando lo spider attraverso il file project.htm, menù principale del sito, non ho ottenuto un considerevole miglioramento. Il secondo sito scelto per i test è www.arredamenti-casa.com, sito di modeste dimensioni che non possiede frames o codici javascript, ma solo link href (Tab. 4). | Crawl | File | Time | Dim.Index | Depth | | HT://DIG | 519 | 18m26s | 6,1 MB | all | | NUTCH | 105 | 8m13s | 8,2 MB | 10 | | SPHIDER | 201 | 14m38s | 5,86 MB | 10 | | PHPDIG | 290 | 45m32s | 2,7 MB | 10 | Tab. 4 test su www.arredamenti-casa.com. È importante notare come ht://Dig indicizza molti più file degli altri, ma, ciò non rappresenta un dato positivo anzi, deriva da una non adeguata trattazione di file duplicati. Ulteriormente si pone l’attenzione su Phpdig che, come Ht://dig, riesce ad ottenere risultati unicamente nel caso in cui il sito in considerazione possiede solo link href. Per gli altri crawler, infine, si conferma l’analisi già svolta in precedenza. In termini di rapporto velocità dimensione indice, Nutch è quello che ha un rendimento migliore.
|