|
Analisi del comportamento di GoogleBot, Msn e Yahoo
APartendo dalle statistiche contenute in un file di log del sito www.arredamenti-casa.com, ho creato un semplice software (“Analisi Crawl”) in grado di effettuare il parser dei log e tracciare tutte le visite, salvando in un database solo quelle effettuate dai crawler dei tre principali motori di ricerca nel Web. Grazie a questo software ho potuto elaborare le considerazioni che seguono, tenendo conto del fatto che i crawler avevano accesso a tutti i link, in quanto il sito è costituito da un unico livello (cioè la totalità dei link è accessibile da ogni pagina del sito). I vari motori di ricerca utilizzano più di un crawler distribuiti nel web, ognuno sincronizzato con un data center. Ad ogni crawler è affidata la funzione di “spidering” e, a ciascuno di esso, è assegnato un indirizzo IP. Ciò che si può notare a prima vista è che il funzionamento dell’indicizzazione delle pagine da parte dei motori di ricerca è molto diverso tra loro. Innanzitutto Googlebot visita un sito con il medesimo crawler, sincronizzato allo stesso data center, e avente stesso ip, mediamente per 5 giorni di seguito, andando ad analizzare il robots.txt con una media di 1 giorno 3 ore e 56 minuti (Fig. 18a). Poi passa un nuovo crawler e memorizza le pagine indicizzate in un nuovo data center, con altro ip. I dati immagazzinati nei vari data center, di conseguenza, sono molto diversi tra loro. L’operazione di SINCRONIZZAZIONE avviene, a differenza degli altri motori, in maniera “periodica” ma molto ravvicinata e permette a tutti i data center di allineare i propri dati, uniformando i risultati tra tutti i data center. Notiamo inoltre, come questo Crawl riesca ad indicizzare le nuove pagine inserite molto rapidamente: ad esempio, avendo aggiunto il 26 febbraio 2007 la sezione “Top ricerche”, Googlebot l’ha notata già il 28 febbraio analizzandola ripetutamente Yahoo! Slurp, al contrario di Googlebot, non usa mai lo stesso data center per visitare il sito in considerazione, anzi in uno stesso giorno ne passano a decine. Questo dipende dalla diversa politica adottata dal Crawl e ne consegue che anche le visite al robots.txt. siano esponenziali rispetto a quelle di Googlebot, con una media di 38 minuti a richiesta. (Fig. 19a) Secondo la mia analisi, in questo caso ogni data center si comporta in maniera indipendente dagli altri e la sincronizzazione avviene in un lasso di tempo più ampio rispetto a Googlebot. Per quel che riguarda l’indicizzazione della nuova sezione inserita, c’è da dire che il crawl non è stato repentino come Googlebot, “localizzandola” solo il 2 marzo, e indicizzando, tra l’altro, solo una pagina, “/Top/cerca/tappeti+lana.html” Msnbot , infine, adotta un comportamento sicuramente più ordinato rispetto a Yahoo! Slurp, ma che non eguaglia quello di Googlebot, in quanto si nota che il data center cambia mediamente ogni 4 ore, dato che rispecchia anche la media delle visite al robots.txt ( ogni 3 ore e 58 minuti) poiché ad ogni alternanza di IP (crawler diverso), viene rivisitato tale file (Fig. 20a). La SINCRONIZZAZIONE dei vari data center avviene sempre in maniera “periodica” ma in un lasso di tempo più ampio rispetto a Google. L’indicizzazione della nuova sezione avviene in ritardo come quella di Yahoo! Slurp (il 2 marzo 2007), ma al contrario di questo, analizza in modo più completo le pagine, quasi con la stessa attenzione di Googlebot ( Fig. 20b). Affrontata quindi l’analisi dei comportamenti dei tre Crawler, abbiamo rilevato che la grande affluenza delle visite da parte di Yahoo! Slurp (Fig. 21) e dovuto al suo comportamento disordinato che lo porta ossessivamente a controllare il file di robots.txt, più volte rispetto agli altri spider (Fig. 22) e che il crawler migliore, in circolazione sulla rete, secondo i risultati ottenuti e documentati, è sicuramente GoogleBot. Ma ci chiediamo infine: perché il Crawl visita più spesso una pagina in relazione alle altre? Si possono azzardare diverse ipotesi: 1. Per Googlebot si nota che le pagine più visitate sono effettivamente quelle che ricevono più link interni (ed esterni); quelle che sono più “vecchie” ossia che sono state inserite per prime; quelle con Page-Rank e TrustRank più alto; quelle con i link meglio posizionati nell’Homepage. Questa catalogazione infatti, è ben riscontrabile in www.arredamenti-casa.com poiché gli url più analizzati sono quelle dell’Homepage che riceve molti link esterni e possiede Page-Rank più alto. 2. Yahoo! Slurp, pur seguendo in parte lo schema di Googlebot, se ne discosta per le considerazioni prima individuate, ossia ha come Url più visitato il robots.txt, mentre la particolarità è costituita dalla maggiore attenzione prestata per le pagine soggette a continua modifica (rss). 3. Per quel che riguarda Msnbot concludendo, si può osservare una sostanziale somiglianza alla strategia utilizzata da Yahoo! Slurp, sebbene visiti le pagine in maniera più ordinata e meno “ossessiva”.
|