<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Crawler Motori</title>
	<atom:link href="http://www.crawlermotori.com/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.crawlermotori.com</link>
	<description>Indicizzazione Motori di Ricerca</description>
	<lastBuildDate>Mon, 30 Jan 2012 12:11:12 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.1</generator>
		<item>
		<title>Considerazioni finali sui Crawler analizzati</title>
		<link>http://www.crawlermotori.com/considerazioni-finali-sui-crawler-analizzati/</link>
		<comments>http://www.crawlermotori.com/considerazioni-finali-sui-crawler-analizzati/#comments</comments>
		<pubDate>Wed, 10 Nov 2010 18:22:57 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[Considerazioni finali]]></category>

		<guid isPermaLink="false">http://90d78ab148e9c0721f875bab7b3119f3_0bd2ce95ea44ad64e7b6e5656463a4a4</guid>
		<description><![CDATA[Alla luce dei risultati ottenuti nei test e dalle caratteristiche supportate da ognuno dei motori di ricerca studiati, è possibile trarre le conclusioni finali.

Per il filesystem, ht://Dig offre le prestazioni migliori sia per quanto riguarda il temp...]]></description>
			<content:encoded><![CDATA[<p class="testo">Alla luce dei risultati ottenuti nei test e dalle caratteristiche supportate da ognuno dei motori di ricerca studiati, è possibile trarre le conclusioni finali.</p>
<p>Per il filesystem, ht://Dig offre le prestazioni migliori sia per quanto riguarda il tempo di indicizzazione, che di risposta alle query; i risultati forniti alle interrogazioni raggiungono sempre i target voluti e la dimensione dell&rsquo;indice si aggira intorno al 45% rispetto alla dimensione del dataset. Nonostante gli ottimi risultati, c&rsquo;è da dire in negativo che ht://Dig segue solo i link, quindi le pagine devono essere collegate tra loro, oppure è necessario passare come path un file contenente tutti i percorsi assoluti dei file da indicizzare. </p>
<p>Considerando proprio questo aspetto si può rilevare che Nutch è l&rsquo;unico spider a non presentare tale problema e quindi, anche se a volte non si mostra altrettanto veloce nella fase di crawling o altrettanto capace nel far sì che il rapporto tra la dimensione dell&rsquo;indice e quella del dataset sia piuttosto contenuta, è sicuramente il più adatto per ambiziosi progetti di crawling dell&rsquo;intero web o di un numero elevato di siti internet. Non potendo effettuare prove sull&rsquo;intero web, ciò che ci fa giungere a questo risultato, è la possibilità di analizzare i link prima di effettuare il crawling e l&rsquo;efficiente eliminazione dei duplicati che in dataset giganteschi è fondamentale. In più la possibilità di visualizzare le pagine in cache e anchor text dei link che puntano a tali pagine, sono caratteristiche importanti per la ricerca nel web.</p>
<p>Per i piccoli domini, Sphider e PhpDig sono ideali. In particolare Sphider è adatto sia per i complessi che per i siti più semplici, agendo in tempi abbastanza ottimali; la negatività però, sta nel fatto che non è concepito per scalare su dataset di milioni di pagine, quindi non paragonabile né a Nutch né a ht://Dig. Una demo di questo crawler è visibile sul sito <a rel="nofollow"  href="http://www.arredamenti-casa.com/">www.arredamenti-casa.com</a>.</p>
<p>L&rsquo;unico pregio di Phpdig invece, è rappresentato dalla possibilità di fare crawling tra siti &ldquo;vicini&rdquo; (a distanza di un link) che permettono di indicizzare una ristretta nicchia di domini e che, escludendo spam e pubblicità, possono riguardare lo stesso insieme di argomenti.</p>
<p>Per i domini un po&rsquo; più elaborati, ossia contenenti frames o duplicati, Phpdig si dimostra assolutamente inadeguato.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.crawlermotori.com/considerazioni-finali-sui-crawler-analizzati/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Test sulle Query</title>
		<link>http://www.crawlermotori.com/test-sulle-query/</link>
		<comments>http://www.crawlermotori.com/test-sulle-query/#comments</comments>
		<pubDate>Wed, 10 Nov 2010 18:20:26 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[Test sui motori di ricerca nel web]]></category>

		<guid isPermaLink="false">http://d6db16afeecafe90b744ac2bc40b97ee_2c49cec037ad1e27a83aa989ccadaff7</guid>
		<description><![CDATA[Per effettuare i test sulle query, ho scelto il dataset più grande, cioè composto dalla documentazione Php, più la documentazione del Tomcat per quanto riguarda query in locale e, i due dataset composti da  www.univaq.it e  www.arredamenti-casa.com ...]]></description>
			<content:encoded><![CDATA[<p class="testo">Per effettuare i test sulle query, ho scelto il dataset più grande, cioè composto dalla documentazione Php, più la documentazione del Tomcat per quanto riguarda query in locale e, i due dataset composti da <a rel="nofollow"  href="http://www.univaq.it/"> www.univaq.it</a> e <a rel="nofollow"  href="http://www.arredamenti-casa.com/"> www.arredamenti-casa.com</a> per quanto riguarda query svolte in rete. Ho considerato solo query in AND poiché è l&rsquo;unico tipo di query supportato da tutti i motori di ricerca.</p>
<p class="testo">I test consistevano, dopo l&rsquo;emissione della query, nel misurare tempi di risposta e nell&rsquo;analizzare la qualità dei primi 10 risultati; per far questo ho scelto alcune pagine target, come metro di giudizio, che soddisfacessero a pieno la richiesta. Il primo test, sul dataset sul filesystem è stato con la query &ldquo;chmod&rdquo; (Tab. 5) che si trova al terzo livello di profondità.</p>
<table cellspacing="0" cellpadding="0" border="1" class="MsoTableGrid" style="border:medium none;border-collapse:collapse;">
<tbody>
<tr>
<td width="115" valign="top" style="border:1pt solid windowtext;padding:0cm 5.4pt;width:69.15pt;">Crawler</td>
<td width="106" valign="top" style="border-style:solid solid solid none;border-color:windowtext windowtext windowtext;border-width:1pt 1pt 1pt medium;padding:0cm 5.4pt;width:63.85pt;">Time</td>
<td width="300" valign="top" colspan="3" style="border-style:solid solid solid none;border-color:windowtext windowtext windowtext;border-width:1pt 1pt 1pt medium;padding:0cm 5.4pt;width:179.85pt;">Qualità (10 risultati)</td>
<td width="139" valign="top" style="border-style:solid solid solid none;border-color:windowtext windowtext windowtext;border-width:1pt 1pt 1pt medium;padding:0cm 5.4pt;width:83.4pt;">N&deg; Risultati</td>
</tr>
<tr>
<td width="115" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:69.15pt;">&nbsp;</td>
<td width="106" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:63.85pt;">ms</td>
<td width="91" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:54.4pt;">Buoni</td>
<td width="133" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:79.65pt;">Sufficienti</td>
<td width="76" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:45.8pt;">Scarsi</td>
<td width="139" valign="top" style="border-style:none none solid;border-color:windowtext;border-width:medium medium 1pt;padding:0cm 5.4pt;width:83.4pt;">&nbsp;</td>
</tr>
<tr>
<td width="115" valign="top" style="border-style:none solid solid;border-color:windowtext windowtext;border-width:medium 1pt 1pt;padding:0cm 5.4pt;width:69.15pt;">HT://DIG</td>
<td width="106" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:63.85pt;">120</td>
<td width="91" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:54.4pt;">2</td>
<td width="133" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:79.65pt;">7</td>
<td width="76" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:45.8pt;">1</td>
<td width="139" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:83.4pt;">15</td>
</tr>
<tr>
<td width="115" valign="top" style="border-style:none solid solid;border-color:windowtext windowtext;border-width:medium 1pt 1pt;padding:0cm 5.4pt;width:69.15pt;">NUTCH</td>
<td width="106" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:63.85pt;">415</td>
<td width="91" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:54.4pt;">2</td>
<td width="133" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:79.65pt;">7</td>
<td width="76" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:45.8pt;">1</td>
<td width="139" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:83.4pt;">14</td>
</tr>
<tr>
<td width="115" valign="top" style="border-style:none solid solid;border-color:windowtext windowtext;border-width:medium 1pt 1pt;padding:0cm 5.4pt;width:69.15pt;">SPHIDER</td>
<td width="106" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:63.85pt;">180</td>
<td width="91" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:54.4pt;">2</td>
<td width="133" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:79.65pt;">7</td>
<td width="76" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:45.8pt;">1</td>
<td width="139" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:83.4pt;">10</td>
</tr>
<tr>
<td width="115" valign="top" style="border-style:none solid solid;border-color:windowtext windowtext;border-width:medium 1pt 1pt;padding:0cm 5.4pt;width:69.15pt;">PHPDIG</td>
<td width="106" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:63.85pt;">-</td>
<td width="91" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:54.4pt;">0</td>
<td width="133" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:79.65pt;">0</td>
<td width="76" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:45.8pt;">0</td>
<td width="139" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:83.4pt;">0</td>
</tr>
</tbody>
</table>
<p class="testo"><span>Tab. 5 Query &ldquo;chmod&rdquo; su filesystem </span></p>
<p class="testo">Le pagine target erano due, ma ho considerato sufficienti quelle pagine che attraverso link mi potessero portare alla pagina target.</p>
<p class="testo">La seconda query è stata &ldquo;Security Manager&rdquo; (Tab.6)</p>
<table cellspacing="0" cellpadding="0" border="1" class="MsoTableGrid" style="border:medium none;border-collapse:collapse;">
<tbody>
<tr>
<td width="115" valign="top" style="border:1pt solid windowtext;padding:0cm 5.4pt;width:69.15pt;">Crawler</td>
<td width="106" valign="top" style="border-style:solid solid solid none;border-color:windowtext windowtext windowtext;border-width:1pt 1pt 1pt medium;padding:0cm 5.4pt;width:63.85pt;">Time</td>
<td width="300" valign="top" colspan="3" style="border-style:solid solid solid none;border-color:windowtext windowtext windowtext;border-width:1pt 1pt 1pt medium;padding:0cm 5.4pt;width:179.85pt;">Qualità (10 risultati)</td>
<td width="139" valign="top" style="border-style:solid solid solid none;border-color:windowtext windowtext windowtext;border-width:1pt 1pt 1pt medium;padding:0cm 5.4pt;width:83.4pt;">N&deg; Risultati</td>
</tr>
<tr>
<td width="115" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:69.15pt;">&nbsp;</td>
<td width="106" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:63.85pt;">ms</td>
<td width="91" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:54.4pt;">Buoni</td>
<td width="133" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:79.65pt;">Sufficienti</td>
<td width="76" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:45.8pt;">Scarsi</td>
<td width="139" valign="top" style="border-style:none none solid;border-color:windowtext;border-width:medium medium 1pt;padding:0cm 5.4pt;width:83.4pt;">&nbsp;</td>
</tr>
<tr>
<td width="115" valign="top" style="border-style:none solid solid;border-color:windowtext windowtext;border-width:medium 1pt 1pt;padding:0cm 5.4pt;width:69.15pt;">HT://DIG</td>
<td width="106" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:63.85pt;">210</td>
<td width="91" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:54.4pt;">2</td>
<td width="133" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:79.65pt;">6</td>
<td width="76" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:45.8pt;">2</td>
<td width="139" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:83.4pt;">52</td>
</tr>
<tr>
<td width="115" valign="top" style="border-style:none solid solid;border-color:windowtext windowtext;border-width:medium 1pt 1pt;padding:0cm 5.4pt;width:69.15pt;">NUTCH</td>
<td width="106" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:63.85pt;">641</td>
<td width="91" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:54.4pt;">2</td>
<td width="133" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:79.65pt;">7</td>
<td width="76" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:45.8pt;">1</td>
<td width="139" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:83.4pt;">378</td>
</tr>
<tr>
<td width="115" valign="top" style="border-style:none solid solid;border-color:windowtext windowtext;border-width:medium 1pt 1pt;padding:0cm 5.4pt;width:69.15pt;">SPHIDER</td>
<td width="106" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:63.85pt;">40</td>
<td width="91" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:54.4pt;">2</td>
<td width="133" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:79.65pt;">6</td>
<td width="76" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:45.8pt;">2</td>
<td width="139" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:83.4pt;">65</td>
</tr>
<tr>
<td width="115" valign="top" style="border-style:none solid solid;border-color:windowtext windowtext;border-width:medium 1pt 1pt;padding:0cm 5.4pt;width:69.15pt;">PHPDIG</td>
<td width="106" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:63.85pt;">110</td>
<td width="91" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:54.4pt;">2</td>
<td width="133" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:79.65pt;">7</td>
<td width="76" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:45.8pt;">1</td>
<td width="139" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:83.4pt;">44</td>
</tr>
</tbody>
</table>
<p class="testo"><span>Tab. 6 Query &ldquo;Security Manager&rdquo; su filesystem </span></p>
<p class="testo">Nutch ritorna un numero molto più alto di risultati poichè indicizza anche i path dei file.</p>
<p class="testo">Con il dataset <a rel="nofollow"  href="http://www.univaq.it/"> www.univaq.it</a> è stata effettuata la query &ldquo;Mignosi&rdquo; (Prof. Mignosi) in Tab. 7.</p>
<table cellspacing="0" cellpadding="0" border="1" class="MsoTableGrid" style="border:medium none;border-collapse:collapse;">
<tbody>
<tr>
<td width="109" valign="top" style="border:1pt solid windowtext;padding:0cm 5.4pt;width:65.25pt;">Crawler</td>
<td width="109" valign="top" style="border-style:solid solid solid none;border-color:windowtext windowtext windowtext;border-width:1pt 1pt 1pt medium;padding:0cm 5.4pt;width:65.2pt;">Time</td>
<td width="302" valign="top" colspan="3" style="border-style:solid solid solid none;border-color:windowtext windowtext windowtext;border-width:1pt 1pt 1pt medium;padding:0cm 5.4pt;width:180.95pt;">Qualità (10 risultati)</td>
<td width="141" valign="top" style="border-style:solid solid solid none;border-color:windowtext windowtext windowtext;border-width:1pt 1pt 1pt medium;padding:0cm 5.4pt;width:84.85pt;">N&deg; Risultati</td>
</tr>
<tr>
<td width="109" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:65.25pt;">&nbsp;</td>
<td width="109" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:65.2pt;">ms</td>
<td width="92" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:54.95pt;">Buoni</td>
<td width="134" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:80.2pt;">Sufficienti</td>
<td width="76" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:45.8pt;">Scarsi</td>
<td width="141" valign="top" style="border-style:none none solid;border-color:windowtext;border-width:medium medium 1pt;padding:0cm 5.4pt;width:84.85pt;">&nbsp;</td>
</tr>
<tr>
<td width="109" valign="top" style="border-style:none solid solid;border-color:windowtext windowtext;border-width:medium 1pt 1pt;padding:0cm 5.4pt;width:65.25pt;">HT://DIG</td>
<td width="109" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:65.2pt;">260</td>
<td width="92" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:54.95pt;">0</td>
<td width="134" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:80.2pt;">1</td>
<td width="76" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:45.8pt;">0</td>
<td width="141" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:84.85pt;">1</td>
</tr>
<tr>
<td width="109" valign="top" style="border-style:none solid solid;border-color:windowtext windowtext;border-width:medium 1pt 1pt;padding:0cm 5.4pt;width:65.25pt;">NUTCH</td>
<td width="109" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:65.2pt;">200</td>
<td width="92" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:54.95pt;">0</td>
<td width="134" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:80.2pt;">1</td>
<td width="76" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:45.8pt;">0</td>
<td width="141" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:84.85pt;">1</td>
</tr>
<tr>
<td width="109" valign="top" style="border-style:none solid solid;border-color:windowtext windowtext;border-width:medium 1pt 1pt;padding:0cm 5.4pt;width:65.25pt;">SPHIDER</td>
<td width="109" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:65.2pt;">230</td>
<td width="92" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:54.95pt;">1</td>
<td width="134" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:80.2pt;">1</td>
<td width="76" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:45.8pt;">0</td>
<td width="141" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:84.85pt;">2</td>
</tr>
<tr>
<td width="109" valign="top" style="border-style:none solid solid;border-color:windowtext windowtext;border-width:medium 1pt 1pt;padding:0cm 5.4pt;width:65.25pt;">PHPDIG</td>
<td width="109" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:65.2pt;">-</td>
<td width="92" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:54.95pt;">0</td>
<td width="134" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:80.2pt;">0</td>
<td width="76" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:45.8pt;">0</td>
<td width="141" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:84.85pt;">0</td>
</tr>
<tr>
<td width="109" valign="top" style="border-style:none solid solid;border-color:windowtext windowtext;border-width:medium 1pt 1pt;padding:0cm 5.4pt;width:65.25pt;">UNIVAQ</td>
<td width="109" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:65.2pt;">-</td>
<td width="92" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:54.95pt;">0</td>
<td width="134" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:80.2pt;">0</td>
<td width="76" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:45.8pt;">0</td>
<td width="141" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:84.85pt;">0</td>
</tr>
</tbody>
</table>
<p class="testo">&nbsp;Tab. 7 Query &ldquo;Mignosi&rdquo; su www.univaq.it</p>
<p class="testo">In questo caso, ho considerato buono la pagina in cui ci sono le informazioni del prof. Mignosi, mentre sufficiente la pagina in cui è presente tutta la lista dei professori, tra cui compare anche il prof. Mignosi.</p>
<p class="testo">Possiamo notare come, sia phpdig che il motore interno del sito stesso non raggiungono nemmeno un obbiettivo prefissato, benché, se si effettua una ricerca sul motore interno utilizzato dal sito&nbsp; www.univaq.it sotto la sezione &ldquo;rubrica&rdquo;, si ottiene il risultato che solo il motore Sphider riesce a vedere.</p>
<p class="testo">Infine, l&rsquo;ultima query eseguita è stata &ldquo;tessuti tende&rdquo; sul sito www.arredamenti-casa.com .</p>
<table cellspacing="0" cellpadding="0" border="1" class="MsoTableGrid" style="border:medium none;border-collapse:collapse;">
<tbody>
<tr>
<td width="115" valign="top" style="border:1pt solid windowtext;padding:0cm 5.4pt;width:69.15pt;">Crawler</td>
<td width="107" valign="top" style="border-style:solid solid solid none;border-color:windowtext windowtext windowtext;border-width:1pt 1pt 1pt medium;padding:0cm 5.4pt;width:63.9pt;">Time</td>
<td width="299" valign="top" colspan="3" style="border-style:solid solid solid none;border-color:windowtext windowtext windowtext;border-width:1pt 1pt 1pt medium;padding:0cm 5.4pt;width:179.65pt;">Qualità (10 risultati)</td>
<td width="139" valign="top" style="border-style:solid solid solid none;border-color:windowtext windowtext windowtext;border-width:1pt 1pt 1pt medium;padding:0cm 5.4pt;width:83.55pt;">N&deg; Risultati</td>
</tr>
<tr>
<td width="115" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:69.15pt;">&nbsp;</td>
<td width="107" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:63.9pt;">ms</td>
<td width="91" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:54.35pt;">Buoni</td>
<td width="133" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:79.5pt;">Sufficienti</td>
<td width="76" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:45.8pt;">Scarsi</td>
<td width="139" valign="top" style="border-style:none none solid;border-color:windowtext;border-width:medium medium 1pt;padding:0cm 5.4pt;width:83.55pt;">&nbsp;</td>
</tr>
<tr>
<td width="115" valign="top" style="border-style:none solid solid;border-color:windowtext windowtext;border-width:medium 1pt 1pt;padding:0cm 5.4pt;width:69.15pt;">HT://DIG</td>
<td width="107" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:63.9pt;">270</td>
<td width="91" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:54.35pt;">2</td>
<td width="133" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:79.5pt;">8</td>
<td width="76" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:45.8pt;">0</td>
<td width="139" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:83.55pt;">233</td>
</tr>
<tr>
<td width="115" valign="top" style="border-style:none solid solid;border-color:windowtext windowtext;border-width:medium 1pt 1pt;padding:0cm 5.4pt;width:69.15pt;">NUTCH</td>
<td width="107" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:63.9pt;">325</td>
<td width="91" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:54.35pt;">2</td>
<td width="133" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:79.5pt;">7</td>
<td width="76" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:45.8pt;">1</td>
<td width="139" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:83.55pt;">92</td>
</tr>
<tr>
<td width="115" valign="top" style="border-style:none solid solid;border-color:windowtext windowtext;border-width:medium 1pt 1pt;padding:0cm 5.4pt;width:69.15pt;">SPHIDER</td>
<td width="107" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:63.9pt;">40</td>
<td width="91" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:54.35pt;">2</td>
<td width="133" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:79.5pt;">7</td>
<td width="76" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:45.8pt;">1</td>
<td width="139" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:83.55pt;">201</td>
</tr>
<tr>
<td width="115" valign="top" style="border-style:none solid solid;border-color:windowtext windowtext;border-width:medium 1pt 1pt;padding:0cm 5.4pt;width:69.15pt;">PHPDIG</td>
<td width="107" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:63.9pt;">120</td>
<td width="91" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:54.35pt;">4</td>
<td width="133" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:79.5pt;">4</td>
<td width="76" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:45.8pt;">2</td>
<td width="139" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:83.55pt;">259</td>
</tr>
</tbody>
</table>
<p class="testo">Tab. 8 Query &ldquo;Tessuti Tende&rdquo; su www.arredamenti-casa.com</p>
<p class="testo">Da notare che PHPDIG visualizza nei primi 10 risultati quattro target buoni di cui, 2 sono buoni, mentre gli altri 2 sono pagine duplicate.</p>
<p class="testo">Sphider si comporta molto bene, anche se la pagina specifica dei &ldquo;Tessuti per tende&rdquo; viene collocata solo in settima posizione e non tra le prime, come dovrebbe essere. Inoltre la percentuale di aderenza della notizia alle chiavi di ricerca è solo del 56,86 % e non del 100 %.</p>
<p class="testo">ht://Dig riesce a trovare il target principale come primo risultato dandogli il massimo delle stellette (l&rsquo;aderenza non è espressa in percentuale ma in stelle, con un massimo di cinque), e il secondo risultato buono è collocato in terza posizione con tre stellette.</p>
<p class="testo">Nutch riesce a trovare due target buoni e li sistema entrambi nelle prime posizioni.&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.crawlermotori.com/test-sulle-query/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Test in rete</title>
		<link>http://www.crawlermotori.com/test-in-rete/</link>
		<comments>http://www.crawlermotori.com/test-in-rete/#comments</comments>
		<pubDate>Wed, 10 Nov 2010 18:20:26 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[Test sui motori di ricerca nel web]]></category>

		<guid isPermaLink="false">http://d6db16afeecafe90b744ac2bc40b97ee_43ab49852b59a22f57098befb093aeed</guid>
		<description><![CDATA[Il primo sito indicizzato è stato quello dell&#8217;Università degli studi dell&#8217;Aquila (http://www.univaq.it); questo sito è molto complesso perché possiede frames e pagine duplicate. I risultati ottenuti sono mostrati in Tab. 3.
    Crawl   ...]]></description>
			<content:encoded><![CDATA[<p class="testo">Il primo sito indicizzato è stato quello dell&rsquo;Università degli studi dell&rsquo;Aquila (<a rel="nofollow"  href="http://www.univaq.it/">http://www.univaq.it</a>); questo sito è molto complesso perché possiede frames e pagine duplicate. I risultati ottenuti sono mostrati in Tab. 3.</p>
<table cellspacing="0" cellpadding="0" border="1" class="MsoTableGrid" style="border:medium none;border-collapse:collapse;">
<tbody>
<tr style="height:41.05pt;">
<td width="115" valign="top" style="border:1pt solid windowtext;padding:0cm 5.4pt;width:69.15pt;height:41.05pt;">
<p align="center" style="text-align:center;" class="testo">Crawl</p>
</td>
<td width="89" valign="top" style="border-style:solid solid solid none;border-color:windowtext windowtext windowtext;border-width:1pt 1pt 1pt medium;padding:0cm 5.4pt;width:53.25pt;height:41.05pt;">
<p align="center" style="text-align:center;" class="testo">File</p>
</td>
<td width="120" valign="top" style="border-style:solid solid solid none;border-color:windowtext windowtext windowtext;border-width:1pt 1pt 1pt medium;padding:0cm 5.4pt;width:72pt;height:41.05pt;">
<p align="center" style="text-align:center;" class="testo">Time</p>
</td>
<td width="180" valign="top" style="border-style:solid solid solid none;border-color:windowtext windowtext windowtext;border-width:1pt 1pt 1pt medium;padding:0cm 5.4pt;width:108pt;height:41.05pt;">
<p class="testo">Dim.Index</p>
</td>
<td width="186" valign="top" style="border-style:solid solid solid none;border-color:windowtext windowtext windowtext;border-width:1pt 1pt 1pt medium;padding:0cm 5.4pt;width:111.7pt;height:41.05pt;">
<p align="center" style="text-align:center;" class="testo">Depth</p>
</td>
</tr>
<tr>
<td width="115" valign="top" style="border-style:none solid solid;border-color:windowtext windowtext;border-width:medium 1pt 1pt;padding:0cm 5.4pt;width:69.15pt;">
<p align="center" style="text-align:center;" class="testo">HT://DIG</p>
</td>
<td width="89" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:53.25pt;">
<p align="center" style="text-align:center;" class="testo">940</p>
</td>
<td width="120" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:72pt;">
<p align="center" style="text-align:center;" class="testo">43m</p>
</td>
<td width="180" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:108pt;">
<p align="center" style="text-align:center;" class="testo">56,2 MB</p>
</td>
<td width="186" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:111.7pt;">
<p align="center" style="text-align:center;" class="testo">all</p>
</td>
</tr>
<tr>
<td width="115" valign="top" style="border-style:none solid solid;border-color:windowtext windowtext;border-width:medium 1pt 1pt;padding:0cm 5.4pt;width:69.15pt;">
<p align="center" style="text-align:center;" class="testo">NUTCH</p>
</td>
<td width="89" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:53.25pt;">
<p align="center" style="text-align:center;" class="testo">2325</p>
</td>
<td width="120" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:72pt;">
<p align="center" style="text-align:center;" class="testo">6h02m</p>
</td>
<td width="180" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:108pt;">
<p align="center" style="text-align:center;" class="testo">196,3 MB</p>
</td>
<td width="186" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:111.7pt;">
<p align="center" style="text-align:center;" class="testo">10</p>
</td>
</tr>
<tr>
<td width="115" valign="top" style="border-style:none solid solid;border-color:windowtext windowtext;border-width:medium 1pt 1pt;padding:0cm 5.4pt;width:69.15pt;">
<p align="center" style="text-align:center;" class="testo">SPHIDER</p>
</td>
<td width="89" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:53.25pt;">
<p align="center" style="text-align:center;" class="testo">2569</p>
</td>
<td width="120" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:72pt;">
<p align="center" style="text-align:center;" class="testo">2h10m</p>
</td>
<td width="180" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:108pt;">
<p align="center" style="text-align:center;" class="testo">20,39 MB</p>
</td>
<td width="186" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:111.7pt;">
<p align="center" style="text-align:center;" class="testo">20</p>
</td>
</tr>
<tr>
<td width="115" valign="top" style="border-style:none solid solid;border-color:windowtext windowtext;border-width:medium 1pt 1pt;padding:0cm 5.4pt;width:69.15pt;">
<p align="center" style="text-align:center;" class="testo">PHPDIG</p>
</td>
<td width="89" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:53.25pt;">
<p align="center" style="text-align:center;" class="testo">468</p>
</td>
<td width="120" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:72pt;">
<p align="center" style="text-align:center;" class="testo">1h40m</p>
</td>
<td width="180" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:108pt;">
<p align="center" style="text-align:center;" class="testo">966 Kb</p>
</td>
<td width="186" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:111.7pt;">
<p align="center" style="text-align:center;" class="testo">20</p>
</td>
</tr>
</tbody>
</table>
<p class="DidaCarattere"><span>Tab. 3 test su <a rel="nofollow"  href="http://www.univaq.it/"> www.univaq.it</a></span></p>
<p class="testo">Sphider è il crawl che si è comportato meglio, avendo indicizzato più file di tutti in tempi contenuti. In realtà, i file analizzati raggiungevano il numero di 5662, ma il fatto che ne siano stati indicizzati solo la metà rappresenta un dato positivo, visto che non sono stati considerati quelli con un contenuto minore di 10 parole.&nbsp;</p>
<p class="testo">Inoltre, possiamo evidenziare la grossa dimensione creata da Nutch, grazie al mantenimento delle pagine in cache e dalla memorizzazione della struttura HTML.</p>
<p class="testo">Phpdig al contrario, non riesce a eguagliare i risultati ottenuti dagli altri motori di ricerca poiché il sito <a rel="nofollow"  href="http://www.univaq.it/"> www.univaq.it</a> è composto da frames e il crawler non riesce a riconoscere i collegamenti tra le varie pagine. Nonostante abbia cercato di risolvere il problema guidando lo spider attraverso il file project.htm, menù principale del sito, non ho ottenuto un considerevole miglioramento.</p>
<p class="testo">Il secondo sito scelto per i test è <a rel="nofollow"  href="http://www.arredamenti-casa.com/"> www.arredamenti-casa.com</a>, sito di modeste dimensioni che non possiede frames o codici javascript, ma solo link href (Tab. 4).</p>
<table cellspacing="0" cellpadding="0" border="1" class="MsoTableGrid" style="border:medium none;border-collapse:collapse;">
<tbody>
<tr style="height:41.05pt;">
<td width="115" valign="top" style="border:1pt solid windowtext;padding:0cm 5.4pt;width:69.15pt;height:41.05pt;">
<p align="center" style="text-align:center;" class="testo">Crawl</p>
</td>
<td width="89" valign="top" style="border-style:solid solid solid none;border-color:windowtext windowtext windowtext;border-width:1pt 1pt 1pt medium;padding:0cm 5.4pt;width:53.25pt;height:41.05pt;">
<p align="center" style="text-align:center;" class="testo">File</p>
</td>
<td width="120" valign="top" style="border-style:solid solid solid none;border-color:windowtext windowtext windowtext;border-width:1pt 1pt 1pt medium;padding:0cm 5.4pt;width:72pt;height:41.05pt;">
<p align="center" style="text-align:center;" class="testo">Time</p>
</td>
<td width="180" valign="top" style="border-style:solid solid solid none;border-color:windowtext windowtext windowtext;border-width:1pt 1pt 1pt medium;padding:0cm 5.4pt;width:108pt;height:41.05pt;">
<p align="center" style="text-align:center;" class="testo">Dim.Index</p>
</td>
<td width="186" valign="top" style="border-style:solid solid solid none;border-color:windowtext windowtext windowtext;border-width:1pt 1pt 1pt medium;padding:0cm 5.4pt;width:111.7pt;height:41.05pt;">
<p align="center" style="text-align:center;" class="testo">Depth</p>
</td>
</tr>
<tr>
<td width="115" valign="top" style="border-style:none solid solid;border-color:windowtext windowtext;border-width:medium 1pt 1pt;padding:0cm 5.4pt;width:69.15pt;">
<p align="center" style="text-align:center;" class="testo">HT://DIG</p>
</td>
<td width="89" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:53.25pt;">
<p align="center" style="text-align:center;" class="testo">519</p>
</td>
<td width="120" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:72pt;">
<p align="center" style="text-align:center;" class="testo">18m26s</p>
</td>
<td width="180" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:108pt;">
<p align="center" style="text-align:center;" class="testo">6,1 MB</p>
</td>
<td width="186" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:111.7pt;">
<p align="center" style="text-align:center;" class="testo">all</p>
</td>
</tr>
<tr>
<td width="115" valign="top" style="border-style:none solid solid;border-color:windowtext windowtext;border-width:medium 1pt 1pt;padding:0cm 5.4pt;width:69.15pt;">
<p align="center" style="text-align:center;" class="testo">NUTCH</p>
</td>
<td width="89" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:53.25pt;">
<p align="center" style="text-align:center;" class="testo">105</p>
</td>
<td width="120" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:72pt;">
<p align="center" style="text-align:center;" class="testo">8m13s</p>
</td>
<td width="180" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:108pt;">
<p align="center" style="text-align:center;" class="testo">8,2 MB</p>
</td>
<td width="186" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:111.7pt;">
<p align="center" style="text-align:center;" class="testo">10</p>
</td>
</tr>
<tr>
<td width="115" valign="top" style="border-style:none solid solid;border-color:windowtext windowtext;border-width:medium 1pt 1pt;padding:0cm 5.4pt;width:69.15pt;">
<p align="center" style="text-align:center;" class="testo">SPHIDER</p>
</td>
<td width="89" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:53.25pt;">
<p align="center" style="text-align:center;" class="testo">201</p>
</td>
<td width="120" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:72pt;">
<p align="center" style="text-align:center;" class="testo">14m38s</p>
</td>
<td width="180" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:108pt;">
<p align="center" style="text-align:center;" class="testo">5,86 MB</p>
</td>
<td width="186" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:111.7pt;">
<p align="center" style="text-align:center;" class="testo">10</p>
</td>
</tr>
<tr>
<td width="115" valign="top" style="border-style:none solid solid;border-color:windowtext windowtext;border-width:medium 1pt 1pt;padding:0cm 5.4pt;width:69.15pt;">
<p align="center" style="text-align:center;" class="testo">PHPDIG</p>
</td>
<td width="89" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:53.25pt;">
<p align="center" style="text-align:center;" class="testo">290</p>
</td>
<td width="120" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:72pt;">
<p align="center" style="text-align:center;" class="testo">45m32s</p>
</td>
<td width="180" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:108pt;">
<p align="center" style="text-align:center;" class="testo">2,7 MB</p>
</td>
<td width="186" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:111.7pt;">
<p align="center" style="text-align:center;" class="testo">10</p>
</td>
</tr>
</tbody>
</table>
<p class="DidaCarattere"><span>Tab. 4 test su <a rel="nofollow"  href="http://www.univaq.it/"> www.arredamenti-casa.com</a>.</span></p>
<p class="testo">È importante notare come ht://Dig indicizza molti più file degli altri, ma, ciò non rappresenta un dato positivo anzi, deriva da una non adeguata trattazione di file duplicati.</p>
<p class="MsoNormal">Ulteriormente si pone l&rsquo;attenzione su Phpdig che, come Ht://dig, riesce ad ottenere risultati unicamente nel caso in cui il sito in considerazione possiede solo link href.</p>
<p class="MsoNormal">Per gli altri crawler, infine, si conferma l&rsquo;analisi già svolta in precedenza.&nbsp; In termini di rapporto velocità dimensione indice, Nutch è quello che ha un rendimento migliore.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.crawlermotori.com/test-in-rete/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Test file system</title>
		<link>http://www.crawlermotori.com/test-file-system/</link>
		<comments>http://www.crawlermotori.com/test-file-system/#comments</comments>
		<pubDate>Wed, 10 Nov 2010 18:20:26 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[Test sui motori di ricerca nel web]]></category>

		<guid isPermaLink="false">http://d6db16afeecafe90b744ac2bc40b97ee_ffb37e1d7dc65eb974a49cf0e7f7b59e</guid>
		<description><![CDATA[Come primo dataset ho scelto il manuale in Php, composto da 5185 file per un totale di 25,4 MB, sia HTML che immagini; i risultati ottenuti sono riassunti in Tab.1.
    Crawl   File   Time   Dim.Index   %dim.index/dataset   Depth     HT://DIG   5174   ...]]></description>
			<content:encoded><![CDATA[<p class="MsoNormal">Come primo dataset ho scelto il manuale in Php, composto da 5185 file per un totale di 25,4 MB, sia HTML che immagini; i risultati ottenuti sono riassunti in Tab.1.</p>
<table cellspacing="0" cellpadding="0" border="1" class="MsoTableGrid" style="border:medium none;border-collapse:collapse;">
<tbody>
<tr style="height:41.05pt;">
<td width="115" valign="top" style="border:1pt solid windowtext;padding:0cm 5.4pt;width:69.15pt;height:41.05pt;">
<p align="center" style="text-align:center;" class="MsoNormal"><strong>Crawl</strong></p>
</td>
<td width="65" valign="top" style="border-style:solid solid solid none;border-color:windowtext windowtext windowtext;border-width:1pt 1pt 1pt medium;padding:0cm 5.4pt;width:38.8pt;height:41.05pt;">
<p align="center" style="text-align:center;" class="MsoNormal"><strong>File</strong></p>
</td>
<td width="114" valign="top" style="border-style:solid solid solid none;border-color:windowtext windowtext windowtext;border-width:1pt 1pt 1pt medium;padding:0cm 5.4pt;width:68.45pt;height:41.05pt;">
<p align="center" style="text-align:center;" class="MsoNormal"><strong>Time</strong></p>
</td>
<td width="135" valign="top" style="border-style:solid solid solid none;border-color:windowtext windowtext windowtext;border-width:1pt 1pt 1pt medium;padding:0cm 5.4pt;width:81pt;height:41.05pt;">
<p class="MsoNormal"><strong>Dim.Index</strong></p>
</td>
<td width="180" valign="top" style="border-style:solid solid solid none;border-color:windowtext windowtext windowtext;border-width:1pt 1pt 1pt medium;padding:0cm 5.4pt;width:108pt;height:41.05pt;">
<p class="MsoNormal"><strong>%dim.index/dataset</strong></p>
</td>
<td width="81" valign="top" style="border-style:solid solid solid none;border-color:windowtext windowtext windowtext;border-width:1pt 1pt 1pt medium;padding:0cm 5.4pt;width:48.7pt;height:41.05pt;">
<p align="center" style="text-align:center;" class="MsoNormal"><strong>Depth</strong></p>
</td>
</tr>
<tr>
<td width="115" valign="top" style="border-style:none solid solid;border-color:windowtext windowtext;border-width:medium 1pt 1pt;padding:0cm 5.4pt;width:69.15pt;">
<p align="center" style="text-align:center;" class="MsoNormal">HT://DIG</p>
</td>
<td width="65" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:38.8pt;">
<p align="center" style="text-align:center;" class="MsoNormal">5174</p>
</td>
<td width="114" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:68.45pt;">
<p align="center" style="text-align:center;" class="MsoNormal">03m56 s</p>
</td>
<td width="135" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:81pt;">
<p align="center" style="text-align:center;" class="MsoNormal">12,5 MB</p>
</td>
<td width="180" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:108pt;">
<p align="center" style="text-align:center;" class="MsoNormal">49,21 %</p>
</td>
<td width="81" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:48.7pt;">
<p align="center" style="text-align:center;" class="MsoNormal">ALL</p>
</td>
</tr>
<tr>
<td width="115" valign="top" style="border-style:none solid solid;border-color:windowtext windowtext;border-width:medium 1pt 1pt;padding:0cm 5.4pt;width:69.15pt;">
<p align="center" style="text-align:center;" class="MsoNormal">NUTCH</p>
</td>
<td width="65" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:38.8pt;">
<p align="center" style="text-align:center;" class="MsoNormal">5180</p>
</td>
<td width="114" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:68.45pt;">
<p align="center" style="text-align:center;" class="MsoNormal">05m32s</p>
</td>
<td width="135" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:81pt;">
<p align="center" style="text-align:center;" class="MsoNormal">15,7 MB</p>
</td>
<td width="180" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:108pt;">
<p align="center" style="text-align:center;" class="MsoNormal">61,81 %</p>
</td>
<td width="81" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:48.7pt;">
<p align="center" style="text-align:center;" class="MsoNormal">10</p>
</td>
</tr>
<tr>
<td width="115" valign="top" style="border-style:none solid solid;border-color:windowtext windowtext;border-width:medium 1pt 1pt;padding:0cm 5.4pt;width:69.15pt;">
<p align="center" style="text-align:center;" class="MsoNormal">SPHIDER</p>
</td>
<td width="65" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:38.8pt;">
<p align="center" style="text-align:center;" class="MsoNormal">5172</p>
</td>
<td width="114" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:68.45pt;">
<p align="center" style="text-align:center;" class="MsoNormal">12m27s</p>
</td>
<td width="135" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:81pt;">
<p align="center" style="text-align:center;" class="MsoNormal">25,89 MB</p>
</td>
<td width="180" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:108pt;">
<p align="center" style="text-align:center;" class="MsoNormal">101,9 %</p>
</td>
<td width="81" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:48.7pt;">
<p align="center" style="text-align:center;" class="MsoNormal">20</p>
</td>
</tr>
<tr>
<td width="115" valign="top" style="border-style:none solid solid;border-color:windowtext windowtext;border-width:medium 1pt 1pt;padding:0cm 5.4pt;width:69.15pt;">
<p align="center" style="text-align:center;" class="MsoNormal">PHPDIG</p>
</td>
<td width="65" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:38.8pt;">
<p align="center" style="text-align:center;" class="MsoNormal">1228</p>
</td>
<td width="114" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:68.45pt;">
<p align="center" style="text-align:center;" class="MsoNormal">1m52s</p>
</td>
<td width="135" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:81pt;">
<p align="center" style="text-align:center;" class="MsoNormal">1,4 MB</p>
</td>
<td width="180" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:108pt;">
<p align="center" style="text-align:center;" class="MsoNormal">5,5 %</p>
</td>
<td width="81" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:48.7pt;">
<p align="center" style="text-align:center;" class="MsoNormal">20</p>
</td>
</tr>
</tbody>
</table>
<p class="DidaCarattere">Tab. 1 test su filesystem documentazione php</p>
<p class="MsoNormal">In questo e nel successivo test sono stati presi in considerazione il numero di file indicizzati, il tempo, la dimensione dell&rsquo;indice e il rapporto, in percentuale, tra dimensione del dataset e dell&rsquo;indice.</p>
<p class="MsoNormal">Per il secondo test, ho aggiunto alla documentazione precedente anche quella dell&rsquo;apache tomcat 5.5, per raggiungere un totale di 5559 file con dimensione di 31,4 MB; i risultati ottenuti sono in Tab. 2.&nbsp;</p>
<table cellspacing="0" cellpadding="0" border="1" class="MsoTableGrid" style="border:medium none;border-collapse:collapse;">
<tbody>
<tr style="height:41.05pt;">
<td width="115" valign="top" style="border:1pt solid windowtext;padding:0cm 5.4pt;width:69.15pt;height:41.05pt;">
<p align="center" style="text-align:center;" class="MsoNormal"><strong>Crawl</strong></p>
</td>
<td width="65" valign="top" style="border-style:solid solid solid none;border-color:windowtext windowtext windowtext;border-width:1pt 1pt 1pt medium;padding:0cm 5.4pt;width:38.8pt;height:41.05pt;">
<p align="center" style="text-align:center;" class="MsoNormal"><strong>File</strong></p>
</td>
<td width="114" valign="top" style="border-style:solid solid solid none;border-color:windowtext windowtext windowtext;border-width:1pt 1pt 1pt medium;padding:0cm 5.4pt;width:68.45pt;height:41.05pt;">
<p align="center" style="text-align:center;" class="MsoNormal"><strong>Time</strong></p>
</td>
<td width="135" valign="top" style="border-style:solid solid solid none;border-color:windowtext windowtext windowtext;border-width:1pt 1pt 1pt medium;padding:0cm 5.4pt;width:81pt;height:41.05pt;">
<p class="MsoNormal"><strong>Dim.Index</strong></p>
</td>
<td width="180" valign="top" style="border-style:solid solid solid none;border-color:windowtext windowtext windowtext;border-width:1pt 1pt 1pt medium;padding:0cm 5.4pt;width:108pt;height:41.05pt;">
<p class="MsoNormal"><strong>%dim.index/dataset</strong></p>
</td>
<td width="81" valign="top" style="border-style:solid solid solid none;border-color:windowtext windowtext windowtext;border-width:1pt 1pt 1pt medium;padding:0cm 5.4pt;width:48.7pt;height:41.05pt;">
<p align="center" style="text-align:center;" class="MsoNormal"><strong>Depth</strong></p>
</td>
</tr>
<tr>
<td width="115" valign="top" style="border-style:none solid solid;border-color:windowtext windowtext;border-width:medium 1pt 1pt;padding:0cm 5.4pt;width:69.15pt;">
<p align="center" style="text-align:center;" class="MsoNormal">HT://DIG</p>
</td>
<td width="65" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:38.8pt;">
<p align="center" style="text-align:center;" class="MsoNormal">5498</p>
</td>
<td width="114" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:68.45pt;">
<p align="center" style="text-align:center;" class="MsoNormal">11m31s</p>
</td>
<td width="135" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:81pt;">
<p align="center" style="text-align:center;" class="MsoNormal">13,73 MB</p>
</td>
<td width="180" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:108pt;">
<p align="center" style="text-align:center;" class="MsoNormal">43,75 %</p>
</td>
<td width="81" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:48.7pt;">
<p align="center" style="text-align:center;" class="MsoNormal">ALL</p>
</td>
</tr>
<tr>
<td width="115" valign="top" style="border-style:none solid solid;border-color:windowtext windowtext;border-width:medium 1pt 1pt;padding:0cm 5.4pt;width:69.15pt;">
<p align="center" style="text-align:center;" class="MsoNormal">NUTCH</p>
</td>
<td width="65" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:38.8pt;">
<p align="center" style="text-align:center;" class="MsoNormal">5528</p>
</td>
<td width="114" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:68.45pt;">
<p align="center" style="text-align:center;" class="MsoNormal">6m41s</p>
</td>
<td width="135" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:81pt;">
<p align="center" style="text-align:center;" class="MsoNormal">19,46 MB</p>
</td>
<td width="180" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:108pt;">
<p align="center" style="text-align:center;" class="MsoNormal">62 %</p>
</td>
<td width="81" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:48.7pt;">
<p align="center" style="text-align:center;" class="MsoNormal">10</p>
</td>
</tr>
<tr>
<td width="115" valign="top" style="border-style:none solid solid;border-color:windowtext windowtext;border-width:medium 1pt 1pt;padding:0cm 5.4pt;width:69.15pt;">
<p align="center" style="text-align:center;" class="MsoNormal">SPHIDER</p>
</td>
<td width="65" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:38.8pt;">
<p align="center" style="text-align:center;" class="MsoNormal">5519</p>
</td>
<td width="114" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:68.45pt;">
<p align="center" style="text-align:center;" class="MsoNormal">16m38s</p>
</td>
<td width="135" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:81pt;">
<p align="center" style="text-align:center;" class="MsoNormal">31,44 MB</p>
</td>
<td width="180" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:108pt;">
<p align="center" style="text-align:center;" class="MsoNormal">100,14 %</p>
</td>
<td width="81" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:48.7pt;">
<p align="center" style="text-align:center;" class="MsoNormal">20</p>
</td>
</tr>
<tr>
<td width="115" valign="top" style="border-style:none solid solid;border-color:windowtext windowtext;border-width:medium 1pt 1pt;padding:0cm 5.4pt;width:69.15pt;">
<p align="center" style="text-align:center;" class="MsoNormal">PHPDIG</p>
</td>
<td width="65" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:38.8pt;">
<p align="center" style="text-align:center;" class="MsoNormal">1365</p>
</td>
<td width="114" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:68.45pt;">
<p align="center" style="text-align:center;" class="MsoNormal">3m10s</p>
</td>
<td width="135" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:81pt;">
<p align="center" style="text-align:center;" class="MsoNormal">2,1 MB</p>
</td>
<td width="180" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:108pt;">
<p align="center" style="text-align:center;" class="MsoNormal">6,68 %</p>
</td>
<td width="81" valign="top" style="border-style:none solid solid none;border-color:windowtext windowtext;border-width:medium 1pt 1pt medium;padding:0cm 5.4pt;width:48.7pt;">
<p align="center" style="text-align:center;" class="MsoNormal">20</p>
</td>
</tr>
</tbody>
</table>
<p class="DidaCarattere">Tab. 2 test su filesystem documentazione php + apache tomcat 5.5</p>
<p class="MsoNormal">Il numero di file indicizzati da tutti i motori di ricerca è pressoché lo stesso, ma quelli che si distinguono per velocità di indicizzazione e dimensione dell&rsquo;indice sono Nutch e ht://Dig. Quello invece che si evidenzia per la sua negatività è Phpdig, in quanto riesce a malapena&nbsp; ad indicizzare 1/5 dei file rispetto agl&rsquo;altri. Sphider infine, nonostante una buona capacità di indicizzazione presenta problemi a livello di velocità e compressione del dataset.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.crawlermotori.com/test-file-system/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Test sui motori di ricerca</title>
		<link>http://www.crawlermotori.com/test-sui-motori-di-ricerca/</link>
		<comments>http://www.crawlermotori.com/test-sui-motori-di-ricerca/#comments</comments>
		<pubDate>Wed, 10 Nov 2010 18:20:26 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[Test sui motori di ricerca nel web]]></category>

		<guid isPermaLink="false">http://d6db16afeecafe90b744ac2bc40b97ee_ed461d731538b7c62b6fb065729cb3d8</guid>
		<description><![CDATA[Per confrontare le caratteristiche di scalabilità, efficienza e qualità delle risposte alla query, ho effettuato una serie di test su diversi tipi di dataset. 
Innanzitutto ho scelto due documentazioni html di dimensioni diverse nel filesystem, misur...]]></description>
			<content:encoded><![CDATA[<p class="MsoNormal">Per confrontare le caratteristiche di scalabilità, efficienza e qualità delle risposte alla query, ho effettuato una serie <strong>di test su diversi tipi di dataset. </strong></p>
<p class="MsoNormal">Innanzitutto ho scelto due documentazioni html di dimensioni diverse nel filesystem, misurando i <strong>tempi impiegati dai motori per indicizzarle.</strong></p>
<p class="MsoNormal">In rete poi, sono stati trattati due siti internet di dimensione crescente per valutare la funzionalità dei crawler.</p>
<p class="MsoNormal">&nbsp;Infine, ho compiuto <strong>query sugl&rsquo;indici creati</strong>, valutando <strong>tempi di risposta</strong> e qualità dei risultati restituiti.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.crawlermotori.com/test-sui-motori-di-ricerca/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Phpdig: conclusioni</title>
		<link>http://www.crawlermotori.com/phpdig-conclusioni/</link>
		<comments>http://www.crawlermotori.com/phpdig-conclusioni/#comments</comments>
		<pubDate>Wed, 10 Nov 2010 18:16:13 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[Motore di ricerca Phpdig]]></category>

		<guid isPermaLink="false">http://b4b745809517797c6d87160c1d7834c9_9884d8fd8f46cc1d54db0467fe139747</guid>
		<description><![CDATA[Phpdig è un software di molteplici qualità che lo rendono versatile per tutti i tipi di ambienti in cui viene usato. L&#8217;istallazione, semplice e veloce, può essere eseguita con il winzard; il pannello di amministrazione ed un unico file di conf...]]></description>
			<content:encoded><![CDATA[<p class="MsoNormal">Phpdig è un software di molteplici qualità che lo rendono versatile per tutti i tipi di ambienti in cui viene usato. L&rsquo;istallazione, semplice e veloce, può essere eseguita con il winzard; il pannello di amministrazione ed un unico file di configurazione per i parser esterni, facilita tutte le operazioni, dal crawling alla ricerca.</p>
<p class="MsoNormal">La possibilità di fare crawling tra siti &ldquo;vicini&rdquo; (a distanza di un link) permettono di indicizzare una ristretta nicchia di domini che, escludendo spam e pubblicità, possono riguardare lo stesso insieme di argomenti.</p>
<p class="MsoNormal">Le query per wildcard sono molto funzionali, anche se aumentano drasticamente il tempo di risposta. Altro fattore negativo è la mancanza di un&rsquo;adeguata rimozione dei duplicati che non garantisce un&rsquo;ottima efficienza nella restituzione dei risultati.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.crawlermotori.com/phpdig-conclusioni/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Phpdig: query</title>
		<link>http://www.crawlermotori.com/phpdig-query/</link>
		<comments>http://www.crawlermotori.com/phpdig-query/#comments</comments>
		<pubDate>Wed, 10 Nov 2010 18:16:13 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[Motore di ricerca Phpdig]]></category>

		<guid isPermaLink="false">http://b4b745809517797c6d87160c1d7834c9_374bbf81d823cc66c8b1719ad8c1091b</guid>
		<description><![CDATA[Le interrogazioni possono essere effettuate attraverso l&#8217;interfaccia web all&#8217;URL http://localhost/phpdig/search.php.

I risultati delle ricerche sono strutturati in questo modo:
nella prima riga si evidenzia il titolo della notizia che coll...]]></description>
			<content:encoded><![CDATA[<p class="MsoNormal">Le interrogazioni possono essere effettuate attraverso l&rsquo;interfaccia web all&rsquo;URL http://localhost/phpdig/search.php.</p>
<p>I risultati delle ricerche sono strutturati in questo modo:<br />
nella prima riga si evidenzia il titolo della notizia che collega al contenuto, titolo che è preceduto dalla percentuale di aderenza della notizia alle chiavi di ricerca; sotto si evidenzia il dominio su cui si sta effettuando la ricerca; accanto c&rsquo;è la sezione in cui si trova il contenuto. Al di sotto di tutto si trova la descrizione minima della pagina a cui si rimanda. </p>
<p>È da notare che le keywords inserite nella form del motore di ricerca, sono evidenziate per permettere un&rsquo;immediata consapevolezza del risultato. </p>
<p>È possibile comunque, sin dall&rsquo;inizio, operare una scelta sul numero dei risultati da visualizzare e sul luogo dove effettuare la ricerca cioè, se in un dominio o in un sottodominio.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.crawlermotori.com/phpdig-query/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Phpdig: prerequisiti installazione</title>
		<link>http://www.crawlermotori.com/phpdig-prerequisiti-installazione/</link>
		<comments>http://www.crawlermotori.com/phpdig-prerequisiti-installazione/#comments</comments>
		<pubDate>Wed, 10 Nov 2010 18:16:12 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[Motore di ricerca Phpdig]]></category>

		<guid isPermaLink="false">http://b4b745809517797c6d87160c1d7834c9_ddf09b620296106117187e2ef951b84d</guid>
		<description><![CDATA[I prerequisiti per l&#8217;istallazione sono:

&#8226; Apache come server web.
&#8226; MySQL per il database.

Una volta scompattato il file e posto all&#8217;interno del server, si apre il file config.php e si settano username_login e password. Successi...]]></description>
			<content:encoded><![CDATA[<p class="MsoNormal">I prerequisiti per l&rsquo;istallazione sono:</p>
<p>&bull; Apache come server web.<br />
&bull; MySQL per il database.</p>
<p>Una volta scompattato il file e posto all&rsquo;interno del server, si apre il file config.php e si settano username_login e password. Successivamente si accede a http://localhost/[PHPDIG_DIR]/admin/install.php, dove [PHPDIG_DIR] è il nome dato al file scompattato, e si riempiono i campi rispettando l&rsquo;user, la password, etc&hellip; settati nel file config.php. Infine si procede all&rsquo;istallazione, dando ovviamente un nome al database.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.crawlermotori.com/phpdig-prerequisiti-installazione/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Motore di ricerca di PHpdig</title>
		<link>http://www.crawlermotori.com/motore-di-ricerca-di-phpdig/</link>
		<comments>http://www.crawlermotori.com/motore-di-ricerca-di-phpdig/#comments</comments>
		<pubDate>Wed, 10 Nov 2010 18:16:12 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[Motore di ricerca Phpdig]]></category>

		<guid isPermaLink="false">http://b4b745809517797c6d87160c1d7834c9_f74a285d48548e806b900c15f2e560d2</guid>
		<description><![CDATA[Per cercare le pagine da indicizzare Phpdig [19] segue i link href che gli sono mostrati dal web browser. I link possono essere in AreaMap, o semplici come window.open(),window.location() JavaScript.
Phpdig supporta redirections e non attraversa direct...]]></description>
			<content:encoded><![CDATA[<p class="MsoNormal">Per cercare le pagine da indicizzare Phpdig [19] segue i link href che gli sono mostrati dal web browser. I link possono essere in AreaMap, o semplici come window.open(),window.location() JavaScript.<br />
Phpdig supporta redirections e non attraversa directory o database tables per indicizzare contenuti.</p>
<p>Di default, Phpdig non esce dal dominio che gli si definisce per l&rsquo;indicizzazione. Varie opzioni di indicizzazione sono scelte dall&rsquo;user, incluso un parametro per estendere l&rsquo;indicizzazione ai sottodomini e un parametro per limitare la stessa ad una specifica directory. </p>
<p>Si può limitare l&rsquo;indicizzazione così che il massimo dei link trovati sia ((x*y*)+1), dove x è il link e y la profondità. In alternativa si può indicizzare una sola pagina o si possono settare le opzioni per indicizzare un maggior numero di pagine. </p>
<p>Phpdig indicizza tutte le parole del documento e, le parole del titolo, possono avere un peso molto importante ai fini del risultato. Phpdig indicizza html e file di testo autonomamente, può inoltre indicizzare php, Ms-word, Ms-excel e Ms-powerPoint, se si istallano esterni binari sul server preposto a tale scopo. </p>
<p>Quando Phpdig prova a leggere un file robots.txt al server web root, considera anche meta robots tags. L&rsquo;ultima modifica dell&rsquo;header è memorizzata nel database per evitare indicizzazioni ridondanti.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.crawlermotori.com/motore-di-ricerca-di-phpdig/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>ht://Dig aut Lhtdig: conclusioni</title>
		<link>http://www.crawlermotori.com/htdig-aut-lhtdig-conclusioni/</link>
		<comments>http://www.crawlermotori.com/htdig-aut-lhtdig-conclusioni/#comments</comments>
		<pubDate>Wed, 10 Nov 2010 17:40:47 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[Motore di ricerca ht://Dig]]></category>

		<guid isPermaLink="false">http://www.crawlermotori.com/?p=52</guid>
		<description><![CDATA[Per concludere, data la sua versatilità e la sua semplice configurazione, ht://Dig è uno dei motori di ricerca più usati per i singoli domini. Punti a favore sono: la possibilità, grazie a parser esterni, di indicizzare molti tipi di file con vari algoritmi (molto utile è quello per i sinonimi); la possibilità di rieffettuare il [...]]]></description>
			<content:encoded><![CDATA[<p class="MsoNormal">Per concludere, data la sua versatilità e la sua semplice  configurazione, ht://Dig è uno dei motori di ricerca più usati per i singoli  domini. Punti a favore sono: la possibilità, grazie a parser esterni, di  indicizzare molti tipi di file con vari algoritmi (molto utile è quello per i  sinonimi); la possibilità di rieffettuare il crawling senza intaccare il db  necessario per le ricerche.</p>
<p class="MsoNormal">Per la fase di searching, inoltre, è positiva la facoltà di  mutare la formula di ranking e restringere la ricerca a parti del dominio; in  più, la modifica dei template per l&rsquo;interfaccia web permette di integrarla a  piacimento in una propria. Il riconoscimento dei Meta tag e il rispetto delle  regole imposte dal file robots.txt, consentono di sfruttare al meglio le  metainformazioni che i webmaster inseriscono nel codice HTML.</p>
<p class="MsoNormal">Nonostante il crawler sia efficiente, non è designato per  l&rsquo;intero web e quindi non si può scalare più di tanto. Per quanto riguarda il  filesystem, ht://Dig è limitato, non prevedendo un meccanismo appropriato per  effettuare l&rsquo;indicizzazione di più directory senza specificare i path dei file.  In più, l&rsquo;utilizzo degli algoritmi fuzzy possono far decadere la velocità di  risposta in maniera pesante e la mancanza di una rimozione dei duplicati può  fare ritrovare più volte lo stesso documento.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.crawlermotori.com/htdig-aut-lhtdig-conclusioni/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>

