image1

Crawlar Motori - Indicizzazione motori di ricerca

Categorie

Internet aut Web

Dalla sua nascita la rete Internet si è continuamente espansa fino ad assumere le enormi proporzioni attuali. Il Web nacque inizial

Motore di ricerca ht://Dig

Informazioni htdig aut ht:/Dig Lhtdig, o meglio ht://Dig [18] è un progetto di ricerca in stato avanzato, un programma in gr

Motore di ricerca Sphider

Informazioni Sphider Sphider [16], cioè ragno, è un nuovo motore in onore agli spider di google, chiamato così per evidenziare la sua

Motore di ricerca di PHpdig

Per cercare le pagine da indicizzare Phpdig [19] segue i link href che gli sono mostrati dal web browser. I link possono essere in AreaMap, o se

Motore di ricerca Nutch

Informazioni Nutch È uno dei più famosi motori di ricerca open-source oggi disponibili [17]. Benché sia un pro

Test sui motori di ricerca nel web

Per confrontare le caratteristiche di scalabilità, efficienza e qualità delle risposte alla query, ho effettuato una serie



Ultimi Articoli Inseriti

Considerazioni finali sui Crawler analizzati

Alla luce dei risultati ottenuti nei test e dalle caratteristiche supportate da ognuno dei motori di ricerca studiati, è possibile t

Ranking System

Le query poste ad una search interface contengono generalmente un numero variabile di keywords e il motore di ricerca risponde estraendo dalle prop

ht://Dig aut Lhtdig: conclusioni

Per concludere, data la sua versatilità e la sua semplice configurazione, ht://Dig è uno dei motori di ricerca più usati pe

Indicizzazione in locale

PHt://Dig non è stato progettato esplicitamente per il filesystem, tuttavia può compiere indicizzazione in locale nella stessa maniera in cui l

Prerequisiti e installazione ht://Dig aut htdig

LEssendo ht://Dig sviluppato sotto Unix e in C++, qualsiasi distribuzione Linux è adatta; per compilare sia i sorgenti che alcune libreri

Nutch: query

I Per compiere ricerche sull’indice precedentemente creato, è necessario installare l’applicazione JSP su Jakarta Tomcat. &Eg

Indicizzazione locale o intranet

I Prima di far partire il crawler, dobbiamo creare un semplice file di testo senza estensione nella sottocartella urls e scrivere in esso l&rsqu

Phpdig: conclusioni

Phpdig è un software di molteplici qualità che lo rendono versatile per tutti i tipi di ambienti in cui viene usato. L’istal

Phpdig: prerequisiti installazione

I prerequisiti per l’istallazione sono: • Apache come server web. • MySQL per il database.

Query Sphider

ILe interrogazioni possono essere effettuate attraverso l’interfaccia web all’URL http://localhost/sphider-1.3.1e/sphider/search.php.

Test file system

Come primo dataset ho scelto il manuale in Php, composto da 5185 file per un totale di 25,4 MB, sia HTML che immagini; i risultat

Test sulle Query

Per effettuare i test sulle query, ho scelto il dataset più grande, cioè composto dalla documentazione Php, più la documentazione

Crawler Module

Il Crawler (Spider) [6], si occupa di raccogliere documenti dalla rete a partire da un set S0 fornito in input. Da un punto di vista algoritmico qu

Indexer Module

I dati contenuti nel page repository vengono analizzati da un modulo Indexer. L'indexer costruisce tradizionalmente due strutture: il text index (o

ht://Dig aut Lhtdig: query

Per interrogare l’indice si utilizza il CGI htsearch, che è possibile trovare nella directory cgi-bin nel server

Indicizzazione in remoto

Prima di lanciare il crawler è necessario impostare il file di configurazione che si trova nella directory CONFIG_DIR; quello di default

Nutch: Conclusioni

La semplice istallazione e la facilità con cui può essere configurato, pongono Nutch alla portata di tutti i tipi di utenza. Esso

Indicizzazione intero Web

Per fare il crawling di tutto il web o anche di una sua piccola percentuale, sarebbero necessari cluster in funzione per varie settimane e un&rs

Prerequisiti e Istallazione Nutch

I prerequisiti per l’istallazione sono: Ambiente java 1.4: per l’esecuzione del codice java. Jaka

Phpdig: query

Le interrogazioni possono essere effettuate attraverso l’interfaccia web all’URL http://localhost/phpdig/search.php.

Conclusioni Sphider

Sphider è estremamente semplice da istallare e configurare. In negativo, si può rilevare l’incapacità di indicizzare il filesystem

Prerequisiti e Installazione Sphider

I prerequisiti per l’istallazione sono: • Apache come server web. • MySQL per il database.

Test in Rete

Il primo sito indicizzato è stato quello dell’Università degli studi dell’Aquila (