Crawlar Motori - Indicizzazione motori di ricerca
Categorie
Internet aut Web
Dalla sua nascita la rete Internet si è continuamente espansa fino ad assumere le enormi proporzioni attuali. Il Web nacque inizial
Motore di ricerca ht://Dig
Informazioni htdig aut ht:/Dig Lhtdig, o meglio ht://Dig [18] è un progetto di ricerca in stato avanzato, un programma in gr
Motore di ricerca Sphider
Informazioni Sphider Sphider [16], cioè ragno, è un nuovo motore in onore agli spider di google, chiamato così per evidenziare la sua
Motore di ricerca di PHpdig
Per cercare le pagine da indicizzare Phpdig [19] segue i link href che gli sono mostrati dal web browser. I link possono essere in AreaMap, o se
Motore di ricerca Nutch
Informazioni Nutch È uno dei più famosi motori di ricerca open-source oggi disponibili [17]. Benché sia un pro
Test sui motori di ricerca nel web
Per confrontare le caratteristiche di scalabilità, efficienza e qualità delle risposte alla query, ho effettuato una serie
Ultimi Articoli Inseriti
Considerazioni finali sui Crawler analizzati
Alla luce dei risultati ottenuti nei test e dalle caratteristiche supportate da ognuno dei motori di ricerca studiati, è possibile t
Ranking System
Le query poste ad una search interface contengono generalmente un numero variabile di keywords e il motore di ricerca risponde estraendo dalle prop
ht://Dig aut Lhtdig: conclusioni
Per concludere, data la sua versatilità e la sua semplice configurazione, ht://Dig è uno dei motori di ricerca più usati pe
Indicizzazione in locale
PHt://Dig non è stato progettato esplicitamente per il filesystem, tuttavia può compiere indicizzazione in locale nella stessa maniera in cui l
Prerequisiti e installazione ht://Dig aut htdig
LEssendo ht://Dig sviluppato sotto Unix e in C++, qualsiasi distribuzione Linux è adatta; per compilare sia i sorgenti che alcune libreri
Nutch: query
I Per compiere ricerche sull’indice precedentemente creato, è necessario installare l’applicazione JSP su Jakarta Tomcat. &Eg
Indicizzazione locale o intranet
I Prima di far partire il crawler, dobbiamo creare un semplice file di testo senza estensione nella sottocartella urls e scrivere in esso l&rsqu
Phpdig: conclusioni
Phpdig è un software di molteplici qualità che lo rendono versatile per tutti i tipi di ambienti in cui viene usato. L’istal
Phpdig: prerequisiti installazione
I prerequisiti per l’istallazione sono: • Apache come server web. • MySQL per il database.
Query Sphider
ILe interrogazioni possono essere effettuate attraverso l’interfaccia web all’URL http://localhost/sphider-1.3.1e/sphider/search.php.
Test file system
Come primo dataset ho scelto il manuale in Php, composto da 5185 file per un totale di 25,4 MB, sia HTML che immagini; i risultat
Test sulle Query
Per effettuare i test sulle query, ho scelto il dataset più grande, cioè composto dalla documentazione Php, più la documentazione
Crawler Module
Il Crawler (Spider) [6], si occupa di raccogliere documenti dalla rete a partire da un set S0 fornito in input. Da un punto di vista algoritmico qu
Indexer Module
I dati contenuti nel page repository vengono analizzati da un modulo Indexer. L'indexer costruisce tradizionalmente due strutture: il text index (o
ht://Dig aut Lhtdig: query
Per interrogare l’indice si utilizza il CGI htsearch, che è possibile trovare nella directory cgi-bin nel server
Indicizzazione in remoto
Prima di lanciare il crawler è necessario impostare il file di configurazione che si trova nella directory CONFIG_DIR; quello di default
Nutch: Conclusioni
La semplice istallazione e la facilità con cui può essere configurato, pongono Nutch alla portata di tutti i tipi di utenza. Esso
Indicizzazione intero Web
Per fare il crawling di tutto il web o anche di una sua piccola percentuale, sarebbero necessari cluster in funzione per varie settimane e un&rs
Prerequisiti e Istallazione Nutch
I prerequisiti per l’istallazione sono: Ambiente java 1.4: per l’esecuzione del codice java. Jaka
Phpdig: query
Le interrogazioni possono essere effettuate attraverso l’interfaccia web all’URL http://localhost/phpdig/search.php.
Conclusioni Sphider
Sphider è estremamente semplice da istallare e configurare. In negativo, si può rilevare l’incapacità di indicizzare il filesystem
Prerequisiti e Installazione Sphider
I prerequisiti per l’istallazione sono: • Apache come server web. • MySQL per il database.
Test in Rete
Il primo sito indicizzato è stato quello dell’Università degli studi dell’Aquila (