Sphider è estremamente semplice da istallare e configurare.
In negativo, si può rilevare l’incapacità di indicizzare il filesystem in quanto si sa muovere solo attraverso links, oltre a non essere in grado di procedere all’indicizzazione di siti contenenti più di 100000 pagine.
In positivo si segnala l’aderenza alle regole del robots.txt; la capacità di ignorare i link se nel tag è presente l’attributo rel=”nofollow” ed infine, l’inclusione di un’opzione in grado di escludere parti di pagine dall’indicizzazione, ad esempio quando alcune keywords appaiono nella maggior parte delle pagine, (come l’intestazione o il menu).
ILe interrogazioni possono essere effettuate attraverso l’interfaccia web all’URL http://localhost/sphider-1.3.1e/sphider/search.php.
I risultati delle ricerche sono strutturati in questo modo:
nella prima riga si evidenzia il titolo della notizia che collega al contenuto, questo titolo è preceduto dalla percentuale di aderenza della notizia alle chiavi di ricerca;
sotto viene indicata la data di pubblicazione e nella terza riga il punteggio della notizia ottenuto per sua aderenza alle chiavi o parole indicate nel campo di ricerca; affianco vengono indicate anche le parole trovate con un numero che evidenzia quante volte esse si ripetono nel testo.
Nel campo di ricerca come detto precedentemente, è possibile inserire anche intere frasi, ma Sphider elimina le parole più corte di 3 caratteri, quindi articoli, preposizioni ecc..
Il consiglio comunque, è di utilizzare parole non più corte di 4 caratteri per ottenere risultati soddisfacenti; infatti se si ricerca "Con un programma", allora la key "un" non viene proprio analizzata perché più corta di tre caratteri, ma quelle che rimangono sono "Con" e "programma". Ebbene "con", che è comune come parola, potrebbe sovvertire i risultati attesi poiché in una notizia potrebbe essere contenuta svariate volte e farla figurare in testa alla lista, mentre quello che interessa veramente è la key "Programma".
Specifico inoltre, che la ricerca è case insensitive, quindi "ProgRaMma" è uguale a "programma".
I prerequisiti per l’istallazione sono:
• Apache come server web.
• MySQL per il database.
Una volta compattato il file, bisogna copiarlo nel server e attraverso il database SQL, creare un nuovo database con il nome contenuto nel file database.php, a sua volta compreso nella cartella stessa.
A questo punto costruiamo delle tabelle già contenute nel file tables.sql.
Infine, immettendo nell’Url la dicitura “localhost” seguita dal nome dello spider si può accedere alla sezione admin e quindi al pannello di amministrazione prima citato ed analizzato.
3.2.2 Query
Le interrogazioni possono essere effettuate attraverso l’interfaccia web all’URL http://localhost/sphider-1.3.1e/sphider/search.php (Fig. 8).
I risultati delle ricerche sono strutturati in questo modo:
nella prima riga si evidenzia il titolo della notizia che collega al contenuto, questo titolo è preceduto dalla percentuale di aderenza della notizia alle chiavi di ricerca; sotto viene indicata la data di pubblicazione e nella terza riga il punteggio della notizia ottenuto per sua aderenza alle chiavi o parole indicate nel campo di ricerca; affianco vengono indicate anche le parole trovate con un numero che evidenzia quante volte esse si ripetono nel testo.
Nel campo di ricerca come detto precedentemente, è possibile inserire anche intere frasi, ma Sphider elimina le parole più corte di 3 caratteri, quindi articoli, preposizioni ecc.. Il consiglio comunque, è di utilizzare parole non più corte di 4 caratteri per ottenere risultati soddisfacenti; infatti se si ricerca "Con un programma", allora la key "un" non viene proprio analizzata perché più corta di tre caratteri, ma quelle che rimangono sono "Con" e "programma". Ebbene "con", che è comune come parola, potrebbe sovvertire i risultati attesi poiché in una notizia potrebbe essere contenuta svariate volte e farla figurare in testa alla lista, mentre quello che interessa veramente è la key "Programma".
Specifico inoltre, che la ricerca è case insensitive, quindi "ProgRaMma" è uguale a "programma".
Sphider [16], cioè ragno, è un nuovo motore in onore agli spider di google, chiamato così per evidenziare la sua capacità di infilarsi nel database e trovare velocemente le corrispondenze.
Sphider è usato da molti Webmaster che posseggono siti medio-grandi, infatti, questo piccolo motore di ricerca è in grado di indicizzare fino a 100.000 pagine, ma è anche un ottimo attrezzo di analisi per i propri siti web.
È scritto interamente in PHP, usando MySQL come relativa base di dati. Esso ha la possibilità di utilizzare gli operatori booleani AND e OR e ricerca avanzata; è in grado di indicizzare pagine statiche e dinamiche, rispettando tutte le regole del file robots.txt e configurando bene il file conf.php, è anche in grado di indicizzare formati .pdf e .doc.
Sphider ha l’opzione di aggiungere e raggruppare siti nelle categorie, ha la possibilità di cercare siti in una categoria o sottocategoria, è Context-sensitive ed inoltre, non si limita a cercare e proporre solo la parola richiesta dell’utente, ma fa una ricerca anche su parole che hanno la stessa radice linguistica; ad esempio se un utente cercherà la parola "Danza" il motore ricercherà e proporrà nei sui risultati anche le parole "Danzatrice" e "Danzatore" ect…
Sphider ha una semplice interfaccia grafica per l’amministratore, dove è possibile aggiungere i siti da indicizzare scegliendone la profondità ed è possibile anche visualizzare le statistiche del tipo: vedere il top delle keyword, le grandezze delle pagine, le ricerche più effettuate ecc….
Sphider usa le espressioni regolari per estrarre i contenuti dalle pagine web, anche se l’estrazione dei contenuti non è molto veloce, la ricerca è molto rapida.