vi presento il lavoro che ho svolto con la supervisione del prof.micarelli e del dott.biancalana, che ha riguardato un sistema di personalizzazione della ricerca sul web
il lavoro da me svolto si è articolato nelle fasi seguenti: inizialmente ho studiato il sistema esistente, Nereau, ne ho individuato le carenze e, dopo un approfondito studio della letteratura, ho ideato delle modifiche da apportare al sistema. Queste consistono nell’introduzione di un Profilo Globale che contiene delle informazioni utili agli scopi di tutti gli utenti del sistema e che. Dopo aver implementato e applicato le modifiche, ho valutato come queste hanno modificato le prestazioni del sistema originario.
Introduciamo il funzionamento del sistema esistente: questo effettua una personalizzazione della ricerca sul web attraverso l’espansione della query. L’espansione è ottenuta analizzando 2 tipi di informazione, estratti dalle pagine visitate dall’utente: -i termini contenuti nelle pagine -i tags che gli utenti dei servizi di socialbookmarking (delicious e stumbleupon) associano alle pagine visitate. termini e tags vengono organizzati in una matrice tridimensionale di co-occorrenza, utile per distinguere i diversi contesti semantici dei termini (immagine)
Nel momento in cui nel profilo sono presenti delle informazioni, si può effettuare l’espansione personalizzata della query immessa dall’utente. Usando la matrice tridimensionale di co-occorrenza appena illustrata, si estraggono i tags più rilevanti per l’insieme di termini della query; nella matrice, ad ognuno di essi è associato un vettore con i pesi dei termini correlati; scegliendo i primi k termini più rilevanti del vettore, si produce un’espansione. (immagine)
Il limite che ho individuato nella procedura appena illustrata è quello di non considerare le eventuali relazioni semantiche tra i tag ai fini dell’espansione. Questo limite può dare origine a un elevato numero di espansioni uguali, con bassa rilevanza dei termini usati. La soluzione proposta è quella di effettuare le espansioni della query partendo da gruppi di tags correlati semanticamente.
(immagini)
A questo proposito è utile introdurre il concetto di folksonomia, una parola che indica quello che accade nei sistemi di socialbookmarking: si realizza una tassonomia fatta dalle persone, gli utenti stessi del servizio, attraverso l’annotazione di risorse (pagine web) con parole scelte liberamente, appunto i tags. Dagli studi effettuati risulta diffusa e “comprovata” la possibilità di estrarre dalle folksonomie stesse informazioni semantiche che riguardano i tags che le compongono. A questo scopo si possono usare diverse strategie, ma quella che ho scelto e implementato è quella mostrata in figura: ogni tag è rappresentato da un vettore multidimensionale, i cui valori rappresentano il numero di volte che un tag è stato assegnato alla risorsa (sito web) n-esima. Con una rappresentazione vettoriale di questo tipo, è possibile misurare la distanza tra due di essi con la coseno somiglianza. ed eventualmente visualizzare il risultato in un grafo dove i nodi sono i tag e la loro distanza semantica è la distanza tra loro.
Per analizzare Insieme di tecniche statistiche il cui obiettivo è individuare raggruppamenti di oggetti che abbiano due caratteristiche complementari: A) al loro interno, c’è massima somiglianza tra gli elementi che li costituiscono (gli oggetti appartenenti a ciascun cluster);B ) tra di loro, la massima differenza.
Sistema è composto da interfaccia web e un server il server riceve i termini della ricerca inseriti dall’utente l’interfaccia presenta i risultati