SlideShare ist ein Scribd-Unternehmen logo
1 von 121
Università degli Studi di Salerno
                Facoltà di Lettere e Filosofia
   Laurea Specialistica in Comunicazione d’Impresa e Pubblica




      Tesi in Informatica per il commercio elettronico




L’applicazione del data mining alla personalizzazione
               dei siti di e-commerce:
     dal web usage mining al social data mining

                                           Tiziana Capozzoli
                                           tizianaxx@inwind.it
Indice
• Contesto
• Data mining
• Il processo di personalizzazione
  – Sistemi di personalizzazione
• Progetto
Il contesto
– Diffusione dell’e-commerce
  •   L’aumento della complessità dell’ambiente
      competitivo delle aziende
  •   L’aumento della concorrenza
  •   L’incremento dei dati e l’information overload



            Marketing relazionale
                  Data mining
              Personalizzazione
Marketing relazionale
• Focalizza l’attenzione sulla relazione azienda-
cliente
• Rapporti di lungo periodo con clienti
• Fidelizzazione degli attuali clienti
• Lo scopo dell’azienda diventa quello di
soddisfare il maggior numero di bisogni di uno
stesso cliente
•Dalla quota mercato alla quota cliente
•Importanza di avere a disposizione quante più
informazioni sui clienti
Indice
•   Contesto
•   Data mining
•   Il processo di personalizzazione
•   Sistemi di personalizzazione
•   Progetto
Data mining
Il data mining è

“il processo di esplorazione e analisi di un
insieme di dati, generalmente di grandi
dimensioni, per individuare eventuali
regolarità, estrarre conoscenza e ricavare
regole ricorrenti significative”
                       (Vercellis,2006, p.77)
Supervisionato/non supervisionato
• Apprendimento supervisionato (analisi dirette) è presente
  un attributo target, che rappresenta la classe di
  appartenenza per ciascun record:
   – le classi alle quali ricondurre le osservazioni sono già note,
   – l’analisi deve spiegare come le osservazioni si aggreghino ad
     una classe piuttosto che ad un'altra, in base ai valori assunti
     rispetto agli altri attributi disponibili.
• Apprendimento non supervisionato (analisi indirette): il
  dataset di riferimento non prevede alcun attributo target:
   – Esse mirano ad individuare ricorrenze, affinità e difformità e a
     determinare raggruppamenti di record omogenei al loro interno e
     diversi rispetto agli altri.
Metodologie di data mining

• Classificazione
• Clustering
• Regole associative
Classificazione
• La classificazione consiste nell’assegnare agli oggetti
  esaminati l’etichetta di una classe scelta tra un insieme
  predefinito di classi.
• A partire da un insieme di osservazioni riferite al passato,
  per le quali è nota la classe di appartenenza, vengono
  costruiti i modelli di classificazione
• I modelli individuano legami ricorrenti tra le variabili
  esplicative per descrivere le osservazioni appartenenti ad
  una medesima classe.
   – Metodo di apprendimento supervisionato
• I legami individuati vengono tradotti in regole di
  classificazione da impiegare per predire la classe di
  appartenenza di osservazioni delle quali è noto solo il
  valore degli attributi esplicativi
Attributo1   Attributo2         Attributo n    Classe


Esempio1                                                  Classe1


Esempio2                                                   Classe2


Esempio3                                                   Classe1


Esempio4


   …           …..


   …


                                      xij                 Classe (yi)
Esempio i


   …


   …


   …


Esempio m
Classificazione
Il caso Carla è rappresentato dal punto nero in uno spazio a quattro dimensioni.
La posizione nello spazio è determinata dai valori assunti da Carla rispetto ai
quattro attributi.
Classificazione
In un problema di classificazione si deve
    •definire uno spazio di ipotesi F, che rappresentano le possibili relazioni di dipendenza tra
    la classe e il vettore degli attributi predittivi.
    •scegliere un algoritmo che identifichi la funzione f capace di descrivere in modo
    soddisfacente la relazione tra gli attributi e la classe
                                                                                   Funzione che
                                                                                   descrive la
                                                                                   relazione tra
                                                                                   attributi e
                                                                                   classe
Classificazione
Fasi della classificazione: training, test e predizione.
• Training viene estratto un sottoinsieme T degli esempi presenti nel
  dataset D, denominato training set, generalmente corrispondente al
  66% dei casi del dataset. L’algoritmo di classificazione viene
  applicato agli esempi appartenenti a questo sottoinsieme T per
  ricavare le regole di classificazione che consentono di attribuire a
  ciascuna osservazione x la corrispondente classe target y.
• Test: le regole prodotte nella fase di training sono impiegate per
  classificare la restante parte delle osservazioni del dataset D,
  corrispondenti al 33% della grandezza del dataset e per le quali è
  noto il valore della classe target.
    – Si valuta l’accuratezza del modello, confrontando la classe
      predetta dal classificatore con quella a cui realmente
      appartengono gli esempi.
• Predizione: il modello scelto viene usato per classificare nuovi
  esempi.
Clustering
– Il clustering si propone di identificare
  raggruppamenti omogenei di record, mediante
  la definizione di opportune metriche e delle
  relative nozioni di distanza e similarità tra
  coppie di osservazioni.
– Le osservazioni in ogni cluster devono essere
  quanto più simili è possibile tra loro e dissimili
  dalle osservazioni degli altri gruppi.
– Metodo di apprendimento non supervisionato
Clustering



             Cluster
Metodi di clustering
•   Metodi di partizione suddividono il dataset in un numero
    predeterminato di sottogruppi :
     – un’assegnazione iniziale delle osservazioni ai cluster.
     – applicano iterativamente una tecnica di riallocazione delle osservazioni
       per accrescere la qualità della suddivisione,
     – fin quando non si raggiunge la “convergenza”.
     – Richiedono di conoscere in anticipo il numero di cluster da ottenere
•   Metodi gerarchici derivano molteplici suddivisioni in sottogruppi dei
    dati, in base a diverse soglie di omogeneità.
     – I metodi gerarchici possono essere agglomerativi o di suddivisione
         • Agglomerativi: formano un cluster per ogni osservazione (cluster atomici)
           che in varie iterazioni successive vengono aggregati formando cluster di
           dimensioni sempre maggiori
         • Suddivisione: collocano tutte le osservazioni in un solo cluster, che, in varie
           iterazioni successive, viene suddiviso in raggruppamenti di dimensioni
           minori.
     – Sono lenti nell’elaborazione
Metodi di clustering
Per risolvere tali inconvenienti si possono integrare
i due approcci in vari modi:
   –I
          • Si estrae un campione dei dati sul quale effettuare l’analisi
            gerarchica per determinare il numero ottimale di cluster,
          • Usando il numero di cluster calcolato, si effettua l’analisi non
            gerarchica sull’intero dataset.
   – II
          • Si realizza un’analisi non gerarchica su tutti i dati
            ipotizzando un numero elevato di cluster
          • Si crea un campione con le medie dei cluster ottenuti. Sul
            campione, così ottenuto, si effettua un’analisi gerarchica.
Regole associative
•   Ricercano oggetti (item) che tendono ad apparire insieme in un certo
    dataset.
•   Sono un metodo locale, cioè nei dati scoprono pattern che sono applicabili
    solo ad una piccola percentuale di esempi
     – Preso I, l’insieme di tutti gli item.
     – Una transazione T è definita come un insieme di item che si presentano insieme.
     – Una regola associativa è un’implicazione di natura probabilistica tra due insiemi
       di item A e B, sottoinsiemi di I, rappresentata come A→B.
     – Essa indica che la presenza in una transazione degli item compresi nel
       sottoinsieme A implica la presenza degli oggetti in B con certa probabilità.
•   Confidenza: corrisponde alla frazione di transazioni contenenti entrambi gli
    oggetti rispetto a quelle che contengono solo il primo oggetto
•   Supporto: è il rapporto tra la frazione di transazioni che contengono sia A
    che B rispetto a tutte le transazioni del dataset. Esso indica la frequenza
    con cui A e B compaiono insieme nelle transazioni.

                                                            (Agrawal e Srikant,1994)
Data mining per la
                    personalizzazione
• Acquisizione dei clienti: le tecniche di data mining permettono di
  distinguere le caratteristiche (anagrafiche, di comportamento, di
  acquisto etc.) degli utenti che hanno una maggiore probabilità di
  diventare clienti e quindi di realizzare azioni mirate solo nei loro
  confronti, in modo da ridurre gli sprechi e incrementando l’efficacia
  delle azioni di marketing.
• Maturità:
     – prolungare la redditività e la durata della relazione, massimizzando il
       valore del cliente.
     – migliorare la loyality: identificazione dei segmenti di mercato che
       risponderanno meglio ad azioni di cross-selling o up-selling.
•   Predizione del rischio di abbandono: confrontare le caratteristiche di
    chi è rimasto fedele nel tempo con chi ha cambiato fornitore per
    indirizzare soltanto ai clienti con alto rischio di abbandono le azioni
    di retention.
Esempi
• CRM

• Click stream

• User profiling
                     (Giudici, 2005)
CRM
• Piccola azienda che opera nel settore della
  vendita per corrispondenza.
• Obiettivi:
  – studiare il comportamento di acquisto dei clienti
  – capire quali fattori distinguono un cliente occasionale
    da uno fedele,
  – individuare in anticipo quali clienti saranno veramente
    profittevoli
  – studiare politiche di marketing adatte ai diversi tipi di
    clienti
CRM
• Dati:
   – dati relativi ai 210.085 clienti che hanno effettuato almeno un
     acquisto presso l’azienda tra il 1992 e il 1996.
       • Si estrae un campione stratificato in modo proporzionale in base
         alla data di contatto con l’azienda di 2.470 clienti
   – Le variabili prese in considerazione sono state sette, cinque
     discrete e due continue:
       • l’ammontare del primo acquisto (variabile quantitativa)
       • pagamento a rate (dicotomica)
       • il numero di oggetti acquistati (variabile quantitativa)
       • l’area di provenienza della filiale (variabile qualitativa: nord, centro e
         sud)
       • età (variabile discretizzata in tre range 15-35, 36-50, 51-89)
       • dimensione della filiale (variabile qualitativa: piccola, media, grande)
       • sesso (dicotomica)
CRM
• Modello di classificazione predittivo, per
  collocare i clienti in due classi (profittevoli/non
  profittevoli).
• Sono stati costruiti differenti tipi di modelli:
   –   Regressione logistica (per scegliere le variabili)
   –   Reti neurali
   –   Alberi decisionali (algoritmo CART)
   –   Nearest neighbor
• Scelta del modello
   – In base a conoscenze di markerting, scegliendo di
     minimizzare gli errori più costosi
   – Analisi ROC
Curva ROC
Questa curva ha come coordinate in ascisse (1- la specificità, cioè la probabilità
dell’errore di secondo tipo) e in ordinata la sensitività, cioè (1-la probabilità
dell’errore di primo tipo)




                             1- la probabilità dell’errore di secondo tipo
                             (falsi negativi)
CRM
• In base alla ROC analisi, gli alberi di
  classificazione e i modelli nearest
  neighbour sono risultati i migliori tra i quelli
  costruiti per questa analisi.
• Sono stati scelti gli alberi di decisione
  perchè hanno l’ulteriore beneficio di
  produrre regole facilmente intelligibili.
Click stream
•Società che vende prodotti software e hardware on line
•Obiettivo: prevedere il comportamento di visita al sito degli utenti
•Dati:
    –dataset ottenuto dall’elaborazione di un log file, contenente i dati relativi agli
    accessi al sito per un periodo di circa due anni.
    –attributi l’user id dell’utente, una variabile con la data di accesso e una con la
    pagina richiesta, per un totale di 250.711 richieste, corrispondenti a 22.527
    visitatori
    –Il sito ha 36 pagine

                        Richieste   Id utente    Data      Pagina
                                                accesso   richiesta

                           1


                        …………


                        250.711
Click stream
Da questo iniziale dataset ne viene ricavato un altro, organizzato per
sessioni
  sessioni    Durata    Orario inizio   Numero     Pag. 1   Pag. 2   Pag.3   ….   ….   …   Pag. 36
             sessione                   di click




  …………




 Cluster analysis preliminare per ottenere quattro cluster
 di comportamento omogenei rispetto alle tre variabili:
 orario di accesso, durata della sessione e numero di
 click.
Click stream
• Si è scelto un cluster di 1.240 sessioni caratterizzato da
  una durata dalle sessioni particolarmente lunga e un
  numero di pagine viste abbastanza alto, quindi con un’alta
  potenzialità di acquisto.
• Modello: le regole sequenziali, cioè regole associative
  ordinate per una variabile. Per estrarre le regole
  sequenziali è stato usato l’algoritmo Apriori.
• Le sequenze più interessanti riguardano:
   – la visita della pagina programmi e poi quella prodotti
                                  program→product
   – la visita di due pagine di prodotti consecutivamente
                                  product→product
User profiling
•   Obiettivo: classificare i visitatori in gruppi omogenei in base ai rispettivi
    profili comportamentali.
•   Sito www.microsoft.com
•   Dati:
     – Pagine visitate da 32.711 utenti in una settimana.

                             C, “10908”, 10908
                             V, 1108
                             V, 1017
                             C, “10909”, 10909
                             V, 1113
                             V, 1009
                             V, 1034
                             C, “10910”, 10910
                             V, 1026
                             V, 1017


Ogni visitatore è identificato da un’etichetta (C), poi tradotta in codice
numerico (109**), ed è seguito da una o più righe che indicano le pagine
visitate (V), anch’esse identificate da un codice numerico (da 1000 a 1295).
User profiling
Dal dataset iniziale si deriva una matrice di dati organizzata per visitatori con una variabile categorica
che descrive quante volte ogni pagina è stata visitata.
Le 296 pagine del sito sono state raggruppate in 13 categorie omogenee.

   Codice    Inizial   Help   Svago   office   Windo   Altro   Down   Altro   Svilup   Hardw   Biz   Info   Area
   cliente      e                               w      Soft.   load    Int.    po       are
   10001       1        1      1        0       0       0       0      0        0       0      5      0      0
   10002       1        1      0        0       0       0       0      3        0       0      0      0      0
   10003       2        1      0        0       0       2       0      0        0       0      0      0      2
    …         …        …       …       …        …       …      …       …       …        …      …     …      …




 Modelli:
         •Clustering
         •Mappe di Kohonen
User profiling
• Test di cross validation:
   – sono stati creati due dataset con i risultati ottenuti dai due diversi
     procedimenti, aggiungendo al dataset iniziale la variabile
     categorica che assegna l’osservazione ad uno dei 10 cluster.
   – Su questi dataset è stata realizzata la classificazione per
     verificare quale modello è più accurato.
• Modello migliore: mappe di Kohonen.
• I cluster ottenuti grazie a questo modello rappresentano
  tre tipi di utenti
   – profili monotematici di utenti, che visitano soltanto un’area
     specifica,
   – profili politematici di utenti che visitano tutte le aree del sito,
   – profili intermedi di professionisti dell’informatica, che visitano le
     pagine relative allo sviluppo, a particolari software e al download
Indice
• Contesto
• Data mining
• Il processo di personalizzazione
  – Sistemi di personalizzazione
• Progetto
La personalizzazione dei siti web
“Ogni azione che adatta l’informazione o il
servizio fornito da un sito web ai bisogni di un
utente specifico, sfruttando la conoscenza
acquisita:
 – dall’analisi del comportamento di navigazione
   dell’utente (usage data)
 – dagli interessi individuali inseriti nel profilo utente
 – combinanti con altre informazioni del web: contenuto e
   la struttura del sito web”
                           (Eirinaki e Vazirgiannis, 2003)
Perché la personalizzazione dei siti web?

La personalizzazione di un sito web
permette di predire i bisogni degli utenti al
fine di migliorare l’usabilità e la retention.

Obiettivo: fornire agli utenti l’informazione
che vogliono o di cui hanno bisogno senza
aspettare che la chiedano esplicitamente.
Il processo di personalizzazione
              Raccolta dei web data

               User profiling e User
                     profiling

                 Analisi dei dati
                Web usage mining
              Content based filtering
             Collaborative filtering

         Scelta del tipo di
         personalizzazione
                     Contenuto

                     Interfaccia

                    Presentazione
Il processo di personalizzazione
 Raccolta dei web data
   •    Le informazioni sull’utente
   •    Dati ambientali: informazioni sul dispositivo usato
       per interagire con il sistema
   •   Informazioni sul contesto d’uso
   •   Usage data
Le informazioni sull’utente
•   Dati demografici: nome,numero di telefono, età, il luogo di
    abitazione, sesso, il titolo di studio, il reddito;
•   Conoscenza dell’utente: la familiarità dell’utente con i concetti del
    dominio e la sua expertise per quel dominio;
•   Saper fare dell’utente: indipendentemente da cosa l’utente sa, in
    molti casi è importante sapere cosa l’utente sa fare e distinguere tra
    cosa gli è familiare e cosa può realizzare che può essere
    particolarmente importante per la vendita di prodotti e servizi
    complessi (computer, ADSL e simili);
•   interessi e preferenze, di solito riferiti alle categorie di prodotti
    venduti dal negozio on line o a specifiche proprietà di tali prodotti;
•   bisogni: le disabilità per le quali è necessario un servizio accessibile
•   scopi: l’utente può comprare qualcosa per sé o un regalo per
    qualcuno altro un assistente di un negozio on line potrebbe aiutare
    l’utente a trovare la soluzione meno costosa o la più efficace o
    bilanciare richieste conflittuali
Dati ambientali: informazioni sul
           dispositivo usato
L’utente può usare diversi tipi di hardware per accedere al sito:
un desktop PC, un laptop, un telefono cellulare, un PDA,

Ogni dispositivo ha differenti caratteristiche:
•la dimensione dello schermo
•la capacità e la memoria di calcolo,
•i meccanismi di input e output (tastiera, mouse, interfaccia vocale,etc).

I dati ambientali riguardano:
•la versione del browser,
•la piattaforma usata,
•la disponibilità di plug-ins,
•i firewall che bloccano le applet,
•la banda disponibile,
•la velocità di processing,
•i dispositivi di visualizzazione,
•informazioni geografiche in base alle quali adattare la lingua e i contenuti locali.
Informazioni sul contesto d’uso
L’utente può interagire con il negozio on line in
situazioni differenti, a casa, in treno, mentre
cammina o guida, durante una riunione.
Il contesto d’uso è costituito da:
• il contesto fisico include la location dell’utente e
le condizioni ambientali come la luce, il rumore, la
temperatura, il tempo di connessione, la velocità di
spostamento.
• il contesto sociale include la comunità o il gruppo
a cui l’utente appartiene, il compito che sta
realizzando e la relazione con le persone che lo
circondano mentre interagisce con l’applicazione.
Usage data
Gli usage data sono i dati derivanti dai log
file e rappresentano il comportamento dei
visitatori.
Web Log
Ogni accesso ad una pagina web è
registrato nel log di accesso del server.
Nel log ci sono campi predefiniti:

Remote host Remote log        User name Date and Request Status Bytes
            name              login     time
   Ip


Referrer: l’url di provenienza dell’utente
User agent: il software che l’utente usa per navigare nel sito
Cookies: se il sito visitato li usa
Log file
... 213.213.31.41 [15/Apr/2000:04:00:04 +0200]
“GET http://www.unipi.it/images/h/h_home.gif HTTP/1.1quot; 200 1267

MmTaUg00pdA00001fvkwsM4000 http://www.unipi.it MSIE+6.0

Dove
•   213.213.31.41 indica l’indirizzo IP del computer che ha fatto la richiesta della pagina
•   15/Apr/2000:04:00:04 è la data è l’ora della transazione,
•   GET è il metodo di transazione (che può essere GET o POST),
•   http://www.unipi.it/images/h/h home.gif , indica l’URL richiesta dall’utente,
•   HTTP/1.1 è il protocollo HTTP usato,
•   200 è il codice di ritorno HTTP (200 per le transazioni riuscite),
•   1267 è la grandezza in bytes della risposta inviata al cliente
•   MmTaUg00pdA00001fvkwsM4000 indica il cookie inviato al browser del cliente,
•   http://www.unipi.it è il cosiddetto campo referrer, l’URL di provenienza dell’utente,
•   MSIE+6.0 indica il browser usato dall’utente.
User profile

User profile è “un record di dati strutturati, contenente
informazioni dell’utente: gli identificatori, le caratteristiche,
le capacità, i bisogni e gli interessi, le preferenze, il
comportamento precedente in contesti rilevanti per
predire o influenzare il comportamento futuro” (Van Dijk et
alt., 2005)

• Profili statici e dinamici
• Acquisizione dei dati implicita ed esplicita
User profile
Io sono                    Identificatori: nome utente, password, domande
                              segrete,etc
Io sono +                  Me: personalità,
Preferisco                 Preferenze: musica, arte, notizie, cibo, viaggi, etc
Mi piace                   Interessi: pittura, immersioni, internet, etc
Possiedo                   Circostanze: studio, cerco casa/lavoro/un’auto,
                              organizzo un viaggio, etc
Voglio                     Obiettivi: carriera, vita sociale, etc
Faccio                     Comportamento: lavoro, ascolto musica, etc
Conosco                    Expertise: fisica quantistica, giardinaggio, motori,
                             etc
…..                        ….


Fonte: adattamento da (van Dijk et alt., 2005, p.13)
Tecniche per la personalizzazione
• Web usage mining
• Content-based filtering
• Collaborative filtering
Web usage mining
• Preprocessing
• Pattern discovery
           – Regole associative: sono usate per trovare correlazioni tra pagine
             visitate assieme in una sessione. Indicano la possibile relazione tra
             pagine anche se non sono direttamente connesse e possono
             rilevare associazioni tra gruppi di utenti con specifici interessi
           – Sequential pattern:è un’estensione delle regole associative per
             rilevare pattern di co-occorrenze in un certa sequenza temporale
           – Clustering:
                » User cluster: gruppi di utenti che sembrano comportarsi
                  in modo simile mentre navigano
                » Page cluster: pagine che sembrano interrelate
                  concettualmente nella percezione degli utenti
           – Classificazione: riconduce le pagine o gli utenti ad una serie di classi
             predeterminate
• Analisi dei pattern estratti
Il Web Personalizer
Un framework per la personalizzazione dei siti web basata sugli
usage data.
 • Mining degli usage data per la personalizzazione dei siti web
   –Regole associative ed itemsets
   –Clustering Transactions
   –Usage Clusters
 • Il processo di raccomandazione
   –Realizzare le raccomandazioni direttamente dagli itemsets.
   –Calcolare le raccomandazioni in base ai clusters di URL
Struttura del Web Personalizer
                                                      Componente off line

                              Preparazione dei dati                             Usage Mining

                                                                     Transaction
                         File del
                                                                     clustering            Cluster
                         sito e
                                                                     Usage clustering      di URL
                         metadati    Pulizia dei dati
                                     Identificazione
                                     degli utenti e delle             File delle
                                     transazioni                      transazioni
                         Server      Statistiche d’uso                utente
                         Log

                                                                     Association rule    Itemset
                                                                     discovery           frequenti




                                                 Motore di Raccomandazione


                      Componente
                      on line
                                          Sessione                   Raccomandazioni
                                          attiva



                                                             Web               Client
Fonte: adattamento da (Mobasher
et al., 2000)                                               server             browser
Clickworld
• Obiettivo: costruire dei modelli del comportamento di navigazione
  degli utenti nel portale Vivacity.it per fornire agli utenti
  un’organizzazione del sito personalizzata e proattiva.
• Compiti specifici:
     – predire se un utente sarà interessato a visitare una specifica sezione del
       sito sulla base alle sezioni visitate precedentemente.
     – predire il sesso dell’utente in base alle pagine web visitate
•   Dati:
     – i log di accesso al portale un periodo di 5 mesi, corrispondenti a più di 7
       milioni di richieste.
     – Informazioni aggiuntive per il 15% di utenti registrati
• Struttura del sito: il portale presentava un’area nazionale con
  notizie, forum, informazioni, barzellette, etc. e più di 30 sezioni locali
  con informazioni specifiche per ogni città.
• Costruzione dell’ontologia del sito
Clickworld
• Predire se un utente sarà interessato a visitare una
  specifica sezione del sito sulla base alle sezioni visitate
  precedentemente
   – Le sezioni sono state usate come attributi: scelta una sezione
     come classe le altre sono diventate gli attributi esplicativi.
   – Applicando l’algoritmo dell’albero decisionale C4.5 si è ottenuto
       • Recall (numero di utenti interessati riconosciuti rispetto a tutti gli
         utenti interessati) di circa il 50%, cioè nel fare le previsioni riesce a
         raggiungere il 50% di utenti potenzialmente interessati.
       • Precision (numero di utenti interessati rispetto al totale degli utenti
         riconosciuti) di circa il 90%, cioè c’erano pochi errori di predizione.
Clickworld
•   Predire il sesso dell’utente in base alle pagine web visitate
     – dati degli utenti registrati, corrispondenti al 15% del dataset, in quanto
       solo per queste persone era noto il sesso. L’insieme degli utenti
       registrati è stato diviso nel training e nel test set, corrispondenti al 67%
       e al 33% degli utenti registrati.
     – Gli attributi sono rappresentati dalle pagine o sezioni del sito e la classe
       dal sesso dell’utente.
     – Il modello migliore è stato ottenuto dall’albero decisionale C4.5, che ha
       presentato un errore di classificazione del 39,8%, ritenuto non
       soddisfacente.
     – Gli autori hanno spiegato il mancato miglioramento dell’accuratezza del
       modello in base alla scarsa capacità di discriminazione dell’ontologia
       usata e alle caratteristiche delle sessioni, troppo brevi e con pochi click,
       per fornire pattern di accesso distintivi per il sesso degli utenti



                                                            (Baglioni et al., 2003).
Limiti del web usage mining
• Può essere difficile ottenere informazioni
  dai log file:
  – I log file hanno lo scopo di raccogliere
    informazioni per il debug del web server e non
    per il data mining.
• Il web usage mining tralascia le
  informazioni legate al contenuto ed alla
  struttura del sito.
Tecniche per la personalizzazione
• Web usage mining
• Content-based filtering
• Collaborative filtering
Content-based filtering
• Sono basati sulle preferenze dell’utente, il
  sistema ne traccia il comportamento e gli
  presenta item simili a quelli che ha
  preferito in passato




                                 www.amazon.com
Limiti del content –based filtering
• Richiede che a ciascun oggetto sia
  associato del contenuto e che esso sia
  analizzato.
• Fornendo raccomandazioni strettamente
  associate all’user profile, non vengono
  suggeriti nuovi prodotti.
  – Non permette il suggerimento casuale di
    prodotti (serendipity)
Un’architettura che integra il contenuto
   nel processo di personalizzazione
• C-Log : web log migliorati grazie
  all’introduzione di campi aggiuntivi relativi
  alle categorie semantiche derivate
  dall’analisi del contenuto
• L’integrazione delle caratteristiche di
  contenuto nel processo di
  personalizzazione permette di ampliare il
  set di raccomandazione
Fonte: Adattamento da (Eirinaki et al., 2003)



    Meccanismo di pubblicazione                                    Motore di raccomandazione




                                                                Clusters dei                 Usage pattern
                                                                documenti




                                                            Clustering dei               Web Usage Mining
                                                            documenti

                 Contenuto del sito web



                                                                                   C- Logs
                      Tassonomia


                       Tesaurus
                                                                             Creazione dei C-Logs




                                   Preprocessing dei dati
                                                                             Web Log Preprocessati
Web Logs
Il web semantico
Il web semantico è un’idea di Tim Berners-Lee
secondo la quale le macchine diventano “capaci di
analizzare tutti i dati sul web, il contenuto, i link e
le transazioni tra persone e computer” (Berners-
Lee, 2001, p. 139).

Secondo tale visione il web è un mezzo potente
per favorire la cooperazione tra gruppi di persone,
in cui la condivisione di conoscenza e l’interazione
sono semplici e dirette.
Il web semantico

                                                     FIDUCIA         D
                                                                     O
                                                                     M
                                              PROVA                  A
                                                                     N
                                                          FIRMA      I
                                            LOGICA
                                                          DIGITALE
                                                                     O
                                            OWL                      G
                                                                     G
                                  RDF + RDF
                                                                     I
                                  SCHEMA
                                                                     I
                           XML + NAMESPACE + XML SCHEMA              E
                                                                     R
                                                                     I
                               UNICODE                  URI




Fonte: adattamento da (Berners-Lee, 2001)
RDF
•   RDF standardizza la definizione di relazioni tra informazioni in base ai
    principi della logica dei predicati e ricorrendo agli strumenti tipici del web (ad
    esempio URI) e dell'XML (ad esempio i namespace).
•   Secondo la logica dei predicati le informazioni sono esprimibili con
    asserzioni, costituite da triple formate da
     – Soggetto (risorsa)
     – predicato (proprietà)
     – oggetto (valore)
•   Le risorse possono essere le pagine web o raccolte di pagine web o
    qualsiasi oggetto, anche non direttamente parte del web, raggiungibile
    attraverso un URL.
•   Le proprietà sono specifici attributi che descrivono le risorse. Ogni proprietà
    ha un significato specifico, definisce i valori ammessi, i tipi di risorse a cui
    può riferirsi e la sua relazione con altre proprietà.
•   Un valore è o una risorsa o un’altra asserzione
•   Una risorsa con una proprietà che assume un valore per quella risorsa
    forma un’asserzione RDF.
RDF
La frase “Ora Lassila è il creatore della pagina
http://www.w3c.org/home/Lassila,




                                          Creator
   http://www.w3.org/Home/Lassila                         Ora Lassila




                                                    (Berners-Lee et al., 2001).
Ontologie
• Gruber (1993) definisce un’ontologia “la specificazione esplicita di
  una concettualizzazione”
• La costruzione di un’ontologia richiede:
    – l’esplicitazione dei concetti relativi ad un dominio
    – la loro presentazione in un formato comprensibile agli esseri umani e
      leggibile dalle macchine.
• La concettualizzazione è una rappresentazione formale della realtà
  come percepita e organizzata da un agente, indipendentemente dal
  vocabolario utilizzato e dall’occorrenza in una specifica situazione.
• Le ontologie rendono la conoscenza riusabile in diverse applicazioni
  e in domini differenti.
• Le ontologie possono fornire una ricca concettualizzazione del
  dominio di lavoro di un’organizzazione, rappresentando:
    – un insieme di concetti,
    – una gerarchia di questi concetti
    – le relazioni tra loro.
Ontologie
• La forma tipica dell’ontologia per il web è costituita da una
  tassonomia e un insieme di regole di inferenza.
• La tassonomia definisce le classi di oggetti e le relazioni
  tra loro.
• Classi, sottoclassi e relazioni tra le entità sono strumenti
  molto potenti da usare sul web, perché permettono
   – di esprimere un gran numero di relazioni tra le entità,
   – assegnano le proprietà alle classi
   – fanno ereditare alle sottoclassi le proprietà delle classi del livello
     superiore.
• Le regole di inferenza permettono di trarre
  automaticamente delle conclusioni dalle ontologie.
Tipi di ontologie
• Usa un piccolo numero di relazioni tra i concetti,
  di solito le relazioni di sottoclasse e a volte le
  relazioni “parte di”.
   – DMoz e Yahoo!: i documenti sono organizzati
     gerarchicamente in base al contenuto, per ogni topic di
     contenuto c’è un nodo dell’ontologia e questo è
     associato a parecchie centinaia di pagine web,
     identificate dalle loro URL.
• Presenta numerosi tipi di relazioni, ma ha una
  descrizione dei concetti piuttosto limitata.
   – la rete semantica Word-Net, costruita manualmente,
     possiede 26 diversi tipi di relazioni (iperonimi, sinonimi,
     etc.)
Struttura del sistema di personalizzazione che
integra conoscenza di dominio e profili d’uso

• Nella fase di preprocessing, si usano la
  conoscenza di dominio, gli usage data e i
  metadati delle pagine del sito
• Nella fase on line, si usano la conoscenza di
  dominio, l’attuale sessione attiva dell’utente e il
  profilo utente individuale, per creare i profili
  utente integrati, che insieme ai profili d’uso
  aggregati sono usati dal motore di
  raccomandazione per fare i suggerimenti
  all’utente
Struttura del sistema di personalizzazione che
integra conoscenza di dominio e profili d’uso

          Preparazione dei dati                     Usage Mining


      Files del
      sito e
      metadati                                    Derivazione dei            Profili
                     Preprocessing dei dati       profili aggregati          d’uso
                     Identificazione delle
                     pageviews, sessioni,
      Usage
                     utenti e transazioni
      data


                                                        Transaction clustering
                                                        pageview/item clustering
      Conoscen          File delle
                                                        Association rule discovery
      za di             transazioni
                                                        Sequential pattern discovery
      dominio           utente




                        Fonte: adattamento da (Dai e Mobasher, 2002)
Fase di raccomandazione

   Profili
   d’uso                  Motore di Raccomandazione
   aggregati

                  Profilo
                  utente
   Profilo                            Raccomandazioni
                  integrato
   d’uso
   individua
   le
                  Sessione
                  attiva
   Conoscenza                    Web            Client
   di
                                 server         browser
   dominio




  Fonte: adattamento da Dai e Mobasher, 2002
Tecniche per la personalizzazione
• Web usage mining
• Content-based filtering
• Collaborative filtering
Collaborative filtering
Invita l’utente a diffondere le sue preferenze e in cambio gli
propone degli item che potrebbero essere di suo interesse,
in base al principio che utenti con comportamenti simili
hanno interessi simili.




                                             www.amazon.com
Limiti del collaborative filtering
•   Può operare solo in base agli acquisti e alle valutazioni degli altri
    utenti.
•   Quando non sono disponibili le valutazioni degli utenti non può
    funzionare.
•   “Cold start”: raggiungimento di una massa critica di utenti per
    realizzare suggerimenti interessanti.
•   Valutazioni soggettive.
•   Valutazioni difficili da ottenere: gli utenti devono impegnarsi in un
    compito completamente nuovo.
•   La sparsità dei dati: il numero di persone che valutano gli oggetti è
    relativamente piccolo rispetto agli item totali.
•   Il problema dei nuovi prodotti gli utenti non valutano volentieri un
    nuovo item
•   La velocità di lavoro: i sistemi con un grande volume di dati lavorano
    lentamente
•   Non considera le relazioni sociali, cioè l’esistenza di legami di
    conoscenza tra chi produce e chi riceve i suggerimenti.
Tecniche per la personalizzazione
•   Web usage mining
•   Content-based filtering
•   Collaborative filtering
•   Social data mining
Social data mining
• Si basa sull’idea che si possono ottenere
le informazioni necessarie alla costruzione
degli user profile dalle tracce di attività
sociale presenti in rete.
• Questi sistemi permettono alle persone di
condividere opinioni con i loro amici e
conoscenti fisici e virtuali, estraendo e
ridistribuendo l’informazione da record di
attività sociale.
Passaparola
• Il passaparola (word-of-mouth) è una fonte di
  informazioni molto credibile
• Legittimare la qualità di un prodotto attraverso il
  consiglio diretto di chi l’ha già sperimentata.
• Le persone suggeriscono un
  prodotto/messaggio ad amici e conoscenti
  potenzialmente interessati e questi a loro volta
  contattano altri utenti interessati al prodotto.
• Il passaparola crea buzz, cioè una grande
  quantità di commenti, discussioni, testi e
  citazioni sia on line che off line.
Marketing virale
• Grazie alle caratteristiche delle nuove tecnologie
  è diventato capace di coinvolgere molte più
  persone più velocemente
• Le persone più influenti della rete (opinion
  leader) possono parlare bene di prodotto perché
  – Sono state incentivate dalle aziende con premi in
    denaro o dall’offerta di prodotti
  – Solo perché favorevolmente impressionati da un
    prodotto.
• Il passaparola ha una maggiore durata rispetto
  alle azioni di marketing tradizionali.
Passaparola on line
• Le comunità on line sono luoghi sociali e dinamici, nei
  quali i suggerimenti di prodotti e la ricerca di informazioni
  avvengono con estrema facilità.
• Nei legami tradizionali l’interazione personale richiedeva
  un grande sforzo in termini di tempo ed energia per
  mantenere un network eterogeneo e per trasmettere le
  informazioni.
• I social network permettono di realizzare questo processo
  più efficientemente.
   – Si possono mandare messaggi in broadcast al network
     composto dai propri amici e dagli amici dei propri amici.
Processo di social data mining
• Individuare dei siti web dove gruppi di persone
  producono contenuti computazionali, documenti,
  messaggi, testi e link, come parte della loro
  normale attività di navigazione sul web.
• Estrarre ed aggregare l’informazione,
  potenzialmente utile attraverso tecniche
  computazionali adatte.
• Presentare le informazioni estratte attraverso
  un’interfaccia utente che permetta di valutare gli
  item, selezionarli ed organizzarli in significative
  raccolte personali.
Comunità virtuali
•   I forum (noti anche come message board o bulletin board) sono uno
    strumento di comunicazione
     –   molto flessibile
     –   interazione asincronica.
     –   catene di argomenti (thread) in uno spazio condiviso.
     –   registrazione.
•   I newsgroup sono bacheche elettroniche, con messaggi simili alla
    posta elettronica. Gli utenti possono leggere liberamente tutti i
    messaggi e rispondere inviando il proprio.
     – Di solito i newsgroup sono dedicati i specifici argomenti.
•   Le chat sono sistemi che permettono lo scambio di messaggi in
    tempo reale:
     – Internet Relay Chat (IRC)
     – web chat
     – istant messenger
I blog
• I blog sono siti simili a diari dove gli interventi (post)
  dell’autore sono presentati in ordine cronologico inverso.
• I post hanno una struttura tipica:
   –   un titolo
   –   la data di scrittura
   –   il testo personale
   –   i link ad altri contenuti,
   –   I commenti dei lettori
• La realizzazione dei blog è resa possibile dai content
  management system (CMS)
   – permettono di realizzare velocemente un sito con molti link e
     funzioni avanzate senza conoscere i linguaggi di marcatura per
     la costruzione dei siti web.
I blog
•   Feed RSS (RDF Site Summary/Really Simple Syndication) è un
    formato per la distribuzione di contenuti sul web
    – permette agli utenti di restare sempre aggiornati sui blog a cui sono
      interessati
    – Gli utenti fanno una scelta consapevole quando decidono di iscriversi ad
      un RSS al proprio lettore o aggregatore, dimostrando esplicitamente un
      interesse nei confronti di quanto presentato nel sito.
    – I siti di social networking creano automaticamente le pagine in XML con
      i metadati che si riferiscono all’autore, al titolo del post, all’argomento,
      alla data, ma anche agli interessi e ai contatti dell’autore.
• I blog mettono in relazione le persone e creano un forte
  coinvolgimento tra gli utenti.
• Le imprese possono usare lo strumento del blog per
    – costruire un legame privilegiato con i propri clienti
    – sfruttare le reti di relazione già esistenti intorno ai blog più frequentati ed
      aggiornati.
Social network
• I social network sono ambienti on line nei quali
  le persone creano i propri profili e inseriscono i
  link a quelli delle persone che conoscono,
  creando un network di connessioni personali.
• Lo scopo principale dei partecipanti ai siti di
  social networking è di usare le relazioni nate nel
  network per farsi degli amici o per connessioni
  d’affari.
• I social network sono fonti di aiuto emotivo e
  finanziario, di informazioni sul lavoro e su altre
  persone.
User profile sociali
• I profili nei social network permettono di ricostruire una
  rappresentazione dei più ampi interessi di una persona.
   – Nei social network professionali le categorie riguardano gli studi,
     le esperienze lavorative precedenti, le competenze professionali
     e gli interessi lavorativi, etc.
   – Nei social network che mirano a creare relazioni di amicizia sono
     la musica, i libri, i film, i programmi televisivi, gli sport e il cibo
     preferito.
   – Una categoria particolare è quella passion/general
     interest/hobby e interest. Queste passioni sono più generali per
     una persona, per la concezione di sé e per la propria
     identificazione.
• User profile capaci di rispecchiare meglio gli utenti,
  “person model” per riflettere la loro maggiore generalità
User profile generati automaticamente
• Gli user profile possono essere generati manualmente dagli utenti o
  automaticamente da un sistema.
• Gli utenti spesso commettono molti errori nel definire i loro bisogni
  di informazione:
     – nei motori di ricerca inseriscono termini che sono scarsi predittori
       dell’informazione che stanno cercando,
•   Tecniche per la generazione degli user profile automaticamente:
     – Categorizzazione dei testi
         • Limite: questi sistemi hanno bisogno di un gran numero di esempi
     – Regole di selezione dell’informazione per rappresentare i bisogni degli
       utenti
         • Limite: richiedono un notevole sforzo iniziale per la loro definizione
•   Integrazione delle due tecniche:
     – Fase iniziale: user profile basati su regole semplici e facili da definire.
     – Seconda fase: user profile basati sul contenuto sufficientemente ricco
     – Migliorare gli user profile in base ai feedback degli utenti


                                                                    (Kuflik e Shoval, 2003)
User profile nei blog
User profile nei blog
Fiducia nei social network
• Fattori che favoriscono la nascita di un rapporto di fiducia
  tra gli utenti in un network:
   – I partecipanti ai siti di social networking:
       • sono identificati dai loro nomi reali: i propri conoscenti possono
         verificare la sincerità del profilo
       • inseriscono i link ai profili dei loro amici: le relazioni personali
         diventano parte integrante della presentazione di ciascun utente.
   – verifica implicita dell’identità: mostrare pubblicamente le proprie
     connessioni personali permette di sapere che una persona è
     connessa in qualche modo con le altre persone collegate al suo
     profilo. Avere conoscenti e persone di fiducia in comune può
     essere la base per costruire un rapporto di collaborazione con
     una persona appena conosciuta sul web.
   – Meccanismo sociale della reputazione per punire gli ingannatori.
Analisi dei network
La collaborazione nell’ambito di una comunità può
essere rappresentata per mezzo di un grafo come una
rete di utenti che si scambiano informazioni:
    – gli utenti sono rappresentati come nodi
    – le relazioni collaborative sono rappresentate come
      legami diretti (archi) tra i nodi
Per descrivere la struttura di questi grafi si possono
usare modelli analitici dei network, che in una
notazione matematica, descrivono la distribuzione dei
link tra i nodi dei network:
    – Small Word
    – Free Scale
Small World
• Un network Small World soddisfa due condizioni
  – non deve crescere nel tempo
  – la probabilità di connessione tra due punti qualsiasi del
    network deve essere uguale per tutti i punti.
• La distanza tra le persone cresce in proporzione
  al logaritmo del numero di membri del network,
  quindi l’aumento del numero dei membri del
  network influenza la distanza fra loro.
Small World
• Il famoso esperimento di Milgram ha evidenziato in modo
  empirico il fenomeno “Small World” in una rete sociale.
   – L’esperimento esaminava il numero di persone che un
     messaggio aveva bisogno di “attraversare” per raggiungere un
     perfetto sconosciuto.
   – Il numero dei passaggi necessari per raggiungere la
     destinazione risultò di soli sei passi
   – In generale si stabilì che il numero di passaggi necessari in una
     catena di contatti umani è più piccola di quanto ci si aspetti.
   – Nei sistemi Small World esistono delle “catene di conoscenze” di
     lunghezza limitata che connettono una qualsiasi coppia di
     persone sconosciute
Small World




In un network Small World ci si aspetta di trovare un gruppo ampiamente
unificato, un network in cui sia impossibile nascondersi per quanto è
interconnesso.
Free scale
I network free scale:
    – crescono nel tempo
    – presentano delle preferenze nella connessione tra alcuni nodi
      con altri (preferential attachment): esistono nodi (hub) che
      hanno molte connessioni e questo rimane inalterato anche
      aumentando il numero di nodi nella rete.
Social network e modelli
• Le caratteristiche di questi due modelli permettono di
  spiegare:
   –   il modo in cui i network si organizzano in strutture sociali stabili,
   –   la relazione tra potere e struttura sociale,
   –   come l’abbandono di alcuni individui non distrugge il network
   –   l’efficienza della trasmissione da punto a punto nel network.
• Descrivere un sistema sociale come:
   – Small World permette di spiegare i ritmi di rapida diffusione dei
     messaggi.
   – Scale Free indica la presenza di un potere specifico e una
     distribuzione di potere con influenza informale e pertanto
     mostrano una maggiore tolleranza quando fronteggiano
     opposizione e attacchi generali, anche se sono più vulnerabili ad
     attacchi sistematici e ben diretti
InterestMap
• InterestMap è un network di interconnessioni tra interessi
ed identità
• Esso può essere usato per:
     – la classificazione delle identità,
     – l’associazione di persone in base agli interessi.
     – Il suggerimento di oggetti interessanti
• La costruzione di InterestMap ha richiesto:
    – Estrazione di 100.000 user profile da due social network
    – Riconoscimento dello stile di delimitazione degli interessi
    – Estrazione di liste segmentate di keyword e key-phrase dal
      linguaggio naturale degli user profile
    – Inserire gli interessi estratti in grandi ontologie di libri, musica,
      film, etc. ed una categoria speciale per le passioni.
InterestMap
• Grande ontologia formale con:
   – 21.000 descrittori di interessi
   – 1.000 descrittori di identità riflettere i molti tipi di
     passioni dei profili.
• Gli user profile sono stati normalizzati rispetto ai
concetti di questa ontologia.
• I profili normalizzati permettono di apprendere la
forza della relazione semantica tra tutti i descrittori
di interessi e i descrittori di identità ed usarli per
costruire il grafo della mappa.
InterestMap
La tecnica pointwise mutual information (PMI) ha permesso
di ricostruire la forza delle relazioni semantiche tra due
descrittori e tra i profili, in modo da rappresentare il grafo
della InterestMap
    – dai profili normalizzati l’algoritmo di apprendimento valuta ogni
      possibile coppia di descrittori nel profilo che possono avere una
      correlazione e aggiorna le coppie PMI.
    – In seguito al filtraggio dei descrittori, la matrice ha assunto la forma
      definitiva di 12.000 x 12.000, con 600 descrittori di identità.
• La mappa ottenuta è caratterizzata da
    – identity hub (nodi descrittori di identità): organizzano la moltitudine di
      interessi, permettendo di formare cluster intorno alle identità.
    – taste clique (gruppi di gusti): gruppi di utenti che hanno un insieme di
      gusti in comune. Quando la coesione è forte i taste clique tendono a
      comportarsi come un solo identity hub.
InterestMap
Per realizzare le raccomandazioni Il profilo di un nuovo utente viene
normalizzato nell’ontologia dei descrittori e ricondotto ai nodi della
mappa, attivando un certo pattern nella rete.
    – a partire dai nodi attivati inizialmente, l’attivazione si diffonde verso
      l’esterno in modo che emergano i nodi vicini più strettamente legati ai
      nodi iniziali. Il vicinato semantico, definito dai top N nodi descrittori di
      interessi attivati, rappresenta le raccomandazioni prodotte attraverso la
      mappa. Un insieme dei nodi del vicinato semantico saranno nodi
      descrittori di identità, quelli più forti e vicini possono essere considerati
      come identità riconosciute per il nuovo profilo.
    – I suggerimenti realizzati usando InterestMap sono risultati molto
      accurati ed intelligibili visivamente perché ogni singolo interesse è
      inserito in una parte di network più ampia

                                                              (Liu e Maes, 2005)
InterestMap
Miglioramenti rispetto al
            collaborative filtering
• Non richiede la valutazione esplicita degli oggetti da parte
  degli utenti.
• I testi e i commenti disponibili sul web sono già tanti che
  non si pone il problema di raggiungere la massa critica
  necessaria per ottenere suggerimenti di buona qualità.
• User profile più ricchi
• Recupera le relazioni sociali tra gli utenti considerando i
  link inseriti negli user profile e può sfruttare la fiducia alla
  base di queste relazioni.
• Con la generazione automatica degli user profile supera
  in parte la soggettività delle valutazioni degli utenti.
Limiti del social data mining
• Rispetto della privacy: i sistemi di social data
  mining estraggono le preferenze da contesti
  dove gli utenti non le hanno rilasciate per questo
  esplicito motivo, perciò è necessario porre
  attenzione ai problemi di violazione della
  privacy:
  – la raccolta delle preferenze
  – la distribuzione dei suggerimenti.
     • la possibilità di rilasciare suggerimenti in broadcast, offerta
       dai sistemi di social data mining, può causare spam
Il permission marketing
•   Contatta solo utenti interessati che hanno espressamente
    acconsentito ad ascoltare quel particolare messaggio.
    – garantisce che il consumatore presti attenzione perché effettivamente
      interessato
    – l’azienda possa trasmettere il proprio messaggio con calma, ma
      concisamente, senza paura di essere interrotta dai concorrenti.
• Tassi di risposta molto alti, senza grandi investimenti economici,
  solo sfruttando le relazioni sociali preesistenti tra membri delle
  comunità virtuali.
• Il permission marketing anticipa i bisogni dell’utente, propone
  messaggi legati direttamente alla persona e usa argomenti rilevanti .
• Permission marketing e marketing relazionale: non si può creare
  una relazione con un cliente senza un suo consenso esplicito
Limiti del social data mining
• Tecniche di analisi del linguaggio naturale
  nelle community
  – Sistemi sempre più accurati
  – Web Semantico
Sistema di analisi del linguaggio
            naturale




                     Fonte: adattamento da (Glance et al., 2005).
Sistema di analisi del linguaggio
                naturale
•   Il sistema colleziona
     – discussioni sul web riguardanti un particolare dominio
     – le classifica tra argomenti appartenenti al dominio specifico
     – realizza un’analisi dei sentimenti legati alle combinazioni di argomenti

•   Il modello proposto è costituito da:
     – Il sistema del contenuto: scandisce il web alla ricerca dei blog, dei
       message board e del contenuto Usenet e riempie gli indici di ricerca
       interni
     – Il sistema di produzione, usando query booleane nei motori di ricerca e
       un classificatore addestrato su un campione causale di messaggi,
       recupera il contenuto e lo analizza, ottenendo prima un insieme di
       messaggi taggati (in base all’argomento ed alla polarità) e poi estraendo
       i fatti (una tripla di brand, caratteristiche e polarità)
     – l sistema analitico realizza le analisi interattive con le tradizionali
       tecniche di data mining (il text mining perché i fatti hanno un contenuto
       testuale).
Sistema di analisi del linguaggio
               naturale
Un messaggio viene strutturato come un albero le cui foglie possono
essere:
    –   la citazione dell’intestazione,
    –   la citazione del messaggio precedente,
    –   la firma
    –   il corpo del testo.
I blocchi di testo sono stati segmentati in paragrafi e, ad un livello
successivo, i paragrafi sono segmentati ulteriormente fino ad arrivare
alle frasi.
• Le frasi vengono definite come unità testuali più grandi di una parola,
ma più piccole di una frase intera.
• L’estrazione delle frasi-chiave (keyphrase) permette di ridurre la
dimensionalità e riassumere i documenti perciò possono essere usate
come misura di similarità tra i documenti.
Axim Dell
•   Analisi delle discussioni on line sui palmari Dell Axim
     – i commenti riguardanti questo prodotto coprano il 12% delle discussioni sui
       dispositivi portatili
     – polarità è abbastanza bassa (3,4), cioè i commenti non sono molto favorevoli.
•   Si può adottare sia una metodologia d’analisi top-down che una bottom-up
    per analizzare i motivi di questa bassa preferenza.
•   Top-down:
     – consultare i messaggi negativi
     – estrarre le keyword e le keyphrase, che descrivono un sentimento negativo nei
       confronti del prodotto.
     – Le 8 keyword e le 8 keyphrase estratte dai messaggi negativi riguardo Dell Axim,
     – i malumori degli utenti sono dovuti:
          • molte schede SD sono incompatibili con Dell Axim
          • sono necessari degli aggiornamenti per far funzionare correttamente Axim con il
            Personal Internet Explorer.
•   Bottom-up
     – costruire il grafo corrispondente alla discussione per i prodotti Dell Axim presente
       in un forum di dispositivi portatili molto frequentato.
Axim Dell
Dall’analisi del grafo è emerso che i messaggi sono organizzati in tre diverse
discussioni. Analizzando le citazioni si è scoperto che i clienti non sono soddisfatti
  • per la qualità dell’audio
  • per le porte a raggi infrarossi (IR)




                                                        Fonte: adattamento da (Glance et al., 2005).
Prospettive future
• La diffusione del web semantico
   – Integrazione del contenuto nel processo di personalizzazione
• Diffusione delle comunità virtuali
   – Interazione più facile tra gli utenti




 Sistemi di personalizzazione migliori, più
 efficaci e meno intrusivi per gli utenti
User profile e web semantico (FOAF)
• Un progetto in cui sono applicati contemporaneamente il
  semantic web e le relazioni sociali, i due elementi che
  potranno migliorare significativamente la qualità dei
  sistemi di personalizzazione, è il Friend-of-a-Friend
  (FOAF)
• Nato nel 1999 dal World Wide Web Consortium (W3C)
  con l'obiettivo di creare un web in cui le pagine, che
  descrivono i “person profile” e i collegamenti tra esse
  siano interpretabili dalle macchine.
• Il maggior risultato raggiunto dal progetto è stato il
  vocabolario FOAF, un insieme di namespace RDF/XML,
  per descrivere la sfera sociale di un individuo.
User profile e web semantico (FOAF)
• Il progetto FOAF rappresenta un accordo sui termini
  chiave
   – usa il linguaggio Ontology Web Language (OWL) perciò
     permette l’integrazione delle informazioni personali provenienti
     da diverse fonti
• I profili FOAF sono collegati tra loro usando la relazione
  rdfs:seeAlso in modo da formare la cosiddetta FOAF-web.
• Le tipiche modalità d’uso del vocabolario FOAF sono
  simili a quelle dell'RSS:
   – il proprietario di un sito crea uno o più file FOAF
   – li carica su un web server
   – rende noti gli URL di tali file, cosicché appositi agenti software
     possano usare l'informazione contenuta in essi.
• I profili sono creati e poi condivisi dal singolo utente perciò
  la creazione di dati FOAF è un processo decentralizzato e
  sotto il controllo dell'autore
User profile e web semantico (FOAF)
•   Recentemente i grandi siti di blogging e social networking generano
    file FOAF automaticamente a partire dagli user profile
    immagazzinati nei loro database e li rendono disponibili sul web
     – Swoogle, il più grande aggregatore di documenti semantici, ha 19
       grandi siti di blogging nei primi 50 posti.
• Nei profili FOAF sono disponibili i metadati dell’autore, dei suoi
  interessi e dei modi per contattarlo, del titolo del post,
  dell’argomento trattato e della data di pubblicazione.
• La relazione foaf:knows rappresenta “una persona che conosce
  un’altra”.
     – non esprime le proprietà e la qualità della relazione
     – è unidirezionale, riflettendo il fatto che le persone a volte dicono di
       conoscere qualcuno che non necessariamente ricambierebbe
       l’affermazione.
     – Tali asserzioni auto-riportate permettono di inferire ulteriori informazioni
       riguardo le relazioni tra gli utenti.
Fiducia nei network FOAF
La diffusione della fiducia nei social network che adottano gli standard del
semantic web può essere:
• Esplicitamente codificata con il modulo di fiducia FOAF Trust Module
• Inferita a partire dalle relazioni in un social network da appositi algoritmi

     – Il sito FilmTrusper (Golbeck, 2005) per il suggerimento di film ha usato
       l’algoritmo TidalTrust che inferisce la fiducia tra due persone nel network a
       partire dai percorsi che le uniscono e, in base ai risultati ottenuti, genera i
       suggerimenti.
     – La fiducia nel social network è usata per personalizzare l’esperienza di
       navigazione dell’utente.
     – L’accuratezza delle valutazioni basate sulla fiducia è risultata migliore rispetto ai
       sistemi tradizionali che si basano solo sulle valutazioni.
Bridging the gap between on-line
shoppers and online shopping websites.

         A user centered analysis
“Bridging the gap between on-line shoppers and online
        shopping websites. A user centered analysis”

• Obiettivi:
   – Fare il punto della situazione sui cambiamenti nell’ambito dell’e-
     commerce:
       • la grande crescita del numero di siti di e-commerce,
       • l’information overload
       • la diffusione dei recommender system.
   – Definire il gap tra l’attuale offerta dei siti web di e-commerce e le
     richieste (bisogni e desideri) degli utenti che fanno acquisti on
     line.
   – Fornire informazioni utili per migliorare la struttura
     dell’applicazioni web ed andare incontro ai bisogni dei clienti.
   – Suggerire miglioramenti da apportare ai recommender system
     attualmente usati.
   – Mappare i servizi offerti dai siti web
Fasi del progetto
La ricerca si sviluppa in tre fasi: lo studio pilota, la raccolta dei dati e
l’analisi dei dati.
• Lo studio pilota prevede la selezione di vari siti di e-commerce e la
dettagliata analisi di tutte le loro caratteristiche al fine di individuare gli
elementi specifici di ciascun sito e quelli comuni a tutti. Le
caratteristiche individuate devono permettere la costruzione di una
scheda di valutazione da applicare nella successiva fase di analisi di
altri siti di e-commerce.
• La raccolta dei dati consiste
    – nella compilazione della scheda di valutazione per alcune centinaia di
      siti web
    – nella ricerca di studi (ricerche e pubblicazioni) sull’esigenze dei clienti
      dei siti di e-commerce.
• Analisi dei dati raccolti: il confronto tra richieste degli utenti e le
caratteristiche attualmente offerte dai siti e la stesura di un report con i
risultati ottenuti.
Lo studio pilota
Analisi dettagliata di tutte le caratteristiche
di 30 siti web di e-commerce considerati.
Individuazione di sezioni comuni tra i vari
                     siti




     Analisi delle caratteristiche di 20
     siti web riconducibili alle sezioni
                 individuate



                Sintesi delle
             caratteristiche nella
            scheda di valutazione
             con diversi livelli di
                 astrazione
• This site is available in different languages with country-specific homepages (United Kingdom,
Shopping at
Bonprix             Italy, Germany, Holland, Swiss, Holland, etc) as shown by flags at the end of each page. The
                    structure of website is quite similar for different countries.
                    • Vendor’s mission and history is described in detail.
www.bonprix.co.uk
                    • Items are divided into categories (Men, Lingerie, Women, Kids, Shoes, Top Trend) and
                    subcategories (for example dresses, jeans, T-shirt, etc.)
                    • Items recommendations in homepage.
                    • Record recently viewed products by each customer.
                    • It is possible filter products by size, colours and price.
On line clothes
                    • New products are highlighted in homepage
on line shopping
website.            • Product description has a main visual part, where the product is dressed in by a model and the
                    other available colours are shown in another picture. The text product description is quite little.
                    • Guide to choose size.
                    • Basket picture remembers how many items have been added.
                    • Prices are expressed in pounds and include taxes.
                    • Off line catalogue can be requested.
                    • Orders are accepted by on line form, by phone and also by ma     il.
                    • Delivers only in UK and Northern Ireland
                    • Delivers only by carrier Parcelnet.
                    • Fixed postage and packing price for one or several packages.
                    • Payments: debit and credit cards are accepted: Switch/Maestro, Visa Debit/Delta, Visa and
                    MasterCard, but also cheque or post order. No cash or postal stamps.
                                                            al
                    • Product exchanges and returns are allowed within 14 days of receipt.
                    • Security - VeriSign SSL certificate
                    • Customer service by phone number and e-mail- FAQ
                    • Privacy - the site may share personal data with other organizations, they may contact customers
                    for marketing purposes by mail, telephone, e-mail or otherwise. Customers’ information, including
                    shopping habits, can be used for marketing purpose and customer satisfaction analysis. If
                    customers do no longer wish to receive catalogues and/or other information, they have to inform
Le sezioni
•   Descrizione del venditore
•   Registrazione
•   Il carrello / cestino della spesa
•   I prodotti
Le sezioni
• I siti mettono a disposizioni dei loro utenti molti servizi che
  facilitano la navigazione e la scelta dei prodotti:
   –   Compare service
   –   Ordine dei prodotti
   –   Il motore di ricerca
   –   Lista dei desideri (wish list)
   –   Send to a friend / e-mail a friend
   –   Suggerimenti
   –   Valutazioni dei clienti
   –   Nuovi prodotti
   –   Prodotti in offerta
   –   Prodotti personalizzati
   –   Newsletter.
   –   E-coupons
   –   Club
Le sezioni
• Servizi specifici
  – Guida alla scelta delle taglie
  – Download di driver e di aggiornamenti
  – Remind service
• Pagamenti
  – Supporto finanziario
  – Carte di credito del negozio
  – I prezzi generalmente sono presentati nella
    valuta del Paese dell’azienda, ma spesso
    sono presenti meccanismi che permettono di
    convertili nelle valute più diffuse al mondo.
Le sezioni
• Consegna
     – Rintracciare il prodotto (track product)
     – Spedizione gratuita
•   Restituzione e rimborsi
•   Customer service
•   Privacy
•   Sicurezza
•   L’analisi dei siti web è stata realizzata dal 26/11/2006 al
    05/01/2007, nel periodo dell’anno a cavallo delle festività
    natalizie, pertanto i siti presentavano sezioni dedicate a:
     – Idee regalo
     – Gift certificates (buoni regalo)


A partire da queste sezioni sono stati analizzati altri 20 siti
  web.
La scheda di valutazione
La scheda di valutazione presenta tre livelli di
astrazione.
• Il livello più alto corrisponde alle sezioni
individuate nella seconda fase.
• Il secondo livello rappresenta un’ulteriore
specificazione del primo livello e riguarda i servizi
offerti da ciascun sito nell’ambito delle varie
sezioni.
•L’ultimo livello indica alcuni dei possibili valori che
possono assumere le caratteristiche di secondo
livello.
Successive fasi del progetto
• Nella seconda fase del progetto saranno rilevati gli
  attributi della scheda di valutazione per alcune centinaia
  di siti web e contemporaneamente saranno ricercati studi
  sul comportamento dei clienti dei siti di e-commerce.
   – Al termine della seconda fase si avrà a disposizione un data set
     in cui ciascuna riga indicherà la presenza o meno, in un
     particolare sito web analizzato, degli attributi della scheda di
     valutazione. Se un particolare attribuito è presente in sito nella
     colonna corrispondente sarà inserito 1, se invece non è
     presente sarà inserito 0.
• Al data set così ottenuto, nella terza ed ultima fase del
  progetto, potranno essere applicate le tecniche di data
  mining per estrarre conoscenza riguardo l’attuale
  organizzazione dell’offerta dei siti di e-commerce.

Weitere ähnliche Inhalte

Andere mochten auch

Progettazione e realizzazione di un videogioco web implementato su un databas...
Progettazione e realizzazione di un videogioco web implementato su un databas...Progettazione e realizzazione di un videogioco web implementato su un databas...
Progettazione e realizzazione di un videogioco web implementato su un databas...Menion_Leah
 
GamesDB: motore di ricerca per videogiochi
GamesDB: motore di ricerca per videogiochiGamesDB: motore di ricerca per videogiochi
GamesDB: motore di ricerca per videogiochiAntonio Notarangelo
 
Classificazione pazienti con la SLA tramite SVM integration
Classificazione pazienti con la SLA tramite SVM integrationClassificazione pazienti con la SLA tramite SVM integration
Classificazione pazienti con la SLA tramite SVM integrationGiuseppe Luciano
 
Network Anomaly Detection col Conformal Prediction
Network Anomaly Detection col Conformal PredictionNetwork Anomaly Detection col Conformal Prediction
Network Anomaly Detection col Conformal PredictionGiuseppe Luciano
 
Social Network Analysis Applicata
Social Network Analysis ApplicataSocial Network Analysis Applicata
Social Network Analysis ApplicataGiovanni Carturan
 
SEO e marketing persuasivo per l'e-commerce
SEO e marketing persuasivo per l'e-commerce SEO e marketing persuasivo per l'e-commerce
SEO e marketing persuasivo per l'e-commerce FaberLab
 
Smau milano 2014 paolo pasini
Smau milano 2014 paolo pasiniSmau milano 2014 paolo pasini
Smau milano 2014 paolo pasiniSMAU
 
data mining & collaborative intelligence @bettersoftware
data mining & collaborative intelligence @bettersoftwaredata mining & collaborative intelligence @bettersoftware
data mining & collaborative intelligence @bettersoftwarelorenzov
 
Semantic Analysis using Wikipedia Taxonomy
Semantic Analysis using Wikipedia TaxonomySemantic Analysis using Wikipedia Taxonomy
Semantic Analysis using Wikipedia TaxonomyPatrick Nicolas
 
Seminario Di Data Mining
Seminario Di Data MiningSeminario Di Data Mining
Seminario Di Data Miningvaluccia84
 
Le Espressioni Regolari e gli Automi
Le Espressioni Regolari e gli AutomiLe Espressioni Regolari e gli Automi
Le Espressioni Regolari e gli AutomiGiuseppe Luciano
 

Andere mochten auch (20)

La lezione di Expo: comunicare con i grandi eventi
La lezione di Expo: comunicare con i grandi eventiLa lezione di Expo: comunicare con i grandi eventi
La lezione di Expo: comunicare con i grandi eventi
 
Progettazione e realizzazione di un videogioco web implementato su un databas...
Progettazione e realizzazione di un videogioco web implementato su un databas...Progettazione e realizzazione di un videogioco web implementato su un databas...
Progettazione e realizzazione di un videogioco web implementato su un databas...
 
GamesDB: motore di ricerca per videogiochi
GamesDB: motore di ricerca per videogiochiGamesDB: motore di ricerca per videogiochi
GamesDB: motore di ricerca per videogiochi
 
Classificazione pazienti con la SLA tramite SVM integration
Classificazione pazienti con la SLA tramite SVM integrationClassificazione pazienti con la SLA tramite SVM integration
Classificazione pazienti con la SLA tramite SVM integration
 
Network Anomaly Detection col Conformal Prediction
Network Anomaly Detection col Conformal PredictionNetwork Anomaly Detection col Conformal Prediction
Network Anomaly Detection col Conformal Prediction
 
Social Network Analysis Applicata
Social Network Analysis ApplicataSocial Network Analysis Applicata
Social Network Analysis Applicata
 
SEO e marketing persuasivo per l'e-commerce
SEO e marketing persuasivo per l'e-commerce SEO e marketing persuasivo per l'e-commerce
SEO e marketing persuasivo per l'e-commerce
 
Data Mining
Data MiningData Mining
Data Mining
 
Ngrams smoothing
Ngrams smoothingNgrams smoothing
Ngrams smoothing
 
La tesi in slide
La tesi in slideLa tesi in slide
La tesi in slide
 
Smau milano 2014 paolo pasini
Smau milano 2014 paolo pasiniSmau milano 2014 paolo pasini
Smau milano 2014 paolo pasini
 
data mining & collaborative intelligence @bettersoftware
data mining & collaborative intelligence @bettersoftwaredata mining & collaborative intelligence @bettersoftware
data mining & collaborative intelligence @bettersoftware
 
Semantic Analysis using Wikipedia Taxonomy
Semantic Analysis using Wikipedia TaxonomySemantic Analysis using Wikipedia Taxonomy
Semantic Analysis using Wikipedia Taxonomy
 
E-commerce in Italia 2012
E-commerce in Italia 2012E-commerce in Italia 2012
E-commerce in Italia 2012
 
Ptak prizeindia2014 SCNext_inquisitive_siom
Ptak prizeindia2014 SCNext_inquisitive_siomPtak prizeindia2014 SCNext_inquisitive_siom
Ptak prizeindia2014 SCNext_inquisitive_siom
 
E-commerce in Italia 2014
E-commerce in Italia 2014E-commerce in Italia 2014
E-commerce in Italia 2014
 
Seminario Di Data Mining
Seminario Di Data MiningSeminario Di Data Mining
Seminario Di Data Mining
 
Scm 2007 Part1
Scm 2007 Part1Scm 2007 Part1
Scm 2007 Part1
 
E-commerce
E-commerceE-commerce
E-commerce
 
Le Espressioni Regolari e gli Automi
Le Espressioni Regolari e gli AutomiLe Espressioni Regolari e gli Automi
Le Espressioni Regolari e gli Automi
 

Ähnlich wie L'applicazione delle tecniche di data mining alla personalizzazione dei siti web di e-commerce: dal web usage mining al social data mining

La metodologia statistica nel data mining
La metodologia statistica nel data miningLa metodologia statistica nel data mining
La metodologia statistica nel data miningFrancesco Tamburini
 
Algoritmi di clustering
Algoritmi di clusteringAlgoritmi di clustering
Algoritmi di clusteringRosario Turco
 
COUGAR: Clustering Of Unknown malware using Genetic Algorithm Routines
COUGAR: Clustering Of Unknown malware using Genetic Algorithm RoutinesCOUGAR: Clustering Of Unknown malware using Genetic Algorithm Routines
COUGAR: Clustering Of Unknown malware using Genetic Algorithm RoutinesDavidePanarella
 
Data mining 00-corso2017
Data mining 00-corso2017Data mining 00-corso2017
Data mining 00-corso2017Studiabo
 
Classificazione automatica per dati ad alta dimensionalità: un approccio fuzz...
Classificazione automatica per dati ad alta dimensionalità: un approccio fuzz...Classificazione automatica per dati ad alta dimensionalità: un approccio fuzz...
Classificazione automatica per dati ad alta dimensionalità: un approccio fuzz...Marco D'Alessandro
 
Tecniche di fattorizzazione applicate ai recommender systems
Tecniche di fattorizzazione applicate ai recommender systemsTecniche di fattorizzazione applicate ai recommender systems
Tecniche di fattorizzazione applicate ai recommender systemsGiuseppe Ricci
 
Presentazione Aggiornamento Agile Club Sviluppatori Puglia
Presentazione Aggiornamento Agile Club Sviluppatori PugliaPresentazione Aggiornamento Agile Club Sviluppatori Puglia
Presentazione Aggiornamento Agile Club Sviluppatori PugliaGiuseppe Ricci
 
Carlo Bono - Introduzione alla Data Analysis e al Machine Learning - Rinascit...
Carlo Bono - Introduzione alla Data Analysis e al Machine Learning - Rinascit...Carlo Bono - Introduzione alla Data Analysis e al Machine Learning - Rinascit...
Carlo Bono - Introduzione alla Data Analysis e al Machine Learning - Rinascit...Stefano Saladino
 
CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algo...
CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algo...CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algo...
CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algo...Leonardo Di Donato
 
Sintesi automatica di una metrica di similarità tra stringhe tramite tecniche...
Sintesi automatica di una metrica di similarità tra stringhe tramite tecniche...Sintesi automatica di una metrica di similarità tra stringhe tramite tecniche...
Sintesi automatica di una metrica di similarità tra stringhe tramite tecniche...mfurlanetto
 
Algoritmi di clustering e correlazione: una panoramica
Algoritmi di clustering e correlazione: una panoramicaAlgoritmi di clustering e correlazione: una panoramica
Algoritmi di clustering e correlazione: una panoramicaPaolo Caressa
 
Mobile price classification
Mobile price classificationMobile price classification
Mobile price classificationMircoBarbero
 
Definizione e comparazione dei modelli di classificazione con Scikit-Learn
Definizione e comparazione dei modelli di classificazione con Scikit-LearnDefinizione e comparazione dei modelli di classificazione con Scikit-Learn
Definizione e comparazione dei modelli di classificazione con Scikit-LearnAlina Gnerre
 
Customer Profiling & Predictive Analysis
Customer Profiling & Predictive AnalysisCustomer Profiling & Predictive Analysis
Customer Profiling & Predictive AnalysisStefano Maria De' Rossi
 

Ähnlich wie L'applicazione delle tecniche di data mining alla personalizzazione dei siti web di e-commerce: dal web usage mining al social data mining (19)

La metodologia statistica nel data mining
La metodologia statistica nel data miningLa metodologia statistica nel data mining
La metodologia statistica nel data mining
 
Sentiment candida 27_may
Sentiment candida 27_maySentiment candida 27_may
Sentiment candida 27_may
 
Algoritmi di clustering
Algoritmi di clusteringAlgoritmi di clustering
Algoritmi di clustering
 
COUGAR: Clustering Of Unknown malware using Genetic Algorithm Routines
COUGAR: Clustering Of Unknown malware using Genetic Algorithm RoutinesCOUGAR: Clustering Of Unknown malware using Genetic Algorithm Routines
COUGAR: Clustering Of Unknown malware using Genetic Algorithm Routines
 
Data mining 00-corso2017
Data mining 00-corso2017Data mining 00-corso2017
Data mining 00-corso2017
 
Classificazione automatica per dati ad alta dimensionalità: un approccio fuzz...
Classificazione automatica per dati ad alta dimensionalità: un approccio fuzz...Classificazione automatica per dati ad alta dimensionalità: un approccio fuzz...
Classificazione automatica per dati ad alta dimensionalità: un approccio fuzz...
 
introduzione al data mining
introduzione al data mining introduzione al data mining
introduzione al data mining
 
Tecniche di fattorizzazione applicate ai recommender systems
Tecniche di fattorizzazione applicate ai recommender systemsTecniche di fattorizzazione applicate ai recommender systems
Tecniche di fattorizzazione applicate ai recommender systems
 
Presentazione Aggiornamento Agile Club Sviluppatori Puglia
Presentazione Aggiornamento Agile Club Sviluppatori PugliaPresentazione Aggiornamento Agile Club Sviluppatori Puglia
Presentazione Aggiornamento Agile Club Sviluppatori Puglia
 
Algoritmi E P2P
Algoritmi E P2PAlgoritmi E P2P
Algoritmi E P2P
 
Algoritmi E P2P
Algoritmi E P2PAlgoritmi E P2P
Algoritmi E P2P
 
Carlo Bono - Introduzione alla Data Analysis e al Machine Learning - Rinascit...
Carlo Bono - Introduzione alla Data Analysis e al Machine Learning - Rinascit...Carlo Bono - Introduzione alla Data Analysis e al Machine Learning - Rinascit...
Carlo Bono - Introduzione alla Data Analysis e al Machine Learning - Rinascit...
 
CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algo...
CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algo...CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algo...
CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algo...
 
Sintesi automatica di una metrica di similarità tra stringhe tramite tecniche...
Sintesi automatica di una metrica di similarità tra stringhe tramite tecniche...Sintesi automatica di una metrica di similarità tra stringhe tramite tecniche...
Sintesi automatica di una metrica di similarità tra stringhe tramite tecniche...
 
Algoritmi di clustering e correlazione: una panoramica
Algoritmi di clustering e correlazione: una panoramicaAlgoritmi di clustering e correlazione: una panoramica
Algoritmi di clustering e correlazione: una panoramica
 
Algoritmi di Semantica e P2P
Algoritmi di Semantica e P2PAlgoritmi di Semantica e P2P
Algoritmi di Semantica e P2P
 
Mobile price classification
Mobile price classificationMobile price classification
Mobile price classification
 
Definizione e comparazione dei modelli di classificazione con Scikit-Learn
Definizione e comparazione dei modelli di classificazione con Scikit-LearnDefinizione e comparazione dei modelli di classificazione con Scikit-Learn
Definizione e comparazione dei modelli di classificazione con Scikit-Learn
 
Customer Profiling & Predictive Analysis
Customer Profiling & Predictive AnalysisCustomer Profiling & Predictive Analysis
Customer Profiling & Predictive Analysis
 

L'applicazione delle tecniche di data mining alla personalizzazione dei siti web di e-commerce: dal web usage mining al social data mining

  • 1. Università degli Studi di Salerno Facoltà di Lettere e Filosofia Laurea Specialistica in Comunicazione d’Impresa e Pubblica Tesi in Informatica per il commercio elettronico L’applicazione del data mining alla personalizzazione dei siti di e-commerce: dal web usage mining al social data mining Tiziana Capozzoli tizianaxx@inwind.it
  • 2. Indice • Contesto • Data mining • Il processo di personalizzazione – Sistemi di personalizzazione • Progetto
  • 3. Il contesto – Diffusione dell’e-commerce • L’aumento della complessità dell’ambiente competitivo delle aziende • L’aumento della concorrenza • L’incremento dei dati e l’information overload Marketing relazionale Data mining Personalizzazione
  • 4. Marketing relazionale • Focalizza l’attenzione sulla relazione azienda- cliente • Rapporti di lungo periodo con clienti • Fidelizzazione degli attuali clienti • Lo scopo dell’azienda diventa quello di soddisfare il maggior numero di bisogni di uno stesso cliente •Dalla quota mercato alla quota cliente •Importanza di avere a disposizione quante più informazioni sui clienti
  • 5. Indice • Contesto • Data mining • Il processo di personalizzazione • Sistemi di personalizzazione • Progetto
  • 6. Data mining Il data mining è “il processo di esplorazione e analisi di un insieme di dati, generalmente di grandi dimensioni, per individuare eventuali regolarità, estrarre conoscenza e ricavare regole ricorrenti significative” (Vercellis,2006, p.77)
  • 7. Supervisionato/non supervisionato • Apprendimento supervisionato (analisi dirette) è presente un attributo target, che rappresenta la classe di appartenenza per ciascun record: – le classi alle quali ricondurre le osservazioni sono già note, – l’analisi deve spiegare come le osservazioni si aggreghino ad una classe piuttosto che ad un'altra, in base ai valori assunti rispetto agli altri attributi disponibili. • Apprendimento non supervisionato (analisi indirette): il dataset di riferimento non prevede alcun attributo target: – Esse mirano ad individuare ricorrenze, affinità e difformità e a determinare raggruppamenti di record omogenei al loro interno e diversi rispetto agli altri.
  • 8. Metodologie di data mining • Classificazione • Clustering • Regole associative
  • 9. Classificazione • La classificazione consiste nell’assegnare agli oggetti esaminati l’etichetta di una classe scelta tra un insieme predefinito di classi. • A partire da un insieme di osservazioni riferite al passato, per le quali è nota la classe di appartenenza, vengono costruiti i modelli di classificazione • I modelli individuano legami ricorrenti tra le variabili esplicative per descrivere le osservazioni appartenenti ad una medesima classe. – Metodo di apprendimento supervisionato • I legami individuati vengono tradotti in regole di classificazione da impiegare per predire la classe di appartenenza di osservazioni delle quali è noto solo il valore degli attributi esplicativi
  • 10. Attributo1 Attributo2 Attributo n Classe Esempio1 Classe1 Esempio2 Classe2 Esempio3 Classe1 Esempio4 … ….. … xij Classe (yi) Esempio i … … … Esempio m
  • 11. Classificazione Il caso Carla è rappresentato dal punto nero in uno spazio a quattro dimensioni. La posizione nello spazio è determinata dai valori assunti da Carla rispetto ai quattro attributi.
  • 12. Classificazione In un problema di classificazione si deve •definire uno spazio di ipotesi F, che rappresentano le possibili relazioni di dipendenza tra la classe e il vettore degli attributi predittivi. •scegliere un algoritmo che identifichi la funzione f capace di descrivere in modo soddisfacente la relazione tra gli attributi e la classe Funzione che descrive la relazione tra attributi e classe
  • 13. Classificazione Fasi della classificazione: training, test e predizione. • Training viene estratto un sottoinsieme T degli esempi presenti nel dataset D, denominato training set, generalmente corrispondente al 66% dei casi del dataset. L’algoritmo di classificazione viene applicato agli esempi appartenenti a questo sottoinsieme T per ricavare le regole di classificazione che consentono di attribuire a ciascuna osservazione x la corrispondente classe target y. • Test: le regole prodotte nella fase di training sono impiegate per classificare la restante parte delle osservazioni del dataset D, corrispondenti al 33% della grandezza del dataset e per le quali è noto il valore della classe target. – Si valuta l’accuratezza del modello, confrontando la classe predetta dal classificatore con quella a cui realmente appartengono gli esempi. • Predizione: il modello scelto viene usato per classificare nuovi esempi.
  • 14. Clustering – Il clustering si propone di identificare raggruppamenti omogenei di record, mediante la definizione di opportune metriche e delle relative nozioni di distanza e similarità tra coppie di osservazioni. – Le osservazioni in ogni cluster devono essere quanto più simili è possibile tra loro e dissimili dalle osservazioni degli altri gruppi. – Metodo di apprendimento non supervisionato
  • 15. Clustering Cluster
  • 16. Metodi di clustering • Metodi di partizione suddividono il dataset in un numero predeterminato di sottogruppi : – un’assegnazione iniziale delle osservazioni ai cluster. – applicano iterativamente una tecnica di riallocazione delle osservazioni per accrescere la qualità della suddivisione, – fin quando non si raggiunge la “convergenza”. – Richiedono di conoscere in anticipo il numero di cluster da ottenere • Metodi gerarchici derivano molteplici suddivisioni in sottogruppi dei dati, in base a diverse soglie di omogeneità. – I metodi gerarchici possono essere agglomerativi o di suddivisione • Agglomerativi: formano un cluster per ogni osservazione (cluster atomici) che in varie iterazioni successive vengono aggregati formando cluster di dimensioni sempre maggiori • Suddivisione: collocano tutte le osservazioni in un solo cluster, che, in varie iterazioni successive, viene suddiviso in raggruppamenti di dimensioni minori. – Sono lenti nell’elaborazione
  • 17. Metodi di clustering Per risolvere tali inconvenienti si possono integrare i due approcci in vari modi: –I • Si estrae un campione dei dati sul quale effettuare l’analisi gerarchica per determinare il numero ottimale di cluster, • Usando il numero di cluster calcolato, si effettua l’analisi non gerarchica sull’intero dataset. – II • Si realizza un’analisi non gerarchica su tutti i dati ipotizzando un numero elevato di cluster • Si crea un campione con le medie dei cluster ottenuti. Sul campione, così ottenuto, si effettua un’analisi gerarchica.
  • 18. Regole associative • Ricercano oggetti (item) che tendono ad apparire insieme in un certo dataset. • Sono un metodo locale, cioè nei dati scoprono pattern che sono applicabili solo ad una piccola percentuale di esempi – Preso I, l’insieme di tutti gli item. – Una transazione T è definita come un insieme di item che si presentano insieme. – Una regola associativa è un’implicazione di natura probabilistica tra due insiemi di item A e B, sottoinsiemi di I, rappresentata come A→B. – Essa indica che la presenza in una transazione degli item compresi nel sottoinsieme A implica la presenza degli oggetti in B con certa probabilità. • Confidenza: corrisponde alla frazione di transazioni contenenti entrambi gli oggetti rispetto a quelle che contengono solo il primo oggetto • Supporto: è il rapporto tra la frazione di transazioni che contengono sia A che B rispetto a tutte le transazioni del dataset. Esso indica la frequenza con cui A e B compaiono insieme nelle transazioni. (Agrawal e Srikant,1994)
  • 19. Data mining per la personalizzazione • Acquisizione dei clienti: le tecniche di data mining permettono di distinguere le caratteristiche (anagrafiche, di comportamento, di acquisto etc.) degli utenti che hanno una maggiore probabilità di diventare clienti e quindi di realizzare azioni mirate solo nei loro confronti, in modo da ridurre gli sprechi e incrementando l’efficacia delle azioni di marketing. • Maturità: – prolungare la redditività e la durata della relazione, massimizzando il valore del cliente. – migliorare la loyality: identificazione dei segmenti di mercato che risponderanno meglio ad azioni di cross-selling o up-selling. • Predizione del rischio di abbandono: confrontare le caratteristiche di chi è rimasto fedele nel tempo con chi ha cambiato fornitore per indirizzare soltanto ai clienti con alto rischio di abbandono le azioni di retention.
  • 20. Esempi • CRM • Click stream • User profiling (Giudici, 2005)
  • 21. CRM • Piccola azienda che opera nel settore della vendita per corrispondenza. • Obiettivi: – studiare il comportamento di acquisto dei clienti – capire quali fattori distinguono un cliente occasionale da uno fedele, – individuare in anticipo quali clienti saranno veramente profittevoli – studiare politiche di marketing adatte ai diversi tipi di clienti
  • 22. CRM • Dati: – dati relativi ai 210.085 clienti che hanno effettuato almeno un acquisto presso l’azienda tra il 1992 e il 1996. • Si estrae un campione stratificato in modo proporzionale in base alla data di contatto con l’azienda di 2.470 clienti – Le variabili prese in considerazione sono state sette, cinque discrete e due continue: • l’ammontare del primo acquisto (variabile quantitativa) • pagamento a rate (dicotomica) • il numero di oggetti acquistati (variabile quantitativa) • l’area di provenienza della filiale (variabile qualitativa: nord, centro e sud) • età (variabile discretizzata in tre range 15-35, 36-50, 51-89) • dimensione della filiale (variabile qualitativa: piccola, media, grande) • sesso (dicotomica)
  • 23. CRM • Modello di classificazione predittivo, per collocare i clienti in due classi (profittevoli/non profittevoli). • Sono stati costruiti differenti tipi di modelli: – Regressione logistica (per scegliere le variabili) – Reti neurali – Alberi decisionali (algoritmo CART) – Nearest neighbor • Scelta del modello – In base a conoscenze di markerting, scegliendo di minimizzare gli errori più costosi – Analisi ROC
  • 24. Curva ROC Questa curva ha come coordinate in ascisse (1- la specificità, cioè la probabilità dell’errore di secondo tipo) e in ordinata la sensitività, cioè (1-la probabilità dell’errore di primo tipo) 1- la probabilità dell’errore di secondo tipo (falsi negativi)
  • 25. CRM • In base alla ROC analisi, gli alberi di classificazione e i modelli nearest neighbour sono risultati i migliori tra i quelli costruiti per questa analisi. • Sono stati scelti gli alberi di decisione perchè hanno l’ulteriore beneficio di produrre regole facilmente intelligibili.
  • 26. Click stream •Società che vende prodotti software e hardware on line •Obiettivo: prevedere il comportamento di visita al sito degli utenti •Dati: –dataset ottenuto dall’elaborazione di un log file, contenente i dati relativi agli accessi al sito per un periodo di circa due anni. –attributi l’user id dell’utente, una variabile con la data di accesso e una con la pagina richiesta, per un totale di 250.711 richieste, corrispondenti a 22.527 visitatori –Il sito ha 36 pagine Richieste Id utente Data Pagina accesso richiesta 1 ………… 250.711
  • 27. Click stream Da questo iniziale dataset ne viene ricavato un altro, organizzato per sessioni sessioni Durata Orario inizio Numero Pag. 1 Pag. 2 Pag.3 …. …. … Pag. 36 sessione di click ………… Cluster analysis preliminare per ottenere quattro cluster di comportamento omogenei rispetto alle tre variabili: orario di accesso, durata della sessione e numero di click.
  • 28. Click stream • Si è scelto un cluster di 1.240 sessioni caratterizzato da una durata dalle sessioni particolarmente lunga e un numero di pagine viste abbastanza alto, quindi con un’alta potenzialità di acquisto. • Modello: le regole sequenziali, cioè regole associative ordinate per una variabile. Per estrarre le regole sequenziali è stato usato l’algoritmo Apriori. • Le sequenze più interessanti riguardano: – la visita della pagina programmi e poi quella prodotti program→product – la visita di due pagine di prodotti consecutivamente product→product
  • 29. User profiling • Obiettivo: classificare i visitatori in gruppi omogenei in base ai rispettivi profili comportamentali. • Sito www.microsoft.com • Dati: – Pagine visitate da 32.711 utenti in una settimana. C, “10908”, 10908 V, 1108 V, 1017 C, “10909”, 10909 V, 1113 V, 1009 V, 1034 C, “10910”, 10910 V, 1026 V, 1017 Ogni visitatore è identificato da un’etichetta (C), poi tradotta in codice numerico (109**), ed è seguito da una o più righe che indicano le pagine visitate (V), anch’esse identificate da un codice numerico (da 1000 a 1295).
  • 30. User profiling Dal dataset iniziale si deriva una matrice di dati organizzata per visitatori con una variabile categorica che descrive quante volte ogni pagina è stata visitata. Le 296 pagine del sito sono state raggruppate in 13 categorie omogenee. Codice Inizial Help Svago office Windo Altro Down Altro Svilup Hardw Biz Info Area cliente e w Soft. load Int. po are 10001 1 1 1 0 0 0 0 0 0 0 5 0 0 10002 1 1 0 0 0 0 0 3 0 0 0 0 0 10003 2 1 0 0 0 2 0 0 0 0 0 0 2 … … … … … … … … … … … … … … Modelli: •Clustering •Mappe di Kohonen
  • 31. User profiling • Test di cross validation: – sono stati creati due dataset con i risultati ottenuti dai due diversi procedimenti, aggiungendo al dataset iniziale la variabile categorica che assegna l’osservazione ad uno dei 10 cluster. – Su questi dataset è stata realizzata la classificazione per verificare quale modello è più accurato. • Modello migliore: mappe di Kohonen. • I cluster ottenuti grazie a questo modello rappresentano tre tipi di utenti – profili monotematici di utenti, che visitano soltanto un’area specifica, – profili politematici di utenti che visitano tutte le aree del sito, – profili intermedi di professionisti dell’informatica, che visitano le pagine relative allo sviluppo, a particolari software e al download
  • 32. Indice • Contesto • Data mining • Il processo di personalizzazione – Sistemi di personalizzazione • Progetto
  • 33. La personalizzazione dei siti web “Ogni azione che adatta l’informazione o il servizio fornito da un sito web ai bisogni di un utente specifico, sfruttando la conoscenza acquisita: – dall’analisi del comportamento di navigazione dell’utente (usage data) – dagli interessi individuali inseriti nel profilo utente – combinanti con altre informazioni del web: contenuto e la struttura del sito web” (Eirinaki e Vazirgiannis, 2003)
  • 34. Perché la personalizzazione dei siti web? La personalizzazione di un sito web permette di predire i bisogni degli utenti al fine di migliorare l’usabilità e la retention. Obiettivo: fornire agli utenti l’informazione che vogliono o di cui hanno bisogno senza aspettare che la chiedano esplicitamente.
  • 35. Il processo di personalizzazione Raccolta dei web data User profiling e User profiling Analisi dei dati Web usage mining Content based filtering Collaborative filtering Scelta del tipo di personalizzazione Contenuto Interfaccia Presentazione
  • 36. Il processo di personalizzazione Raccolta dei web data • Le informazioni sull’utente • Dati ambientali: informazioni sul dispositivo usato per interagire con il sistema • Informazioni sul contesto d’uso • Usage data
  • 37. Le informazioni sull’utente • Dati demografici: nome,numero di telefono, età, il luogo di abitazione, sesso, il titolo di studio, il reddito; • Conoscenza dell’utente: la familiarità dell’utente con i concetti del dominio e la sua expertise per quel dominio; • Saper fare dell’utente: indipendentemente da cosa l’utente sa, in molti casi è importante sapere cosa l’utente sa fare e distinguere tra cosa gli è familiare e cosa può realizzare che può essere particolarmente importante per la vendita di prodotti e servizi complessi (computer, ADSL e simili); • interessi e preferenze, di solito riferiti alle categorie di prodotti venduti dal negozio on line o a specifiche proprietà di tali prodotti; • bisogni: le disabilità per le quali è necessario un servizio accessibile • scopi: l’utente può comprare qualcosa per sé o un regalo per qualcuno altro un assistente di un negozio on line potrebbe aiutare l’utente a trovare la soluzione meno costosa o la più efficace o bilanciare richieste conflittuali
  • 38. Dati ambientali: informazioni sul dispositivo usato L’utente può usare diversi tipi di hardware per accedere al sito: un desktop PC, un laptop, un telefono cellulare, un PDA, Ogni dispositivo ha differenti caratteristiche: •la dimensione dello schermo •la capacità e la memoria di calcolo, •i meccanismi di input e output (tastiera, mouse, interfaccia vocale,etc). I dati ambientali riguardano: •la versione del browser, •la piattaforma usata, •la disponibilità di plug-ins, •i firewall che bloccano le applet, •la banda disponibile, •la velocità di processing, •i dispositivi di visualizzazione, •informazioni geografiche in base alle quali adattare la lingua e i contenuti locali.
  • 39. Informazioni sul contesto d’uso L’utente può interagire con il negozio on line in situazioni differenti, a casa, in treno, mentre cammina o guida, durante una riunione. Il contesto d’uso è costituito da: • il contesto fisico include la location dell’utente e le condizioni ambientali come la luce, il rumore, la temperatura, il tempo di connessione, la velocità di spostamento. • il contesto sociale include la comunità o il gruppo a cui l’utente appartiene, il compito che sta realizzando e la relazione con le persone che lo circondano mentre interagisce con l’applicazione.
  • 40. Usage data Gli usage data sono i dati derivanti dai log file e rappresentano il comportamento dei visitatori.
  • 41. Web Log Ogni accesso ad una pagina web è registrato nel log di accesso del server. Nel log ci sono campi predefiniti: Remote host Remote log User name Date and Request Status Bytes name login time Ip Referrer: l’url di provenienza dell’utente User agent: il software che l’utente usa per navigare nel sito Cookies: se il sito visitato li usa
  • 42. Log file ... 213.213.31.41 [15/Apr/2000:04:00:04 +0200] “GET http://www.unipi.it/images/h/h_home.gif HTTP/1.1quot; 200 1267 MmTaUg00pdA00001fvkwsM4000 http://www.unipi.it MSIE+6.0 Dove • 213.213.31.41 indica l’indirizzo IP del computer che ha fatto la richiesta della pagina • 15/Apr/2000:04:00:04 è la data è l’ora della transazione, • GET è il metodo di transazione (che può essere GET o POST), • http://www.unipi.it/images/h/h home.gif , indica l’URL richiesta dall’utente, • HTTP/1.1 è il protocollo HTTP usato, • 200 è il codice di ritorno HTTP (200 per le transazioni riuscite), • 1267 è la grandezza in bytes della risposta inviata al cliente • MmTaUg00pdA00001fvkwsM4000 indica il cookie inviato al browser del cliente, • http://www.unipi.it è il cosiddetto campo referrer, l’URL di provenienza dell’utente, • MSIE+6.0 indica il browser usato dall’utente.
  • 43. User profile User profile è “un record di dati strutturati, contenente informazioni dell’utente: gli identificatori, le caratteristiche, le capacità, i bisogni e gli interessi, le preferenze, il comportamento precedente in contesti rilevanti per predire o influenzare il comportamento futuro” (Van Dijk et alt., 2005) • Profili statici e dinamici • Acquisizione dei dati implicita ed esplicita
  • 44. User profile Io sono Identificatori: nome utente, password, domande segrete,etc Io sono + Me: personalità, Preferisco Preferenze: musica, arte, notizie, cibo, viaggi, etc Mi piace Interessi: pittura, immersioni, internet, etc Possiedo Circostanze: studio, cerco casa/lavoro/un’auto, organizzo un viaggio, etc Voglio Obiettivi: carriera, vita sociale, etc Faccio Comportamento: lavoro, ascolto musica, etc Conosco Expertise: fisica quantistica, giardinaggio, motori, etc ….. …. Fonte: adattamento da (van Dijk et alt., 2005, p.13)
  • 45. Tecniche per la personalizzazione • Web usage mining • Content-based filtering • Collaborative filtering
  • 46. Web usage mining • Preprocessing • Pattern discovery – Regole associative: sono usate per trovare correlazioni tra pagine visitate assieme in una sessione. Indicano la possibile relazione tra pagine anche se non sono direttamente connesse e possono rilevare associazioni tra gruppi di utenti con specifici interessi – Sequential pattern:è un’estensione delle regole associative per rilevare pattern di co-occorrenze in un certa sequenza temporale – Clustering: » User cluster: gruppi di utenti che sembrano comportarsi in modo simile mentre navigano » Page cluster: pagine che sembrano interrelate concettualmente nella percezione degli utenti – Classificazione: riconduce le pagine o gli utenti ad una serie di classi predeterminate • Analisi dei pattern estratti
  • 47. Il Web Personalizer Un framework per la personalizzazione dei siti web basata sugli usage data. • Mining degli usage data per la personalizzazione dei siti web –Regole associative ed itemsets –Clustering Transactions –Usage Clusters • Il processo di raccomandazione –Realizzare le raccomandazioni direttamente dagli itemsets. –Calcolare le raccomandazioni in base ai clusters di URL
  • 48. Struttura del Web Personalizer Componente off line Preparazione dei dati Usage Mining Transaction File del clustering Cluster sito e Usage clustering di URL metadati Pulizia dei dati Identificazione degli utenti e delle File delle transazioni transazioni Server Statistiche d’uso utente Log Association rule Itemset discovery frequenti Motore di Raccomandazione Componente on line Sessione Raccomandazioni attiva Web Client Fonte: adattamento da (Mobasher et al., 2000) server browser
  • 49. Clickworld • Obiettivo: costruire dei modelli del comportamento di navigazione degli utenti nel portale Vivacity.it per fornire agli utenti un’organizzazione del sito personalizzata e proattiva. • Compiti specifici: – predire se un utente sarà interessato a visitare una specifica sezione del sito sulla base alle sezioni visitate precedentemente. – predire il sesso dell’utente in base alle pagine web visitate • Dati: – i log di accesso al portale un periodo di 5 mesi, corrispondenti a più di 7 milioni di richieste. – Informazioni aggiuntive per il 15% di utenti registrati • Struttura del sito: il portale presentava un’area nazionale con notizie, forum, informazioni, barzellette, etc. e più di 30 sezioni locali con informazioni specifiche per ogni città. • Costruzione dell’ontologia del sito
  • 50. Clickworld • Predire se un utente sarà interessato a visitare una specifica sezione del sito sulla base alle sezioni visitate precedentemente – Le sezioni sono state usate come attributi: scelta una sezione come classe le altre sono diventate gli attributi esplicativi. – Applicando l’algoritmo dell’albero decisionale C4.5 si è ottenuto • Recall (numero di utenti interessati riconosciuti rispetto a tutti gli utenti interessati) di circa il 50%, cioè nel fare le previsioni riesce a raggiungere il 50% di utenti potenzialmente interessati. • Precision (numero di utenti interessati rispetto al totale degli utenti riconosciuti) di circa il 90%, cioè c’erano pochi errori di predizione.
  • 51. Clickworld • Predire il sesso dell’utente in base alle pagine web visitate – dati degli utenti registrati, corrispondenti al 15% del dataset, in quanto solo per queste persone era noto il sesso. L’insieme degli utenti registrati è stato diviso nel training e nel test set, corrispondenti al 67% e al 33% degli utenti registrati. – Gli attributi sono rappresentati dalle pagine o sezioni del sito e la classe dal sesso dell’utente. – Il modello migliore è stato ottenuto dall’albero decisionale C4.5, che ha presentato un errore di classificazione del 39,8%, ritenuto non soddisfacente. – Gli autori hanno spiegato il mancato miglioramento dell’accuratezza del modello in base alla scarsa capacità di discriminazione dell’ontologia usata e alle caratteristiche delle sessioni, troppo brevi e con pochi click, per fornire pattern di accesso distintivi per il sesso degli utenti (Baglioni et al., 2003).
  • 52. Limiti del web usage mining • Può essere difficile ottenere informazioni dai log file: – I log file hanno lo scopo di raccogliere informazioni per il debug del web server e non per il data mining. • Il web usage mining tralascia le informazioni legate al contenuto ed alla struttura del sito.
  • 53. Tecniche per la personalizzazione • Web usage mining • Content-based filtering • Collaborative filtering
  • 54. Content-based filtering • Sono basati sulle preferenze dell’utente, il sistema ne traccia il comportamento e gli presenta item simili a quelli che ha preferito in passato www.amazon.com
  • 55. Limiti del content –based filtering • Richiede che a ciascun oggetto sia associato del contenuto e che esso sia analizzato. • Fornendo raccomandazioni strettamente associate all’user profile, non vengono suggeriti nuovi prodotti. – Non permette il suggerimento casuale di prodotti (serendipity)
  • 56. Un’architettura che integra il contenuto nel processo di personalizzazione • C-Log : web log migliorati grazie all’introduzione di campi aggiuntivi relativi alle categorie semantiche derivate dall’analisi del contenuto • L’integrazione delle caratteristiche di contenuto nel processo di personalizzazione permette di ampliare il set di raccomandazione
  • 57. Fonte: Adattamento da (Eirinaki et al., 2003) Meccanismo di pubblicazione Motore di raccomandazione Clusters dei Usage pattern documenti Clustering dei Web Usage Mining documenti Contenuto del sito web C- Logs Tassonomia Tesaurus Creazione dei C-Logs Preprocessing dei dati Web Log Preprocessati Web Logs
  • 58. Il web semantico Il web semantico è un’idea di Tim Berners-Lee secondo la quale le macchine diventano “capaci di analizzare tutti i dati sul web, il contenuto, i link e le transazioni tra persone e computer” (Berners- Lee, 2001, p. 139). Secondo tale visione il web è un mezzo potente per favorire la cooperazione tra gruppi di persone, in cui la condivisione di conoscenza e l’interazione sono semplici e dirette.
  • 59. Il web semantico FIDUCIA D O M PROVA A N FIRMA I LOGICA DIGITALE O OWL G G RDF + RDF I SCHEMA I XML + NAMESPACE + XML SCHEMA E R I UNICODE URI Fonte: adattamento da (Berners-Lee, 2001)
  • 60. RDF • RDF standardizza la definizione di relazioni tra informazioni in base ai principi della logica dei predicati e ricorrendo agli strumenti tipici del web (ad esempio URI) e dell'XML (ad esempio i namespace). • Secondo la logica dei predicati le informazioni sono esprimibili con asserzioni, costituite da triple formate da – Soggetto (risorsa) – predicato (proprietà) – oggetto (valore) • Le risorse possono essere le pagine web o raccolte di pagine web o qualsiasi oggetto, anche non direttamente parte del web, raggiungibile attraverso un URL. • Le proprietà sono specifici attributi che descrivono le risorse. Ogni proprietà ha un significato specifico, definisce i valori ammessi, i tipi di risorse a cui può riferirsi e la sua relazione con altre proprietà. • Un valore è o una risorsa o un’altra asserzione • Una risorsa con una proprietà che assume un valore per quella risorsa forma un’asserzione RDF.
  • 61. RDF La frase “Ora Lassila è il creatore della pagina http://www.w3c.org/home/Lassila, Creator http://www.w3.org/Home/Lassila Ora Lassila (Berners-Lee et al., 2001).
  • 62. Ontologie • Gruber (1993) definisce un’ontologia “la specificazione esplicita di una concettualizzazione” • La costruzione di un’ontologia richiede: – l’esplicitazione dei concetti relativi ad un dominio – la loro presentazione in un formato comprensibile agli esseri umani e leggibile dalle macchine. • La concettualizzazione è una rappresentazione formale della realtà come percepita e organizzata da un agente, indipendentemente dal vocabolario utilizzato e dall’occorrenza in una specifica situazione. • Le ontologie rendono la conoscenza riusabile in diverse applicazioni e in domini differenti. • Le ontologie possono fornire una ricca concettualizzazione del dominio di lavoro di un’organizzazione, rappresentando: – un insieme di concetti, – una gerarchia di questi concetti – le relazioni tra loro.
  • 63. Ontologie • La forma tipica dell’ontologia per il web è costituita da una tassonomia e un insieme di regole di inferenza. • La tassonomia definisce le classi di oggetti e le relazioni tra loro. • Classi, sottoclassi e relazioni tra le entità sono strumenti molto potenti da usare sul web, perché permettono – di esprimere un gran numero di relazioni tra le entità, – assegnano le proprietà alle classi – fanno ereditare alle sottoclassi le proprietà delle classi del livello superiore. • Le regole di inferenza permettono di trarre automaticamente delle conclusioni dalle ontologie.
  • 64. Tipi di ontologie • Usa un piccolo numero di relazioni tra i concetti, di solito le relazioni di sottoclasse e a volte le relazioni “parte di”. – DMoz e Yahoo!: i documenti sono organizzati gerarchicamente in base al contenuto, per ogni topic di contenuto c’è un nodo dell’ontologia e questo è associato a parecchie centinaia di pagine web, identificate dalle loro URL. • Presenta numerosi tipi di relazioni, ma ha una descrizione dei concetti piuttosto limitata. – la rete semantica Word-Net, costruita manualmente, possiede 26 diversi tipi di relazioni (iperonimi, sinonimi, etc.)
  • 65. Struttura del sistema di personalizzazione che integra conoscenza di dominio e profili d’uso • Nella fase di preprocessing, si usano la conoscenza di dominio, gli usage data e i metadati delle pagine del sito • Nella fase on line, si usano la conoscenza di dominio, l’attuale sessione attiva dell’utente e il profilo utente individuale, per creare i profili utente integrati, che insieme ai profili d’uso aggregati sono usati dal motore di raccomandazione per fare i suggerimenti all’utente
  • 66. Struttura del sistema di personalizzazione che integra conoscenza di dominio e profili d’uso Preparazione dei dati Usage Mining Files del sito e metadati Derivazione dei Profili Preprocessing dei dati profili aggregati d’uso Identificazione delle pageviews, sessioni, Usage utenti e transazioni data Transaction clustering pageview/item clustering Conoscen File delle Association rule discovery za di transazioni Sequential pattern discovery dominio utente Fonte: adattamento da (Dai e Mobasher, 2002)
  • 67. Fase di raccomandazione Profili d’uso Motore di Raccomandazione aggregati Profilo utente Profilo Raccomandazioni integrato d’uso individua le Sessione attiva Conoscenza Web Client di server browser dominio Fonte: adattamento da Dai e Mobasher, 2002
  • 68. Tecniche per la personalizzazione • Web usage mining • Content-based filtering • Collaborative filtering
  • 69. Collaborative filtering Invita l’utente a diffondere le sue preferenze e in cambio gli propone degli item che potrebbero essere di suo interesse, in base al principio che utenti con comportamenti simili hanno interessi simili. www.amazon.com
  • 70. Limiti del collaborative filtering • Può operare solo in base agli acquisti e alle valutazioni degli altri utenti. • Quando non sono disponibili le valutazioni degli utenti non può funzionare. • “Cold start”: raggiungimento di una massa critica di utenti per realizzare suggerimenti interessanti. • Valutazioni soggettive. • Valutazioni difficili da ottenere: gli utenti devono impegnarsi in un compito completamente nuovo. • La sparsità dei dati: il numero di persone che valutano gli oggetti è relativamente piccolo rispetto agli item totali. • Il problema dei nuovi prodotti gli utenti non valutano volentieri un nuovo item • La velocità di lavoro: i sistemi con un grande volume di dati lavorano lentamente • Non considera le relazioni sociali, cioè l’esistenza di legami di conoscenza tra chi produce e chi riceve i suggerimenti.
  • 71. Tecniche per la personalizzazione • Web usage mining • Content-based filtering • Collaborative filtering • Social data mining
  • 72. Social data mining • Si basa sull’idea che si possono ottenere le informazioni necessarie alla costruzione degli user profile dalle tracce di attività sociale presenti in rete. • Questi sistemi permettono alle persone di condividere opinioni con i loro amici e conoscenti fisici e virtuali, estraendo e ridistribuendo l’informazione da record di attività sociale.
  • 73. Passaparola • Il passaparola (word-of-mouth) è una fonte di informazioni molto credibile • Legittimare la qualità di un prodotto attraverso il consiglio diretto di chi l’ha già sperimentata. • Le persone suggeriscono un prodotto/messaggio ad amici e conoscenti potenzialmente interessati e questi a loro volta contattano altri utenti interessati al prodotto. • Il passaparola crea buzz, cioè una grande quantità di commenti, discussioni, testi e citazioni sia on line che off line.
  • 74. Marketing virale • Grazie alle caratteristiche delle nuove tecnologie è diventato capace di coinvolgere molte più persone più velocemente • Le persone più influenti della rete (opinion leader) possono parlare bene di prodotto perché – Sono state incentivate dalle aziende con premi in denaro o dall’offerta di prodotti – Solo perché favorevolmente impressionati da un prodotto. • Il passaparola ha una maggiore durata rispetto alle azioni di marketing tradizionali.
  • 75. Passaparola on line • Le comunità on line sono luoghi sociali e dinamici, nei quali i suggerimenti di prodotti e la ricerca di informazioni avvengono con estrema facilità. • Nei legami tradizionali l’interazione personale richiedeva un grande sforzo in termini di tempo ed energia per mantenere un network eterogeneo e per trasmettere le informazioni. • I social network permettono di realizzare questo processo più efficientemente. – Si possono mandare messaggi in broadcast al network composto dai propri amici e dagli amici dei propri amici.
  • 76. Processo di social data mining • Individuare dei siti web dove gruppi di persone producono contenuti computazionali, documenti, messaggi, testi e link, come parte della loro normale attività di navigazione sul web. • Estrarre ed aggregare l’informazione, potenzialmente utile attraverso tecniche computazionali adatte. • Presentare le informazioni estratte attraverso un’interfaccia utente che permetta di valutare gli item, selezionarli ed organizzarli in significative raccolte personali.
  • 77. Comunità virtuali • I forum (noti anche come message board o bulletin board) sono uno strumento di comunicazione – molto flessibile – interazione asincronica. – catene di argomenti (thread) in uno spazio condiviso. – registrazione. • I newsgroup sono bacheche elettroniche, con messaggi simili alla posta elettronica. Gli utenti possono leggere liberamente tutti i messaggi e rispondere inviando il proprio. – Di solito i newsgroup sono dedicati i specifici argomenti. • Le chat sono sistemi che permettono lo scambio di messaggi in tempo reale: – Internet Relay Chat (IRC) – web chat – istant messenger
  • 78. I blog • I blog sono siti simili a diari dove gli interventi (post) dell’autore sono presentati in ordine cronologico inverso. • I post hanno una struttura tipica: – un titolo – la data di scrittura – il testo personale – i link ad altri contenuti, – I commenti dei lettori • La realizzazione dei blog è resa possibile dai content management system (CMS) – permettono di realizzare velocemente un sito con molti link e funzioni avanzate senza conoscere i linguaggi di marcatura per la costruzione dei siti web.
  • 79. I blog • Feed RSS (RDF Site Summary/Really Simple Syndication) è un formato per la distribuzione di contenuti sul web – permette agli utenti di restare sempre aggiornati sui blog a cui sono interessati – Gli utenti fanno una scelta consapevole quando decidono di iscriversi ad un RSS al proprio lettore o aggregatore, dimostrando esplicitamente un interesse nei confronti di quanto presentato nel sito. – I siti di social networking creano automaticamente le pagine in XML con i metadati che si riferiscono all’autore, al titolo del post, all’argomento, alla data, ma anche agli interessi e ai contatti dell’autore. • I blog mettono in relazione le persone e creano un forte coinvolgimento tra gli utenti. • Le imprese possono usare lo strumento del blog per – costruire un legame privilegiato con i propri clienti – sfruttare le reti di relazione già esistenti intorno ai blog più frequentati ed aggiornati.
  • 80. Social network • I social network sono ambienti on line nei quali le persone creano i propri profili e inseriscono i link a quelli delle persone che conoscono, creando un network di connessioni personali. • Lo scopo principale dei partecipanti ai siti di social networking è di usare le relazioni nate nel network per farsi degli amici o per connessioni d’affari. • I social network sono fonti di aiuto emotivo e finanziario, di informazioni sul lavoro e su altre persone.
  • 81. User profile sociali • I profili nei social network permettono di ricostruire una rappresentazione dei più ampi interessi di una persona. – Nei social network professionali le categorie riguardano gli studi, le esperienze lavorative precedenti, le competenze professionali e gli interessi lavorativi, etc. – Nei social network che mirano a creare relazioni di amicizia sono la musica, i libri, i film, i programmi televisivi, gli sport e il cibo preferito. – Una categoria particolare è quella passion/general interest/hobby e interest. Queste passioni sono più generali per una persona, per la concezione di sé e per la propria identificazione. • User profile capaci di rispecchiare meglio gli utenti, “person model” per riflettere la loro maggiore generalità
  • 82. User profile generati automaticamente • Gli user profile possono essere generati manualmente dagli utenti o automaticamente da un sistema. • Gli utenti spesso commettono molti errori nel definire i loro bisogni di informazione: – nei motori di ricerca inseriscono termini che sono scarsi predittori dell’informazione che stanno cercando, • Tecniche per la generazione degli user profile automaticamente: – Categorizzazione dei testi • Limite: questi sistemi hanno bisogno di un gran numero di esempi – Regole di selezione dell’informazione per rappresentare i bisogni degli utenti • Limite: richiedono un notevole sforzo iniziale per la loro definizione • Integrazione delle due tecniche: – Fase iniziale: user profile basati su regole semplici e facili da definire. – Seconda fase: user profile basati sul contenuto sufficientemente ricco – Migliorare gli user profile in base ai feedback degli utenti (Kuflik e Shoval, 2003)
  • 85. Fiducia nei social network • Fattori che favoriscono la nascita di un rapporto di fiducia tra gli utenti in un network: – I partecipanti ai siti di social networking: • sono identificati dai loro nomi reali: i propri conoscenti possono verificare la sincerità del profilo • inseriscono i link ai profili dei loro amici: le relazioni personali diventano parte integrante della presentazione di ciascun utente. – verifica implicita dell’identità: mostrare pubblicamente le proprie connessioni personali permette di sapere che una persona è connessa in qualche modo con le altre persone collegate al suo profilo. Avere conoscenti e persone di fiducia in comune può essere la base per costruire un rapporto di collaborazione con una persona appena conosciuta sul web. – Meccanismo sociale della reputazione per punire gli ingannatori.
  • 86. Analisi dei network La collaborazione nell’ambito di una comunità può essere rappresentata per mezzo di un grafo come una rete di utenti che si scambiano informazioni: – gli utenti sono rappresentati come nodi – le relazioni collaborative sono rappresentate come legami diretti (archi) tra i nodi Per descrivere la struttura di questi grafi si possono usare modelli analitici dei network, che in una notazione matematica, descrivono la distribuzione dei link tra i nodi dei network: – Small Word – Free Scale
  • 87. Small World • Un network Small World soddisfa due condizioni – non deve crescere nel tempo – la probabilità di connessione tra due punti qualsiasi del network deve essere uguale per tutti i punti. • La distanza tra le persone cresce in proporzione al logaritmo del numero di membri del network, quindi l’aumento del numero dei membri del network influenza la distanza fra loro.
  • 88. Small World • Il famoso esperimento di Milgram ha evidenziato in modo empirico il fenomeno “Small World” in una rete sociale. – L’esperimento esaminava il numero di persone che un messaggio aveva bisogno di “attraversare” per raggiungere un perfetto sconosciuto. – Il numero dei passaggi necessari per raggiungere la destinazione risultò di soli sei passi – In generale si stabilì che il numero di passaggi necessari in una catena di contatti umani è più piccola di quanto ci si aspetti. – Nei sistemi Small World esistono delle “catene di conoscenze” di lunghezza limitata che connettono una qualsiasi coppia di persone sconosciute
  • 89. Small World In un network Small World ci si aspetta di trovare un gruppo ampiamente unificato, un network in cui sia impossibile nascondersi per quanto è interconnesso.
  • 90. Free scale I network free scale: – crescono nel tempo – presentano delle preferenze nella connessione tra alcuni nodi con altri (preferential attachment): esistono nodi (hub) che hanno molte connessioni e questo rimane inalterato anche aumentando il numero di nodi nella rete.
  • 91. Social network e modelli • Le caratteristiche di questi due modelli permettono di spiegare: – il modo in cui i network si organizzano in strutture sociali stabili, – la relazione tra potere e struttura sociale, – come l’abbandono di alcuni individui non distrugge il network – l’efficienza della trasmissione da punto a punto nel network. • Descrivere un sistema sociale come: – Small World permette di spiegare i ritmi di rapida diffusione dei messaggi. – Scale Free indica la presenza di un potere specifico e una distribuzione di potere con influenza informale e pertanto mostrano una maggiore tolleranza quando fronteggiano opposizione e attacchi generali, anche se sono più vulnerabili ad attacchi sistematici e ben diretti
  • 92. InterestMap • InterestMap è un network di interconnessioni tra interessi ed identità • Esso può essere usato per: – la classificazione delle identità, – l’associazione di persone in base agli interessi. – Il suggerimento di oggetti interessanti • La costruzione di InterestMap ha richiesto: – Estrazione di 100.000 user profile da due social network – Riconoscimento dello stile di delimitazione degli interessi – Estrazione di liste segmentate di keyword e key-phrase dal linguaggio naturale degli user profile – Inserire gli interessi estratti in grandi ontologie di libri, musica, film, etc. ed una categoria speciale per le passioni.
  • 93. InterestMap • Grande ontologia formale con: – 21.000 descrittori di interessi – 1.000 descrittori di identità riflettere i molti tipi di passioni dei profili. • Gli user profile sono stati normalizzati rispetto ai concetti di questa ontologia. • I profili normalizzati permettono di apprendere la forza della relazione semantica tra tutti i descrittori di interessi e i descrittori di identità ed usarli per costruire il grafo della mappa.
  • 94. InterestMap La tecnica pointwise mutual information (PMI) ha permesso di ricostruire la forza delle relazioni semantiche tra due descrittori e tra i profili, in modo da rappresentare il grafo della InterestMap – dai profili normalizzati l’algoritmo di apprendimento valuta ogni possibile coppia di descrittori nel profilo che possono avere una correlazione e aggiorna le coppie PMI. – In seguito al filtraggio dei descrittori, la matrice ha assunto la forma definitiva di 12.000 x 12.000, con 600 descrittori di identità. • La mappa ottenuta è caratterizzata da – identity hub (nodi descrittori di identità): organizzano la moltitudine di interessi, permettendo di formare cluster intorno alle identità. – taste clique (gruppi di gusti): gruppi di utenti che hanno un insieme di gusti in comune. Quando la coesione è forte i taste clique tendono a comportarsi come un solo identity hub.
  • 95. InterestMap Per realizzare le raccomandazioni Il profilo di un nuovo utente viene normalizzato nell’ontologia dei descrittori e ricondotto ai nodi della mappa, attivando un certo pattern nella rete. – a partire dai nodi attivati inizialmente, l’attivazione si diffonde verso l’esterno in modo che emergano i nodi vicini più strettamente legati ai nodi iniziali. Il vicinato semantico, definito dai top N nodi descrittori di interessi attivati, rappresenta le raccomandazioni prodotte attraverso la mappa. Un insieme dei nodi del vicinato semantico saranno nodi descrittori di identità, quelli più forti e vicini possono essere considerati come identità riconosciute per il nuovo profilo. – I suggerimenti realizzati usando InterestMap sono risultati molto accurati ed intelligibili visivamente perché ogni singolo interesse è inserito in una parte di network più ampia (Liu e Maes, 2005)
  • 97. Miglioramenti rispetto al collaborative filtering • Non richiede la valutazione esplicita degli oggetti da parte degli utenti. • I testi e i commenti disponibili sul web sono già tanti che non si pone il problema di raggiungere la massa critica necessaria per ottenere suggerimenti di buona qualità. • User profile più ricchi • Recupera le relazioni sociali tra gli utenti considerando i link inseriti negli user profile e può sfruttare la fiducia alla base di queste relazioni. • Con la generazione automatica degli user profile supera in parte la soggettività delle valutazioni degli utenti.
  • 98. Limiti del social data mining • Rispetto della privacy: i sistemi di social data mining estraggono le preferenze da contesti dove gli utenti non le hanno rilasciate per questo esplicito motivo, perciò è necessario porre attenzione ai problemi di violazione della privacy: – la raccolta delle preferenze – la distribuzione dei suggerimenti. • la possibilità di rilasciare suggerimenti in broadcast, offerta dai sistemi di social data mining, può causare spam
  • 99. Il permission marketing • Contatta solo utenti interessati che hanno espressamente acconsentito ad ascoltare quel particolare messaggio. – garantisce che il consumatore presti attenzione perché effettivamente interessato – l’azienda possa trasmettere il proprio messaggio con calma, ma concisamente, senza paura di essere interrotta dai concorrenti. • Tassi di risposta molto alti, senza grandi investimenti economici, solo sfruttando le relazioni sociali preesistenti tra membri delle comunità virtuali. • Il permission marketing anticipa i bisogni dell’utente, propone messaggi legati direttamente alla persona e usa argomenti rilevanti . • Permission marketing e marketing relazionale: non si può creare una relazione con un cliente senza un suo consenso esplicito
  • 100. Limiti del social data mining • Tecniche di analisi del linguaggio naturale nelle community – Sistemi sempre più accurati – Web Semantico
  • 101. Sistema di analisi del linguaggio naturale Fonte: adattamento da (Glance et al., 2005).
  • 102. Sistema di analisi del linguaggio naturale • Il sistema colleziona – discussioni sul web riguardanti un particolare dominio – le classifica tra argomenti appartenenti al dominio specifico – realizza un’analisi dei sentimenti legati alle combinazioni di argomenti • Il modello proposto è costituito da: – Il sistema del contenuto: scandisce il web alla ricerca dei blog, dei message board e del contenuto Usenet e riempie gli indici di ricerca interni – Il sistema di produzione, usando query booleane nei motori di ricerca e un classificatore addestrato su un campione causale di messaggi, recupera il contenuto e lo analizza, ottenendo prima un insieme di messaggi taggati (in base all’argomento ed alla polarità) e poi estraendo i fatti (una tripla di brand, caratteristiche e polarità) – l sistema analitico realizza le analisi interattive con le tradizionali tecniche di data mining (il text mining perché i fatti hanno un contenuto testuale).
  • 103. Sistema di analisi del linguaggio naturale Un messaggio viene strutturato come un albero le cui foglie possono essere: – la citazione dell’intestazione, – la citazione del messaggio precedente, – la firma – il corpo del testo. I blocchi di testo sono stati segmentati in paragrafi e, ad un livello successivo, i paragrafi sono segmentati ulteriormente fino ad arrivare alle frasi. • Le frasi vengono definite come unità testuali più grandi di una parola, ma più piccole di una frase intera. • L’estrazione delle frasi-chiave (keyphrase) permette di ridurre la dimensionalità e riassumere i documenti perciò possono essere usate come misura di similarità tra i documenti.
  • 104. Axim Dell • Analisi delle discussioni on line sui palmari Dell Axim – i commenti riguardanti questo prodotto coprano il 12% delle discussioni sui dispositivi portatili – polarità è abbastanza bassa (3,4), cioè i commenti non sono molto favorevoli. • Si può adottare sia una metodologia d’analisi top-down che una bottom-up per analizzare i motivi di questa bassa preferenza. • Top-down: – consultare i messaggi negativi – estrarre le keyword e le keyphrase, che descrivono un sentimento negativo nei confronti del prodotto. – Le 8 keyword e le 8 keyphrase estratte dai messaggi negativi riguardo Dell Axim, – i malumori degli utenti sono dovuti: • molte schede SD sono incompatibili con Dell Axim • sono necessari degli aggiornamenti per far funzionare correttamente Axim con il Personal Internet Explorer. • Bottom-up – costruire il grafo corrispondente alla discussione per i prodotti Dell Axim presente in un forum di dispositivi portatili molto frequentato.
  • 105. Axim Dell Dall’analisi del grafo è emerso che i messaggi sono organizzati in tre diverse discussioni. Analizzando le citazioni si è scoperto che i clienti non sono soddisfatti • per la qualità dell’audio • per le porte a raggi infrarossi (IR) Fonte: adattamento da (Glance et al., 2005).
  • 106. Prospettive future • La diffusione del web semantico – Integrazione del contenuto nel processo di personalizzazione • Diffusione delle comunità virtuali – Interazione più facile tra gli utenti Sistemi di personalizzazione migliori, più efficaci e meno intrusivi per gli utenti
  • 107. User profile e web semantico (FOAF) • Un progetto in cui sono applicati contemporaneamente il semantic web e le relazioni sociali, i due elementi che potranno migliorare significativamente la qualità dei sistemi di personalizzazione, è il Friend-of-a-Friend (FOAF) • Nato nel 1999 dal World Wide Web Consortium (W3C) con l'obiettivo di creare un web in cui le pagine, che descrivono i “person profile” e i collegamenti tra esse siano interpretabili dalle macchine. • Il maggior risultato raggiunto dal progetto è stato il vocabolario FOAF, un insieme di namespace RDF/XML, per descrivere la sfera sociale di un individuo.
  • 108. User profile e web semantico (FOAF) • Il progetto FOAF rappresenta un accordo sui termini chiave – usa il linguaggio Ontology Web Language (OWL) perciò permette l’integrazione delle informazioni personali provenienti da diverse fonti • I profili FOAF sono collegati tra loro usando la relazione rdfs:seeAlso in modo da formare la cosiddetta FOAF-web. • Le tipiche modalità d’uso del vocabolario FOAF sono simili a quelle dell'RSS: – il proprietario di un sito crea uno o più file FOAF – li carica su un web server – rende noti gli URL di tali file, cosicché appositi agenti software possano usare l'informazione contenuta in essi. • I profili sono creati e poi condivisi dal singolo utente perciò la creazione di dati FOAF è un processo decentralizzato e sotto il controllo dell'autore
  • 109. User profile e web semantico (FOAF) • Recentemente i grandi siti di blogging e social networking generano file FOAF automaticamente a partire dagli user profile immagazzinati nei loro database e li rendono disponibili sul web – Swoogle, il più grande aggregatore di documenti semantici, ha 19 grandi siti di blogging nei primi 50 posti. • Nei profili FOAF sono disponibili i metadati dell’autore, dei suoi interessi e dei modi per contattarlo, del titolo del post, dell’argomento trattato e della data di pubblicazione. • La relazione foaf:knows rappresenta “una persona che conosce un’altra”. – non esprime le proprietà e la qualità della relazione – è unidirezionale, riflettendo il fatto che le persone a volte dicono di conoscere qualcuno che non necessariamente ricambierebbe l’affermazione. – Tali asserzioni auto-riportate permettono di inferire ulteriori informazioni riguardo le relazioni tra gli utenti.
  • 110. Fiducia nei network FOAF La diffusione della fiducia nei social network che adottano gli standard del semantic web può essere: • Esplicitamente codificata con il modulo di fiducia FOAF Trust Module • Inferita a partire dalle relazioni in un social network da appositi algoritmi – Il sito FilmTrusper (Golbeck, 2005) per il suggerimento di film ha usato l’algoritmo TidalTrust che inferisce la fiducia tra due persone nel network a partire dai percorsi che le uniscono e, in base ai risultati ottenuti, genera i suggerimenti. – La fiducia nel social network è usata per personalizzare l’esperienza di navigazione dell’utente. – L’accuratezza delle valutazioni basate sulla fiducia è risultata migliore rispetto ai sistemi tradizionali che si basano solo sulle valutazioni.
  • 111. Bridging the gap between on-line shoppers and online shopping websites. A user centered analysis
  • 112. “Bridging the gap between on-line shoppers and online shopping websites. A user centered analysis” • Obiettivi: – Fare il punto della situazione sui cambiamenti nell’ambito dell’e- commerce: • la grande crescita del numero di siti di e-commerce, • l’information overload • la diffusione dei recommender system. – Definire il gap tra l’attuale offerta dei siti web di e-commerce e le richieste (bisogni e desideri) degli utenti che fanno acquisti on line. – Fornire informazioni utili per migliorare la struttura dell’applicazioni web ed andare incontro ai bisogni dei clienti. – Suggerire miglioramenti da apportare ai recommender system attualmente usati. – Mappare i servizi offerti dai siti web
  • 113. Fasi del progetto La ricerca si sviluppa in tre fasi: lo studio pilota, la raccolta dei dati e l’analisi dei dati. • Lo studio pilota prevede la selezione di vari siti di e-commerce e la dettagliata analisi di tutte le loro caratteristiche al fine di individuare gli elementi specifici di ciascun sito e quelli comuni a tutti. Le caratteristiche individuate devono permettere la costruzione di una scheda di valutazione da applicare nella successiva fase di analisi di altri siti di e-commerce. • La raccolta dei dati consiste – nella compilazione della scheda di valutazione per alcune centinaia di siti web – nella ricerca di studi (ricerche e pubblicazioni) sull’esigenze dei clienti dei siti di e-commerce. • Analisi dei dati raccolti: il confronto tra richieste degli utenti e le caratteristiche attualmente offerte dai siti e la stesura di un report con i risultati ottenuti.
  • 114. Lo studio pilota Analisi dettagliata di tutte le caratteristiche di 30 siti web di e-commerce considerati. Individuazione di sezioni comuni tra i vari siti Analisi delle caratteristiche di 20 siti web riconducibili alle sezioni individuate Sintesi delle caratteristiche nella scheda di valutazione con diversi livelli di astrazione
  • 115. • This site is available in different languages with country-specific homepages (United Kingdom, Shopping at Bonprix Italy, Germany, Holland, Swiss, Holland, etc) as shown by flags at the end of each page. The structure of website is quite similar for different countries. • Vendor’s mission and history is described in detail. www.bonprix.co.uk • Items are divided into categories (Men, Lingerie, Women, Kids, Shoes, Top Trend) and subcategories (for example dresses, jeans, T-shirt, etc.) • Items recommendations in homepage. • Record recently viewed products by each customer. • It is possible filter products by size, colours and price. On line clothes • New products are highlighted in homepage on line shopping website. • Product description has a main visual part, where the product is dressed in by a model and the other available colours are shown in another picture. The text product description is quite little. • Guide to choose size. • Basket picture remembers how many items have been added. • Prices are expressed in pounds and include taxes. • Off line catalogue can be requested. • Orders are accepted by on line form, by phone and also by ma il. • Delivers only in UK and Northern Ireland • Delivers only by carrier Parcelnet. • Fixed postage and packing price for one or several packages. • Payments: debit and credit cards are accepted: Switch/Maestro, Visa Debit/Delta, Visa and MasterCard, but also cheque or post order. No cash or postal stamps. al • Product exchanges and returns are allowed within 14 days of receipt. • Security - VeriSign SSL certificate • Customer service by phone number and e-mail- FAQ • Privacy - the site may share personal data with other organizations, they may contact customers for marketing purposes by mail, telephone, e-mail or otherwise. Customers’ information, including shopping habits, can be used for marketing purpose and customer satisfaction analysis. If customers do no longer wish to receive catalogues and/or other information, they have to inform
  • 116. Le sezioni • Descrizione del venditore • Registrazione • Il carrello / cestino della spesa • I prodotti
  • 117. Le sezioni • I siti mettono a disposizioni dei loro utenti molti servizi che facilitano la navigazione e la scelta dei prodotti: – Compare service – Ordine dei prodotti – Il motore di ricerca – Lista dei desideri (wish list) – Send to a friend / e-mail a friend – Suggerimenti – Valutazioni dei clienti – Nuovi prodotti – Prodotti in offerta – Prodotti personalizzati – Newsletter. – E-coupons – Club
  • 118. Le sezioni • Servizi specifici – Guida alla scelta delle taglie – Download di driver e di aggiornamenti – Remind service • Pagamenti – Supporto finanziario – Carte di credito del negozio – I prezzi generalmente sono presentati nella valuta del Paese dell’azienda, ma spesso sono presenti meccanismi che permettono di convertili nelle valute più diffuse al mondo.
  • 119. Le sezioni • Consegna – Rintracciare il prodotto (track product) – Spedizione gratuita • Restituzione e rimborsi • Customer service • Privacy • Sicurezza • L’analisi dei siti web è stata realizzata dal 26/11/2006 al 05/01/2007, nel periodo dell’anno a cavallo delle festività natalizie, pertanto i siti presentavano sezioni dedicate a: – Idee regalo – Gift certificates (buoni regalo) A partire da queste sezioni sono stati analizzati altri 20 siti web.
  • 120. La scheda di valutazione La scheda di valutazione presenta tre livelli di astrazione. • Il livello più alto corrisponde alle sezioni individuate nella seconda fase. • Il secondo livello rappresenta un’ulteriore specificazione del primo livello e riguarda i servizi offerti da ciascun sito nell’ambito delle varie sezioni. •L’ultimo livello indica alcuni dei possibili valori che possono assumere le caratteristiche di secondo livello.
  • 121. Successive fasi del progetto • Nella seconda fase del progetto saranno rilevati gli attributi della scheda di valutazione per alcune centinaia di siti web e contemporaneamente saranno ricercati studi sul comportamento dei clienti dei siti di e-commerce. – Al termine della seconda fase si avrà a disposizione un data set in cui ciascuna riga indicherà la presenza o meno, in un particolare sito web analizzato, degli attributi della scheda di valutazione. Se un particolare attribuito è presente in sito nella colonna corrispondente sarà inserito 1, se invece non è presente sarà inserito 0. • Al data set così ottenuto, nella terza ed ultima fase del progetto, potranno essere applicate le tecniche di data mining per estrarre conoscenza riguardo l’attuale organizzazione dell’offerta dei siti di e-commerce.