SlideShare a Scribd company logo
1 of 29
SOCIAL MEDIA MINING
CON R
Concetti di base
20 settembre 2017
20/09/2017 Agnese Vardanega (Univ. Teramo) 2
DATA MINING
«processo di selezione, esplorazione e
modellizzazione di grandi quantità di dati allo
scopo di estrarre regolarità o relazioni che in
principio sono sconosciuti»
(Bocci 2007, 303)
Regolarità e relazioni devono essere rilevanti
Data mining
20/09/2017 Agnese Vardanega (Univ. Teramo) 3
20/09/2017 Agnese Vardanega (Univ. Teramo) 4
The first step is to measure whatever can be easily
measured. This is OK as far as it goes.
The second step is to disregard that which can't be
easily measured or to give it an arbitrary
quantitative value. This is artificial and misleading.
The third step is to presume that what can't be
measured easily really isn't important. This is
blindness.
The fourth step is to say that what can't be easily
measured really doesn't exist. This is suicide
Charles Handy (The Empty Raincoat, 1994)
• Analisi del contesto e
definizione degli obiettivi
• Selezione e raccolta dei dati
• Pre-processing
• «pulitura» dei dati
• integrazione dei dati
• Trasformazione e ricodifica dei
dati
• Data mining  patterns,
modelli
• Valutazione dei risultati
• Presentazione dei risultati
Fasi del data mining
20/09/2017 Agnese Vardanega (Univ. Teramo) 5
(immagine tratta da Han et al. 2011)
• è il problema metodologico fondamentale del data mining
• campione non costruito per la verifica di ipotesi o modelli,
ma
• necessità di controllare le condizioni di validità dei risultati
ex post
• i dati potrebbero non essere sufficienti o adeguati
• i modelli sono costruiti ad hoc
• in questo secondo caso, allo scopo di valutare i risultati, la
prassi comune è quella di dividere il campione in due (o
più) parti
• training sample (70% ca. del campione)
• test sample (30% ca. del campione), allo scopo di valutare i risultati
Analisi esplorativa
20/09/2017 Agnese Vardanega (Univ. Teramo) 6
• approcci descrittivi
• raggruppamenti (cluster analysis)
• riduzione delle dimensioni (analisi in componenti principali; analisi
delle corrispondenze multiple)
• approcci «causali»
• analisi delle regole associative
• approcci predittivi
• metodi gerarchici (decision tree, random forest)
• tecniche di statistica testuali corrispondenti
Tecniche di analisi
20/09/2017 Agnese Vardanega (Univ. Teramo) 7
• Testi (text mining)
• Commenti e risposte (conversazioni)
• Connessioni
• contenuti (links condivisi)
• conversazioni (commenti, risposte)
• grafi sociali
• Dati individuali
• Contenuti multimediali
Web mining
20/09/2017 Agnese Vardanega (Univ. Teramo) 8
L’analisi sistematica ed estensiva dei
contenuti del web richiede la preliminare
definizione:
• degli obiettivi dell’analisi stessa;
• Interessi teorici o applicativi
• Definiti dal ricercatore, o discussi con un committente
• del target – degli utenti e delle loro culture
• Noto, o probabile
• Ipotizzato o individuato come target di interesse
• Presupposto dalle caratteristiche del sito (utente
modello)
Decisioni preliminari
20/09/2017 Agnese Vardanega (Univ. Teramo) 9
20/09/2017 Agnese Vardanega (Univ. Teramo) 10
SOCIAL MEDIA MINING
• tracce «oggettive» (testi, immagini, contenuti,
clicks, etc.)
• opinioni
• aspetti relazionali (il grafo degli utenti, i links, le
communities)
• visibilità e reazioni (numero di visite, commenti,
likes etc.)  rilevanza
• contesto della produzione (click), della raccolta e
della gestione dei dati
Dati
20/09/2017 Agnese Vardanega (Univ. Teramo) 11
Questi aspetti non possono scissi l’uno
dall’altro
• Consentono, e ad un tempo vincolano, le possibilità
di azione/comunicazione
• Co-evolvono con le pratiche sociali
• Vengono “ri-usate” dagli utenti (De Certeau)
• Alcuni attori hanno più potere (i proprietari, gli
sviluppatori, gli inserzionisti)
• Sono costruzioni discorsive, nel senso di Foucault
(Gillespie): hanno natura normativa e regolativa
• Consentono (ed esercitano) forme di controllo
Il «potere» delle piattaforme
20/09/2017 Agnese Vardanega (Univ. Teramo) 12
• Digital methods (Richard, 2009)
• «Big Data»
• tripla V: Volume, Velocity & Variety
• qualità dei dati
• validità dei modelli
• proprietà dei dati
• degli utenti o delle aziende?
• accessibili o no?
• privacy, property, authorship
• tutto quello che viene pubblicato è utilizzabile? in quale
forma?
• come controllare eventuali limitazioni?
Opportunità e problemi per la ricerca
Agnese Vardanega (Univ. Teramo) 13
Conseguenze metodologiche
• Indeterminatezza dell’universo di riferimento
• Problemi di campionamento e rappresentatività
• «Filter Bubble», digital divide
• Limiti alla sistematicità della ricerca e della raccolta
• Frammentazione dei contenuti
• Definizione problematica e soggettiva di «rilevanza»
• Difficile selezionare i contenuti rilevanti ex-ante
• Difficile ridurre i dati ex-post
• Paradosso dei Big Data
• I dati sono tanti, ma quelli individuali sono spesso
insufficienti
Agnese Vardanega (Univ. Teramo) 1420/09/2017
Qualità e quantità
• Il data mining deve tenere conto degli aspetti
culturali e «comunitari»
• linguaggio
• interazioni possibili
• L’approccio etnografico deve ricorrere a strumenti
e metriche del data mining
• come identificare una comunità?
• quanti parlano di un dato argomento, o condividono
determinate esperienze?
• cosa dicono?  individuare ed analizzare i messaggi
Agnese Vardanega (Univ. Teramo) 1520/09/2017
USARE R
20/09/2017 Agnese Vardanega (Univ. Teramo) 16
• R è un ambiente di sviluppo e analisi, costituito da un
insieme di strumenti (distribuiti in pacchetti) utilizzabili
per gestire, analizzare e visualizzare i dati
• vantaggi: open source, quindi gratuito e personalizzabile;
estensibile attraverso pacchetti creati e distribuiti
liberamente da vari programmatori e utenti
• svantaggi: richiede la scrittura e/o l’uso di script ― anche
se esistono alcune interfacce con finestre di dialogo e
comandi.
Che cosa è R
20/09/2017 Agnese Vardanega (Univ. Teramo) 17
https://www.r-project.org
• Strumenti per raccogliere dati strutturati dal web (tabelle e
basi dati già esistenti)
• Strumenti per scaricare (scraping) pagine web, e
strumenti connessi (ad esempio ripulitura delle url)
• Strumenti per condividere documenti e analisi online,
utilizzando i servizi cloud
• Strumenti per l’accesso e l’uso di dati di vari servizi online
• social networking sites
• piattaforme di blogging
• strumenti di Google (mappe, grafici, ricerca, youtube ecc)
R e il web
20/09/2017 Agnese Vardanega (Univ. Teramo) 18
https://cran.r-project.org/web/views/
• R
• Nella sua versione originaria, il software base è disponibile sul sito
http://cran.r-project.org
• Microsoft ha recentemente acquistato una azienda che produce e
distribuisce una versione di R particolarmente adatto al calcolo in
parallelo – quindi per l’uso con i Big Data
https://mran.microsoft.com/open/ (la versione open source può
essere utilizzata per questi esempi)
• RStudio
• un ambiente integrato di sviluppo (IDE) che ― pur non costituendo
una interfaccia in senso proprio ― facilita l’uso di R
(https://www.rstudio.com/products/rstudio/#Desktop )
Gli strumenti necessari
20/09/2017 Agnese Vardanega (Univ. Teramo) 19
• Rfacebook (al momento, non può essere utilizzato per
raccogliere le informazioni sul grafo sociale)
https://cran.r-project.org/web/packages/Rfacebook/
• rtweet
https://cran.r-project.org/web/packages/rtweet/
I pacchetti che useremo
20/09/2017 Agnese Vardanega (Univ. Teramo) 20
i pacchetti vengono aggiornati spesso, quando vengono
modificate le condizioni d’uso delle piattaforme e delle Api
ACCEDERE AI DATI
20/09/2017 Agnese Vardanega (Univ. Teramo) 21
• Per accedere ai dati dei social network
sites, si utilizzano gli strumenti utilizzati dai
programmatori per creare le apps, ovvero
le API (Application Programming Interface)
• le piattaforme hanno restrizioni nella qualità e
nella quantità dei dati che è possibile utilizzare
• le piattaforme prevedono limiti nelle possibilità
di raccolta, conservazione, e diffusione dei dati
Le Api
20/09/2017 Agnese Vardanega (Univ. Teramo) 22
consultare la documentazione
• Facebook
https://developers.facebook.com/docs/
• Twitter
https://dev.twitter.com/overview/documentation
20/09/2017 Agnese Vardanega (Univ. Teramo) 23
Documentazione
1. Installare R e Rstudio
2. Installare i pacchetti necessari
3. Registrarsi sulla piattaforma come
sviluppatore
• potrebbe servire un sito web (i dati devono
essere pubblici)
4. Eseguire le procedure di accesso ai dati
Accedere ai dati: passaggi
20/09/2017 Agnese Vardanega (Univ. Teramo) 24
20/09/2017 Agnese Vardanega (Univ. Teramo) 25
autorizzare
l’accesso
raccogliere i
dati
esportare i dati
analizzare i dati
formati vari
collegare R a
Excel
Laboratorio: workflow
FACEBOOK
20/09/2017 Agnese Vardanega (Univ. Teramo) 26
Registrare l’applicazione: impostazioni di
base
20/09/2017 Agnese Vardanega (Univ. Teramo) 27
https://developers.facebook.com/
Registrare l’applicazione: impostazioni
avanzate
20/09/2017 Agnese Vardanega (Univ. Teramo) 28
GRAZIE!
Agnese Vardanega
www.agnesevardanega.eu - @agnesevardanega
avardanega@unite.it
20/09/2017 Agnese Vardanega (Univ. Teramo) 29

More Related Content

Similar to Social Media Mining con R

ASOC ETC Italia-Francia Marittimo - Selezione progetto
ASOC ETC Italia-Francia Marittimo - Selezione progettoASOC ETC Italia-Francia Marittimo - Selezione progetto
ASOC ETC Italia-Francia Marittimo - Selezione progettoA Scuola di OpenCoesione
 
Dati ambientali e comunicazione online
Dati ambientali e comunicazione onlineDati ambientali e comunicazione online
Dati ambientali e comunicazione onlineGiulia Annovi
 
Dispensa Datajournalism | Maggio 2014 | school.dataninja.it
Dispensa Datajournalism | Maggio 2014 | school.dataninja.itDispensa Datajournalism | Maggio 2014 | school.dataninja.it
Dispensa Datajournalism | Maggio 2014 | school.dataninja.itDataninja
 
Data mining Winter Lab conference
Data mining Winter Lab conferenceData mining Winter Lab conference
Data mining Winter Lab conferenceFelice Russo
 
Social Media Analytics
Social Media AnalyticsSocial Media Analytics
Social Media AnalyticsDavide Bennato
 
Bennato - Social Media Analytics
Bennato - Social Media AnalyticsBennato - Social Media Analytics
Bennato - Social Media AnalyticsSocial Media Lab
 
OpenAIRE : aggiornamento sull'infrastruttura e strumenti a supporto della ges...
OpenAIRE : aggiornamento sull'infrastruttura e strumenti a supporto della ges...OpenAIRE : aggiornamento sull'infrastruttura e strumenti a supporto della ges...
OpenAIRE : aggiornamento sull'infrastruttura e strumenti a supporto della ges...GIDIF-RBM
 
OpenAIRE: aggiornamento sull'infrastruttura e strumenti a supporto della gest...
OpenAIRE: aggiornamento sull'infrastruttura e strumenti a supporto della gest...OpenAIRE: aggiornamento sull'infrastruttura e strumenti a supporto della gest...
OpenAIRE: aggiornamento sull'infrastruttura e strumenti a supporto della gest...Paola Gargiulo
 
Formez Opendata Inps - webinar 29 marzo 2012
Formez Opendata Inps - webinar 29 marzo 2012Formez Opendata Inps - webinar 29 marzo 2012
Formez Opendata Inps - webinar 29 marzo 2012INPSDG
 
Data Driven Innovation: sfide e opportunità
Data Driven Innovation: sfide e opportunitàData Driven Innovation: sfide e opportunità
Data Driven Innovation: sfide e opportunitàData Driven Innovation
 
Dati della ricerca e bibliotecari
Dati della ricerca e bibliotecari Dati della ricerca e bibliotecari
Dati della ricerca e bibliotecari Paola Gargiulo
 
Big Data Analysis: dalla teoria alla pratica
Big Data Analysis: dalla teoria alla praticaBig Data Analysis: dalla teoria alla pratica
Big Data Analysis: dalla teoria alla praticaGiulio Lazzaro
 
Seminario Di Data Mining
Seminario Di Data MiningSeminario Di Data Mining
Seminario Di Data Miningvaluccia84
 
School of data Trento: basic spreadsheet
School of data Trento: basic spreadsheetSchool of data Trento: basic spreadsheet
School of data Trento: basic spreadsheetCristian Consonni
 
Basi di dati e gis n
Basi di dati e gis nBasi di dati e gis n
Basi di dati e gis nimartini
 
Big data e pubblica amministrazione
Big data e pubblica amministrazioneBig data e pubblica amministrazione
Big data e pubblica amministrazioneGianfranco Andriola
 
Apriamo il passato. Gli Open Data in archeologia.
Apriamo il passato. Gli Open Data in archeologia.Apriamo il passato. Gli Open Data in archeologia.
Apriamo il passato. Gli Open Data in archeologia.Progetto Mappa
 
La gestione logica dei dati come chiave del successo per Data Scientist e Bus...
La gestione logica dei dati come chiave del successo per Data Scientist e Bus...La gestione logica dei dati come chiave del successo per Data Scientist e Bus...
La gestione logica dei dati come chiave del successo per Data Scientist e Bus...Denodo
 

Similar to Social Media Mining con R (20)

Dati della scuola
Dati della scuolaDati della scuola
Dati della scuola
 
ASOC ETC Italia-Francia Marittimo - Selezione progetto
ASOC ETC Italia-Francia Marittimo - Selezione progettoASOC ETC Italia-Francia Marittimo - Selezione progetto
ASOC ETC Italia-Francia Marittimo - Selezione progetto
 
Dati ambientali e comunicazione online
Dati ambientali e comunicazione onlineDati ambientali e comunicazione online
Dati ambientali e comunicazione online
 
Dispensa Datajournalism | Maggio 2014 | school.dataninja.it
Dispensa Datajournalism | Maggio 2014 | school.dataninja.itDispensa Datajournalism | Maggio 2014 | school.dataninja.it
Dispensa Datajournalism | Maggio 2014 | school.dataninja.it
 
Data mining Winter Lab conference
Data mining Winter Lab conferenceData mining Winter Lab conference
Data mining Winter Lab conference
 
Social Media Analytics
Social Media AnalyticsSocial Media Analytics
Social Media Analytics
 
Bennato - Social Media Analytics
Bennato - Social Media AnalyticsBennato - Social Media Analytics
Bennato - Social Media Analytics
 
OpenAIRE : aggiornamento sull'infrastruttura e strumenti a supporto della ges...
OpenAIRE : aggiornamento sull'infrastruttura e strumenti a supporto della ges...OpenAIRE : aggiornamento sull'infrastruttura e strumenti a supporto della ges...
OpenAIRE : aggiornamento sull'infrastruttura e strumenti a supporto della ges...
 
OpenAIRE: aggiornamento sull'infrastruttura e strumenti a supporto della gest...
OpenAIRE: aggiornamento sull'infrastruttura e strumenti a supporto della gest...OpenAIRE: aggiornamento sull'infrastruttura e strumenti a supporto della gest...
OpenAIRE: aggiornamento sull'infrastruttura e strumenti a supporto della gest...
 
Formez Opendata Inps - webinar 29 marzo 2012
Formez Opendata Inps - webinar 29 marzo 2012Formez Opendata Inps - webinar 29 marzo 2012
Formez Opendata Inps - webinar 29 marzo 2012
 
Data Driven Innovation: sfide e opportunità
Data Driven Innovation: sfide e opportunitàData Driven Innovation: sfide e opportunità
Data Driven Innovation: sfide e opportunità
 
Dati della ricerca e bibliotecari
Dati della ricerca e bibliotecari Dati della ricerca e bibliotecari
Dati della ricerca e bibliotecari
 
Introduzione al Data Journalism
Introduzione al Data JournalismIntroduzione al Data Journalism
Introduzione al Data Journalism
 
Big Data Analysis: dalla teoria alla pratica
Big Data Analysis: dalla teoria alla praticaBig Data Analysis: dalla teoria alla pratica
Big Data Analysis: dalla teoria alla pratica
 
Seminario Di Data Mining
Seminario Di Data MiningSeminario Di Data Mining
Seminario Di Data Mining
 
School of data Trento: basic spreadsheet
School of data Trento: basic spreadsheetSchool of data Trento: basic spreadsheet
School of data Trento: basic spreadsheet
 
Basi di dati e gis n
Basi di dati e gis nBasi di dati e gis n
Basi di dati e gis n
 
Big data e pubblica amministrazione
Big data e pubblica amministrazioneBig data e pubblica amministrazione
Big data e pubblica amministrazione
 
Apriamo il passato. Gli Open Data in archeologia.
Apriamo il passato. Gli Open Data in archeologia.Apriamo il passato. Gli Open Data in archeologia.
Apriamo il passato. Gli Open Data in archeologia.
 
La gestione logica dei dati come chiave del successo per Data Scientist e Bus...
La gestione logica dei dati come chiave del successo per Data Scientist e Bus...La gestione logica dei dati come chiave del successo per Data Scientist e Bus...
La gestione logica dei dati come chiave del successo per Data Scientist e Bus...
 

More from Agnese Vardanega

Emergenza sanitaria, Emergenza istituzionale. La comunicazione dei dati
Emergenza sanitaria, Emergenza istituzionale. La comunicazione dei datiEmergenza sanitaria, Emergenza istituzionale. La comunicazione dei dati
Emergenza sanitaria, Emergenza istituzionale. La comunicazione dei datiAgnese Vardanega
 
Big Data e patrimonio museale
Big Data e patrimonio musealeBig Data e patrimonio museale
Big Data e patrimonio musealeAgnese Vardanega
 
Sociologia di Twitter: Smart mobs, riots, sicurezza
Sociologia di Twitter: Smart mobs, riots, sicurezzaSociologia di Twitter: Smart mobs, riots, sicurezza
Sociologia di Twitter: Smart mobs, riots, sicurezzaAgnese Vardanega
 
#Instasnow, neve in tempo reale.
#Instasnow, neve in tempo reale.#Instasnow, neve in tempo reale.
#Instasnow, neve in tempo reale.Agnese Vardanega
 
Memory communities and the Internet
Memory communities and the InternetMemory communities and the Internet
Memory communities and the InternetAgnese Vardanega
 
Pazienti 2.0. Temi e relazioni di una community di pazienti diabetici
Pazienti 2.0. Temi e relazioni di una community di pazienti diabeticiPazienti 2.0. Temi e relazioni di una community di pazienti diabetici
Pazienti 2.0. Temi e relazioni di una community di pazienti diabeticiAgnese Vardanega
 
Social media e politica locale. Opportunità e diseguaglianze nella campagna e...
Social media e politica locale. Opportunità e diseguaglianze nella campagna e...Social media e politica locale. Opportunità e diseguaglianze nella campagna e...
Social media e politica locale. Opportunità e diseguaglianze nella campagna e...Agnese Vardanega
 
Speciale Amministrative 2011 - Minireport 2: I siti elettorali
Speciale Amministrative 2011 - Minireport 2: I siti elettoraliSpeciale Amministrative 2011 - Minireport 2: I siti elettorali
Speciale Amministrative 2011 - Minireport 2: I siti elettoraliAgnese Vardanega
 
Usage of Social Media in Italian Local Electoral Campaign
Usage of Social Media in Italian Local Electoral CampaignUsage of Social Media in Italian Local Electoral Campaign
Usage of Social Media in Italian Local Electoral CampaignAgnese Vardanega
 
Grounded Theory con Atlas.ti
Grounded Theory con Atlas.tiGrounded Theory con Atlas.ti
Grounded Theory con Atlas.tiAgnese Vardanega
 
Narrare il politico. Populismo, istituzioni, mass media
Narrare il politico. Populismo, istituzioni, mass mediaNarrare il politico. Populismo, istituzioni, mass media
Narrare il politico. Populismo, istituzioni, mass mediaAgnese Vardanega
 
L'analisi del contenuto di un sito Internet
L'analisi del contenuto di un sito InternetL'analisi del contenuto di un sito Internet
L'analisi del contenuto di un sito InternetAgnese Vardanega
 
L'analisi dei nuovi media per il turismo
L'analisi dei nuovi media per il turismoL'analisi dei nuovi media per il turismo
L'analisi dei nuovi media per il turismoAgnese Vardanega
 
The Web 2.0: opportunities and challenges for visual research
The Web 2.0: opportunities and challenges for visual researchThe Web 2.0: opportunities and challenges for visual research
The Web 2.0: opportunities and challenges for visual researchAgnese Vardanega
 
Grounded Theory: fra qualità e quantità
Grounded Theory: fra qualità e quantitàGrounded Theory: fra qualità e quantità
Grounded Theory: fra qualità e quantitàAgnese Vardanega
 
Grounded Theory: un programma di ricerca mancato?
Grounded Theory: un programma di ricerca mancato?Grounded Theory: un programma di ricerca mancato?
Grounded Theory: un programma di ricerca mancato?Agnese Vardanega
 
Grounded Theory con Atlas.ti
Grounded Theory con Atlas.tiGrounded Theory con Atlas.ti
Grounded Theory con Atlas.tiAgnese Vardanega
 

More from Agnese Vardanega (20)

L’incerta stagione
L’incerta stagioneL’incerta stagione
L’incerta stagione
 
Emergenza sanitaria, Emergenza istituzionale. La comunicazione dei dati
Emergenza sanitaria, Emergenza istituzionale. La comunicazione dei datiEmergenza sanitaria, Emergenza istituzionale. La comunicazione dei dati
Emergenza sanitaria, Emergenza istituzionale. La comunicazione dei dati
 
Big Data e patrimonio museale
Big Data e patrimonio musealeBig Data e patrimonio museale
Big Data e patrimonio museale
 
Sociologia di Twitter: Smart mobs, riots, sicurezza
Sociologia di Twitter: Smart mobs, riots, sicurezzaSociologia di Twitter: Smart mobs, riots, sicurezza
Sociologia di Twitter: Smart mobs, riots, sicurezza
 
#Instasnow, neve in tempo reale.
#Instasnow, neve in tempo reale.#Instasnow, neve in tempo reale.
#Instasnow, neve in tempo reale.
 
Memory communities and the Internet
Memory communities and the InternetMemory communities and the Internet
Memory communities and the Internet
 
Pazienti 2.0. Temi e relazioni di una community di pazienti diabetici
Pazienti 2.0. Temi e relazioni di una community di pazienti diabeticiPazienti 2.0. Temi e relazioni di una community di pazienti diabetici
Pazienti 2.0. Temi e relazioni di una community di pazienti diabetici
 
Social media e politica locale. Opportunità e diseguaglianze nella campagna e...
Social media e politica locale. Opportunità e diseguaglianze nella campagna e...Social media e politica locale. Opportunità e diseguaglianze nella campagna e...
Social media e politica locale. Opportunità e diseguaglianze nella campagna e...
 
Speciale Amministrative 2011 - Minireport 2: I siti elettorali
Speciale Amministrative 2011 - Minireport 2: I siti elettoraliSpeciale Amministrative 2011 - Minireport 2: I siti elettorali
Speciale Amministrative 2011 - Minireport 2: I siti elettorali
 
Usage of Social Media in Italian Local Electoral Campaign
Usage of Social Media in Italian Local Electoral CampaignUsage of Social Media in Italian Local Electoral Campaign
Usage of Social Media in Italian Local Electoral Campaign
 
Grounded Theory con Atlas.ti
Grounded Theory con Atlas.tiGrounded Theory con Atlas.ti
Grounded Theory con Atlas.ti
 
Narrare il politico. Populismo, istituzioni, mass media
Narrare il politico. Populismo, istituzioni, mass mediaNarrare il politico. Populismo, istituzioni, mass media
Narrare il politico. Populismo, istituzioni, mass media
 
L'analisi del contenuto di un sito Internet
L'analisi del contenuto di un sito InternetL'analisi del contenuto di un sito Internet
L'analisi del contenuto di un sito Internet
 
L'analisi dei nuovi media per il turismo
L'analisi dei nuovi media per il turismoL'analisi dei nuovi media per il turismo
L'analisi dei nuovi media per il turismo
 
The Web 2.0: opportunities and challenges for visual research
The Web 2.0: opportunities and challenges for visual researchThe Web 2.0: opportunities and challenges for visual research
The Web 2.0: opportunities and challenges for visual research
 
Grounded Theory: fra qualità e quantità
Grounded Theory: fra qualità e quantitàGrounded Theory: fra qualità e quantità
Grounded Theory: fra qualità e quantità
 
Grounded Theory: un programma di ricerca mancato?
Grounded Theory: un programma di ricerca mancato?Grounded Theory: un programma di ricerca mancato?
Grounded Theory: un programma di ricerca mancato?
 
Edublog - 1 Introduzione
Edublog - 1 IntroduzioneEdublog - 1 Introduzione
Edublog - 1 Introduzione
 
Grounded Theory con Atlas.ti
Grounded Theory con Atlas.tiGrounded Theory con Atlas.ti
Grounded Theory con Atlas.ti
 
I Caqdas e Atlas.ti
I Caqdas e Atlas.tiI Caqdas e Atlas.ti
I Caqdas e Atlas.ti
 

Social Media Mining con R

  • 1. SOCIAL MEDIA MINING CON R Concetti di base 20 settembre 2017
  • 2. 20/09/2017 Agnese Vardanega (Univ. Teramo) 2 DATA MINING
  • 3. «processo di selezione, esplorazione e modellizzazione di grandi quantità di dati allo scopo di estrarre regolarità o relazioni che in principio sono sconosciuti» (Bocci 2007, 303) Regolarità e relazioni devono essere rilevanti Data mining 20/09/2017 Agnese Vardanega (Univ. Teramo) 3
  • 4. 20/09/2017 Agnese Vardanega (Univ. Teramo) 4 The first step is to measure whatever can be easily measured. This is OK as far as it goes. The second step is to disregard that which can't be easily measured or to give it an arbitrary quantitative value. This is artificial and misleading. The third step is to presume that what can't be measured easily really isn't important. This is blindness. The fourth step is to say that what can't be easily measured really doesn't exist. This is suicide Charles Handy (The Empty Raincoat, 1994)
  • 5. • Analisi del contesto e definizione degli obiettivi • Selezione e raccolta dei dati • Pre-processing • «pulitura» dei dati • integrazione dei dati • Trasformazione e ricodifica dei dati • Data mining  patterns, modelli • Valutazione dei risultati • Presentazione dei risultati Fasi del data mining 20/09/2017 Agnese Vardanega (Univ. Teramo) 5 (immagine tratta da Han et al. 2011)
  • 6. • è il problema metodologico fondamentale del data mining • campione non costruito per la verifica di ipotesi o modelli, ma • necessità di controllare le condizioni di validità dei risultati ex post • i dati potrebbero non essere sufficienti o adeguati • i modelli sono costruiti ad hoc • in questo secondo caso, allo scopo di valutare i risultati, la prassi comune è quella di dividere il campione in due (o più) parti • training sample (70% ca. del campione) • test sample (30% ca. del campione), allo scopo di valutare i risultati Analisi esplorativa 20/09/2017 Agnese Vardanega (Univ. Teramo) 6
  • 7. • approcci descrittivi • raggruppamenti (cluster analysis) • riduzione delle dimensioni (analisi in componenti principali; analisi delle corrispondenze multiple) • approcci «causali» • analisi delle regole associative • approcci predittivi • metodi gerarchici (decision tree, random forest) • tecniche di statistica testuali corrispondenti Tecniche di analisi 20/09/2017 Agnese Vardanega (Univ. Teramo) 7
  • 8. • Testi (text mining) • Commenti e risposte (conversazioni) • Connessioni • contenuti (links condivisi) • conversazioni (commenti, risposte) • grafi sociali • Dati individuali • Contenuti multimediali Web mining 20/09/2017 Agnese Vardanega (Univ. Teramo) 8
  • 9. L’analisi sistematica ed estensiva dei contenuti del web richiede la preliminare definizione: • degli obiettivi dell’analisi stessa; • Interessi teorici o applicativi • Definiti dal ricercatore, o discussi con un committente • del target – degli utenti e delle loro culture • Noto, o probabile • Ipotizzato o individuato come target di interesse • Presupposto dalle caratteristiche del sito (utente modello) Decisioni preliminari 20/09/2017 Agnese Vardanega (Univ. Teramo) 9
  • 10. 20/09/2017 Agnese Vardanega (Univ. Teramo) 10 SOCIAL MEDIA MINING
  • 11. • tracce «oggettive» (testi, immagini, contenuti, clicks, etc.) • opinioni • aspetti relazionali (il grafo degli utenti, i links, le communities) • visibilità e reazioni (numero di visite, commenti, likes etc.)  rilevanza • contesto della produzione (click), della raccolta e della gestione dei dati Dati 20/09/2017 Agnese Vardanega (Univ. Teramo) 11 Questi aspetti non possono scissi l’uno dall’altro
  • 12. • Consentono, e ad un tempo vincolano, le possibilità di azione/comunicazione • Co-evolvono con le pratiche sociali • Vengono “ri-usate” dagli utenti (De Certeau) • Alcuni attori hanno più potere (i proprietari, gli sviluppatori, gli inserzionisti) • Sono costruzioni discorsive, nel senso di Foucault (Gillespie): hanno natura normativa e regolativa • Consentono (ed esercitano) forme di controllo Il «potere» delle piattaforme 20/09/2017 Agnese Vardanega (Univ. Teramo) 12
  • 13. • Digital methods (Richard, 2009) • «Big Data» • tripla V: Volume, Velocity & Variety • qualità dei dati • validità dei modelli • proprietà dei dati • degli utenti o delle aziende? • accessibili o no? • privacy, property, authorship • tutto quello che viene pubblicato è utilizzabile? in quale forma? • come controllare eventuali limitazioni? Opportunità e problemi per la ricerca Agnese Vardanega (Univ. Teramo) 13
  • 14. Conseguenze metodologiche • Indeterminatezza dell’universo di riferimento • Problemi di campionamento e rappresentatività • «Filter Bubble», digital divide • Limiti alla sistematicità della ricerca e della raccolta • Frammentazione dei contenuti • Definizione problematica e soggettiva di «rilevanza» • Difficile selezionare i contenuti rilevanti ex-ante • Difficile ridurre i dati ex-post • Paradosso dei Big Data • I dati sono tanti, ma quelli individuali sono spesso insufficienti Agnese Vardanega (Univ. Teramo) 1420/09/2017
  • 15. Qualità e quantità • Il data mining deve tenere conto degli aspetti culturali e «comunitari» • linguaggio • interazioni possibili • L’approccio etnografico deve ricorrere a strumenti e metriche del data mining • come identificare una comunità? • quanti parlano di un dato argomento, o condividono determinate esperienze? • cosa dicono?  individuare ed analizzare i messaggi Agnese Vardanega (Univ. Teramo) 1520/09/2017
  • 16. USARE R 20/09/2017 Agnese Vardanega (Univ. Teramo) 16
  • 17. • R è un ambiente di sviluppo e analisi, costituito da un insieme di strumenti (distribuiti in pacchetti) utilizzabili per gestire, analizzare e visualizzare i dati • vantaggi: open source, quindi gratuito e personalizzabile; estensibile attraverso pacchetti creati e distribuiti liberamente da vari programmatori e utenti • svantaggi: richiede la scrittura e/o l’uso di script ― anche se esistono alcune interfacce con finestre di dialogo e comandi. Che cosa è R 20/09/2017 Agnese Vardanega (Univ. Teramo) 17 https://www.r-project.org
  • 18. • Strumenti per raccogliere dati strutturati dal web (tabelle e basi dati già esistenti) • Strumenti per scaricare (scraping) pagine web, e strumenti connessi (ad esempio ripulitura delle url) • Strumenti per condividere documenti e analisi online, utilizzando i servizi cloud • Strumenti per l’accesso e l’uso di dati di vari servizi online • social networking sites • piattaforme di blogging • strumenti di Google (mappe, grafici, ricerca, youtube ecc) R e il web 20/09/2017 Agnese Vardanega (Univ. Teramo) 18 https://cran.r-project.org/web/views/
  • 19. • R • Nella sua versione originaria, il software base è disponibile sul sito http://cran.r-project.org • Microsoft ha recentemente acquistato una azienda che produce e distribuisce una versione di R particolarmente adatto al calcolo in parallelo – quindi per l’uso con i Big Data https://mran.microsoft.com/open/ (la versione open source può essere utilizzata per questi esempi) • RStudio • un ambiente integrato di sviluppo (IDE) che ― pur non costituendo una interfaccia in senso proprio ― facilita l’uso di R (https://www.rstudio.com/products/rstudio/#Desktop ) Gli strumenti necessari 20/09/2017 Agnese Vardanega (Univ. Teramo) 19
  • 20. • Rfacebook (al momento, non può essere utilizzato per raccogliere le informazioni sul grafo sociale) https://cran.r-project.org/web/packages/Rfacebook/ • rtweet https://cran.r-project.org/web/packages/rtweet/ I pacchetti che useremo 20/09/2017 Agnese Vardanega (Univ. Teramo) 20 i pacchetti vengono aggiornati spesso, quando vengono modificate le condizioni d’uso delle piattaforme e delle Api
  • 21. ACCEDERE AI DATI 20/09/2017 Agnese Vardanega (Univ. Teramo) 21
  • 22. • Per accedere ai dati dei social network sites, si utilizzano gli strumenti utilizzati dai programmatori per creare le apps, ovvero le API (Application Programming Interface) • le piattaforme hanno restrizioni nella qualità e nella quantità dei dati che è possibile utilizzare • le piattaforme prevedono limiti nelle possibilità di raccolta, conservazione, e diffusione dei dati Le Api 20/09/2017 Agnese Vardanega (Univ. Teramo) 22 consultare la documentazione
  • 24. 1. Installare R e Rstudio 2. Installare i pacchetti necessari 3. Registrarsi sulla piattaforma come sviluppatore • potrebbe servire un sito web (i dati devono essere pubblici) 4. Eseguire le procedure di accesso ai dati Accedere ai dati: passaggi 20/09/2017 Agnese Vardanega (Univ. Teramo) 24
  • 25. 20/09/2017 Agnese Vardanega (Univ. Teramo) 25 autorizzare l’accesso raccogliere i dati esportare i dati analizzare i dati formati vari collegare R a Excel Laboratorio: workflow
  • 27. Registrare l’applicazione: impostazioni di base 20/09/2017 Agnese Vardanega (Univ. Teramo) 27 https://developers.facebook.com/
  • 29. GRAZIE! Agnese Vardanega www.agnesevardanega.eu - @agnesevardanega avardanega@unite.it 20/09/2017 Agnese Vardanega (Univ. Teramo) 29

Editor's Notes

  1. 8
  2. 9