Seminario su Open Data: Il Data Journalism, un approccio tecnologico per l'analisi dei dati nel giornalismo
24 Aprile 2012
Corso di Laboratorio Interdisciplinare
Corso di Laurea Magistrale in Scienze di Internet dell'Università di Bologna
Il Data Journalism, un approccio tecnologico per l'analisi dei dati nel giornalismo
1. Seminario su Open Data:
Il Data Journalism, un approccio
tecnologico per l'analisi dei dati
nel giornalismo
24 Aprile 2012
Corso di Laboratorio Interdisciplinare
Corso di Laurea Magistrale in Scienze di
Internet dell'Università di Bologna
Marco Trotta
marco.trotta@gmail.com
2. Di che parliamo
"Il giornalismo Data-driven è un processo basato sull'analisi
ed il filtraggio di grosse grandi banche dati con l'obiettivo
di creare storie nuove. Il giornalismo Data-driven si
occupa di open data (dati aperti) che sono liberamente
disponibili in rete e analizzabili con strumenti open source
(software libero). Il giornalismo Data-driven cerca di
offrire nuovi livelli di servizio per il pubblico, aiutando i
consumatori, i managers, i politici a capire i contesti e a
prendere decisioni basate sulle evidenze. In questo senso
il giornalismo data driven può aiutare i giornalisti a
identificare un nuovo ruolo nella società"
Fonte: Wikipedia
3. Di che parliamo
Per alcuni un approccio
vecchio...
In fondo si tratta sempre
di verifica dei fatti.
● Computer Assisted
Report
● Giornalismo di
precisione "The truth of what goes on is not
on the Internet. [The Internet]
can supplement. It can help
advance. But the truth resides
with people. Human sources."
Bob Woodward
4. Di che parliamo
Why Bob Woodward is wrong about the internet and journalism
"But Woodward (not surprisingly, perhaps) still seems to see journalism as
something that lone-cowboy-style reporters do in secret by themselves,
rather than a collaborative process that now involves other people —
including the “people formerly known as the audience,” as journalism
professor Jay Rosen likes to call them.
That view may be a lot more romantic, and it serves the purposes of
journalists who see themselves as a special breed, with special powers
that normal mortals don’t possess. It also serves the purposes of
newspapers and other traditional media entities, which would like to be
the sole source of all value in the media ecosystem. But it doesn’t really
serve the purposes of journalism or society as a whole".
Fonte: Gigaom
5. Di che parliamo
Analysing data is the
future for journalists, says
Tim Berners-Lee
Inventor of the world
wide web says reporters
should be hunting for
stories in datasets
Fonte: The Guardian
6. Quali dati?
● Statistiche governative
● Database aziendali
● Report di agenzie ed istituzioni
● Ecc.
Digitali, ma anche no.
Open Data, ma anche no...
per tutto il resto c'è il Deep Web
7. Il giornalismo è un algoritmo
● Dati da fonti diverse: ultime
notizie, stastistiche, indagini
giornalistiche
● Dobbiamo incrociarli con altri
database?
● Sistematizzazione in tabelle e
ripulitura: dati duplicati, non
omogenei, non consistenti
● Recupero delle evidenze: dal
confronto nasce una storia? C'è
qualcosa che non va? Bisogna
fare un ulteriore verifica?
● Output: una storia, una
infografica, ecc.
Fonte: The Guardian
8. Nascono i Journo-Hackers
● Redazioni miste: competenze giornalistiche ed
informatiche
● Input: Risoluzione dei problemi di raccolta ed analisi
dati con software scritti anche ad hoc
● Output: visualizzazioni in infografiche, mappe
interattive e vere e proprie web app consultabili in
tempo reale
Non solo competenze tecnologiche: anche fiuto da
giornalista.
"E se incrociassi questi dati con questo dataset?"
9. Nascono i Journo-Hackers
Progetti
Brian Boyer ● New York Times
● Chicago Tribune
● The Guardian
Adrian Holovaty
Aron Pilhofer
Fonte: La Scimmia che vinse il Pulitzer (Bruno Mondadori)
16. Altri esempi: (il retrobottega del) The Guardian
Fonte: The Guardian
17. Altri esempi: (il retrobottega del) The Guardian
Google fusion
tables
Tableau Public
Tableau Public
Datamarket
Many Eyes
Color Brewer
Fonte: The Guardian
20. In sintesi
● I fatti sono sacri. I fatti, oggi, sono i dati
● Giornalisti e comunità di lettori: fact checking, approfondimenti,
debugging, social network strategy
● Massimo accesso ai dati e ai codici per gestirli (API, repository,
ecc.);
● Pluralità di linguaggi e formati:
○ Java, Javascript, Python, Php, Ruby
○ CSV, XML, JSON ma anche XSL, PDF... e cartaceo!
● Apertura alla comunità e uso di licenze libere (quanto meno per il
codice);
● Approccio geek. Modalità agile
● Informalità e sperimentazione
Esempio: Hackshackers.com
80% Sudore - 10% Scrittura - 10% Risultati
28. Un po' di risorse
● Open Data – Data Journalism di Andrea Fama (ed. LSDI)
● Corso di "Open Data Journalism"
● Mailing list: Spaghetti Open Data e Data Journalism
Italy
● OpenDataBlog de IlSole24Ore
● DataBlog della Fondazione Ahref
● Datagov.it
E qualche dato...
● Dati.gov.it
● Dati.istat.it
● Da pochissimo anche dati.comune.bologna.it
29. E molti limiti
● Editori pronti ad investire? Dubbi sul ROI
● Aziende che non investono in questo settore:
A Torino, un anno dopo: "Cosa avete fatto?"
● Manca la formazione:
Giornalista: "Mi faresti un corso di hacking di due ore?"
● Mancano ambiti seminariali informali ed informali
(stile Hacks/Hackers)
● Manca di un approccio aperto: dov'è il codice? Dove si
possono scaricare i dati? Con quali criteri sono stati
trattati? Poca apertura verso le comunità
● Manca di una cornice normativa esplicita.
C'è il CAD ma il FOIA?
30. E molti limiti
● La PA si sta muovendo solo ora. Pochi dati, poco raw,
poche stelle. E qualche sorpresa...
wget http://www.mit.gov.it/mit/mop_all.php?p_id=12034
--2012-04-24 13:53:58-- http://www.mit.gov.it/mit/mop_all.php?p_id=12034
Resolving www.mit.gov.it... 195.45.98.153
Connecting to www.mit.gov.it|195.45.98.153|:80... connected.
HTTP request sent, awaiting response... 500 Internal Server Error
2012-04-24 13:53:58 ERROR 500: Internal Server Error.
● Mai dare i dati per scontato...
wget http://dati.comune.bologna.it/download/file/fid/129
[...]
Biblioteca;indirizzo;quartiere;N.pc al pubblico
Archiginnasio;piazza Galvani, 1 tel. 051/276811;Santo Stefano;13