Daniele Lunassi, CEO & Head of Design @Eye Studios – “Creare prodotti e servi...
Associazioni semantiche per il Computational Journalism
1. Relazione
Finale
del
Progetto
svolto
per
il
corso
di
Intelligenza
Artificiale
A.A.
2012/2013
Professoressa
Bandini
Professor
Palmonari
Associazioni
semantiche
per
il
Computational
Journalism:
l’importanza
delle
valutazioni
di
esperti
di
dominio
Valeria
Gennari
[758677]
Riccardo
Pietra
[720918]
2. 2
INDICE
1
Descrizione
del
dominio..................................................................................................................4
1.1
Computational
journalism.............................................................................................................4
1.2
Linked
open
data...........................................................................................................................6
1.3
Dbpedia
.........................................................................................................................................6
1.4
Dbpedia
spotlight..........................................................................................................................7
2
Descrizione
del
lavoro
di
tesi.........................................................................................................8
2.1
Introduzione
–
spiegazione
generale...........................................................................................8
2.2
Estrazione
della
base
documentale.............................................................................................8
2.3
Annotazione
della
base
documentale.........................................................................................9
2.4
Estrazione
del
grafo
massimale...................................................................................................9
2.5
Valutazione
dei
percorsi
e
selezione
del
grafo
ridotto...............................................................9
3
Descrizione
del
nostro
lavoro
di
valutazione...............................................................................11
3.1
Dataset
e
metriche
di
valutazione...............................................................................................11
3.2
Analisi
dei
risultati........................................................................................................................12
4
Conclusioni
personali
sul
lavoro
svolto........................................................................................17
4.1
Le
nostre
valutazioni
a
confronto
e
parametri
utilizzati............................................................17
4.2
Valutazione
generale
dei
risultati
prodotti
dall’algoritmo........................................................19
4.3
Possibili
usi
futuri
del
Computational
journalism........................................................................21
4.4
Oltre
il
Computational
journalism,
possibili
usi
delle
associazioni
semantiche........................22
4.5
La
visualizzazione
grafica
delle
associazioni
semantiche.........................................................27
Note
e
bibliografia
..........................................................................................................................32
3. 3
INDICE
DELLE
FIGURE
Figura
1.
Guida
grafica
al
Data
journalism..........................................................................................5
Figura
2.
Tabella
riassuntiva
dell’articolo
di
sport............................................................................12
Figura
3.
Tabella
riassuntiva
dell’articolo
di
tecnologia...................................................................12
Figura
4.
Tabella
riassuntiva
dell’articolo
di
politica........................................................................12
Figura
5.
Precisione
+@K%
Articolo
sport........................................................................................13
Figura
6.
Precisione
-‐@K%
Articolo
sport.........................................................................................13
Figura
7.
Precisione
+@K%
Articolo
politica.....................................................................................14
Figura
8.
Precisione
-‐@k%
Articolo
politica......................................................................................14
Figura
9.
Precisione
+@K%
Articolo
tecnologia...............................................................................15
Figura
10.
Precisione
+@K%
Articolo
tecnologia.............................................................................15
Figura
11.
Tabella
dell’articolo
Obama
Campaign
Endgame:
grunt
Work
and
Cold
Math.................17
Figura
12.
Tabella
dell’articolo
Romney
is
Upbeat,
but
Math
is
the
Same........................................18
Figura
13.
Tabella
dell’articolo
Efforts
to
Curb
Social
Spending
Face
Resistance..............................18
Figura
14.
Infografica
coi
dati
estratti
dal
portale
Rimozione
Macerie..........................................24
Figura
15:
Risultati
della
ricerca
“Bacon”
su
Google.......................................................................26
Figura
16:
Ricerca
successiva
su
Google
-‐
Sommario
delle
informazioni
sul
personaggio
d’interesse
e
ricerche
correlate.......................................................................................................26
Figura
17:
Alcune
associazioni
semantiche
su
Excel........................................................................28
Figura
18:
Esempio
di
proprietà
estratte,
su
Excel..........................................................................29
4. 4
1
Descrizione
del
dominio
1.1
Computational
Journalism
o
Data-‐driven
Journalism
Data-‐driven
journalism
is
a
journalistic
process
based
on
analyzing
and
filtering
large
data
sets
for
the
purpose
of
creating
a
new
story.
[1]
Il
Computational
journalism
consiste
in
un’attività
giornalistica
basata
sull’analisi
e
sul
filtraggio
di
grandi
quantità
di
dati,
liberamente
disponibili
online,
per
la
creazione
di
una
nuova
storia
giornalistica;
prevede
l’applicazione
di
software
e
tecnologie
nelle
attività
riguardanti
il
giornalismo.
Il
processo
si
divide
in
quattro
fasi
fondamentali:
• Ricerca,
recupero
dati
dal
web
• Filtraggio
dei
dati
recuperati
e
trasformazione
delle
informazioni
in
dati
strutturati
• Visualizzazione
attraverso
particolari
tool
grafici
(interfaccia
per
il
giornalista)
• Pubblicazione
di
una
nuova
storia
giornalistica,
sulla
base
dei
dati
precedentemente
selezionati.
Per
quanto
riguarda
le
due
fasi
iniziali,
esistono
diverse
tecniche
per
portarle
a
termine,
metodologie
legate
alle
scienze
sociali
e
a
quelle
informatiche
–
tecniche
statistiche,
di
correlazione,
di
visualizzazione
mashup,
di
parsing
e
di
co-‐creazione
–
che
permettono
il
recupero
di
informazioni
rilevanti
secondo
diverse
metriche
e
giudizi.
La
diffusione
del
Computational
journalism
permetterebbe
un
miglioramento
delle
qualità
delle
notizie
giornalistiche
e
delle
notizie
digitali,
un
utilizzo
più
efficace
dei
dati
pubblicamente
disponibili
sul
web
e
una
riduzione
dei
tempi
di
ricerca
delle
informazioni
d’interesse.
Il
Data-‐driven
journalism
(DDJ)
è
un
approccio
innovativo
e
come
tale
deve
ancora
percorrere
molta
strada
per
essere
migliorato.
[2]
È
importante
sottolineare
come
esso
non
automatizzi
ogni
compito
fondamentale
del
lavoro
giornalistico
e
quindi
non
sostituisca
i
giornalisti
che
lavorano
per
una
particolare
testata.
Esso,
infatti,
è
incentrato
sull’importanza
del
giornalista,
ma
consente
di
semplificare
alcune
attività,
permettendo
un
risparmio
di
tempo
e
un
aumento
delle
qualità
di
nuove
storie
giornalistiche
prodotte.
5. 5
Figura
1.
Guida
grafica
al
Data
journalism
L’immagine
è
tratta
dalla
presentazione
[3]
del
libro
The
Data
Journalism
Handbook
[4]
che
nasce
come
progetto
collettivo
e
open
source
al
Mozfest
2011
di
Londra.
Co-‐creato
da
moltissimi
personaggi
influenti
nel
settore
-‐
membri
dell’Open
knowledge
Foundation,
giornalisti
del
Guardian,
della
BBC,
ricercatori
ecc.
-‐
il
libro,
che
in
Italia
è
stato
presentato
al
6. 6
Festival
del
Giornalismo
di
Perugia,
è
una
guida
tascabile
e
alla
portata
di
tutti
per
il
Data
journalism:
fornisce
consigli
utili,
strumenti
e
dritte
su
come
iniziare,
cosa
fare,
dove
trovare
i
dati
e
come
sfruttarli.
La
figura
riassume
brevemente
gli
attori
principali,
i
loro
ruoli
e
i
passaggi
cruciali
per
creare
una
storia
giornalistica
con
i
Linked
Data.
1.2
Linked
Open
Data
Linked
data
describes
a
method
of
publishing
structured
data
so
that
it
can
be
interlinked
and
become
more
useful.
[5]
Il
termine
Linked
Open
Data
(LOD)
si
riferisce
a
un
insieme
di
pratiche
per
la
pubblicazione
e
il
collegamento
di
dati
strutturati
sul
web,
che
sono
state
adottate
nel
tempo
da
un
numero
crescente
di
fornitori
di
dati.
Ciò
ha
portato
alla
nascita
del
Web
of
Data,
uno
spazio
dati
globale
all’interno
del
web.
La
particolarità
dell’approccio
LOD
sta
nel
formato
con
cui
i
dati
sono
descritti,
ovvero
il
Resource
Description
Framework
(RDF),
che
è
caratterizzato
da
una
codifica
dei
dati
sotto
forma
di
triple
costituite
da
soggetto,
predicato
e
oggetto.
Il
soggetto
e
l’oggetto
possono
essere
descritti
da
Uniform
Resource
Identifier
(URI),
oppure
l’oggetto
può
essere
descritto
da
un
letterale,
il
predicato
risulta
caratterizzato
da
un
URI
e
permette
di
definire
come
sono
relazionati
tra
loro
soggetto
e
oggetto.
Ciò
permette
di
svolgere
una
relazione
tra
diverse
entità
appartenenti
a
diverse
fonti
dati,
poiché
ogni
entità
è
descritta
in
termini
simili
e
confrontabili
(in
accordo
con
determinati
principi,
conosciuti
e
condivisi).
Per
usare
una
metafora,
è
come
se
la
stessa
lingua
fosse
espressa
diversamente.
Ad
esempio
Ontology
Web
Language
(OWL)
-‐
e
le
sue
molteplici
versioni,
molto
differenti
tra
loro
(OWL
DL,
OWL
lite,
OWL
Full,
OWL
2DL)
-‐
è
un
linguaggio
di
markup
per
rappresentare
esplicitamente
significato
e
semantica
di
termini
con
vocabolari
e
relazioni
tra
gli
stessi.
È
quindi
in
grado
di
fornire
diversi
gradi
di
espressività
nella
modellazione
d’interesse.
Grazie
a
linguaggi
come
questo
chiunque
può
pubblicare
vocabolari
appositamente
creati
ed
essi
a
loro
volta
possono
essere
collegati
ad
altri
già
esistenti.
1.3
Dbpedia
Dbpedia
è
un
progetto
che
mira
all’estrazione
dei
dati
presenti
in
Wikipedia
e
alla
conversione
di
questi
in
dati
strutturati,
in
modo
tale
che
le
tecniche
del
Semantic
Web
possano
essere
impiegate
sulla
base
di
conoscenza
strutturata.
Per
raggiungere
questo
scopo,
sono
necessari
i
seguenti
passi:
• Sviluppo
di
un
framework
per
l’estrazione
delle
informazioni,
conversione
del
contenuto
di
Wikipedia
in
RDF
• Il
dataset
RDF
multi
dominio
che
viene
creato,
rappresentante
il
contenuto
informativo
di
Wikipedia,
potrà
essere
utilizzato
da
diverse
applicazioni
del
Semantic
web
• Il
dataset
Dbpedia
verrà
interconnesso
con
altri
dataset,
realizzando
una
visione
globale
del
Semantic
web
• Una
serie
di
interfacce
e
moduli
d’accesso,
renderanno
i
dati
accessibili
tramite
servizi
web.
7. 7
Ognuna
delle
entità
contenute
nel
dataset
risulta
identificata
univocamente
da
un
URI,
il
quale
rappresenta
l’indirizzo
della
risorsa.
Esistono
tre
modi
per
poter
accedere
al
dataset
di
Dbpedia:
• Linked
Data
• il
protocollo
SPARQL
(SPARQL
Protocol
and
RDF
Query
Language)
• il
download
dei
dump
RDF.
Poiché
le
informazioni
all’interno
di
Dbpedia
sono
in
continuo
aggiornamento
(o
almeno
parte
di
esse),
è
stato
realizzato
Dbpedia
Live,
il
quale
ha
il
compito
di
eseguire
una
sincronizzazione
di
Dbpedia
con
Wikipedia.
1.4
Dbpedia
Spotlight
Dbpedia
spotlight
è
un
progetto
che
mira
a
collegare
documenti
testuali
con
LOD.
In
questa
direzione
è
stato
realizzato
Namer
Entity
Recognizer
(NER),
un
sistema
che
permette
di
annotare
automaticamente
documenti
testuali
sulla
base
di
URI
presenti
in
Dbpedia.
Questo
approccio
si
può
dividere
fondamentalmente
in
tre
fasi:
• Individuazione
delle
frasi
nel
testo
che
potrebbero
contenere
delle
entità
presenti
all’interno
di
Dbpedia
• Definizione
di
un
mapping
fra
le
entità
contenute
nelle
frasi
e
i
loro
candidati
selezionati,
i
quali
permetteranno
di
disambiguare
il
loro
significato
• Utilizzo
del
contesto
delle
frasi
per
la
scelta
dei
migliori
candidati,
i
quali
verranno
selezionati
anche
sulla
base
dei
parametri
definiti
in
precedenza
e
specificati
inizialmente
dall’utente.
Dbpedia
Spotlight
risulta
molto
flessibile
in
quanto
permette
di
selezionare
in
base
alle
proprie
esigenze
i
valori
dei
seguenti
parametri:
• Importanza
(numero
di
volte
in
cui
l’entità
è
menzionata
in
Wikipedia)
• Disambiguazione
(basata
sul
contesto
del
documento
testuale)
• Annotazione
(scelta
dei
tipi
di
termini
grammaticali
da
selezionare)
• Ambiguità
contestuale
• Confidenza.
Lo
strumento
si
presenta
attraverso
una
semplice
interfaccia
web
all’interno
della
quale
sarà
possibile
definire
ogni
singolo
parametro
per
la
ricerca
di
entità
su
uno
o
più
documenti
testuali.
8. 8
2
Descrizione
del
lavoro
di
tesi
2.1
Introduzione
–
Spiegazione
generale
La
tesi
del
collega
Polidoro
-‐
cui
siamo
stati
“affiancati”
-‐
ha
come
scopo
la
realizzazione
di
un
sistema
software
che,
dato
un
insieme
di
documenti
testuali
(principalmente
articoli
giornalistici)
sia
in
grado
di
associare
un
contesto
fattuale
agli
stessi
sulla
base
dei
data
LOD
Cloud.
Questo
permetterà
di
associare
dei
dati
fattuali,
i
quali
costituiranno
un
approfondimento
contestuale
di
un
articolo.
In
altre
parole,
il
software
lanciato
troverà,
grazie
ad
un
algoritmo,
alcune
entità
presenti
nell’articolo,
entità
cui
sarà
associato
un
URI
sul
dataset
Dbpedia.
Proprio
grazie
alle
informazioni
presenti
su
Dbpedia,
riguardo
a
una
particolare
entità,
saranno
trovati
dei
collegamenti
con
altre
entità,
presenti
nell’articolo,
o
anche
solo
presenti
sul
dataset.
L’approccio
realizzato
è
stato
denominato
Data
Context
Extraction
for
News
Articles
(DaCENA).
Quest’approccio
si
basa
su
un
processo
composto
idealmente
da
quattro
passi:
• Estrazione
della
base
documentale
• Annotazione
della
base
documentale
• Estrazione
del
grafo
massimale
• Valutazione
dei
percorsi
e
selezione
del
grafo
ridotto
I
documenti
testuali
usati
sono
stati
tre
articoli
giornalistici
presenti
sul
sito
web
del
New
York
Times,
i
tre
articoli
trattano
tre
temi
diversi:
sport,
politica
e
tecnologia.
2.2
Estrazione
della
base
documentale
Per
quanto
riguarda
l’estrazione
della
base
documentale,
cioè
il
recupero
del
corpo
testuale
dell’articolo,
un
problema
è
subito
evidente:
attorno
all’articolo
in
sé,
sulle
pagine
web
di
una
testata
giornalistica
ospitante
appunto
un
articolo,
appare
molto
materiale
testuale
(articoli
collegati,
pubblicità,
moduli
di
accesso,
impostazioni…)
e
questo
può
causare
problemi
al
processo
automatico
di
estrazione
della
base
documentale.
Ovviamente
un
algoritmo
non
ha
la
capacità
selettiva
che
può
avere
un
utente
umano
nello
scindere
il
corpo
dell’articolo
dalle
altre
annotazioni
testuali
presenti
sulla
pagina
web.
Per
risolvere
questo
problema,
il
software
si
basa
sul
linguaggio
HTML
con
cui
è
definita
la
formattazione
grafica
della
pagina
attraverso
dei
tag
univoci.
È
quindi
possibile
notare
come
all’interno
di
ogni
sorgente
html,
ogni
parte
testuale
contenuta
nelle
pagine
web
possa
essere
identificata
sulla
base
dell’apposito
tag
HTML
in
cui
essa
è
contenuta.
Il
processo
di
recupero
automatizzato
della
parte
testuale
d’interesse
all’interno
della
sorgente
HTML
viene
denominato
web
scraping.
Questa
è
una
tecnica
software
che
permette
l’estrazione
delle
informazioni
presenti
all’interno
delle
pagine
web.
Fondamentalmente
web
scraping,
simulando
l’esplorazione
di
un
utente
all’interno
di
una
pagina
web,
è
in
grado
di
recuperare
le
informazioni
di
interesse
tramite
una
richiesta
al
relativo
portale
web
attraverso
il
protocollo
http.
Questa
tecnica
si
focalizza
sulla
trasformazione
dei
dati
non
strutturati
presenti
sul
web,
codificati
attraverso
il
formato
HTML,
in
dati
strutturati,
i
quali
possono
essere
memorizzati
ed
analizzati.
9. 9
All’interno
di
questo
primo
passo
relativo
all’estrazione
della
base
documentale,
il
web
scraping
è
stato
realizzato
sulla
base
di
un
parser
html,
che
permette
l’estrazione
e
la
pulizia
del
corpo
testuale
dell’articolo
giornalistico.
2.3
Annotazione
della
base
documentale
L’annotazione
consiste
nell’identificazione
delle
entità
riportate
all’interno
del
testo,
le
quali
verranno
individuate
tramite
le
entità
definite
all’interno
di
Dbpedia.
Per
questo
processo
verrà
utilizzato
un
sistema
NER,
ovvero
Dbpedia
Spotlight,
il
corpo
dell’articolo
estratto
verrà
inoltrato
in
input
a
Dbpedia
Spotlight
che
lo
analizzerà
e
provvederà
ad
annotarlo.
All’interno
di
questo
processo,
è
stato
deciso
di
chiedere
allo
strumento
di
fornire
un
output
in
formato
XML
(Extensible
Market
Language),
che
sia
caratterizzato
da
un
insieme
di
entità
riconosciute
nell’articolo
associate
al
relativo
URI
dell’entità
presente
in
Dbpedia.
2.4
Estrazione
del
grafo
massimale
Il
grafo
massimale
contiene
tutti
i
percorsi
emersi
fra
le
entità
recuperate
dall’articolo.
Per
continuare
il
processo
di
estrazione
del
grafo
massimale,
è
necessario
identificare
l’entità
sorgente
dell’articolo,
in
modo
tale
da
poter
ricercare
associazioni
semantiche
tra
l’entità
sorgente
(cioè
quella
definita
come
la
più
citata
all’interno
dell’articolo)
e
le
restanti,
riducendo
la
ricerca
tra
coppie
di
entità
più
rilevanti
nei
confronti
dell’articolo.
Per
ogni
coppia
di
entità
(entità
sorgente
–
entità
arbitraria
altra)
saranno
ricercate
delle
associazioni
semantiche
caratterizzate
da:
una
singola
proprietà,
una
sequenza
di
due
proprietà
con
un’entità
intermedia
sconosciuta,
una
sequenza
di
tre
proprietà
con
due
entità
intermedie
sconosciute.
È
inoltre
importante
evidenziare
come
ognuna
delle
proprietà
stanti
fra
una
coppia
di
entità,
possa
essere
entrante
o
uscente,
rispetto
alle
entità
stesse.
Una
volta
completata
la
ricerca
delle
associazioni
semantiche
fra
l’entità
sorgente
e
le
restanti,
si
avrà
a
disposizione
il
grafo
massimale
relativo
all’articolo
giornalistico
analizzato.
2.5
Valutazione
dei
percorsi
e
selezione
del
grafo
ridotto
L’insieme
delle
query
inviate
all’enpoint
di
Dbpedia
Live,
basato
sulla
ricerca
di
tutte
le
associazioni
semantiche
presenti
tra
coppie
di
entità
definite,
ha
restituito
un
grafo
massimale
ampio,
caratterizzato
da
un
minimo
di
650
ca
fino
a
un
massimo
di
8500
ca
associazioni
semantiche
per
ogni
articolo.
Data
la
vastità
delle
associazioni
semantiche
in
output,
diventa
necessario
individuare
quelle
rilevanti
tra
coppie
di
entità
sulla
base
di
un
ranking
fornito
all’utente.
La
valutazione
sarà
basata
su
alcune
metriche
formali
scelte,
ovvero
Rarity,
Popularity
e
Context.
Le
prime
due
permettono
di
effettuare
considerazioni
numeriche
sulle
proprietà
e
sulle
entità
identificate
all’interno
delle
associazioni
semantiche,
mentre
l’ultima
permette
di
prendere
in
considerazione
le
classi
a
cui
appartengono
le
entità
analizzate.
Illustriamole
un
po’
più
nel
dettaglio.
10. 10
• Rarity
permette
di
considerare
rilevanti
quelle
associazioni
che
contengono
delle
proprietà
ontologiche
che
occorrono
meno
frequentemente
all’interno
di
Dbpedia,
poiché
saranno
considerate
le
più
informative
rispetto
alle
restanti
caratterizzate
da
un’alta
frequenza
di
utilizzo
• Popularity
permette
invece
di
considerare
le
entità
presenti
all’interno
di
ogni
associazione
semantica
(anziché
le
proprietà
ontologiche,
come
fa
Rarity),
privilegiando
quelle
associazioni
semantiche
che
contengono
entità
più
popolari
all’interno
di
Dbpedia.
La
popolarità
di
un’entità,
in
Dbpedia,
è
definita
come
la
somma
del
numero
di
proprietà
entranti
ed
uscenti
dalla
stessa
• Context
permette
infine
di
considerare
la
semantica
delle
entità
identificate
all’interno
delle
associazioni
semantiche
recuperate
in
precedenza,
privilegiando
quelle
contenenti
delle
entità
correlate
al
contesto
giornalistico.
Ovvero,
per
ogni
entità
recuperata
dovranno
essere
recuperate
le
classi
alle
quali
essa
appartiene
all’interno
di
Dbpedia.
Attraverso
opportuni
calcoli,
otterremo
ogni
associazione
semantica
associata
con
la
propria
rilevanza
nei
confronti
del
contesto
dell’articolo
giornalistico.
Poiché
le
rilevanze
ricavate
sono
caratterizzate
da
una
diversa
scala
di
valori,
risulta
necessario
effettuare
una
normalizzazione
degli
stessi
tra
un
valore
minimo
pari
a
0
un
valore
massimo
pari
a
1.
Attraverso
le
rilevanze
ricavate
e
normalizzate
sarà
possibile
procedere
a
una
combinazione
delle
stesse
tra
loro
sulla
base
del
valore
massimo
e
medio
risultante
tra
le
diverse
coppie
e
tra
tutte
e
tre
le
rilevanze
delle
rispettive
metriche.
Questo
permetterà
un’estrazione
dei
grafi
ridotti
caratterizzati
dalle
associazioni
semantiche
più
rilevanti
nei
confronti
di
ogni
metrica,
di
ogni
combinazione
e
dell’approccio
Random
basato
su
estrazione
casuale.
11. 11
3
Descrizione
del
nostro
lavoro
di
valutazione
3.1
Dataset
e
metriche
di
valutazione
I
tre
articoli
da
noi
valutati
trattano
argomenti
diversi,
vediamoli
ora
più
nel
dettaglio.
L’articolo
riferito
all’ambito
sportivo
dal
titolo
Can
Del
Piero
Inspire
Juventus
to
Glory:
Old
Lady
Puts
Hopes
On
One
Young
Star
[6]
descrive
i
trascorsi
di
Alessandro
Del
Piero
con
la
maglie
della
Juventus.
L’articolo
politico
Obama
Campaign
Endgame:
grunt
Work
and
Cold
Math
[7]
tratta
la
campagna
politica
affrontata
da
Obama
per
le
elezioni
2012.
Infine,
l’articolo
riguardante
la
tecnologia
dal
titolo
Apple
profit
Rises
24%
on
Sales
of
iPhone
5
[8]
tratta
i
profitti
di
Apple
riguardanti
la
vendita
di
iPhone
5.
Lo
strumento,
per
ogni
articolo
selezionato,
ha
eseguito
i
passi
già
descritti,
restituendo
le
rilevanze
delle
associazioni
semantiche
nei
confronti
delle
metriche
Rarity,
Popularity,
Context
e
delle
loro
rispettive
combinazioni
e
un
insieme
di
numeri
generati
casualmente,
i
quali
saranno
utilizzati
per
una
selezione
casuale
secondo
l’approccio
Random.
Questo
rappresenta
la
valutazione
delle
associazioni
semantiche
ricavate,
da
parte
della
macchina.
La
valutazione
da
parte
nostra
è
invece
avvenuta
attraverso
la
costruzione
di
un
Gold
Standard
e
quindi
mediante
giudizi
di
rilevanza
espressi
sulle
associazioni
semantiche
caratterizzanti
il
grafo
massimale
estratto
per
ogni
articolo.
È
stato
questo
dunque
il
nostro
ruolo.
Avendo
noi
un
background
formativo
adeguato,
poiché
provenienti
da
un
corso
di
laurea
triennale
in
Scienze
della
Comunicazione,
il
nostro
compito
è
stato
quello
di
valutare
ogni
associazione
semantica
presente
in
ognuno
dei
grafi
massimali,
output
del
lavoro
dell’algoritmo,
con
un
giudizio
che
andasse
da
0
a
3,
dove
0
significa
che
l’associazione
semantica
è
stata
valutata
errata,
1
che
è
stata
valutata
poco
interessante/significativa,
fino
a
3
che
indica
un
percorso
interessante,
sia
per
le
entità
presenti
sia
per
le
proprietà
che
le
relazionano.
Il
giudizio
0
è
stato
dato
solo
a
quelle
associazioni
semantiche
in
cui
l’entità
estratta
dall’articolo
(cioè
quella
all’estrema
destra
della
riga)
fosse
considerata
sbagliata,
non
idonea
cioè
ad
una
relazione
con
l’entità
principale
estratta
dall’articolo
(ovvero
la
prima
a
sinistra
nella
riga
che
esprime
l’associazione
semantica).
Per
riuscire
a
valutare
queste
relazioni,
è
stato
fatto
un
importante
lavoro
di
ricerca
di
informazioni
(sempre
sul
web)
riguardanti
le
entità
citate
nelle
numerosissime
associazioni
semantiche
presenti
nei
tre
grafi
massimali.
Una
volta
compiuta
la
valutazione
è
stato
possibile
ottenere
i
grafi
massimali
analizzati
dal
punto
di
vista
della
rilevanza
delle
associazioni
semantiche
contenute
nei
confronti
degli
articoli
giornalistici.
A
questo
punto
viene
fatto
un
confronto
fra
le
nostre
valutazioni
e
quelle
riportate
dalla
macchina
secondo
le
metriche
Rarity,
Popularity,
Context,
le
loro
rispettive
combinazioni
e
un
insieme
di
numeri
generati
casualmente,
i
quali
saranno
utilizzati
per
una
selezione
casuale
secondo
l’approccio
Random.
Per
le
nostre
valutazioni,
sono
state
selezionate
quelle
valutate
3
(Precisione+@K%)
e
separatamente
quelle
valutate
2
e
3
(Precisione-‐@K%).
I
due
gruppi
sono
stati
quindi
associati
ad
ogni
metrica
(della
valutazione
da
parte
della
macchina)
e
ad
ogni
combinazione
delle
metriche
fra
loro
(a
diverse
percentuali
sul
totale
delle
associazioni
semantiche
ricavate).
12. 12
3.2
Analisi
dei
risultati
Di
seguito
vengono
presentate
le
tabelle
relative
alle
nostre
valutazioni
dei
tre
articoli
di
Sport,
Tecnologia
e
Politica:
Figura
2.
Tabella
riassuntiva
dell’articolo
di
Sport
Figura
3.
Tabella
riassuntiva
dell’articolo
di
Tecnologia
Figura
4.
Tabella
riassuntiva
dell’articolo
di
Politica
13. 13
La
prima
voce
presente
in
tutte
e
tre
le
tabelle
si
riferisce
al
numero
totale
di
associazioni
semantiche
trovate
dall’algoritmo.
Ogni
associazione
semantica
è
caratterizzata
da
un’entità
iniziale
(uguale
per
tutte),
un’entità
finale
e
una
proprietà
che
le
lega.
Fra
le
due
entità
possono
comparirne
di
nuove
(entità
intermedie),
legate
alla
prima,
all’ultima
e
fra
di
loro
attraverso
diverse
proprietà.
Se
un’associazione
è
costituita
da
due
entità
e
una
proprietà
che
le
relaziona,
si
dice
che
ha
lunghezza
1,
se
invece
ci
sono
tre
entità
e
quindi
due
proprietà
che
le
legano
si
dice
che
ha
lunghezza
2.
Il
numero
delle
proprietà
presenti
nel
percorso
trovato
(che
sarà
sempre
inferiore
di
un’unità
rispetto
al
numero
delle
entità
coinvolte
in
quella
associazione)
conta
come
“lunghezza”
dell’associazione
semantica
in
questione.
Di
seguito
invece
presentiamo
i
grafici
relativi
al
confronto
fra
le
nostre
valutazioni
e
quelle
derivate
dalle
metriche
Rarity,
Context,
Random
e
le
loro
combinazioni.
Le
associazione
valutate
vengono
prese
a
una
certa
percentuale
sul
loro
totale.
Fra
queste
si
può
vedere
quale
percentuale
sia
stata
considerata
rilevante
dalla
macchina,
secondo
la
metrica
considerata.
Figura
5.
Precisione
+@K%
Articolo
sport
Attraverso
la
figura
5
si
evidenzia
come
la
metrica
Rarity
risulti
mediamente
migliore
rispetto
alle
restanti.
Al
75%
risulta
migliore
la
metrica
Popularity.
Figura
6.
Precisione
-‐@K%
Articolo
sport
14. 14
Attraverso
la
figura
6
si
evidenzia
come
la
metrica
Context
e
la
combinazione
sulla
base
del
massimo
tra
le
metriche
Popularity
e
Context
risultino
mediamente
migliori
rispetto
alle
restanti.
Fino
al
25%
la
metrica
Context
supera
le
restanti,
in
modo
differente
al
50%
e
al
75%,
rispettivamente,
la
combinazione
sulla
base
del
massimo
tra
Rarity,
Context
e
Popularity
e
la
combinazione
sulla
base
della
media
tra
Popularity
e
Context
risultano
migliori.
Figura
7.
Precisione
+@K%
Articolo
politica
In
figura
7,
si
può
notare
che
la
metrica
Rarity
risulti
mediamente
migliore
rispetto
alle
restanti.
Al
25%
risulta
migliore
la
metrica
Context.
Figura
8.
Precisione
-‐@k%
Articolo
politica
Dalla
figura
8
si
evince
che
la
metrica
Rarity
risulta
nettamente
migliore
rispetto
alle
altre.
15. 15
Figura
9.
Precisione
+@K%
Articolo
tecnologia
La
figura
9
invece
evidenzia
come
la
combinazione
sulla
base
del
massimo
tra
le
metriche
Rarity
e
Context
risulti
mediamente
migliore
rispetto
alle
restanti.
Fino
al
10%,
la
stessa
risulta
migliore
rispetto
alle
restanti,
differentemente
al
25%
risulta
migliore
la
combinazione
sulla
base
del
massimo
tra
le
metriche
Popularity
e
Context
ed
infine
al
50%
e
al
75%
risultano
migliori
la
metrica
Popularity
e
la
combinazione
sulla
base
della
media
tra
le
metriche
Popularity
e
Context.
Figura
10.
Precisione
+@K%
Articolo
tecnologia
Interpretando
il
grafico
in
figura
10,
si
deduce
che
la
combinazione
sulla
base
della
media
tra
le
metriche
Popularity
e
Context
risulti
mediamente
migliore
rispetto
alle
restanti.
La
stessa
è
migliore
anche
al
5%
ma
al
10%
e
al
25%
,
rispettivamente,
la
metrica
Context
e
Rarity
risultano
migliori
rispetto
alle
restanti.
Infine
al
50%
e
al
75%,
la
metrica
Popularity
risulta
la
migliore
insieme
alla
combinazione
sulla
base
della
media
tra
le
metriche
Popularity
e
Context.
È
importante
sottolineare
che
le
nostre
valutazioni
sono
tendenze
di
giudizio
personale,
che
dipendono
quindi
dalla
soggettività
di
chi
valuta.
L’analisi
dei
risultati
dati
dal
confronto
delle
nostre
valutazioni
con
quelle
della
macchina
mostra
come
l’ambito
di
cui
tratta
l’articolo
sia
rilevante
per
la
capacità
di
giudizio
delle
metriche:
nell’ambito
politico
le
combinazioni
tra
le
metriche
non
riescono
a
raggiungere
mediamente
gli
stessi
risultati
ottenuti
dalla
metrica
Rarity
(la
più
precisa),
così
come
risulta
anche
dall’analisi
riguardante
l’articolo
sportivo.
16. 16
Per
quanto
riguarda
l’articolo
in
ambito
tecnologico,
quello
che
esaminava
le
vendite
e
gli
introiti
dell’iPhone
5,
risulta
invece
migliore
la
combinazione
sulla
base
della
media
tra
le
metriche
Popularity
e
Context.
17. 17
4
Conclusioni
personali
sul
lavoro
svolto
4.1
Le
nostre
valutazioni
a
confronto
Gli
argomenti
e
i
giudizi
trattati
finora
riguardavano
il
nostro
ruolo
di
valutatori
delle
associazioni
semantiche
recuperate
nei
tre
articoli
analizzati
nella
tesi.
Dagli
incontri
col
Prof.
Palmonari
è
però
risultata
interessante
l’idea
di
andare
oltre
l’attività
in
collaborazione
con
il
collega
Polidoro.
Abbiamo
dunque
deciso
di
proseguire
il
nostro
lavoro
di
valutatori
su
altri
due
articoli,
che
avessero
come
tema
la
politica.
Questa
decisione
è
stata
presa
per
cercare
di
valutare
meglio
l’algoritmo
che
ha
prodotto
i
risultati
(l’articolo
di
politica
analizzato
per
la
tesi
di
Alessio
era
quello
con
le
valutazioni
più
basse),
in
un
ambito,
quello
della
politica,
che
ci
sembrava
quello
più
interessante
e
“caldo”.
Abbiamo
inoltre
deciso
che
le
valutazioni
per
i
nuovi
articoli
sarebbero
state
doppie,
a
differenza
della
prima
fase
di
lavoro
in
cui
ogni
articolo
era
stato
valutato
da
uno
solo
di
noi.
Riccardo
ha
quindi
analizzato
il
primo
articolo
di
politica,
valutato
precedentemente
da
Valeria,
siamo
poi
passati
alle
valutazioni
di
altri
due
articoli
e
li
abbiamo
in
seguito
messi
a
confronto
per
verificare
l’uniformità
dei
giudizi
dati
singolarmente.
Le
valutazioni
di
una
sola
persona
sono
interessanti,
e
sono
state
utili
per
il
lavoro
di
tesi
di
Polidoro,
ma
di
certo
non
bastano
in
linea
generale,
possono
insomma
essere
considerate
un
buon
punto
di
partenza.
Due
persone
–
con
giudizi,
conoscenze,
parametri
di
valutazione
ovviamente
diversi
–
offrirebbero
un’analisi
più
varia.
Abbiamo
dunque
proseguito
il
nostro
progetto
lavorando
in
quest’ottica:
con
valutazioni
incrociate
l’analisi
delle
associazioni
porterà
a
risultati
e
riflessioni
a
riguardo
di
più
ampio
respiro.
Gli
articoli
che
trattavano
argomenti
politici
sono
stati
dunque
tre:
il
primo,
come
abbiamo
detto,
è
lo
stesso
utilizzato
nella
tesi
(Obama
Campaign
Endgame:
grunt
Work
and
Cold
Math,
dal
sito
web
del
New
York
Times),
gli
altri
due,
sempre
provenienti
dal
sito
web
del
New
York
Times,
titolavano:
Romney
is
Upbeat,
but
Math
is
the
Same
[9]e
Efforts
to
Curb
Social
Spending
Face
Resistance
[10].
Il
primo
dei
due
si
focalizzava
sulla
campagna
elettorale
di
Romney
e
sui
numeri
delle
previsioni,
che
davano
la
sfida
aperta
fino
all’ultimo.
Il
secondo
invece
sui
provvedimenti
riguardo
a
Social
Security
e
Medicare
che
il
rieletto
presidente
Obama
cercherà
di
apportare.
Come
già
detto,
ognuno
di
noi
ha
valutato
singolarmente
le
quasi
19000
associazioni
semantiche
estratte
in
totale
dai
tre
articoli.
Ecco
delle
tabelle
che
riassumono
le
differenze
quantitative
fra
le
due
valutazioni.
Valeria Riccardo
1 2090 2638
2 1337 873
3 107 23
0 4 4
Figura
11.
Tabella
dell’articolo
Obama
Campaign
Endgame:
grunt
Work
and
Cold
Math
18. 18
Valeria Riccardo
1 4630 4477
2 1223 1382
3 10 1
0 0 3
Figura
12.
Tabella
dell’articolo
Romney
is
Upbeat,
but
Math
is
the
Same
Valeria Riccardo
1 8419 8157
2 858 1090
3 69 99
0 0 0
Figura
13.
Tabella
dell’articolo
Efforts
to
Curb
Social
Spending
Face
Resistance
Nessuna
associazione
semantica
ricavata
dall’articolo
sopra
citato
è
stata
valutata
0.
Come
si
può
osservare
dai
risultati
riportati
nelle
tabelle
di
queste
tre
figure,
le
valutazioni
sono
state
abbastanza
simili
ma
non
identiche.
È
chiaro
che,
data
la
grandissima
mole
di
associazioni
semantiche
da
valutare,
non
sempre
abbiamo
seguito
lo
stesso
metro
di
giudizio.
Ma,
in
linea
generale,
si
è
cercato
di
seguire
queste
regole
comuni
che
avevamo
in
precedenza
tra
di
noi
accordato:
• Valutare
0
solo
quei
percorsi
di
associazioni
aventi
l’entità
finale
in
disaccordo
con
la
prima
(entità
principale)
• Valutare
1
quei
percorsi
che
risultano
caratterizzati
da
entità
e
proprietà
coerenti
e
logicamente
connesse
fra
loro
ma
che
non
danno
luogo
a
delle
associazioni
particolarmente
interessanti
• Valutare
2
quei
percorsi
che,
oltre
a
essere
corretti
da
un
punto
di
vista
logico,
danno
luogo
ad
associazioni
singolari
in
quanto
alcune
entità
o
proprietà
coinvolte
risultano
(per
rarità
o
importanza
o
popolarità)
particolarmente
interessanti,
• Infine,
valutare
3
quei
percorsi
che,
oltre
a
essere
corretti
da
un
punto
di
vista
logico
e
a
contenere
entità
e
o
proprietà
interessanti,
sono
considerati
particolarmente
affini
e
quindi
congruenti
per
contenuto
all’articolo
da
cui
l’entità
principale
è
stata
estrapolata.
Vediamo
ora
alcuni
esempi
tratti
dall’articolo
Efforts
to
Curb
Social
Spending
Face
Resistance
per
chiarire
meglio
i
parametri
di
giudizio
usati
e
per
notare
possibili
differenze
che
potrebbero
comunque
scaturire
tra
le
valutazioni
di
due
diversi
esperti
di
dominio.
19. 19
Il
percorso
<dbp:Barack_Obama>
dbProp:party
>
dbp:Democratic_party_(United_States)>
può
essere
valutato
3
per
la
popolarità
della
notizia
rappresentata
dal
percorso
e
per
l’affinità
con
gli
argomenti
trattati
nell’articolo.
Lo
stesso
può
anche
essere
valutato
2,
in
quanto
esso
è
sì
coerente
con
l’articolo
e
popolare,
ma
allo
stesso
tempo,
rappresenta
una
notizia
ormai
conosciuta
da
tempo
e
quindi
non
rara,
anzi
banale.
Già
da
questo
esempio
si
può
notare
come,
nonostante
le
regole
generali
osservate
siano
le
stesse,
i
giudizi
possono
però
differire
a
seconda
di
chi
li
esprime.
Il
percorso
<dbp:Barack_Obama>
dbProp:president
<
<dbp:David_Jane>
dbProp:party
<
<dbp:Democratic_Party_(United_States)>
è
stato
valutato
1
perché
esprime
delle
relazioni
logiche,
reali,
ma
non
particolarmente
interessanti
né
originali
o
popolari.
Il
percorso
difficilmente
potrà
essere
giudicato
con
un
valore
più
alto.
Il
percorso
<dbp:Barack_Obama>
dbProp:president
<
<dbp:John_Boehner>
è
stato
valutato
da
entrambi
3
per
l’importanza
dell’entità
citata
(Boehner
è
presidente
della
camera
dei
deputati)
e
perché
la
stessa
entità
è
citata
nell’articolo
da
cui
quella
principale
è
estrapolata.
Il
percorso
è
dunque
congruente
con
l’articolo
giornalistico
a
cui
è
collegato
e
l’argomento
importante.
Quasi
mai
è
successo,
analizzando
e
confrontando
le
nostre
valutazioni,
di
trovare
percorsi
valutati
1
da
un
esperto
di
dominio
e
3
dall’altro.
È
successo
invece
spesso
di
trovare
percorsi
valutati
2
o
3
a
seconda
di
chi
ha
espresso
il
giudizio
e,
ancora
più
spesso,
quelli
valutati
1
e
2.
Fra
le
associazioni
recuperate
dall’articolo
Efforts
to
Curb
Social
Spending
Face
Resistance
ne
troviamo
parecchie
che
collegano
l’entità
principale
a
uno
dei
propri
mestieri,
ovvero
quello
dell’avvocato.
Uno
di
noi
due
ha
deciso
di
valutare
quelle
associazioni
con
un
2
perché
ha
ritenuto
che
il
fatto
che
Obama
fosse,
oltre
che
politico
e
autore
di
scritti,
anche
avvocato,
abbastanza
interessante
e
originale
(non
tutti
d’altronde
lo
sanno),
l’altro
di
noi
due
ha
invece
deciso
di
valutare
questi
stessi
percorsi
con
un
1
perché
non
ha
ritenuto
che
il
collegamento
<Obama>
mestiere
>
<avvocato>
fosse
abbastanza
originale
da
poter
essere
valutato
diversamente.
Nel
complesso,
e
data
la
grande
quantità
di
dati
da
analizzare,
riteniamo
che
i
nostri
giudizi
siano
stati
abbastanza
uniformi,
o
quantomeno
facilmente
confrontabili.
Da
un’analisi
dettagliata
risulta
evidente
che
i
due
valutatori
hanno
seguito
delle
metriche
basate
su
giudizi
di
popolarità,
originalità
e
contestualizzazione
dati
alle
entità
e
alle
proprietà
citate
nei
percorsi.
È
possibile
notare
macrodifferenze
come
quella
citata
nel
paragrafo
precedente
(Obama
avvocato:
interessante/banale)
ma
nel
complesso
c’è
stato
un
buon
livello
di
accordo
nella
valutazione
dei
percorsi,
soprattutto
quelli
contenenti
entità
salienti
(perché,
ad
esempio,
citate
nell’articolo
relativo
oppure
per
la
loro
popolarità).
4.2
Valutazione
generale
dei
risultati
prodotti
dall’algoritmo
Come
già
scritto
in
precedenza,
le
associazioni
semantiche
estrapolate
dai
tre
articoli
di
politica
sono
state
quasi
19000
(per
la
precisione,
18749)
mentre
quelle
estrapolate
dai
tre
articoli
su
cui
la
tesi
si
è
basata
sono
state
9114.
Fra
i
cinque
articoli
citati,
quello
con
meno
associazioni
semantiche
recuperate
è
stato
Apple
profit
Rises
24%
on
Sales
of
iPhone
5con
890
percorsi,
il
più
ricco
invece
è
stato
Efforts
to
Curb
Social
Spending
Face
Resistance
con
ben
9346
percorsi.
20. 20
Nel
ruolo
di
esperti
di
dominio
entrambi
ci
siamo
resi
conto
che
questi
numeri
sono
troppo
alti,
soprattutto
se
si
considera
che
i
percorsi
valutati
con
1
sono
la
maggioranza
per
tutti
gli
articoli
analizzati.
Guardando
le
tabelle
riportate
precedentemente
(sia
quelle
che
riguardano
i
tre
articoli
valutati
per
il
lavoro
di
tesi,
sia
quelle
sul
confronto
delle
valutazioni
nei
tre
articoli
politici)
si
può
facilmente
evincere
quanto
appena
detto.
Il
fatto
che
molti
dei
percorsi
siano
stati
valutati
1
significa
che
la
maggior
parte
dei
“cammini”
ricavati
dalle
associazioni
fra
le
entità
sono
stati
valutati
giusti
ma
poco
interessanti,
perché
comuni
e/o
ripetitivi
oppure
perché
totalmente
privi
di
interesse.
Le
associazioni
con
valore
1
quindi
sono
molte,
ma
valutarle
1
è
riduttivo
e
in
un
certo
senso
fuorviante:
sarebbe
a
nostro
parere
utile
un
ulteriore
discriminazione
sugli
1,
poiché
la
differenza
fra
il
giudizio
comuni
e/o
ripetitivi
e
il
giudizio
totalmente
privi
di
interesse
è
molta.
Mentre
le
associazioni
considerate
comune/o
ripetitivi
[11]
hanno
ragione
di
essere
comunque
inserite
fra
quelle
ricavabili
dalle
entità
tratte
dall’articolo;
quelle
considerate
totalmente
prive
di
interesse
non
hanno
motivo
di
comparire
fra
i
percorsi
che
un
giornalista
o
un
utente
interessato
a
quell’argomento
avrebbe
piacere
di
trovare
fra
quelli
relativi
all’articolo
(o
semplicemente
all’argomento)
d’interesse.
Sarebbero
insomma,
a
nostro
parere,
un
po’
una
perdita
di
tempo,
non
un
acquisizione
di
informazioni
utili.
Prendendo
ancora
ad
esempio
l’articolo
Efforts
to
Curb
Social
Spending
Face
Resistance,
proponiamo
uno
dei
percorsi
valutati
da
entrambi
1
e
giudicato
–
sempre
da
entrambi
-‐
totalmente
non
interessante.
A
nostro
parere
esso
dimostra
che
i
percorsi
di
questo
genere
sarebbe
meglio
e
senza
dubbio
più
utile
che
non
comparissero
come
output
dell’analisi
in
Dbpedia
delle
entità
estrapolate
dall’articolo.
<dbp:Barack_Obama>
dbProp:leader_name
<
dpb:United_States
dbpProp:country
<
dbp:Missouri_Valley_Iowa
dbProp:isPartOf
>
<dbp:Iowa>
L’informazione
contenuta
in
questo
percorso
e
riassumibile
con
“Obama
è
il
leader
degli
Stati
Uniti,
in
cui
Missouri
Valley
è
un
paese,
che
fa
parte
dello
stato
Iowa”
non
è
interessante,
né
originale,
né
collegata
in
maniera
rilevante
e
congruente
all’articolo
da
cui
le
entità
sono
state
estrapolate.
Alla
luce
di
queste
osservazioni
(in
sintesi:
i
percorsi
ricavati
sono
troppi,
e
fra
questi
molti
sono
stati
valutati
1.
Buona
parte
di
queste
associazioni
valutate
1
può
essere
considerata
totalmente
priva
di
interesse
per
chiunque
voglia
cercare
informazioni
sull’argomento
principale
da
cui
tale
associazione
è
stata
estrapolata)
siamo
giunti
alla
conclusione
che
l’algoritmo
ha
usato
delle
metriche
di
selezione
di
collegamenti
troppo
“larghe”.
In
linea
generale
però,
è
giusto
sottolineare
che
il
sistema
ha
rilevato:
• Percorsi
interessanti:
la
maggior
parte
di
quelli
da
noi
valutati
2
e
3
• Percorsi
meno
interessanti
ma
che
comunque
potrebbero
essere
utili:
quelli
valutati
1
in
quanto
rappresentano
informazioni
risapute
o
non
troppo
significative
(anche
se
su
questo
punto
bisogna
però
sottolineare
che
dipende
anche
dagli
utenti
che
usufruiscono
di
queste
informazioni)
• Pochissimi
percorsi
giudicati
con
0:
questo
significa
che
l’algoritmo
non
ha
quasi
mai
fallito
nel
trovare
un
collegamento
fra
l’entità
principale
e
quella
finale
del
percorso,
l’unica
pecca
è
stata
che
troppo
spesso
quel
collegamento
rappresentava
un’informazione
davvero
banale
perché
potesse
essere
presa
in
considerazione
da
un
utente
interessato
a
questi
risultati.
21. 21
4.3
Possibili
usi
futuri
del
Computational
journalism
Nei
primi
paragrafi
abbiamo
descritto
il
Computational
oDDJ,
nello
studiarlo
ci
siamo
fatti
un’idea
dei
possibili
usi,
e
soprattutto
dei
possibili
vantaggi
che
tale
attività
potrebbe
portare
a
quella
più
ampia
del
giornalismo.
La
creazione
di
nuove
storie
giornalistiche
o
d’inchieste
quantitative
e
qualitative
da
parte
dei
giornalisti,
attraverso
la
ricerca
di
informazioni
tramite
tecniche
computazionali,
è
l’obiettivo
del
Computational
journalism.
Ad
esempio,
un
software
può
eseguire
la
scansione
di
differenti
database
e
reti
sociali,
in
modo
tale
da
identificare
e
riportare
informazioni
che
possono
essere
utilizzate
in
seguito
dai
giornalisti.
The
Guardian
ha
realizzato
un’indagine
riguardante
le
spese
dei
membri
del
parlamento
del
Regno
Unito.
Tutte
queste
informazioni
recuperate
ed
elaborate
sono
state
rese
disponibili
nel
web
all’interno
di
fogli
di
calcolo,
i
quali
sono
stati
analizzati
dagli
utenti
della
rete,
identificando
le
voci
più
interessanti.
Le
informazioni
e
le
analisi
svolte
dagli
utenti
hanno
permesso
alla
testata
in
questione,
di
realizzare
nuove
storie
giornalistiche,
rendendo
palese
il
problema.
È
importante
evidenziare
come
l’indagine
al
momento
non
sia
stata
replicata
da
nessun’altra
testata,
poiché
computazionalmente
onerosa.
Attraverso
questa
iniziativa,
The
Guardian
è
stato
in
grado
di
migliorare
la
propria
reputazione
nell’ambito
del
giornalismo
investigativo
e
allo
stesso
tempo
è
riuscito
a
portare
alla
luce
un
problema
molto
critico
[12].
Un
altro
esempio
è
costituito
da
James
Hamilton
[13]
che,
utilizzando
il
database
della
protezione
ambientale
americana
riguardante
le
emissioni
di
sostanze
chimiche
da
parte
delle
industrie,
è
stato
in
grado
di
individuare
possibili
imprecisioni
nei
dati
forniti
dalle
diverse
compagnie.
Principalmente
nella
realizzazione
di
quest’analisi,
egli
utilizzò
metodi
statistici
e
matematici.
In
questo
modo,
Hamilton
riuscì
a
scovare
le
violazioni
della
legge
di
Benford
riguardante
il
limite
delle
emissioni
tossiche.
Il
lavoro
di
Hamilton
deriva
da
una
semplice
osservazione
da
economia
dei
media:
dato
che
produrre
inchieste
e
reportage
giornalistici
è
attività
costosa,
laboriosa
(e
spesso
non
pagata
in
proporzione
dagli
investitori
pubblicitari)
è
preferibile
usare
tecnologie
digitali
in
grado
di
affiancare
il
giornalista
nel
produrre
inchieste
approfondite.
Il
Computational
Journalism,
rispondendo
agli
incredibili
cambiamenti
che
la
rivoluzione
digitale
ha
portato
nell’
accessibilità
dell’informazione
-‐
se
utilizzato
nel
modo
migliore
e
supportato
da
strumenti
efficaci
e
sempre
meno
onerosi
-‐
è
la
miglior
starda
percorribile
per
avere
sempre
più
qualità
e
affidabilità
nell’informazione.
Ma
non
solo
i
giornalisti
professionisti
possono
usufruire
dei
LOD
e
delle
tecniche
computazionali
tipiche
del
Computational
Journalism
per
informarsi
e
per
costruire
nuove
storie
giornalistiche.
L’auspicio
è
che
anche
uno
studente,
un
blogger,
un
politico
o
un
imprenditore
(e
altre
figure
professionali
e
non)
possano
ritenere
utile
una
ricerca
di
dati
incrociata
e
ben
sviluppata
come
quella
cui
porterebbe
un
uso
ampio
e
diffuso
del
DDJ.
La
tendenza
è
ormai
quella,
lo
dimostrano
anche
–
nel
loro
piccolo
–
i
sempre
più
numerosi
comuni
italiani
che
hanno
realizzato
il
proprio
portale
regionale
di
Open
Data
[14]
rendendo
i
dati
un
diritto
fondamentale
ed
un
bene
comune.
Un
esempio
di
strumento
per
tutti
è
stato
realizzato
da
Google
e
denominato
Living
Stories.
Esso
permette
di
raccogliere
tutte
le
versioni
di
un
fatto
di
cronaca
all’interno
di
un
articolo,
le
quali
possono
essere
consultate
sulla
base
di
una
timeline.
All’interno
dell’articolo,
costantemente
aggiornato,
vengono
creati
dei
collegamenti
a
delle
notizie
correlate.
In
questo
22. 22
modo
l’utente
senza
nessun
particolare
sforzo
può
prendere
visione
delle
informazioni
d’interesse,
recuperandole
nel
caso
in
cui
dovesse
creare
una
nuova
storia
giornalistica.
Una
ricerca
del
genere
potrebbe
richiedere
tempo
ma
nessun
tipo
di
tecnologia
particolare
se
non
quella
di
un
device
connesso
a
internet
e
–
dato
non
trascurabile
-‐
nessun
tipo
di
costo
(fatta
eccezione
per
quello
che
garantisce
la
connessione
stessa).
È
importante
sottolineare
come
il
Computational
journalism
vada
oltre
una
semplice
editoria
giornalistica
online.
Non
si
tratta
di
pubblicare
articoli
e
notizie
sul
web
(non
solo,
quantomeno)
ma
anche
(e
sopratutto)
di
indicizzare
le
entità
presenti
per
poi
poterle
collegare
ad
altre
entità
presenti
in
altri
articoli
e
fatti,
i
collegamenti
saranno
proposti
secondo
il
grado
di
connessione
che
c’è
fra
le
entità,
fra
gli
articoli
e
fra
gli
argomenti
trattati,
in
un
dato
momento
storico.
Un
aspetto
importante
è,
a
nostro
avviso,
l’aggiornamento
dei
sistemi
che
permettono
queste
ricerche
computazionali.
È
evidente
che,
trattandosi
di
notizie
contemporanee
e
data
la
velocità
dell’informazione
oggi,
ci
deve
essere
un
aggiornamento
continuo
degli
articoli,
delle
entità
e
delle
proprietà,
così
come
delle
“qualità”
intrinseche
ad
ogni
entità
o
ad
ogni
proprietà;
può
succedere
infatti
che
collegamenti
ritenuti
molto
rilevanti
in
un
dato
momento,
possano
non
risultare
più
tali
in
un
altro.
È
necessario
in
altre
parole
tenere
costantemente
il
passo,
cosa
non
facile
e
su
cui
c’è
probabilmente
ancora
molto
da
lavorare.
È
un
approccio
innovativo
e
in
quanto
tale
deve
ancora
percorrere
molta
strada
per
poter
essere
migliorato.
4.4
Oltre
il
Computational
journalism,
possibili
usi
delle
associazioni
semantiche
Come
abbiamo
detto,
sono
giornalisti
i
primi
utilizzatori
del
Computational
journalism,
ma
non
solo.
Gli
studenti
e
il
campo
della
ricerca
universitaria
potrebbero
trarre
grandi
benefici
da
un
uso
di
queste
tecniche
computazionali,
incentrate
però
non
solo
sui
fatti
e
le
notizie
dal
mondo,
ma
anche
sugli
articoli
scientifici
pubblicati
dalle
riviste
di
tutto
il
mondo.
Una
mappatura
di
tali
elementi,
con
estrazione
di
entità,
proprietà
e
creazione
di
un
grafo
massimale,
potrebbe
aiutare
i
ricercatori
nelle
loro
indagini.
È
evidente
come
uno
sforzo
del
genere
sia
impegnativo,
ma
comunque
possibile
se
basato
su
una
cooperazione
e
collaborazione
a
livello
mondiale,
ormai
possibile
grazie
alla
diffusione
di
internet,
del
cloud
che
ospita
tutte
le
piattaforme
utili
al
DDJ
e
che
permette
una
ricerca
collettiva
di
notizie
e
collegamenti
da
tutto
il
mondo.
Citando
Tim
Berners-‐Lee
e
i
suoi
comandamenti
del
web
semantico:
“Se
ben
strutturato,
il
web
semantico
favorisce
l’evoluzione
della
conoscenza
umana.
Il
processo
di
creazione
della
conoscenza
è
caratterizzato
da
un’eterna
tensione
tra
l’efficacia
produttiva
di
ristretti
gruppi
di
persone
che
agiscono
in
modo
indipendente
e
la
loro
necessità
di
integrarsi
con
una
comunità
più
ampia.
I
gruppi
di
dimensioni
limitate
lavorano
rapidamente
ed
efficacemente,
ma
allo
stesso
tempo
danno
vita
a
delle
sottoculture
che
male
interagiscono
con
il
pubblico
esterno.
Coordinare
un
gruppo
ampio,
tuttavia,
richiede
tempo
e
un
immane
sforzo
comunicativo.
(…)
Se
fino
ad
ora
il
mondo
ha
funzionato
in
disequilibrio
tra
questi
estremi,
il
web
semantico
consente
a
diverse
sottoculture
di
entrare
in
contatto
tra
loro
e
scambiarsi
informazioni
in
modo
semplice
e
immediato.
Il
web
semantico
può
essere
visto
come
una
sorta
di
linguaggio
logico
internazionale
a
disposizione
di
tutte
le
sotto
strutture.”[15]
È
riflettendo
su
queste
parole,
su
quanti
siano
i
gruppi
ristretti
ai
quali
i
LOD
gioverebbero
e
quanto
sia
importante
l’interazione
di
cui
parla
Tim
Berners-‐Lee,
che
abbiamo
pensato
a
usi
dei
LOD
che
andassero
oltre
gli
scopi
classici
del
Computational
journalism,
che
prevedano
in
altre
23. 23
parole
l’uso
dei
LOD
in
contesti
che
non
siano
esclusivamente
quelli
del
web.
Gran
parte
delle
difficoltà
che
emergono
nello
sviluppo
del
Web
3.0
è
dovuta
alla
grande
quantità
di
dati
da
identificare
e
strutturare.
Un
utilizzo
dei
LOD
in
un
ambiente
più
ridotto
e
specifico
di
quello
del
web
potrebbe
portare
a
grandi
vantaggi
e
l’organizzazione
dovrebbe
essere
logicamente
meno
onerosa.
Un
contesto
che
sembra
adattarsi
bene
a
quanto
detto
finora
è
quello
delle
Big
Enterprises,
[16]
le
grandi
aziende,
che
spesso
hanno
una
struttura
articolata
e
una
mole
significativa
di
stakeholders,
il
che
si
traduce
ovviamente
in
una
grande
quantità
di
dati
diversi
da
catalogare.
Ci
siamo
quindi
chiesti,
come
sarebbe
possibile
integrare
l’approccio
e
la
tecnologia
LOD
con
un
ambiente
aziendale?
Quali
vantaggi
porterebbe
quest’operazione?
Per
rispondere
alla
prima
domanda
abbiamo
individuato
una
serie
di
passi
da
compiere
per
raggiungere
quella
che
è
stata
definita
dai
pionieri
di
questa
nuova
prospettiva
Enterprise
Linked
Opend
Data
(ELOD).
[17]
Presentiamoli:
• Raccolta
e
definizione
della
topologia
dei
dati,
ovvero
quali
aree
aziendali
prendere
in
considerazione
e
come
organizzare
i
relativi
dati
in
cataloghi
• Specificare
i
formati:
dai
più
classici
(e
meno
utili)
.pdf,
.xls
,
.csv/tsv,
fino
ad
arrivare
ai
più
evoluti
e
sicuramente
più
efficaci
.xml,
rdf/owl
• Prelievo
dei
dati
dalle
fonti
individuate
nei
formati
scelti
• Preparazione
di
una
piattaforma
centrale
di
servizi
per
l’amministrazione
dei
dati,
la
loro
classificazione,
fusione,
indagine
e
pubblicazione
• Descrizione
del
ciclo
di
vita
dei
dati
aperti.
• Definizione
delle
politiche
di
sicurezza
e
permessi
d’accesso
ai
dati
aperti
• Infine
pubblicazione
conclusiva
dei
dati
in
LOD,
ovvero
sfruttando
tecnologie
semantiche
come
RDF,
OWL,
URI,
SPARQL,
per
ottenere
dati
con
una
semantica
esplicita
e
per
renderli
interconnessi
fra
di
loro
e
rintracciabili
tramite
un
URL
univoco.
Vediamo
ora
alcuni
vantaggi
particolari
di
cui
potrà
usufruire
un’azienda
che
intraprende
questo
percorso:
• I
dati
perderebbero
quella
carica
di
“potere
intrinseco”
che
hanno
ad
oggi
e
che
spesso
alimenta
controversie
sul
controllo
dei
vari
domini
di
competenza
all’interno
di
un
azienda
• Non
si
avvertirebbe
più
la
necessità
di
commissionare
le
pratiche
di
valutazione
informativa
ad
aziende
esterne
• Si
faciliterebbe
lo
sviluppo
di
nuove
applicazione
data-‐consumer
e
di
data-‐intergation
• Si
otterrebbe
una
gestione
trasparente
del
patrimonio
informativo
dell’azienda
• Si
ottimizzerebbero
i
processi
di
comunicazione
e
condivisione
dell’informazione
fra
le
diverse
aree
aziendali.
Ovviamente
ci
sarebbero
alcune
criticità
nel
passaggio
dalla
gestione
attuale
dei
dati
di
un’azienda
a
quello
ELOD.
Per
esempio
la
sensibilizzazione
del
cliente
nei
confronti
di
tale
gestione,
la
difficoltà
iniziale
di
censire
i
dati,
ma
anche
l’opera
di
convincimento
dei
propri
dipendenti
dell’utilità
e
bontà
dell’operazione
a
fronte
di
una
facile
reticenza
a
condividere
i
propri
dati
e
la
necessità
imprescindibile
di
definire
delle
politiche
di
sicurezza
precise
sull’accesso
ai
dati.
Riteniamo
comunque
che
valga
la
pena
per
un’azienda
–
specie
se
di
grandi
dimensioni
-‐
percorrere
tale
strada.
Realizzerebbe,
infatti,
un
vero
e
proprio
processo
di
censimento,
amministrazione,
riuso
di
tutti
quei
dati
che
di
solito
vengono
gelosamente
custoditi
o
nascosti
impedendo
così
corrette
pratiche
di
Enterprise
Information
Management
EIM
e
Knowledge
management
(KM).
24. 24
Queste
riflessioni
si
potrebbero
applicare
–
con
le
dovute
differenze
–
a
moltissimi
contesti,
basti
pensare
alle
scuole,
alla
pubblica
amministrazione,
alla
politica…
Sono
nati
e
stanno
nascendo
moltissimi
progetti
a
riguardo,
anche
nel
nostro
Paese.
Sul
sito
della
Open
Knowledege
Fondation
Italia
è
possibile
farsi
un’idea
dello
stato
attuale
dei
lavori.
[18]
Figura
14:
Infografica
coi
dati
estratti
dal
portale
Rimozione
Macerie
25. 25
Sul
sito
dell’agenzia
di
prodotti
multimediali
Mister
wolf
–
web&multimedia
[19]
abbiamo
trovato
un
interessante
lavoro,
riassunto
in
Figura
14,
che
dimostra
quanto
l’utilizzo
dei
LOD
in
contesti
specifici
sia
utile.
Spieghiamo
ora
in
breve
il
motivo
per
cui
il
progetto
di
quest’agenzia
rappresenta
a
nostro
parere
un
esempio
virtuoso,
da
applicare
in
moltissimi
altri
campi
e
contesti.
Il
progetta
mira
a
raccogliere
i
dati
inerenti
al
lavoro
di
messa
in
sicurezza
degli
edifici
e
di
rimozione
delle
macerie,
soprattutto
all’Aquila,
che
procede
ancora
oggi.
Si
stima
che
fino
a
ora
siano
state
rimosse
quasi
426000
tonnellate
di
macerie
dai
lavori
per
gli
edifici
pubblici
e
circa
273000
per
quelli
privati.
Il
sito
del
Commissariato
per
la
Ricostruzione
tiene
traccia
dei
lavori
e
delle
operazioni
svolte
con
una
serie
di
Open
data
liberamente
consultabili
dalla
cittadinanza.
Sulla
base
di
queste
informazioni,
l’agenzia
Mister
wolf
ha
realizzato
l’infrografica
di
Figura
14,
per
illustrare
il
lavoro
svolto
fino
ad
oggi
per
rimuovere
le
macerie.
L’infografica
offre
uno
sguardo
d’insieme
sullo
stato
della
rimozione
e
smaltimento
delle
macerie
nell’area
del
cratere
interessato
dal
sisma
che
ha
colpito
l’Abruzzo
nel
2009.
I
dati
si
riferiscono
alle
macerie
rimosse,
provenienti
dai
cantieri
e
destinate
ai
punti
di
conferimento
ad
opera
delle
aziende
al
Febbraio
2013.
Sono
poi
disponibili
le
percentuali
dei
cantieri
che
producono
macerie
suddivisi
per
provincia
e
i
relativi
punti
di
conferimento
dove
le
macerie
vengono
destinate
attraverso
le
aziende
incaricate
del
trasporto.
Molti
quotidiani
online
hanno
parlato
di
questo
progetto
e
delle
informazioni
ricavate
da
esso,
i
dati
raccolti
e
analizzati
hanno
risparmiato
molto
lavoro
a
chi
se
ne
occupa
e
ne
usufruisce;
iniziative
come
queste
devono
essere
seguite
e
replicate
in
ambiti
simili
ma
non
solo,
devono
vedere
la
collaborazione
di
aziende
e
agenzie
di
questo
tipo
al
fine
di
creare
progetti
sempre
più
trasversali
e
utili
a
chiunque.
Un
altro
campo
da
noi
indagato
in
cui
l’approccio
LOD
può
aiutare
a
migliorare
le
prestazioni
è
quello
dei
motori
di
ricerca,
e
in
particolare,
potrebbero
essere
di
enorme
aiuto
alla
problematica
delle
ricerche
correlate
e
suggerite
all’utente
da
parte
di
un
software
che
“lavorerà”
per
conto
di
un
sito
o
anche
del
browser.
Come
ben
sappiamo
spesso
accanto
all’esito
di
una
ricerca
da
noi
indagata,
compaiono
suggerimenti
e
consigli
riguardo
prodotti/
informazioni
simili.
Ad
esempio,
se
cerchiamo
su
Google
un’entità
(persone,
luoghi,
cose)
a
fondo
del
sommario
di
informazioni
enciclopediche
sull’entità
che
stiamo
cercando,
compaiono
altre
entità
che
vanno
sotto
l’etichetta
di
“ricerche
correlate”.
26. 26
Figura
15:
Risultati
della
ricerca
“Bacon”
su
Google
La
figura
15
mostra
cosa
accade
se
da
loggati
in
Google
cerchiamo
“Bacon”:
avremo
i
classici
risultati
nella
colonna
di
sinistra
e
accanto,
in
una
nuova
colonna,
ci
verrà
chiesto
di
specificare
se
intendiamo
il
filosofo,
il
pittore
o
l’attore.
Figura
16:
Ricerca
successiva
su
Google
-‐
Sommario
delle
informazioni
sul
personaggio
d’interesse
e
ricerche
correlate
27. 27
Come
mostra
la
figura
16,
supponendo
che
il
personaggio
che
interessa
a
noi
sia
Francis
Bacon
–
Pittore,
appariranno
una
serie
di
informazioni
su
quest’ultimo,
alcune
sue
opere,
ed
altri
artisti
correlati
(cercati
da
altri).
Ciò
avviene
grazie
al
Knowledge
Graph,
che
unisce
ricerca
semantica
ad
analisi
statistiche
e
algoritmi.
Il
progetto,
ancora
in
evoluzione,
migliora
quindi
la
ricerca,
grazie
alla
mappatura
di
3.5
miliardi
di
fatti
ossia
informazioni
sulle
relazioni
tra
500
milioni
di
entità.
Questa
tendenza
è
riscontrabile
anche
in
molti
siti
di
quotidiani,
che
suggeriscono
articoli
simili
per
tema
a
quello
che
si
sta
leggendo.
Ciò
accade
tramite
link
agli
articoli
visualizzabili
sulla
stessa
schermata
dell’articolo
letto
e
facilita
l’utente
nella
comprensione
globale
di
quello
che
è
il
tema
trattato.
Siti
di
e-‐commerce
suggeriscono
prodotti
simili
a
quelli
acquistati.
YouTube
rende
sempre
più
raffinate
le
ricerche
correlate
e
i
video
consigliati
in
conformità
a
quelli
già
visti.
È
dunque
chiaro
che
al
momento
i
motori
di
ricerca
di
questo
tipo
utilizzano
già
tecniche
piuttosto
avanzate,
basate
in
parte
su
un
sistema
di
tag
(e
di
catalogazione
secondo
queste
etichette)
e
in
parte
basate
su
algoritmi
che
cercano
collegamenti
semantici
fra
l’entità
visualizzata
ed
altre
nuove,
ipoteticamente
correlate.
Per
questo
riteniamo
che
un
uso
dell’approccio
Data
Context
Extraction
for
News
Articles
(DaCENA),
possa
essere
utile
per
migliorare
la
tendenza
generale
verso
risultati
restituiti
non
solo
sulla
base
di
reti
di
link
di
pagine
web,
ma
sempre
più
su
reti
di
conoscenza.
A
nostro
avviso
è
importante
che
il
software
lavori
non
solo
sulle
entità,
ma
anche
sulle
proprietà.
Inoltre,
che
lavori
usando
il
filtro
delle
metriche
Rarity,
Popularity
e
Context
di
cui
abbiamo
parlato
nel
secondo
capitolo.
Se
ad
esempio
un’entità
risulta
importante
secondo
la
metrica
Rarity,
il
software
dovrà
cercare
entità
correlate
ad
essa
in
maniera
forte
(considerando
cioè
la
lunghezza
del
percorso
e
l’importanza
delle
proprietà
che
legano
le
entità,
secondo
la
metrica
in
questione)
che
siano
anch’esse
particolarmente
rilevanti
secondo
la
metrica
Rarity.
Abbiamo
già
spiegato
il
significato
delle
metriche
citate,
per
quanto
riguarda
la
metrica
del
Context
però,
riteniamo
che
in
un’operazione
come
quella
sopra
descritta,
il
software
dovrebbe
considerare
tale
metrica
come
riferita
al
contesto
temporale.
Così
se
la
ricerca
indagata
dall’utente,
da
come
esito
un’entità
rilevante
per
il
contesto
temporale
il
software
troverà
altre
entità
che,
oltre
ad
essere
legate
in
maniera
rilevante
alla
prima,
siano
anch’essere
ritenute
importanti
dato
il
preciso
momento
storico.
Un’integrazione
dei
metodi
usati
oggi
con
l’approccio
DaCENA
è
quanto
proponiamo.
È
evidente
che
un
lavoro
di
questo
tipo
preveda
un
numero
considerevole
di
teorici
del
web
semantico,
di
tecnici
informatici
e
non
ultimi
di
esperti
di
dominio
che
lavorino
insieme
e
collaborino
per
la
creazione
di
un
software
che
permetta
ad
un
algoritmo
di
indagare
le
entità
del
database,
a
partire
da
un’entità
primaria,
al
fine
di
raggiungere
gli
scopi
sopra
illustrati.
Una
sfida
impegnativa
che
però
può
essere
senz’altro
essere
accettata,
dati
i
risultati
finora
raggiunti
e
la
portata
innovativa
di
questi
approcci.
4.5
La
visualizzazione
grafica
delle
associazioni
semantiche
Un
altro
punto
critico
riguardante
le
associazioni
semantiche
-‐
e
il
loro
possibile
utilizzo
-‐
è
quello
che
tocca
la
resa
grafica
dei
collegamenti
tra
entità.
Ci
siamo
chiesti
come
rendere
le
28. 28
informazioni
estrapolate
dagli
articoli
tramite
l’approccio
DaCENA
fruibili
da
giornalisti
–
e
non
solo
–
nel
modo
più
idoneo
ed
efficace
possibile.
Non
è
un
quesito
di
poco
conto,
se
si
considera
quanto
tuttora
non
sia
facile
persuadere
l’opinione
pubblica
della
potenza
delle
tecniche
utilizzate
per
il
DDJ
e
quanti
ancora
non
ritengano
questo
nuovo
approccio
utile
o
perlomeno
diverso
da
una
semplice
stampa
digitale
delle
notizie.
Adattarsi
–
anche
dal
punto
di
vista
dell’usabilità
–
alle
esigenze
degli
utenti,
consentendo
un
resoconto
dinamico
(e
facile
da
utilizzare)
delle
informazioni
d’interesse,
è
quindi
a
nostro
parere
una
priorità
in
grado
di
avvicinare
sempre
più
persone
a
queste
tecniche
innovative.
Come
abbiamo
notato
in
seguito
alle
valutazioni
delle
più
di
20000
associazioni
semantiche
estrapolate
dagli
articoli,
la
grande
mole
informazioni
ricavate
seguendo
l’approccio
DaCENA
può
causare
un
problema
al
giornalista
che
cerca
spunti
o
fatti
per
una
nuova
storia
giornalistica.
Oltre
alla
quantità,
un
ostacolo
che
potrebbe
frapporsi
fra
il
giornalista
e
la
comprensione
reale
di
quello
che
le
associazioni
semantiche
significano,
è
quello
di
usabilità
da
parte
dell’utente.
Quanto
egli
sia
quindi
in
grado
di
visualizzare
queste
associazioni
semantiche.
Il
layout
grafico
restituito
dalla
macchina,
l’interfaccia
software
–
utente
è
un
punto
cruciale
per
il
buon
funzionamento
di
qualsiasi
programma.
Anche
per
i
percorsi
estratti
e
da
noi
valutati
bisogna
tenerne
conto,
considerando
la
loro
potenziale
utilità
e
al
tempo
stesso
la
complessità
dello
strumento
per
chi
non
è
addetto
ai
lavori.
Figura
17:
Alcune
associazioni
semantiche
su
Excel
Durante
la
fase
di
valutazione
delle
associazioni,
queste
ci
sono
state
proposte
su
un
foglio
Excel,
come
mostra
la
figura
17,
un
percorso
per
riga,
e
righe
di
differenti
lunghezze
in
accordo
col
numero
delle
proprietà
e
delle
entità
presenti.
Questo
non
ci
è
sembrato
il
miglior
modo
per
presentare
i
risultati
del
software,
anche
se,
per
una
quantità
ridotta
di
percorsi
potrebbe
essere
più
facile
da
consultare.
Al
di
là
della
quantità
di
associazioni,
rimane
comunque
il
problema
di
un
interfaccia
in
grado
di
soddisfare
gli
utenti
in
modo
intuitivo
ed
ergonomico.
Nel
caso
poi
degli
usi
delle
associazioni
semantiche
in
contesti
diversi
dal
DDJ,
sorge
un
altro
punto
interrogativo:
quando
è
necessario
presentare
gli
interi
percorsi
e
quando
solo
gli
esiti
(ad
esempio,
prima
e
ultima
entità
collegate,
senza
visualizzazione
del
percorso,
in
modo
simile
alle
entity
summary
di
Google
nella
figura
16)?
In
questo
ultimo
modulo
cercheremo
di
rispondere
ai
dubbi
e
agli
interrogativi
che
ci
siamo
posti
nelle
righe
precedenti.