SlideShare ist ein Scribd-Unternehmen logo
1 von 33
Downloaden Sie, um offline zu lesen
Relazione	
  Finale	
  del	
  Progetto	
  svolto	
  per	
  il	
  
corso	
  di	
  Intelligenza	
  Artificiale
A.A.	
  2012/2013
Professoressa	
  Bandini
Professor	
  Palmonari
Associazioni	
  semantiche	
  per	
  il	
  Computational	
  
Journalism:	
  l’importanza	
  delle	
  valutazioni	
  di	
  
esperti	
  di	
  dominio
Valeria	
  Gennari	
  [758677]
Riccardo	
  Pietra	
  [720918]
2
INDICE
1	
  Descrizione	
  del	
  dominio..................................................................................................................4
1.1	
  Computational	
  journalism.............................................................................................................4
1.2	
  Linked	
  open	
  data...........................................................................................................................6
1.3	
  Dbpedia	
  .........................................................................................................................................6
1.4	
  Dbpedia	
  spotlight..........................................................................................................................7
2	
  Descrizione	
  del	
  lavoro	
  di	
  tesi.........................................................................................................8	
  
2.1	
  Introduzione	
  –	
  spiegazione	
  generale...........................................................................................8
2.2	
  Estrazione	
  della	
  base	
  documentale.............................................................................................8
2.3	
  Annotazione	
  della	
  base	
  documentale.........................................................................................9
2.4	
  Estrazione	
  del	
  grafo	
  massimale...................................................................................................9
2.5	
  Valutazione	
  dei	
  percorsi	
  e	
  selezione	
  del	
  grafo	
  ridotto...............................................................9
3	
  Descrizione	
  del	
  nostro	
  lavoro	
  di	
  valutazione...............................................................................11
3.1	
  Dataset	
  e	
  metriche	
  di	
  valutazione...............................................................................................11
3.2	
  Analisi	
  dei	
  risultati........................................................................................................................12
4	
  Conclusioni	
  personali	
  sul	
  lavoro	
  svolto........................................................................................17
4.1	
  Le	
  nostre	
  valutazioni	
  a	
  confronto	
  e	
  parametri	
  utilizzati............................................................17
4.2	
  Valutazione	
  generale	
  dei	
  risultati	
  prodotti	
  dall’algoritmo........................................................19
4.3	
  Possibili	
  usi	
  futuri	
  del	
  Computational	
  journalism........................................................................21
4.4	
  Oltre	
  il	
  Computational	
  journalism,	
  possibili	
  usi	
  delle	
  associazioni	
  semantiche........................22
4.5	
  La	
  visualizzazione	
  grafica	
  delle	
  associazioni	
  semantiche.........................................................27
Note	
  e	
  bibliografia	
  ..........................................................................................................................32
3
INDICE	
  DELLE	
  FIGURE
Figura	
  1.	
  Guida	
  grafica	
  al	
  Data	
  journalism..........................................................................................5
Figura	
  2.	
  Tabella	
  riassuntiva	
  dell’articolo	
  di	
  sport............................................................................12
Figura	
  3.	
  Tabella	
  riassuntiva	
  dell’articolo	
  di	
  tecnologia...................................................................12
Figura	
  4.	
  Tabella	
  riassuntiva	
  dell’articolo	
  di	
  politica........................................................................12
Figura	
  5.	
  Precisione	
  +@K%	
  Articolo	
  sport........................................................................................13
Figura	
  6.	
  Precisione	
  -­‐@K%	
  Articolo	
  sport.........................................................................................13
Figura	
  7.	
  Precisione	
  +@K%	
  Articolo	
  politica.....................................................................................14
Figura	
  8.	
  Precisione	
  -­‐@k%	
  Articolo	
  politica......................................................................................14
Figura	
  9.	
  Precisione	
  +@K%	
  Articolo	
  tecnologia...............................................................................15
Figura	
  10.	
  Precisione	
  +@K%	
  Articolo	
  tecnologia.............................................................................15
Figura	
  11.	
  Tabella	
  dell’articolo	
  Obama	
  Campaign	
  Endgame:	
  grunt	
  Work	
  and	
  Cold	
  Math.................17
Figura	
  12.	
  Tabella	
  dell’articolo	
  Romney	
  is	
  Upbeat,	
  but	
  Math	
  is	
  the	
  Same........................................18
Figura	
  13.	
  Tabella	
  dell’articolo	
  Efforts	
  to	
  Curb	
  Social	
  Spending	
  Face	
  Resistance..............................18
Figura	
  14.	
  Infografica	
  coi	
  dati	
  estratti	
  dal	
  portale	
  Rimozione	
  Macerie..........................................24
Figura	
  15:	
  Risultati	
  della	
  ricerca	
  “Bacon”	
  su	
  Google.......................................................................26
Figura	
  16:	
  Ricerca	
  successiva	
  su	
  Google	
  -­‐	
  	
  Sommario	
  delle	
  informazioni	
  sul	
  personaggio	
  
d’interesse	
  e	
  ricerche	
  correlate.......................................................................................................26
Figura	
  17:	
  Alcune	
  associazioni	
  semantiche	
  su	
  Excel........................................................................28
Figura	
  18:	
  Esempio	
  di	
  proprietà	
  estratte,	
  su	
  Excel..........................................................................29
4
1	
  Descrizione	
  del	
  dominio
1.1	
  Computational	
  Journalism	
  o	
  Data-­‐driven	
  Journalism
Data-­‐driven	
  journalism	
  is	
  a	
  journalistic	
  process	
  based	
  on	
  analyzing	
  and	
  filtering	
  large	
  data	
  sets	
  for	
  
the	
  purpose	
  of	
  creating	
  a	
  new	
  story.	
  [1]	
  
Il	
  Computational	
  journalism	
  consiste	
  in	
  un’attività	
  giornalistica	
  basata	
  sull’analisi	
  e	
  sul	
  filtraggio	
  
di	
  grandi	
  quantità	
  di	
  dati,	
  liberamente	
  disponibili	
  online,	
  per	
   la	
  creazione	
   di	
  una	
  nuova	
  storia	
  
giornalistica;	
   prevede	
   l’applicazione	
   di	
   software	
   e	
   tecnologie	
   nelle	
   attività	
   riguardanti	
   il	
  
giornalismo.	
  
Il	
  processo	
  si	
  divide	
  in	
  quattro	
  fasi	
  fondamentali:
• Ricerca,	
  recupero	
  dati	
  dal	
  web
• Filtraggio	
  dei	
  dati	
  recuperati	
  e	
  trasformazione	
  delle	
  informazioni	
  in	
  dati	
  strutturati
• Visualizzazione	
  attraverso	
  particolari	
  tool	
  grafici	
  (interfaccia	
  per	
  il	
  giornalista)
• Pubblicazione	
   di	
   una	
   nuova	
   storia	
   giornalistica,	
   sulla	
   base	
   dei	
   dati	
  precedentemente	
  
selezionati.
Per	
   quanto	
   riguarda	
   le	
   due	
   fasi	
   iniziali,	
   esistono	
   diverse	
   tecniche	
   per	
   portarle	
   a	
   termine,	
  
metodologie	
   legate	
   alle	
   scienze	
   sociali	
   e	
   a	
   quelle	
   informatiche	
   –	
   tecniche	
   statistiche,	
   di	
  
correlazione,	
   di	
   visualizzazione	
   mashup,	
   di	
   parsing	
   e	
   di	
   co-­‐creazione	
   –	
   che	
   permettono	
   il	
  
recupero	
  di	
  informazioni	
  rilevanti	
  secondo	
  diverse	
  metriche	
  e	
  giudizi.
La	
  diffusione	
  del	
  Computational	
  journalism	
  permetterebbe	
  un	
  miglioramento	
  delle	
  qualità	
  delle	
  
notizie	
   giornalistiche	
   e	
   delle	
   notizie	
   digitali,	
   un	
   utilizzo	
   più	
   efficace	
   dei	
   dati	
   pubblicamente	
  
disponibili	
  sul	
  web	
  e	
  una	
  riduzione	
  dei	
  tempi	
  di	
  ricerca	
  delle	
  informazioni	
  d’interesse.
Il	
  Data-­‐driven	
  journalism	
  (DDJ)	
   è	
  un	
  approccio	
  innovativo	
  e	
  come	
  tale	
  deve	
  ancora	
  percorrere	
  
molta	
  strada	
  per	
  essere	
  migliorato.	
  [2]	
   È	
  importante	
  sottolineare	
  come	
  esso	
  non	
  automatizzi	
  
ogni	
  compito	
   fondamentale	
   del	
   lavoro	
   giornalistico	
  e	
   quindi	
   non	
  sostituisca	
   i	
  giornalisti	
   che	
  
lavorano	
  per	
  una	
  particolare	
  testata.	
  Esso,	
  infatti,	
  è	
  incentrato	
  sull’importanza	
  del	
  giornalista,	
  
ma	
  consente	
  di	
  semplificare	
  alcune	
  attività,	
  permettendo	
  un	
  risparmio	
  di	
  tempo	
  e	
  un	
  aumento	
  
delle	
  qualità	
  di	
  nuove	
  storie	
  giornalistiche	
  prodotte.
5
Figura	
  1.	
  Guida	
  grafica	
  al	
  Data	
  journalism
L’immagine	
   è	
   tratta	
   dalla	
   presentazione	
   [3]	
   del	
   libro	
   The	
  Data	
   Journalism	
  Handbook	
  [4]	
   che	
  
nasce	
   come	
   progetto	
   collettivo	
   e	
   open	
   source	
   al	
   Mozfest	
   2011	
   di	
   Londra.	
   	
   Co-­‐creato	
   da	
  
moltissimi	
   personaggi	
   influenti	
   nel	
   settore	
   -­‐	
   membri	
   dell’Open	
   knowledge	
   Foundation,	
  
giornalisti	
  del	
  Guardian,	
  della	
  BBC,	
  ricercatori	
  ecc.	
  -­‐	
  il	
  libro,	
  che	
  in	
  Italia	
  è	
  stato	
  presentato	
  al	
  
6
Festival	
   del	
   Giornalismo	
  di	
   Perugia,	
   è	
   una	
   guida	
   tascabile	
   e	
   alla	
   portata	
   di	
   tutti	
   per	
   il	
   Data	
  
journalism:	
  fornisce	
  consigli	
  utili,	
  strumenti	
  e	
  dritte	
  su	
  come	
  iniziare,	
  cosa	
  fare,	
  dove	
  trovare	
  i	
  
dati	
  e	
  come	
  sfruttarli.	
  La	
  figura	
  riassume	
  brevemente	
  gli	
  attori	
  principali,	
  i	
  loro	
  ruoli	
  e	
  i	
  passaggi	
  
cruciali	
  per	
  creare	
  una	
  storia	
  giornalistica	
  con	
  i	
  Linked	
  Data.	
  
1.2	
  Linked	
  Open	
  Data
Linked	
   data	
  describes	
  a	
  method	
   of	
  publishing	
  structured	
   data	
  so	
   that	
   it	
   can	
   be	
  interlinked	
  and	
  
become	
  more	
  useful.	
  [5]
Il	
  termine	
  Linked	
  Open	
  Data	
  (LOD)	
  si	
  riferisce	
  a	
  un	
  insieme	
  di	
  pratiche	
  per	
  la	
  pubblicazione	
  e	
  il	
  
collegamento	
  di	
  dati	
  strutturati	
  sul	
   web,	
  che	
   sono	
   state	
   adottate	
   nel	
   tempo	
  da	
  un	
  numero	
  
crescente	
  di	
  fornitori	
  di	
  dati.	
  Ciò	
  ha	
  portato	
  alla	
  nascita	
  del	
  Web	
  of	
  Data,	
  uno	
  spazio	
  dati	
  globale	
  
all’interno	
   del	
   web.	
   La	
   particolarità	
   dell’approccio	
   LOD	
   sta	
   nel	
   formato	
   con	
  cui	
   i	
  dati	
   sono	
  
descritti,	
  ovvero	
  il	
  Resource	
  Description	
  Framework	
  (RDF),	
  che	
  è	
  caratterizzato	
  da	
  una	
  codifica	
  
dei	
  dati	
  sotto	
  forma	
  di	
  triple	
  costituite	
  da	
  soggetto,	
  predicato	
  e	
  oggetto.	
  Il	
  soggetto	
  e	
  l’oggetto	
  
possono	
  essere	
   descritti	
   da	
   Uniform	
   Resource	
  Identifier	
   (URI),	
   oppure	
   l’oggetto	
   può	
   essere	
  
descritto	
  da	
   un	
  letterale,	
   il	
  predicato	
  risulta	
  caratterizzato	
   da	
   un	
  URI	
   e	
   permette	
   di	
  definire	
  
come	
  sono	
  relazionati	
  tra	
  loro	
  soggetto	
  e	
  oggetto.	
  Ciò	
  permette	
  di	
  svolgere	
  una	
  relazione	
  tra	
  
diverse	
  entità	
  appartenenti	
  a	
  diverse	
  fonti	
  dati,	
  poiché	
  ogni	
  entità	
  è	
  descritta	
  in	
  termini	
  simili	
  e	
  
confrontabili	
   (in	
   accordo	
   con	
   determinati	
   principi,	
   conosciuti	
   e	
   condivisi).	
   Per	
   usare	
   una	
  
metafora,	
  è	
  come	
  se	
  la	
  stessa	
  lingua	
  fosse	
  espressa	
  diversamente.	
  Ad	
  esempio	
  Ontology	
  Web	
  
Language	
  (OWL)	
  -­‐	
  e	
  le	
  sue	
  molteplici	
  versioni,	
  molto	
  differenti	
  tra	
  loro	
  (OWL	
  DL,	
  OWL	
  lite,	
  OWL	
  
Full,	
   OWL	
   2DL)	
   -­‐	
   è	
   un	
   linguaggio	
   di	
   markup	
   per	
   rappresentare	
   esplicitamente	
   significato	
   e	
  
semantica	
  di	
  termini	
  con	
  vocabolari	
  e	
  relazioni	
  tra	
  gli	
  stessi.	
  È	
  quindi	
  in	
  grado	
  di	
  fornire	
  diversi	
  
gradi	
  di	
  espressività	
  nella	
  modellazione	
  d’interesse.	
  Grazie	
  a	
  linguaggi	
  come	
  questo	
  chiunque	
  
può	
  pubblicare	
  vocabolari	
  appositamente	
  creati	
  ed	
  essi	
  a	
  loro	
  volta	
  possono	
  essere	
  collegati	
  ad	
  
altri	
  già	
  esistenti.
1.3	
  Dbpedia
Dbpedia	
  è	
  un	
  progetto	
  che	
  mira	
  all’estrazione	
  dei	
  dati	
  presenti	
  in	
  Wikipedia	
  e	
  alla	
  conversione	
  
di	
  questi	
   in	
  dati	
  strutturati,	
   in	
  modo	
  tale	
   che	
  le	
   tecniche	
   del	
   Semantic	
   Web	
   possano	
  essere	
  
impiegate	
  sulla	
  base	
  di	
  conoscenza	
  strutturata.	
  
Per	
  raggiungere	
  questo	
  scopo,	
  sono	
  necessari	
  i	
  seguenti	
  passi:
• Sviluppo	
  di	
  un	
  framework	
  per	
  l’estrazione	
  delle	
  informazioni,	
  conversione	
  del	
  contenuto	
  
di	
  Wikipedia	
  in	
  RDF
• Il	
  dataset	
  RDF	
  multi	
  dominio	
  che	
  viene	
  creato,	
  rappresentante	
  il	
  contenuto	
  informativo	
  
di	
  Wikipedia,	
  potrà	
  essere	
  utilizzato	
  da	
  diverse	
  applicazioni	
  del	
  Semantic	
  web
• Il	
  dataset	
  Dbpedia	
  verrà	
  interconnesso	
  con	
  altri	
  dataset,	
  realizzando	
  una	
  visione	
  globale	
  
del	
  Semantic	
  web
• Una	
  serie	
  di	
  interfacce	
  e	
  moduli	
  d’accesso,	
  renderanno	
  i	
  dati	
  accessibili	
  tramite	
  servizi	
  
web.
7
Ognuna	
  delle	
  entità	
  contenute	
  nel	
  dataset	
  risulta	
  identificata	
  univocamente	
  da	
  un	
  URI,	
  il	
  quale	
  
rappresenta	
  l’indirizzo	
  della	
  risorsa.	
  Esistono	
  tre	
  modi	
  per	
  poter	
  accedere	
  al	
  dataset	
  di	
  Dbpedia:	
  
• Linked	
  Data	
  
• il	
  protocollo	
  SPARQL	
  (SPARQL	
  Protocol	
  and	
  RDF	
  Query	
  Language)
• il	
  download	
  dei	
  dump	
  RDF.
Poiché	
  le	
  informazioni	
  all’interno	
  di	
  Dbpedia	
  sono	
  in	
  continuo	
  aggiornamento	
  (o	
  almeno	
  parte	
  
di	
  esse),	
  è	
  stato	
  realizzato	
  Dbpedia	
  Live,	
  il	
  quale	
  ha	
  il	
  compito	
  di	
  eseguire	
  una	
  sincronizzazione	
  
di	
  Dbpedia	
  con	
  Wikipedia.
1.4	
  Dbpedia	
  Spotlight
Dbpedia	
  spotlight	
  è	
   un	
  progetto	
  che	
  mira	
  a	
  collegare	
   documenti	
  testuali	
  con	
  LOD.	
  In	
  questa	
  
direzione	
   è	
   stato	
   realizzato	
   Namer	
   Entity	
   Recognizer	
   (NER),	
   un	
   sistema	
   che	
   permette	
   di	
  
annotare	
  automaticamente	
  documenti	
  testuali	
  sulla	
  base	
  di	
  URI	
  presenti	
  in	
  Dbpedia.	
  
Questo	
  approccio	
  si	
  può	
  dividere	
  fondamentalmente	
  in	
  tre	
  fasi:
• Individuazione	
   delle	
   frasi	
   nel	
   testo	
   che	
   potrebbero	
   contenere	
   delle	
   entità	
   presenti	
  
all’interno	
  di	
  Dbpedia
• Definizione	
  di	
  un	
  mapping	
  fra	
  le	
  entità	
  contenute	
  nelle	
  frasi	
  e	
  i	
  loro	
  candidati	
  selezionati,	
  
i	
  quali	
  permetteranno	
  di	
  disambiguare	
  il	
  loro	
  significato
• Utilizzo	
   del	
   contesto	
   delle	
   frasi	
   per	
   la	
   scelta	
   dei	
   migliori	
   candidati,	
   i	
   quali	
   verranno	
  
selezionati	
   anche	
   sulla	
   base	
   dei	
   parametri	
   definiti	
   in	
   precedenza	
   e	
   specificati	
  
inizialmente	
  dall’utente.
Dbpedia	
  Spotlight	
  risulta	
  molto	
  flessibile	
  in	
  quanto	
  permette	
  di	
  selezionare	
  in	
  base	
  alle	
  proprie	
  
esigenze	
  i	
  valori	
  dei	
  seguenti	
  parametri:	
  
• Importanza	
  (numero	
  di	
  volte	
  in	
  cui	
  l’entità	
  è	
  menzionata	
  in	
  Wikipedia)
• Disambiguazione	
  (basata	
  sul	
  contesto	
  del	
  documento	
  testuale)	
  
• Annotazione	
  (scelta	
  dei	
  tipi	
  di	
  termini	
  grammaticali	
  da	
  selezionare)
• Ambiguità	
  contestuale	
  
• Confidenza.
Lo	
  strumento	
  si	
  presenta	
  attraverso	
  una	
  semplice	
  interfaccia	
  web	
  all’interno	
  della	
  quale	
   sarà	
  
possibile	
   definire	
   ogni	
   singolo	
   parametro	
   per	
   la	
   ricerca	
   di	
   entità	
   su	
   uno	
   o	
   più	
   documenti	
  
testuali.
8
2	
  Descrizione	
  del	
  lavoro	
  di	
  tesi
2.1	
  Introduzione	
  –	
  Spiegazione	
  generale
La	
  tesi	
  del	
  collega	
  Polidoro	
  -­‐	
  cui	
  siamo	
  stati	
  “affiancati”	
  -­‐	
  ha	
  come	
  scopo	
  la	
  realizzazione	
  di	
  un	
  
sistema	
   software	
   che,	
   dato	
   un	
   insieme	
   di	
   documenti	
   testuali	
   (principalmente	
   articoli	
  
giornalistici)	
  sia	
  in	
  grado	
  di	
  associare	
  un	
  contesto	
  fattuale	
  agli	
  stessi	
  sulla	
  base	
   dei	
  data	
  LOD	
  
Cloud.	
   Questo	
   permetterà	
   di	
   associare	
   dei	
   dati	
   fattuali,	
   i	
   quali	
   costituiranno	
   un	
  
approfondimento	
  contestuale	
  di	
  un	
  articolo.	
  In	
  altre	
  parole,	
  il	
  software	
  lanciato	
  troverà,	
  grazie	
  
ad	
  un	
  algoritmo,	
  alcune	
  entità	
  presenti	
  nell’articolo,	
  entità	
  cui	
  sarà	
  associato	
  un	
  URI	
  sul	
  dataset	
  
Dbpedia.	
  Proprio	
  grazie	
  alle	
  informazioni	
  presenti	
  su	
  Dbpedia,	
  riguardo	
  a	
  una	
  particolare	
  entità,	
  
saranno	
  trovati	
  dei	
  collegamenti	
  con	
  altre	
  entità,	
  presenti	
  nell’articolo,	
  o	
  anche	
  solo	
  presenti	
  
sul	
  dataset.	
  L’approccio	
  realizzato	
  è	
  stato	
  denominato	
  Data	
  Context	
  Extraction	
  for	
  News	
  Articles	
  
(DaCENA).
Quest’approccio	
  si	
  basa	
  su	
  un	
  processo	
  composto	
  idealmente	
  da	
  quattro	
  passi:
• Estrazione	
  della	
  base	
  documentale
• Annotazione	
  della	
  base	
  documentale
• Estrazione	
  del	
  grafo	
  massimale
• Valutazione	
  dei	
  percorsi	
  e	
  selezione	
  del	
  grafo	
  ridotto
I	
  documenti	
  testuali	
  usati	
  sono	
  stati	
  tre	
  articoli	
  giornalistici	
  presenti	
  sul	
  sito	
  web	
  del	
  New	
  York	
  
Times,	
  i	
  tre	
  articoli	
  trattano	
  tre	
  temi	
  diversi:	
  sport,	
  politica	
  e	
  tecnologia.
2.2	
  Estrazione	
  della	
  base	
  documentale
Per	
  quanto	
  riguarda	
   l’estrazione	
   della	
  base	
  documentale,	
  cioè	
  il	
  recupero	
  del	
  corpo	
  testuale	
  
dell’articolo,	
  un	
  problema	
  è	
  subito	
  evidente:	
  attorno	
  all’articolo	
  in	
  sé,	
  sulle	
  pagine	
  web	
  di	
  una	
  
testata	
   giornalistica	
  ospitante	
   appunto	
  un	
  articolo,	
   appare	
   molto	
  materiale	
  testuale	
   (articoli	
  
collegati,	
   pubblicità,	
   moduli	
   di	
   accesso,	
   impostazioni…)	
   e	
   questo	
   può	
   causare	
   problemi	
   al	
  
processo	
  automatico	
  di	
  estrazione	
  della	
  base	
  documentale.	
  Ovviamente	
  un	
  algoritmo	
  non	
  ha	
  la	
  
capacità	
  selettiva	
  che	
  può	
  avere	
  un	
  utente	
  umano	
  nello	
  scindere	
  il	
  corpo	
  dell’articolo	
  dalle	
  altre	
  
annotazioni	
  testuali	
  presenti	
   sulla	
   pagina	
  web.	
   Per	
   risolvere	
   questo	
   problema,	
   il	
  software	
   si	
  
basa	
  sul	
  linguaggio	
  HTML	
  con	
  cui	
  è	
  definita	
  la	
  formattazione	
  grafica	
  della	
  pagina	
  attraverso	
  dei	
  
tag	
  univoci.	
  È	
  quindi	
  possibile	
  notare	
  come	
  all’interno	
  di	
  ogni	
  sorgente	
  html,	
  ogni	
  parte	
  testuale	
  
contenuta	
  nelle	
  pagine	
  web	
  possa	
  essere	
  identificata	
  sulla	
  base	
  dell’apposito	
  tag	
  HTML	
  in	
  cui	
  
essa	
  è	
  contenuta.
Il	
  processo	
  di	
  recupero	
  automatizzato	
  della	
  parte	
  testuale	
  d’interesse	
  all’interno	
  della	
  sorgente	
  
HTML	
   viene	
   denominato	
   web	
   scraping.	
   Questa	
   è	
   una	
   tecnica	
   software	
   che	
   permette	
  
l’estrazione	
  delle	
   informazioni	
  presenti	
  all’interno	
  delle	
  pagine	
  web.	
   Fondamentalmente	
   web	
  
scraping,	
   simulando	
  l’esplorazione	
   di	
  un	
  utente	
   all’interno	
   di	
  una	
   pagina	
   web,	
   è	
   in	
  grado	
  di	
  
recuperare	
  le	
  informazioni	
  di	
  interesse	
  tramite	
  una	
  richiesta	
  al	
  relativo	
  portale	
  web	
  attraverso	
  il	
  
protocollo	
   http.	
   Questa	
   tecnica	
   si	
   focalizza	
   sulla	
   trasformazione	
   dei	
   dati	
   non	
   strutturati	
  
presenti	
   sul	
   web,	
   codificati	
   attraverso	
   il	
   formato	
   HTML,	
   in	
   dati	
   strutturati,	
   i	
   quali	
   possono	
  
essere	
  memorizzati	
  ed	
  analizzati.	
  
9
All’interno	
  di	
  questo	
  primo	
  passo	
  relativo	
  all’estrazione	
  della	
  base	
  documentale,	
  il	
  web	
  scraping	
  
è	
  stato	
  realizzato	
  sulla	
  base	
  di	
  un	
  parser	
  html,	
  che	
  permette	
  l’estrazione	
  e	
  la	
  pulizia	
  del	
  corpo	
  
testuale	
  dell’articolo	
  giornalistico.
2.3	
  Annotazione	
  della	
  base	
  documentale
L’annotazione	
   consiste	
   nell’identificazione	
  delle	
   entità	
  riportate	
   all’interno	
  del	
  testo,	
  le	
  quali	
  
verranno	
  individuate	
  tramite	
  le	
  entità	
  definite	
  all’interno	
  di	
  Dbpedia.	
  Per	
  questo	
  processo	
  verrà	
  
utilizzato	
   un	
   sistema	
   NER,	
   ovvero	
   Dbpedia	
   Spotlight,	
   il	
   corpo	
   dell’articolo	
   estratto	
   verrà	
  
inoltrato	
  in	
  input	
  a	
  Dbpedia	
  Spotlight	
  che	
  lo	
  analizzerà	
  e	
  provvederà	
  ad	
  annotarlo.
All’interno	
  di	
  questo	
  processo,	
  è	
  stato	
  deciso	
  di	
  chiedere	
  allo	
  strumento	
  di	
  fornire	
  un	
  output	
  in	
  
formato	
   XML	
   (Extensible	
   Market	
   Language),	
   che	
   sia	
   caratterizzato	
   da	
   un	
   insieme	
   di	
   entità	
  
riconosciute	
  nell’articolo	
  associate	
  al	
  relativo	
  URI	
  dell’entità	
  presente	
  in	
  Dbpedia.	
  
2.4	
  Estrazione	
  del	
  grafo	
  massimale
Il	
   grafo	
  massimale	
   contiene	
   tutti	
   i	
  percorsi	
  emersi	
  fra	
   le	
   entità	
   recuperate	
   dall’articolo.	
   Per	
  
continuare	
   il	
   processo	
   di	
   estrazione	
   del	
   grafo	
   massimale,	
   è	
   necessario	
   identificare	
   l’entità	
  
sorgente	
   dell’articolo,	
   in	
   modo	
   tale	
   da	
   poter	
   ricercare	
   associazioni	
   semantiche	
   tra	
   l’entità	
  
sorgente	
  (cioè	
  quella	
  definita	
  come	
  la	
  più	
  citata	
  all’interno	
  dell’articolo)	
  e	
  le	
  restanti,	
  riducendo	
  
la	
  ricerca	
  tra	
  coppie	
  di	
  entità	
  più	
  rilevanti	
  nei	
  confronti	
  dell’articolo.
Per	
   ogni	
   coppia	
   di	
   entità	
   (entità	
   sorgente	
   –	
   entità	
   arbitraria	
   altra)	
   saranno	
   ricercate	
   delle	
  
associazioni	
   semantiche	
   caratterizzate	
   da:	
   una	
   singola	
   proprietà,	
   una	
   sequenza	
   di	
   due	
  
proprietà	
  con	
  un’entità	
  intermedia	
  sconosciuta,	
  una	
  sequenza	
  di	
  tre	
  proprietà	
  con	
  due	
  entità	
  
intermedie	
  sconosciute.	
  È	
  inoltre	
   importante	
  evidenziare	
  come	
  ognuna	
  delle	
  proprietà	
  stanti	
  
fra	
  una	
  coppia	
  di	
  entità,	
  possa	
  essere	
  entrante	
  o	
  uscente,	
  rispetto	
  alle	
  entità	
  stesse.
Una	
  volta	
  completata	
  la	
  ricerca	
  delle	
  associazioni	
  semantiche	
  fra	
  l’entità	
  sorgente	
  e	
  le	
  restanti,	
  
si	
  avrà	
  a	
  disposizione	
  il	
  grafo	
  massimale	
  relativo	
  all’articolo	
  giornalistico	
  analizzato.
2.5	
  Valutazione	
  dei	
  percorsi	
  e	
  selezione	
  del	
  grafo	
  ridotto
L’insieme	
   delle	
   query	
   inviate	
   all’enpoint	
   di	
   Dbpedia	
   Live,	
   basato	
   sulla	
   ricerca	
   di	
   tutte	
   le	
  
associazioni	
  semantiche	
  presenti	
  tra	
  coppie	
  di	
  entità	
  definite,	
  ha	
  restituito	
  un	
  grafo	
  massimale	
  
ampio,	
   caratterizzato	
   da	
   un	
   minimo	
   di	
   650	
   ca	
   fino	
   a	
   un	
   massimo	
   di	
   8500	
   ca	
   associazioni	
  
semantiche	
  per	
   ogni	
  articolo.	
  Data	
  la	
  vastità	
  delle	
  associazioni	
  semantiche	
  in	
  output,	
  diventa	
  
necessario	
   individuare	
   quelle	
   rilevanti	
   tra	
   coppie	
   di	
   entità	
   sulla	
   base	
   di	
   un	
   ranking	
   fornito	
  
all’utente.	
  
La	
   valutazione	
   sarà	
   basata	
   su	
   alcune	
   metriche	
   formali	
   scelte,	
   ovvero	
   Rarity,	
   Popularity	
   e	
  
Context.	
   Le	
   prime	
   due	
   permettono	
   di	
   effettuare	
   considerazioni	
   numeriche	
   sulle	
   proprietà	
   e	
  
sulle	
  entità	
  	
  identificate	
  all’interno	
  delle	
  associazioni	
  semantiche,	
  mentre	
  l’ultima	
  permette	
  di	
  
prendere	
  in	
  considerazione	
  le	
  classi	
  a	
  cui	
  appartengono	
  le	
  entità	
  analizzate.	
  Illustriamole	
  un	
  po’	
  
più	
  nel	
  dettaglio.	
  
10
• Rarity	
   permette	
   di	
   considerare	
   rilevanti	
   quelle	
   associazioni	
   che	
   contengono	
   delle	
  
proprietà	
   ontologiche	
   che	
   occorrono	
   meno	
   frequentemente	
   all’interno	
   di	
   Dbpedia,	
  
poiché	
   saranno	
  considerate	
   le	
   più	
   informative	
   rispetto	
  alle	
   restanti	
  caratterizzate	
   da	
  
un’alta	
  frequenza	
  di	
  utilizzo
• Popularity	
   permette	
   invece	
   di	
   considerare	
   le	
   entità	
   presenti	
   all’interno	
   di	
   ogni	
  
associazione	
  semantica	
  (anziché	
  le	
  proprietà	
  ontologiche,	
  come	
  fa	
  Rarity),	
  privilegiando	
  
quelle	
   associazioni	
   semantiche	
   che	
   contengono	
   entità	
   più	
   popolari	
   all’interno	
   di	
  
Dbpedia.	
  La	
  popolarità	
  di	
  un’entità,	
  in	
  Dbpedia,	
  è	
  definita	
  come	
  la	
  somma	
  del	
  numero	
  di	
  
proprietà	
  entranti	
  ed	
  uscenti	
  dalla	
  stessa
• Context	
  permette	
  infine	
  di	
  considerare	
  la	
  semantica	
  delle	
  entità	
  identificate	
  all’interno	
  
delle	
  associazioni	
  semantiche	
  recuperate	
  in	
  precedenza,	
  privilegiando	
  quelle	
  contenenti	
  
delle	
   entità	
   correlate	
   al	
   contesto	
   giornalistico.	
   Ovvero,	
   per	
   ogni	
   entità	
   recuperata	
  
dovranno	
  essere	
  recuperate	
  le	
  classi	
  alle	
  quali	
  essa	
  appartiene	
   all’interno	
  di	
  Dbpedia.	
  
Attraverso	
   opportuni	
  calcoli,	
  otterremo	
  ogni	
  associazione	
   semantica	
   associata	
  con	
  la	
  
propria	
  rilevanza	
  nei	
  confronti	
  del	
  contesto	
  dell’articolo	
  giornalistico.
Poiché	
  le	
  rilevanze	
  ricavate	
  sono	
  caratterizzate	
  da	
  una	
  diversa	
  scala	
  di	
  valori,	
  risulta	
  necessario	
  
effettuare	
  una	
  normalizzazione	
  degli	
  stessi	
  tra	
  un	
  valore	
   minimo	
  pari	
  a	
  0	
  un	
  valore	
   massimo	
  
pari	
   a	
   1.	
   Attraverso	
   le	
   rilevanze	
   ricavate	
   e	
   normalizzate	
   sarà	
   possibile	
   procedere	
   a	
   una	
  
combinazione	
   delle	
   stesse	
   tra	
   loro	
   sulla	
   base	
   del	
   valore	
   massimo	
   e	
   medio	
   risultante	
   tra	
   le	
  
diverse	
   coppie	
   e	
   tra	
   tutte	
   e	
   tre	
   le	
   rilevanze	
   delle	
   rispettive	
   metriche.	
   Questo	
   permetterà	
  
un’estrazione	
   dei	
   grafi	
   ridotti	
   caratterizzati	
   dalle	
   associazioni	
   semantiche	
   più	
   rilevanti	
   nei	
  
confronti	
  di	
  ogni	
  metrica,	
  di	
  ogni	
  combinazione	
  e	
  dell’approccio	
  Random	
  basato	
  su	
  estrazione	
  
casuale.
11
3	
  Descrizione	
  del	
  nostro	
  lavoro	
  di	
  valutazione
3.1	
  Dataset	
  e	
  metriche	
  di	
  valutazione
I	
  tre	
  articoli	
  da	
  noi	
  valutati	
  trattano	
  argomenti	
  diversi,	
  vediamoli	
  ora	
  più	
  nel	
  dettaglio.	
  L’articolo	
  
riferito	
  all’ambito	
  sportivo	
  dal	
  titolo	
  Can	
  Del	
  Piero	
  Inspire	
  Juventus	
  to	
  Glory:	
  Old	
  Lady	
  Puts	
  Hopes	
  
On	
  One	
  Young	
  Star	
  [6]	
  descrive	
  i	
  trascorsi	
  di	
  Alessandro	
  Del	
  Piero	
  con	
  la	
  maglie	
  della	
  Juventus.	
  
L’articolo	
  politico	
  Obama	
  Campaign	
  Endgame:	
  grunt	
  Work	
  and	
  Cold	
  Math	
  [7]	
  tratta	
  la	
  campagna	
  
politica	
  affrontata	
  da	
  Obama	
  per	
  le	
  elezioni	
  2012.	
  Infine,	
  l’articolo	
  riguardante	
  la	
  tecnologia	
  dal	
  
titolo	
  Apple	
  profit	
  Rises	
  24%	
  on	
  Sales	
  of	
  iPhone	
  5	
  [8]	
  tratta	
  i	
  profitti	
  di	
  Apple	
  riguardanti	
  la	
  vendita	
  
di	
  iPhone	
  5.
Lo	
  strumento,	
   per	
   ogni	
   articolo	
   selezionato,	
   ha	
   eseguito	
   i	
  passi	
  già	
   descritti,	
   restituendo	
   le	
  
rilevanze	
  delle	
  associazioni	
  semantiche	
  nei	
  confronti	
  delle	
  metriche	
  Rarity,	
  Popularity,	
  Context	
  e	
  
delle	
  loro	
  rispettive	
  combinazioni	
  e	
  un	
  insieme	
  di	
  numeri	
  generati	
  casualmente,	
  i	
  quali	
  saranno	
  
utilizzati	
   per	
   una	
   selezione	
   casuale	
   secondo	
   l’approccio	
   Random.	
   Questo	
   rappresenta	
   la	
  
valutazione	
  delle	
  associazioni	
  semantiche	
  ricavate,	
  da	
  parte	
  della	
  macchina.
La	
  valutazione	
  da	
  parte	
  nostra	
  è	
  invece	
  avvenuta	
  attraverso	
  la	
  costruzione	
  di	
  un	
  Gold	
  Standard	
  
e	
   quindi	
  mediante	
   giudizi	
  di	
  rilevanza	
   espressi	
  sulle	
  associazioni	
  semantiche	
   caratterizzanti	
  il	
  
grafo	
  massimale	
  estratto	
  per	
  ogni	
  articolo.	
  È	
  stato	
  questo	
  dunque	
  il	
  nostro	
  ruolo.	
  Avendo	
  noi	
  
un	
   background	
   formativo	
   adeguato,	
   poiché	
   provenienti	
   da	
   un	
   corso	
   di	
   laurea	
   triennale	
   in	
  
Scienze	
   della	
   Comunicazione,	
   il	
  nostro	
   compito	
   è	
   stato	
  quello	
   di	
   valutare	
   ogni	
   associazione	
  
semantica	
   presente	
   in	
  ognuno	
   dei	
   grafi	
   massimali,	
   output	
   del	
   lavoro	
   dell’algoritmo,	
   con	
   un	
  
giudizio	
  che	
  andasse	
   da	
  0	
  a	
  3,	
  dove	
   0	
  significa	
  che	
  l’associazione	
  semantica	
  è	
   stata	
  valutata	
  
errata,	
  1	
   che	
  è	
   stata	
   valutata	
  poco	
  interessante/significativa,	
  fino	
  a	
   3	
   che	
  indica	
  un	
  percorso	
  
interessante,	
  sia	
  per	
   le	
   entità	
  presenti	
  sia	
  per	
   le	
   proprietà	
   che	
  le	
  relazionano.	
  Il	
   giudizio	
   0	
   è	
  
stato	
  dato	
  solo	
  a	
  quelle	
  associazioni	
  semantiche	
  in	
  cui	
  l’entità	
  estratta	
  dall’articolo	
  (cioè	
  quella	
  
all’estrema	
  destra	
  della	
  riga)	
  fosse	
  considerata	
  sbagliata,	
  non	
  idonea	
  cioè	
  ad	
  una	
  relazione	
  con	
  
l’entità	
   principale	
   estratta	
   dall’articolo	
   (ovvero	
   la	
   prima	
   a	
   sinistra	
   nella	
   riga	
   che	
   esprime	
  
l’associazione	
  semantica).	
  Per	
  riuscire	
  a	
  valutare	
  queste	
  relazioni,	
  è	
  stato	
  fatto	
  un	
  importante	
  
lavoro	
   di	
   ricerca	
   di	
   informazioni	
   (sempre	
   sul	
   web)	
   riguardanti	
   le	
   entità	
   citate	
   nelle	
  
numerosissime	
  associazioni	
  semantiche	
  presenti	
  nei	
  tre	
  grafi	
  massimali.	
  Una	
  volta	
  compiuta	
  la	
  
valutazione	
   è	
   stato	
   possibile	
   ottenere	
   i	
   grafi	
   massimali	
   analizzati	
   dal	
   punto	
   di	
   vista	
   della	
  
rilevanza	
  delle	
  associazioni	
  semantiche	
  contenute	
  nei	
  confronti	
  degli	
  articoli	
  giornalistici.	
  	
  
A	
   questo	
   punto	
   viene	
   fatto	
   un	
   confronto	
   fra	
   le	
   nostre	
   valutazioni	
   e	
   quelle	
   riportate	
   dalla	
  
macchina	
  secondo	
  le	
  metriche	
  Rarity,	
  Popularity,	
  Context,	
  le	
   loro	
  rispettive	
  combinazioni	
  e	
  un	
  
insieme	
   di	
   numeri	
  generati	
  casualmente,	
  i	
   quali	
   saranno	
  utilizzati	
   per	
   una	
   selezione	
   casuale	
  
secondo	
  l’approccio	
  Random.	
  Per	
  le	
  nostre	
  valutazioni,	
  sono	
  state	
  selezionate	
  quelle	
  valutate	
  3	
  
(Precisione+@K%)	
  e	
  separatamente	
  quelle	
  valutate	
  2	
  e	
  3	
  (Precisione-­‐@K%).	
  
I	
   due	
   gruppi	
   sono	
   stati	
   quindi	
   associati	
   ad	
   ogni	
   metrica	
   (della	
   valutazione	
   da	
   parte	
   della	
  
macchina)	
  e	
  ad	
  ogni	
  	
  combinazione	
  delle	
  metriche	
  fra	
  loro	
  (a	
  diverse	
  percentuali	
  sul	
  totale	
  delle	
  
associazioni	
  semantiche	
  ricavate).
12
3.2	
  Analisi	
  dei	
  risultati
Di	
  seguito	
  vengono	
  presentate	
  le	
  tabelle	
  relative	
  alle	
  nostre	
  valutazioni	
  dei	
  tre	
  articoli	
  di	
  Sport,	
  
Tecnologia	
  e	
  Politica:
Figura	
  2.	
  Tabella	
  riassuntiva	
  dell’articolo	
  di	
  Sport
Figura	
  3.	
  Tabella	
  riassuntiva	
  dell’articolo	
  di	
  Tecnologia
Figura	
  4.	
  Tabella	
  riassuntiva	
  dell’articolo	
  di	
  Politica
13
La	
   prima	
   voce	
   presente	
   in	
  tutte	
   e	
   tre	
   le	
   tabelle	
   si	
  riferisce	
   al	
   numero	
  totale	
   di	
  associazioni	
  
semantiche	
   trovate	
  dall’algoritmo.	
  Ogni	
  associazione	
   semantica	
  è	
   caratterizzata	
  da	
  un’entità	
  
iniziale	
  (uguale	
  per	
  tutte),	
  un’entità	
  finale	
  e	
  una	
  proprietà	
  che	
  le	
  lega.	
  	
  Fra	
  le	
  due	
  entità	
  possono	
  
comparirne	
   di	
  nuove	
  (entità	
  intermedie),	
  legate	
  alla	
   prima,	
  all’ultima	
  e	
  fra	
  di	
  loro	
  attraverso	
  
diverse	
  proprietà.	
  Se	
  un’associazione	
  è	
  costituita	
  da	
  due	
  entità	
  e	
  una	
  proprietà	
  che	
  le	
  relaziona,	
  
si	
  dice	
  che	
  ha	
  lunghezza	
  1,	
  se	
  invece	
  ci	
  sono	
  tre	
  entità	
  e	
  quindi	
  due	
  proprietà	
  che	
  le	
  legano	
  si	
  
dice	
   che	
   ha	
   lunghezza	
   2.	
   Il	
   numero	
   delle	
   proprietà	
   presenti	
  nel	
  percorso	
   trovato	
  (che	
   sarà	
  
sempre	
  inferiore	
  di	
  un’unità	
   rispetto	
  al	
  numero	
  delle	
   entità	
  coinvolte	
  in	
  quella	
  associazione)	
  
conta	
  come	
  “lunghezza”	
  dell’associazione	
  semantica	
  in	
  questione.
Di	
  seguito	
  invece	
   presentiamo	
  i	
  grafici	
  relativi	
  al	
  confronto	
  fra	
  le	
   nostre	
   valutazioni	
  e	
   quelle	
  
derivate	
  dalle	
  metriche	
  Rarity,	
  Context,	
  Random	
  e	
  le	
  loro	
  combinazioni.	
  Le	
  associazione	
  valutate	
  
vengono	
   prese	
   a	
   una	
   certa	
   percentuale	
   sul	
   loro	
   totale.	
   Fra	
   queste	
   si	
   può	
   vedere	
   quale	
  
percentuale	
  sia	
  stata	
  considerata	
  rilevante	
  dalla	
  macchina,	
  secondo	
  la	
  metrica	
  considerata.
Figura	
  5.	
  Precisione	
  +@K%	
  Articolo	
  sport
Attraverso	
  la	
  figura	
  5	
  si	
  evidenzia	
  come	
  la	
  metrica	
  Rarity	
   risulti	
  mediamente	
  migliore	
  rispetto	
  
alle	
  restanti.	
  Al	
  75%	
  risulta	
  migliore	
  la	
  metrica	
  Popularity.
Figura	
  6.	
  Precisione	
  -­‐@K%	
  Articolo	
  sport
14
Attraverso	
  la	
  figura	
  6	
  si	
  evidenzia	
  come	
   la	
   metrica	
   Context	
   e	
   la	
   combinazione	
   sulla	
  base	
  del	
  
massimo	
   tra	
   le	
   metriche	
   Popularity	
   e	
   Context	
   risultino	
   mediamente	
   migliori	
   rispetto	
   alle	
  
restanti.	
  Fino	
  al	
  25%	
  la	
  metrica	
  Context	
  supera	
  le	
  restanti,	
  in	
  modo	
  differente	
  al	
  50%	
  e	
  al	
  75%,	
  
rispettivamente,	
  la	
  combinazione	
  sulla	
  base	
  del	
  massimo	
  tra	
  Rarity,	
   Context	
   e	
  Popularity	
   e	
  la	
  
combinazione	
  sulla	
  base	
  della	
  media	
  tra	
  Popularity	
  e	
  Context	
  risultano	
  migliori.
Figura	
  7.	
  Precisione	
  +@K%	
  Articolo	
  politica
In	
  figura	
  7,	
  si	
  può	
  notare	
  che	
  la	
  metrica	
  Rarity	
  risulti	
  mediamente	
  migliore	
  rispetto	
  alle	
  restanti.	
  
Al	
  25%	
  risulta	
  migliore	
  la	
  metrica	
  Context.
Figura	
  8.	
  Precisione	
  -­‐@k%	
  Articolo	
  politica
Dalla	
  figura	
  8	
  si	
  evince	
  che	
  la	
  metrica	
  Rarity	
  risulta	
  nettamente	
  migliore	
  rispetto	
  alle	
  altre.
15
Figura	
  9.	
  Precisione	
  +@K%	
  Articolo	
  tecnologia
La	
  figura	
  9	
  invece	
  evidenzia	
  come	
  la	
  combinazione	
  sulla	
  base	
  del	
  massimo	
  tra	
  le	
  metriche	
  Rarity	
  
e	
  Context	
  risulti	
  mediamente	
  migliore	
  rispetto	
  alle	
  restanti.	
  Fino	
  al	
  10%,	
  la	
  stessa	
  risulta	
  migliore	
  
rispetto	
   alle	
   restanti,	
   differentemente	
   al	
   25%	
   risulta	
   migliore	
   la	
   combinazione	
   sulla	
   base	
   del	
  
massimo	
   tra	
   le	
   metriche	
   Popularity	
   e	
  Context	
   ed	
  infine	
   al	
   50%	
   e	
   al	
   75%	
   risultano	
   migliori	
   la	
  
metrica	
  Popularity	
  e	
  la	
  combinazione	
  sulla	
  base	
  della	
  media	
  tra	
  le	
  metriche	
  Popularity	
  e	
  Context.
Figura	
  10.	
  Precisione	
  +@K%	
  Articolo	
  tecnologia
Interpretando	
  il	
  grafico	
  in	
  figura	
  10,	
  si	
  deduce	
  che	
  la	
  combinazione	
  sulla	
  base	
  della	
  media	
  tra	
  le	
  
metriche	
   Popularity	
   e	
  Context	
   risulti	
  mediamente	
   migliore	
   rispetto	
  alle	
   restanti.	
   La	
   stessa	
   è	
  
migliore	
  anche	
  al	
  5%	
  ma	
  al	
  10%	
  e	
  al	
  25%	
  ,	
  rispettivamente,	
  la	
  metrica	
  Context	
  e	
  Rarity	
  risultano	
  
migliori	
   rispetto	
   alle	
   restanti.	
   Infine	
   al	
   50%	
   e	
   al	
   75%,	
   la	
   metrica	
   Popularity	
   risulta	
   la	
   migliore	
  
insieme	
  alla	
  combinazione	
  sulla	
  base	
  della	
  media	
  tra	
  le	
  metriche	
  Popularity	
  e	
  Context.
È	
  importante	
   sottolineare	
  che	
  le	
  nostre	
  valutazioni	
  sono	
  tendenze	
  di	
  giudizio	
  personale,	
   che	
  
dipendono	
  quindi	
  dalla	
  soggettività	
  di	
  chi	
  valuta.	
  L’analisi	
  dei	
  risultati	
  dati	
  dal	
  confronto	
  delle	
  
nostre	
  valutazioni	
  con	
  quelle	
   della	
  macchina	
  mostra	
   come	
   l’ambito	
  di	
  cui	
  tratta	
  l’articolo	
  sia	
  
rilevante	
   per	
   la	
  capacità	
  di	
  giudizio	
  delle	
  metriche:	
  nell’ambito	
  politico	
  le	
   combinazioni	
  tra	
  le	
  
metriche	
   non	
   riescono	
   a	
   raggiungere	
   mediamente	
   gli	
   stessi	
   risultati	
   ottenuti	
   dalla	
   metrica	
  
Rarity	
  (la	
  più	
  precisa),	
  così	
  come	
  risulta	
  anche	
  dall’analisi	
  riguardante	
  l’articolo	
  sportivo.	
  
16
Per	
   quanto	
   riguarda	
   l’articolo	
   in	
   ambito	
   tecnologico,	
   quello	
   che	
   esaminava	
   le	
   vendite	
   e	
   gli	
  
introiti	
   dell’iPhone	
   5,	
   risulta	
   invece	
   migliore	
   la	
   combinazione	
   sulla	
   base	
   della	
   media	
   tra	
   le	
  
metriche	
  Popularity	
  e	
  Context.
17
4	
  Conclusioni	
  personali	
  sul	
  lavoro	
  svolto
4.1	
  Le	
  nostre	
  valutazioni	
  a	
  confronto
Gli	
   argomenti	
   e	
   i	
   giudizi	
   trattati	
   finora	
   riguardavano	
   il	
   nostro	
   ruolo	
   di	
   valutatori	
   delle	
  
associazioni	
  semantiche	
  recuperate	
  nei	
  tre	
  articoli	
  analizzati	
  nella	
  tesi.	
  Dagli	
  incontri	
  col	
  Prof.	
  
Palmonari	
  è	
  però	
  risultata	
  interessante	
  l’idea	
  di	
  andare	
  oltre	
  l’attività	
  in	
  collaborazione	
   con	
  il	
  
collega	
  Polidoro.	
  Abbiamo	
  dunque	
  deciso	
  di	
  proseguire	
  il	
  nostro	
  lavoro	
  di	
  valutatori	
  su	
  altri	
  due	
  
articoli,	
  che	
   avessero	
  come	
   tema	
   la	
  politica.	
   	
  Questa	
   decisione	
  è	
   stata	
  presa	
   per	
   cercare	
  di	
  
valutare	
  meglio	
  l’algoritmo	
  che	
  ha	
  prodotto	
  i	
  risultati	
  (l’articolo	
  di	
  politica	
  analizzato	
  per	
  la	
  tesi	
  
di	
  Alessio	
  era	
   quello	
   con	
  le	
  valutazioni	
   più	
   basse),	
  in	
  un	
  ambito,	
   quello	
  della	
   politica,	
   che	
   ci	
  
sembrava	
  quello	
  più	
  interessante	
  e	
   “caldo”.	
   	
  Abbiamo	
  inoltre	
   deciso	
  che	
   le	
   valutazioni	
  per	
  i	
  
nuovi	
  articoli	
  sarebbero	
  state	
  doppie,	
  a	
  differenza	
  della	
  prima	
  fase	
  di	
  lavoro	
  in	
  cui	
  ogni	
  articolo	
  
era	
  stato	
  valutato	
  da	
  uno	
  solo	
  di	
  noi.	
  Riccardo	
  ha	
  quindi	
  analizzato	
  il	
  primo	
  articolo	
  di	
  politica,	
  
valutato	
  precedentemente	
  da	
  Valeria,	
  siamo	
  poi	
  passati	
  alle	
  valutazioni	
  di	
  altri	
  due	
  articoli	
  e	
  li	
  
abbiamo	
  in	
  seguito	
  messi	
  a	
  confronto	
  per	
  verificare	
  l’uniformità	
  dei	
  giudizi	
  dati	
  singolarmente.	
  
Le	
  valutazioni	
  di	
  una	
  sola	
  persona	
  sono	
  interessanti,	
  e	
   sono	
  state	
   utili	
  per	
   il	
   lavoro	
  di	
  tesi	
  di	
  
Polidoro,	
  ma	
  di	
  certo	
  non	
  bastano	
  in	
  linea	
  generale,	
  possono	
  insomma	
  essere	
  considerate	
  un	
  
buon	
   punto	
   di	
   partenza.	
   Due	
   persone	
   –	
   con	
   giudizi,	
   conoscenze,	
   parametri	
   di	
   valutazione	
  
ovviamente	
  diversi	
  –	
  offrirebbero	
  un’analisi	
  più	
  varia.	
  
Abbiamo	
   dunque	
   proseguito	
   il	
   nostro	
   progetto	
   lavorando	
   in	
   quest’ottica:	
   con	
   valutazioni	
  
incrociate	
   l’analisi	
   delle	
   associazioni	
   porterà	
   a	
   risultati	
  e	
   riflessioni	
   a	
   riguardo	
   di	
   più	
   ampio	
  
respiro.	
  
Gli	
   articoli	
   che	
   trattavano	
  argomenti	
   politici	
  sono	
   stati	
   dunque	
   tre:	
   il	
   primo,	
   come	
   abbiamo	
  
detto,	
  è	
  lo	
  stesso	
  utilizzato	
  nella	
  tesi	
  (Obama	
  Campaign	
  Endgame:	
  grunt	
  Work	
  and	
  Cold	
  Math,	
  dal	
  
sito	
  web	
  del	
  New	
  York	
  Times),	
  gli	
  altri	
  due,	
  sempre	
  provenienti	
  dal	
  sito	
  web	
  del	
  New	
  York	
  Times,	
  
titolavano:	
   Romney	
   is	
  Upbeat,	
  but	
   Math	
   is	
  the	
  Same	
  [9]e	
  Efforts	
  to	
  Curb	
   Social	
  Spending	
  Face	
  
Resistance	
  [10].	
  Il	
  primo	
  dei	
  due	
  si	
  focalizzava	
  sulla	
  campagna	
  elettorale	
  di	
  Romney	
  e	
  sui	
  numeri	
  
delle	
  previsioni,	
  che	
  davano	
  la	
  sfida	
  aperta	
  fino	
  all’ultimo.	
  Il	
  secondo	
  invece	
  sui	
  provvedimenti	
  
riguardo	
  a	
  Social	
  Security	
  e	
  Medicare	
  che	
  il	
  rieletto	
  presidente	
  Obama	
  cercherà	
  di	
  apportare.
Come	
   già	
   detto,	
   ognuno	
   di	
   noi	
   ha	
   valutato	
   singolarmente	
   le	
   quasi	
   19000	
   associazioni	
  
semantiche	
   estratte	
   in	
  totale	
  dai	
  tre	
   articoli.	
   Ecco	
  delle	
  tabelle	
  che	
   riassumono	
  le	
  differenze	
  
quantitative	
  fra	
  le	
  due	
  valutazioni.
Valeria Riccardo
1 2090 2638
2 1337 873
3 107 23
0 4 4
Figura	
  11.	
  Tabella	
  dell’articolo	
  Obama	
  Campaign	
  Endgame:	
  grunt	
  Work	
  and	
  Cold	
  Math
18
Valeria Riccardo
1 4630 4477
2 1223 1382
3 10 1
0 0 3
Figura	
  12.	
  Tabella	
  dell’articolo	
  Romney	
  is	
  Upbeat,	
  but	
  Math	
  is	
  the	
  Same
Valeria Riccardo
1 8419 8157
2 858 1090
3 69 99
0 0 0
Figura	
  13.	
  Tabella	
  dell’articolo	
  Efforts	
  to	
  Curb	
  Social	
  Spending	
  Face	
  Resistance
Nessuna	
  associazione	
  semantica	
  ricavata	
  dall’articolo	
  sopra	
  citato	
  è	
  stata	
  valutata	
  0.
Come	
  si	
  può	
  osservare	
  dai	
  risultati	
  riportati	
  nelle	
  tabelle	
  di	
  queste	
  tre	
  figure,	
  le	
  valutazioni	
  sono	
  
state	
  abbastanza	
  simili	
  ma	
  non	
  identiche.	
  È	
  chiaro	
  che,	
  data	
  la	
  grandissima	
  mole	
  di	
  associazioni	
  
semantiche	
  da	
  valutare,	
  non	
  sempre	
  abbiamo	
  seguito	
  lo	
  stesso	
  metro	
  di	
  giudizio.	
  
Ma,	
  in	
  linea	
  generale,	
  si	
  è	
  cercato	
  di	
  seguire	
  queste	
  regole	
  comuni	
  che	
  avevamo	
  in	
  precedenza	
  
tra	
  di	
  noi	
  accordato:	
  
• Valutare	
   0	
  solo	
  quei	
  percorsi	
  di	
  associazioni	
  aventi	
  l’entità	
   finale	
   in	
  disaccordo	
  con	
  la	
  
prima	
  (entità	
  principale)	
  
• Valutare	
   1	
   quei	
   percorsi	
   che	
   risultano	
   caratterizzati	
   da	
   entità	
   e	
   proprietà	
   coerenti	
   e	
  
logicamente	
   connesse	
   fra	
   loro	
   ma	
   che	
   non	
   danno	
   luogo	
   a	
   delle	
   associazioni	
  
particolarmente	
  interessanti	
  
• Valutare	
  2	
  quei	
  percorsi	
  che,	
  oltre	
  a	
  essere	
  corretti	
  da	
  un	
  punto	
  di	
  vista	
  logico,	
   danno	
  
luogo	
  ad	
  associazioni	
  singolari	
  in	
  quanto	
  alcune	
  entità	
  o	
  proprietà	
  coinvolte	
  risultano	
  
(per	
  rarità	
  o	
  importanza	
  o	
  popolarità)	
  particolarmente	
  interessanti,	
  
• Infine,	
  valutare	
  3	
  quei	
  percorsi	
  che,	
  oltre	
  a	
  essere	
  corretti	
  da	
  un	
  punto	
  di	
  vista	
  logico	
  e	
  a	
  
contenere	
   entità	
  e	
   o	
   proprietà	
   interessanti,	
   sono	
   considerati	
   particolarmente	
   affini	
   e	
  
quindi	
  congruenti	
  per	
  contenuto	
  all’articolo	
  da	
  cui	
  l’entità	
  principale	
  è	
  stata	
  estrapolata.
Vediamo	
  ora	
  alcuni	
  esempi	
  tratti	
  dall’articolo	
  Efforts	
  to	
  Curb	
  Social	
  Spending	
  Face	
  Resistance	
  per	
  
chiarire	
  meglio	
  i	
  parametri	
  di	
  giudizio	
  usati	
  e	
   per	
  notare	
   possibili	
  differenze	
   che	
   potrebbero	
  
comunque	
  scaturire	
  tra	
  le	
  valutazioni	
  di	
  due	
  diversi	
  esperti	
  di	
  dominio.
19
Il	
  percorso	
  <dbp:Barack_Obama>	
  	
   	
  dbProp:party	
  >	
  	
  	
  dbp:Democratic_party_(United_States)>	
  
può	
  essere	
  valutato	
  3	
  per	
  la	
  popolarità	
  della	
  notizia	
  rappresentata	
  dal	
  percorso	
  e	
  per	
  l’affinità	
  
con	
  gli	
  argomenti	
  trattati	
  nell’articolo.	
  Lo	
  stesso	
  può	
  anche	
  essere	
  valutato	
  2,	
  in	
  quanto	
  esso	
  è	
  
sì	
   coerente	
   con	
   l’articolo	
   e	
   popolare,	
   ma	
   allo	
  stesso	
  tempo,	
   rappresenta	
   una	
  notizia	
  ormai	
  
conosciuta	
   da	
   tempo	
   e	
   quindi	
   non	
  rara,	
   anzi	
   banale.	
   Già	
   da	
   questo	
  esempio	
   si	
   può	
   notare	
  	
  
come,	
  nonostante	
  le	
  regole	
  generali	
  osservate	
  siano	
  le	
  stesse,	
  i	
  giudizi	
  possono	
  però	
  differire	
  a	
  
seconda	
  di	
  chi	
  li	
  esprime.	
  
Il	
  percorso	
  <dbp:Barack_Obama>	
   	
   	
   dbProp:president	
   <	
   	
  <dbp:David_Jane>	
   	
  dbProp:party	
   <	
  	
  
<dbp:Democratic_Party_(United_States)>	
   	
   è	
   stato	
   valutato	
  1	
   perché	
   esprime	
   delle	
   relazioni	
  
logiche,	
   reali,	
   ma	
   non	
   particolarmente	
   interessanti	
   né	
   originali	
   o	
   popolari.	
   Il	
   percorso	
  
difficilmente	
  potrà	
  essere	
  giudicato	
  con	
  un	
  valore	
  più	
  alto.	
  
Il	
  percorso	
  <dbp:Barack_Obama>	
   	
  dbProp:president	
  <	
  	
  <dbp:John_Boehner>	
  è	
  stato	
  valutato	
  
da	
   entrambi	
   3	
   per	
   l’importanza	
   dell’entità	
   citata	
   (Boehner	
   è	
   presidente	
   della	
   camera	
   dei	
  
deputati)	
  e	
  perché	
  la	
  stessa	
  entità	
  è	
  citata	
  nell’articolo	
  da	
  cui	
  quella	
  principale	
  è	
  estrapolata.	
  Il	
  
percorso	
   è	
   dunque	
   congruente	
   con	
   l’articolo	
   giornalistico	
   a	
   cui	
   è	
   collegato	
   e	
   l’argomento	
  
importante.
Quasi	
  mai	
  è	
   successo,	
   analizzando	
   e	
   confrontando	
   le	
   nostre	
   valutazioni,	
   di	
   trovare	
   percorsi	
  
valutati	
  1	
  da	
  un	
  esperto	
  di	
  dominio	
  e	
  3	
  dall’altro.	
  È	
  successo	
  invece	
  spesso	
  di	
  trovare	
  percorsi	
  
valutati	
  2	
  o	
  3	
  a	
  seconda	
  di	
  chi	
  ha	
  espresso	
  il	
  giudizio	
  e,	
  ancora	
  più	
  spesso,	
  quelli	
  valutati	
  1	
  e	
  2.	
  
Fra	
   le	
   associazioni	
  recuperate	
  dall’articolo	
   Efforts	
  to	
   Curb	
   Social	
   Spending	
   Face	
  Resistance	
  ne	
  
troviamo	
  parecchie	
   che	
  collegano	
  l’entità	
  principale	
  a	
  uno	
  dei	
  propri	
  mestieri,	
   ovvero	
  quello	
  
dell’avvocato.	
   Uno	
   di	
  noi	
   due	
   ha	
   deciso	
   di	
   valutare	
   quelle	
   associazioni	
  con	
   un	
   2	
  perché	
   ha	
  
ritenuto	
  che	
  il	
  fatto	
  che	
  Obama	
  fosse,	
   oltre	
  che	
   politico	
  e	
   autore	
   di	
  scritti,	
  anche	
  avvocato,	
  
abbastanza	
  interessante	
  e	
  originale	
  (non	
  tutti	
  d’altronde	
  lo	
  sanno),	
  l’altro	
  di	
  noi	
  due	
  ha	
  invece	
  
deciso	
  di	
  valutare	
  questi	
  stessi	
  percorsi	
  con	
  un	
  1	
  perché	
  non	
  ha	
  ritenuto	
  che	
   il	
  collegamento	
  
<Obama>	
   mestiere	
   >	
   <avvocato>	
   fosse	
   abbastanza	
   originale	
   da	
   poter	
   essere	
   valutato	
  
diversamente.
Nel	
  complesso,	
  e	
  data	
  la	
  grande	
   quantità	
  di	
  dati	
  da	
   analizzare,	
   riteniamo	
  che	
  i	
  nostri	
  giudizi	
  
siano	
   stati	
   abbastanza	
   uniformi,	
   o	
   quantomeno	
   facilmente	
   confrontabili.	
   Da	
   un’analisi	
  
dettagliata	
  risulta	
  evidente	
  che	
  i	
  due	
  valutatori	
  hanno	
  seguito	
  delle	
  metriche	
  basate	
  su	
  giudizi	
  
di	
   popolarità,	
   originalità	
   e	
   contestualizzazione	
   dati	
   alle	
   entità	
   e	
   alle	
   proprietà	
   citate	
   nei	
  
percorsi.	
  
È	
   possibile	
   notare	
   macrodifferenze	
   come	
   quella	
   citata	
   nel	
   paragrafo	
   precedente	
   (Obama	
  
avvocato:	
   interessante/banale)	
   ma	
   nel	
  complesso	
   c’è	
   stato	
  un	
  buon	
  livello	
   di	
   accordo	
   nella	
  
valutazione	
   dei	
   percorsi,	
   soprattutto	
   quelli	
   contenenti	
   entità	
   salienti	
   (perché,	
   ad	
   esempio,	
  
citate	
  nell’articolo	
  relativo	
  oppure	
  per	
  la	
  loro	
  popolarità).	
  
	
  
4.2	
  Valutazione	
  generale	
  dei	
  risultati	
  prodotti	
  dall’algoritmo
Come	
  già	
  scritto	
  in	
  precedenza,	
  le	
  associazioni	
  semantiche	
  estrapolate	
  dai	
  tre	
  articoli	
  di	
  politica	
  
sono	
  state	
  quasi	
  19000	
  (per	
  la	
  precisione,	
  18749)	
  mentre	
  quelle	
  estrapolate	
   dai	
  tre	
  articoli	
  su	
  
cui	
  la	
  tesi	
  si	
  è	
  basata	
  sono	
  state	
  9114.	
  Fra	
  i	
  cinque	
  articoli	
  citati,	
  quello	
  con	
  meno	
  associazioni	
  
semantiche	
  recuperate	
  è	
  stato	
  Apple	
  profit	
  Rises	
  24%	
  on	
  Sales	
  of	
  iPhone	
  5con	
  890	
  percorsi,	
  il	
  più	
  
ricco	
  invece	
  è	
  stato	
  Efforts	
  to	
  Curb	
  Social	
  Spending	
  Face	
  Resistance	
  con	
  ben	
  9346	
  percorsi.	
  
20
Nel	
  ruolo	
  di	
  esperti	
  di	
  dominio	
  entrambi	
  ci	
  siamo	
  resi	
  conto	
  che	
  questi	
  numeri	
  sono	
  troppo	
  alti,	
  
soprattutto	
  se	
  si	
  considera	
  che	
  i	
  percorsi	
  valutati	
  con	
  1	
  sono	
  la	
  maggioranza	
  per	
  tutti	
  gli	
  articoli	
  
analizzati.	
   Guardando	
   le	
   tabelle	
   riportate	
   precedentemente	
   (sia	
   quelle	
   che	
   riguardano	
  i	
   tre	
  
articoli	
  valutati	
  per	
   il	
   lavoro	
   di	
   tesi,	
  sia	
   quelle	
   sul	
  confronto	
   delle	
   valutazioni	
   nei	
   tre	
   articoli	
  
politici)	
  si	
  può	
  facilmente	
  evincere	
  quanto	
  appena	
  detto.	
  Il	
  fatto	
  che	
  molti	
  dei	
  percorsi	
  siano	
  
stati	
  valutati	
   1	
   significa	
   che	
   la	
  maggior	
   parte	
   dei	
  “cammini”	
   ricavati	
  dalle	
   associazioni	
  fra	
   le	
  
entità	
  sono	
  stati	
  valutati	
  giusti	
  ma	
  poco	
  interessanti,	
  perché	
  comuni	
  e/o	
  ripetitivi	
  oppure	
  perché	
  
totalmente	
  privi	
  di	
  interesse.	
  
Le	
  associazioni	
  con	
  valore	
   1	
   quindi	
  sono	
  molte,	
  ma	
  valutarle	
   1	
   è	
  riduttivo	
  e	
   in	
  un	
  certo	
  senso	
  
fuorviante:	
   sarebbe	
   a	
   nostro	
   parere	
   utile	
   un	
   ulteriore	
   discriminazione	
   sugli	
   1,	
   poiché	
   la	
  
differenza	
  fra	
  il	
  giudizio	
  comuni	
  e/o	
  ripetitivi	
  e	
   il	
  giudizio	
  totalmente	
  privi	
  di	
  interesse	
  è	
  molta.	
  
Mentre	
  le	
  associazioni	
  considerate	
  comune/o	
  ripetitivi	
  [11]	
  hanno	
  ragione	
  di	
  essere	
  comunque	
  
inserite	
  fra	
  quelle	
  ricavabili	
  dalle	
  entità	
  tratte	
  dall’articolo;	
  quelle	
  considerate	
  totalmente	
  prive	
  
di	
   interesse	
   non	
   hanno	
   motivo	
   di	
   comparire	
   fra	
   i	
   percorsi	
   che	
   un	
   giornalista	
   o	
   un	
   utente	
  
interessato	
   a	
   quell’argomento	
   avrebbe	
   piacere	
   di	
   trovare	
   fra	
   quelli	
   relativi	
   all’articolo	
   (o	
  
semplicemente	
   all’argomento)	
   d’interesse.	
  Sarebbero	
  insomma,	
  a	
  nostro	
  parere,	
   un	
  po’	
   una	
  
perdita	
  di	
  tempo,	
  non	
  un	
  acquisizione	
  di	
  informazioni	
  utili.
Prendendo	
   ancora	
   ad	
   esempio	
   l’articolo	
   Efforts	
   to	
   Curb	
   Social	
   Spending	
   Face	
   Resistance,	
  
proponiamo	
   uno	
   dei	
   percorsi	
   valutati	
   da	
   entrambi	
   1	
   e	
   giudicato	
   –	
   sempre	
   da	
   entrambi	
   -­‐	
  	
  
totalmente	
  non	
   interessante.	
   A	
   nostro	
   parere	
   esso	
  dimostra	
   che	
   i	
   percorsi	
  di	
  questo	
  genere	
  
sarebbe	
   meglio	
   e	
   senza	
   dubbio	
   più	
   utile	
   che	
   non	
   comparissero	
   come	
   output	
   dell’analisi	
   in	
  
Dbpedia	
  delle	
  entità	
  estrapolate	
  dall’articolo.
<dbp:Barack_Obama>	
   	
   dbProp:leader_name	
   <	
   	
   dpb:United_States	
   	
   dbpProp:country	
   	
   <	
  	
  
dbp:Missouri_Valley_Iowa	
  	
  dbProp:isPartOf	
  >	
  	
  <dbp:Iowa>
L’informazione	
  contenuta	
  in	
  questo	
  percorso	
  e	
  riassumibile	
  con	
  “Obama	
  è	
  il	
  leader	
  degli	
  Stati	
  
Uniti,	
  in	
   cui	
  Missouri	
   Valley	
   è	
  un	
   paese,	
   che	
  fa	
   parte	
  dello	
   stato	
   Iowa”	
   non	
  è	
   interessante,	
   né	
  
originale,	
  né	
  collegata	
  in	
  maniera	
  rilevante	
  e	
  congruente	
  all’articolo	
  da	
  cui	
  le	
  entità	
  sono	
  state	
  
estrapolate.
Alla	
  luce	
  di	
  queste	
  osservazioni	
  (in	
  sintesi:	
  i	
  percorsi	
  ricavati	
  sono	
  troppi,	
  e	
  fra	
  questi	
  molti	
  sono	
  
stati	
  valutati	
  1.	
  Buona	
  parte	
  di	
  queste	
  associazioni	
  valutate	
  1	
  può	
  essere	
  considerata	
  totalmente	
  
priva	
  di	
  interesse	
  per	
  chiunque	
  voglia	
  cercare	
  informazioni	
  sull’argomento	
  principale	
  da	
  cui	
  tale	
  
associazione	
  è	
  stata	
  estrapolata)	
  siamo	
  giunti	
  alla	
  conclusione	
  che	
  l’algoritmo	
  ha	
  usato	
  delle	
  
metriche	
   di	
   selezione	
   di	
   collegamenti	
   troppo	
   “larghe”.	
   In	
   linea	
   generale	
   però,	
   è	
   giusto	
  
sottolineare	
  che	
  il	
  sistema	
  ha	
  rilevato:
	
  
• Percorsi	
  interessanti:	
  la	
  maggior	
  parte	
  di	
  quelli	
  da	
  noi	
  valutati	
  2	
  e	
  3	
  
• Percorsi	
  meno	
  interessanti	
  ma	
  che	
  comunque	
  potrebbero	
  essere	
  utili:	
  quelli	
  valutati	
  1	
  in	
  
quanto	
   rappresentano	
   informazioni	
  risapute	
   o	
  non	
  troppo	
  significative	
   (anche	
   se	
   su	
  
questo	
   punto	
   bisogna	
   però	
   sottolineare	
   che	
   dipende	
   anche	
   dagli	
   utenti	
   che	
  
usufruiscono	
  di	
  queste	
  informazioni)
• Pochissimi	
   percorsi	
  giudicati	
   con	
  0:	
   questo	
  significa	
  che	
  l’algoritmo	
  non	
  ha	
  quasi	
  mai	
  
fallito	
   nel	
   trovare	
  un	
  collegamento	
  fra	
  l’entità	
   principale	
   e	
   quella	
  finale	
   del	
  percorso,	
  
l’unica	
   pecca	
   è	
   stata	
   che	
   troppo	
   spesso	
   quel	
   collegamento	
   rappresentava	
  
un’informazione	
  davvero	
  banale	
  perché	
   potesse	
   essere	
  presa	
  in	
  considerazione	
  da	
  un	
  
utente	
  interessato	
  a	
  questi	
  risultati.
21
4.3	
  Possibili	
  usi	
  futuri	
  del	
  Computational	
  journalism
Nei	
   primi	
   paragrafi	
   abbiamo	
   descritto	
   il	
   Computational	
   oDDJ,	
   nello	
   studiarlo	
   ci	
   siamo	
   fatti	
  
un’idea	
  dei	
  possibili	
  usi,	
  e	
  soprattutto	
  dei	
  possibili	
  vantaggi	
  che	
  tale	
  attività	
  potrebbe	
  portare	
  a	
  
quella	
   più	
   ampia	
   del	
   giornalismo.	
   La	
   creazione	
   di	
   nuove	
   storie	
   giornalistiche	
   o	
   d’inchieste	
  
quantitative	
  e	
   qualitative	
  da	
  parte	
   dei	
  giornalisti,	
   attraverso	
  la	
  ricerca	
  di	
  informazioni	
  tramite	
  
tecniche	
  computazionali,	
  è	
  l’obiettivo	
  del	
  Computational	
  journalism.	
  
Ad	
  esempio,	
  un	
  software	
  può	
  eseguire	
  la	
  scansione	
  di	
  differenti	
  database	
  e	
  reti	
  sociali,	
  in	
  modo	
  
tale	
   da	
   identificare	
   e	
   riportare	
   informazioni	
   che	
   possono	
   essere	
   utilizzate	
   in	
   seguito	
   dai	
  
giornalisti.
The	
   Guardian	
   ha	
   realizzato	
  un’indagine	
   riguardante	
   le	
   spese	
   dei	
  membri	
  del	
   parlamento	
  del	
  
Regno	
  Unito.	
  Tutte	
  queste	
  informazioni	
  recuperate	
  ed	
  elaborate	
  sono	
  state	
  rese	
  disponibili	
  nel	
  
web	
   all’interno	
   di	
   fogli	
   di	
   calcolo,	
   i	
   quali	
   sono	
   stati	
   analizzati	
   dagli	
   utenti	
   della	
   rete,	
  
identificando	
   le	
   voci	
   più	
   interessanti.	
   Le	
   informazioni	
  e	
   le	
   analisi	
   svolte	
   dagli	
   utenti	
   hanno	
  
permesso	
  alla	
  testata	
  in	
  questione,	
  di	
  realizzare	
  nuove	
  storie	
  giornalistiche,	
  rendendo	
  palese	
  il	
  
problema.	
   È	
   importante	
   evidenziare	
   come	
   l’indagine	
   al	
   momento	
   non	
  sia	
  stata	
   replicata	
   da	
  
nessun’altra	
   testata,	
   poiché	
   computazionalmente	
   onerosa.	
   Attraverso	
   questa	
   iniziativa,	
   The	
  
Guardian	
   è	
   stato	
   in	
   grado	
   di	
   migliorare	
   la	
   propria	
   reputazione	
   nell’ambito	
   del	
   giornalismo	
  
investigativo	
  e	
  allo	
  stesso	
  tempo	
  è	
  riuscito	
  a	
  portare	
  alla	
  luce	
  un	
  problema	
  molto	
  critico	
  [12].
Un	
   altro	
   esempio	
   è	
   costituito	
   da	
   James	
   Hamilton	
   [13]	
   che,	
   utilizzando	
   il	
   database	
   della	
  
protezione	
  ambientale	
  americana	
  riguardante	
  le	
  emissioni	
  di	
  sostanze	
  chimiche	
  da	
  parte	
  delle	
  
industrie,	
   è	
   stato	
   in	
  grado	
   di	
   individuare	
   possibili	
   imprecisioni	
   nei	
   dati	
   forniti	
   dalle	
   diverse	
  
compagnie.	
   Principalmente	
  nella	
  realizzazione	
  di	
  quest’analisi,	
  egli	
  utilizzò	
  metodi	
  statistici	
  e	
  
matematici.	
   In	
   questo	
  modo,	
   Hamilton	
   riuscì	
  a	
   scovare	
   le	
   violazioni	
   della	
   legge	
   di	
  Benford	
  
riguardante	
  il	
  limite	
  delle	
  emissioni	
  tossiche.
Il	
   lavoro	
  di	
  Hamilton	
  deriva	
  da	
  una	
   semplice	
   osservazione	
   da	
   economia	
  dei	
   media:	
   dato	
   che	
  
produrre	
  inchieste	
  e	
  reportage	
  giornalistici	
  è	
  attività	
  costosa,	
  laboriosa	
  (e	
  spesso	
  non	
  pagata	
  in	
  
proporzione	
   dagli	
   investitori	
   pubblicitari)	
   è	
   preferibile	
   usare	
   tecnologie	
   digitali	
   in	
   grado	
   di	
  
affiancare	
   il	
   giornalista	
   nel	
   produrre	
   inchieste	
   approfondite.	
   Il	
   Computational	
   Journalism,	
  
rispondendo	
  agli	
  incredibili	
  cambiamenti	
  che	
  la	
  rivoluzione	
  digitale	
  ha	
  portato	
  nell’	
  
accessibilità	
   dell’informazione	
   -­‐	
   se	
   utilizzato	
   nel	
   modo	
   migliore	
   e	
   supportato	
   da	
   strumenti	
  
efficaci	
  e	
  sempre	
  meno	
  onerosi	
  -­‐	
  è	
  la	
  miglior	
  starda	
  percorribile	
  per	
  avere	
  sempre	
  più	
  qualità	
  e	
  
affidabilità	
  nell’informazione.
Ma	
   non	
   solo	
   i	
   giornalisti	
   professionisti	
   possono	
   usufruire	
   dei	
   LOD	
   e	
   delle	
   tecniche	
  
computazionali	
  tipiche	
  del	
  Computational	
  Journalism	
  per	
  informarsi	
  e	
  per	
  costruire	
  nuove	
  storie	
  
giornalistiche.	
  L’auspicio	
  è	
  che	
  anche	
  uno	
  studente,	
  un	
  blogger,	
  un	
  politico	
  o	
  un	
  imprenditore	
  
(e	
   altre	
  figure	
  professionali	
  e	
  non)	
  possano	
  ritenere	
  utile	
   una	
   ricerca	
  di	
  dati	
  incrociata	
  e	
  ben	
  
sviluppata	
  come	
  quella	
  cui	
  porterebbe	
   un	
  uso	
  ampio	
  e	
   diffuso	
  del	
  DDJ.	
  La	
  tendenza	
  è	
  ormai	
  
quella,	
   lo	
   dimostrano	
  anche	
   –	
   nel	
   loro	
   piccolo	
   –	
   i	
  sempre	
   più	
   numerosi	
  comuni	
   italiani	
   che	
  
hanno	
   realizzato	
   il	
   proprio	
   portale	
   regionale	
   di	
   Open	
   Data	
   [14]	
   rendendo	
   i	
   dati	
   un	
   diritto	
  
fondamentale	
  ed	
  un	
  bene	
  comune.
Un	
  esempio	
  di	
  strumento	
   per	
   tutti	
  è	
   stato	
  realizzato	
  da	
  Google	
   e	
  denominato	
  Living	
   Stories.	
  
Esso	
  permette	
  di	
  raccogliere	
  tutte	
  le	
  versioni	
  di	
  un	
  fatto	
  di	
  cronaca	
  all’interno	
  di	
  un	
  articolo,	
  le	
  
quali	
   possono	
   essere	
   consultate	
   sulla	
   base	
   di	
   una	
   timeline.	
   All’interno	
   dell’articolo,	
  
costantemente	
  aggiornato,	
  vengono	
  creati	
  dei	
  collegamenti	
  a	
  delle	
  notizie	
  correlate.	
  In	
  questo	
  
22
modo	
   l’utente	
   senza	
   nessun	
   particolare	
   sforzo	
   può	
   prendere	
   visione	
   delle	
   informazioni	
  
d’interesse,	
  recuperandole	
  nel	
  caso	
  in	
  cui	
  dovesse	
  creare	
   una	
   nuova	
  storia	
  giornalistica.	
  Una	
  
ricerca	
  del	
  genere	
  potrebbe	
  richiedere	
  tempo	
  ma	
  nessun	
  tipo	
  di	
  tecnologia	
  particolare	
  se	
  non	
  
quella	
  di	
  un	
  device	
  connesso	
  a	
  internet	
  e	
  –	
  dato	
  non	
  trascurabile	
  -­‐	
  nessun	
  tipo	
  di	
  costo	
  (fatta	
  
eccezione	
  per	
  quello	
  che	
  garantisce	
  la	
  connessione	
  stessa).
È	
   importante	
  sottolineare	
   come	
  il	
  Computational	
   journalism	
  vada	
  oltre	
  una	
   semplice	
   editoria	
  
giornalistica	
   online.	
   Non	
   si	
   tratta	
   di	
   pubblicare	
   articoli	
   e	
   notizie	
   sul	
   web	
   (non	
   solo,	
  
quantomeno)	
  ma	
  anche	
  (e	
  sopratutto)	
  di	
  indicizzare	
  le	
  entità	
  presenti	
  per	
  poi	
  poterle	
  collegare	
  
ad	
  altre	
  entità	
  presenti	
  in	
  altri	
  articoli	
  e	
  fatti,	
  i	
  collegamenti	
  saranno	
  proposti	
  secondo	
  il	
  grado	
  
di	
   connessione	
   che	
   c’è	
   fra	
   le	
   entità,	
   fra	
   gli	
   articoli	
   e	
   fra	
   gli	
   argomenti	
   trattati,	
   in	
   un	
   dato	
  
momento	
  storico.
Un	
  aspetto	
  importante	
  è,	
  a	
  nostro	
  avviso,	
  l’aggiornamento	
  dei	
  sistemi	
  che	
  permettono	
  queste	
  
ricerche	
  computazionali.	
  È	
  evidente	
  che,	
  trattandosi	
  di	
  notizie	
  contemporanee	
  e	
  data	
  la	
  velocità	
  
dell’informazione	
  oggi,	
  ci	
  deve	
  essere	
  un	
  aggiornamento	
  continuo	
  degli	
  articoli,	
  delle	
  entità	
  e	
  
delle	
  proprietà,	
  così	
  come	
  delle	
  “qualità”	
  intrinseche	
   ad	
  ogni	
  entità	
  o	
  ad	
  ogni	
  proprietà;	
  può	
  
succedere	
   infatti	
  che	
  collegamenti	
  ritenuti	
  molto	
  rilevanti	
  in	
  un	
  dato	
  momento,	
  possano	
  non	
  
risultare	
  più	
  tali	
  in	
  un	
  altro.	
  È	
  necessario	
  in	
  altre	
  parole	
  tenere	
  costantemente	
  il	
  passo,	
  cosa	
  non	
  
facile	
   e	
   su	
   cui	
  c’è	
   probabilmente	
   ancora	
  molto	
  da	
   lavorare.	
   È	
   un	
  approccio	
  innovativo	
   e	
   in	
  
quanto	
  tale	
  deve	
  ancora	
  percorrere	
  molta	
  strada	
  per	
  poter	
  essere	
  migliorato.	
  
4.4	
  Oltre	
  il	
  Computational	
  journalism,	
  possibili	
  usi	
  delle	
  associazioni	
  semantiche
Come	
  abbiamo	
  detto,	
  sono	
  giornalisti	
  i	
  primi	
  utilizzatori	
  del	
  Computational	
  journalism,	
  ma	
  non	
  
solo.	
  Gli	
  studenti	
  e	
  il	
  campo	
  della	
  ricerca	
  universitaria	
  potrebbero	
  trarre	
  grandi	
  benefici	
  da	
  un	
  
uso	
  di	
  queste	
  tecniche	
  computazionali,	
  incentrate	
  però	
  non	
  solo	
  sui	
  fatti	
  e	
  le	
  notizie	
  dal	
  mondo,	
  
ma	
  anche	
  sugli	
  articoli	
  scientifici	
  pubblicati	
  dalle	
  riviste	
  di	
  tutto	
  il	
  mondo.	
  Una	
  mappatura	
  di	
  tali	
  
elementi,	
   con	
   estrazione	
   di	
   entità,	
   proprietà	
   e	
   creazione	
   di	
   un	
   grafo	
   massimale,	
   potrebbe	
  
aiutare	
  i	
  ricercatori	
  nelle	
  loro	
  indagini.	
  È	
  evidente	
  come	
  uno	
  sforzo	
  del	
  genere	
  sia	
  impegnativo,	
  
ma	
   comunque	
   possibile	
   se	
   basato	
  su	
   una	
   cooperazione	
   e	
   collaborazione	
   a	
  livello	
   mondiale,	
  
ormai	
  possibile	
  grazie	
  alla	
  diffusione	
  di	
  internet,	
  del	
  cloud	
  che	
  ospita	
  tutte	
  le	
  piattaforme	
  utili	
  al	
  
DDJ	
  e	
  che	
  permette	
  una	
  ricerca	
  collettiva	
  di	
  notizie	
  e	
  collegamenti	
  da	
  tutto	
  il	
  mondo.	
  
Citando	
  Tim	
  Berners-­‐Lee	
  e	
  i	
  suoi	
  comandamenti	
  del	
  web	
  semantico:	
  “Se	
  ben	
  strutturato,	
  il	
  web	
  
semantico	
   favorisce	
   l’evoluzione	
   della	
   conoscenza	
   umana.	
   Il	
   processo	
   di	
   creazione	
   della	
  
conoscenza	
  è	
  caratterizzato	
  da	
  un’eterna	
  tensione	
  tra	
  l’efficacia	
  produttiva	
  di	
  ristretti	
  gruppi	
  di	
  
persone	
  che	
  agiscono	
  in	
  modo	
  indipendente	
  e	
  la	
  loro	
  necessità	
  di	
  integrarsi	
  con	
  una	
  comunità	
  
più	
   ampia.	
   I	
   gruppi	
   di	
   dimensioni	
  limitate	
   lavorano	
   rapidamente	
   ed	
   efficacemente,	
   ma	
   allo	
  
stesso	
  tempo	
  danno	
  vita	
  a	
  delle	
  sottoculture	
  che	
  male	
  interagiscono	
  con	
  il	
  pubblico	
  esterno.	
  
Coordinare	
  un	
  gruppo	
  ampio,	
  tuttavia,	
  richiede	
  tempo	
  e	
  un	
  immane	
  sforzo	
  comunicativo.	
  (…)	
  
Se	
   fino	
   ad	
  ora	
   il	
  mondo	
  ha	
   funzionato	
   in	
   disequilibrio	
  tra	
   questi	
   estremi,	
   il	
  web	
  semantico	
  
consente	
   a	
  diverse	
   sottoculture	
   di	
  entrare	
   in	
   contatto	
   tra	
   loro	
   e	
   scambiarsi	
  informazioni	
   in	
  
modo	
  semplice	
  e	
  immediato.	
  Il	
  web	
  semantico	
  può	
  essere	
  visto	
  come	
  una	
  sorta	
  di	
  linguaggio	
  
logico	
  internazionale	
  a	
  disposizione	
  di	
  tutte	
  le	
  sotto	
  strutture.”[15]
È	
  riflettendo	
  su	
  queste	
  parole,	
  su	
   quanti	
  siano	
  i	
  gruppi	
  ristretti	
  ai	
  quali	
  i	
  LOD	
  gioverebbero	
  e	
  
quanto	
  sia	
  importante	
  l’interazione	
  di	
  cui	
  parla	
  Tim	
  Berners-­‐Lee,	
  che	
  abbiamo	
  pensato	
  a	
  usi	
  dei	
  
LOD	
  che	
  andassero	
  oltre	
  gli	
  scopi	
  classici	
  del	
  Computational	
  journalism,	
  che	
  prevedano	
  in	
  altre	
  
23
parole	
  l’uso	
  dei	
  LOD	
  in	
  contesti	
  che	
  non	
  siano	
  esclusivamente	
  quelli	
  del	
  web.	
  Gran	
  parte	
  delle	
  
difficoltà	
   che	
   emergono	
  nello	
   sviluppo	
   del	
   Web	
  3.0	
  è	
   dovuta	
   alla	
  grande	
   quantità	
   di	
  dati	
  da	
  
identificare	
  e	
  strutturare.	
  Un	
  utilizzo	
  dei	
  LOD	
  in	
  un	
  ambiente	
  più	
  ridotto	
  e	
  specifico	
  di	
  quello	
  del	
  
web	
  potrebbe	
  portare	
  a	
  grandi	
  vantaggi	
  e	
  l’organizzazione	
  dovrebbe	
  essere	
  logicamente	
  meno	
  
onerosa.	
   Un	
   contesto	
   che	
   sembra	
   adattarsi	
   bene	
   a	
   quanto	
   detto	
   finora	
   è	
   quello	
   delle	
   Big	
  
Enterprises,	
   [16]	
   le	
   grandi	
   aziende,	
   che	
   spesso	
   hanno	
   una	
   struttura	
   articolata	
   e	
   una	
   mole	
  
significativa	
  di	
  stakeholders,	
  il	
  che	
  si	
  traduce	
  ovviamente	
  in	
  una	
  grande	
  quantità	
  di	
  dati	
  diversi	
  
da	
   catalogare.	
   Ci	
   siamo	
   quindi	
   chiesti,	
   come	
   sarebbe	
   possibile	
   integrare	
   l’approccio	
   e	
   la	
  
tecnologia	
  LOD	
  con	
  un	
  ambiente	
  aziendale?	
  Quali	
  vantaggi	
  porterebbe	
  quest’operazione?	
  
Per	
   rispondere	
   alla	
   prima	
   domanda	
  abbiamo	
  individuato	
  una	
   serie	
   di	
  passi	
  da	
  compiere	
   per	
  
raggiungere	
   quella	
   che	
   è	
   stata	
   definita	
   dai	
   pionieri	
   di	
   questa	
   nuova	
   prospettiva	
   Enterprise	
  
Linked	
  Opend	
  Data	
  (ELOD).	
  [17]	
  Presentiamoli:
• Raccolta	
  e	
  definizione	
  della	
  topologia	
  dei	
  dati,	
  ovvero	
  quali	
  aree	
   aziendali	
  prendere	
   in	
  
considerazione	
  e	
  come	
  organizzare	
  i	
  relativi	
  dati	
  in	
  cataloghi	
  
• Specificare	
  i	
  formati:	
  dai	
  più	
  classici	
  (e	
  meno	
  utili)	
  .pdf,	
  .xls	
  ,	
  .csv/tsv,	
  fino	
  ad	
  arrivare	
  ai	
  
più	
  evoluti	
  e	
  sicuramente	
  più	
  efficaci	
  .xml,	
  rdf/owl
• Prelievo	
  dei	
  dati	
  dalle	
  fonti	
  individuate	
  nei	
  formati	
  scelti
• Preparazione	
  di	
  una	
  piattaforma	
  centrale	
  di	
  servizi	
  per	
  l’amministrazione	
  dei	
  dati,	
  la	
  loro	
  
classificazione,	
  fusione,	
  indagine	
  e	
  pubblicazione
• Descrizione	
  del	
  ciclo	
  di	
  vita	
  dei	
  dati	
  aperti.
• Definizione	
  delle	
  politiche	
  di	
  sicurezza	
  e	
  permessi	
  d’accesso	
  ai	
  dati	
  aperti
• Infine	
   pubblicazione	
   conclusiva	
   dei	
   dati	
   in	
   LOD,	
   ovvero	
   sfruttando	
   tecnologie	
  
semantiche	
   come	
   RDF,	
   OWL,	
   URI,	
   SPARQL,	
   per	
   ottenere	
   dati	
   con	
   una	
   semantica	
  
esplicita	
  e	
  per	
  renderli	
  interconnessi	
  fra	
  di	
  loro	
  e	
  rintracciabili	
  tramite	
  un	
  URL	
  univoco.
Vediamo	
   ora	
   alcuni	
   vantaggi	
   particolari	
   di	
   cui	
   potrà	
   usufruire	
   un’azienda	
   che	
   intraprende	
  
questo	
  percorso:
• I	
  dati	
  perderebbero	
  quella	
  carica	
  di	
  “potere	
  intrinseco”	
  che	
  hanno	
  ad	
  oggi	
  e	
  che	
  spesso	
  
alimenta	
   controversie	
   sul	
   controllo	
   dei	
   vari	
   domini	
   di	
   competenza	
   all’interno	
   di	
   un	
  
azienda
• Non	
   si	
   avvertirebbe	
   più	
   la	
   necessità	
   di	
   commissionare	
   le	
   pratiche	
   di	
   valutazione	
  
informativa	
  ad	
  aziende	
  esterne
• Si	
  faciliterebbe	
  lo	
  sviluppo	
  di	
  nuove	
  applicazione	
  data-­‐consumer	
  e	
  di	
  data-­‐intergation
• Si	
  otterrebbe	
  una	
  gestione	
  trasparente	
  del	
  patrimonio	
  informativo	
  dell’azienda
• Si	
  ottimizzerebbero	
  i	
  processi	
  di	
  comunicazione	
  e	
  condivisione	
   dell’informazione	
  fra	
  le	
  
diverse	
  aree	
  aziendali.
Ovviamente	
   ci	
   sarebbero	
   alcune	
   criticità	
   nel	
   passaggio	
   dalla	
   gestione	
   attuale	
   dei	
   dati	
   di	
  
un’azienda	
   a	
   quello	
  ELOD.	
   Per	
   esempio	
   la	
   sensibilizzazione	
   del	
   cliente	
   nei	
  confronti	
  di	
   tale	
  
gestione,	
   la	
   difficoltà	
   iniziale	
   di	
   censire	
  i	
   dati,	
   ma	
   anche	
   l’opera	
  di	
  convincimento	
   dei	
   propri	
  
dipendenti	
  dell’utilità	
  e	
   bontà	
  dell’operazione	
   a	
  fronte	
   di	
  una	
  facile	
  reticenza	
  a	
  condividere	
  i	
  
propri	
   dati	
   e	
   la	
   necessità	
   imprescindibile	
   di	
   definire	
   delle	
   politiche	
   di	
   sicurezza	
   precise	
  
sull’accesso	
  ai	
  dati.	
  Riteniamo	
  comunque	
  che	
  valga	
  la	
  pena	
  per	
  un’azienda	
  –	
  specie	
  se	
  di	
  grandi	
  
dimensioni	
   -­‐	
   percorrere	
   tale	
   strada.	
   Realizzerebbe,	
   infatti,	
   un	
   vero	
   e	
   proprio	
   processo	
   di	
  
censimento,	
   amministrazione,	
   riuso	
   di	
   tutti	
   quei	
   dati	
   che	
   di	
   solito	
   vengono	
   gelosamente	
  
custoditi	
   o	
  nascosti	
  impedendo	
  così	
  corrette	
   pratiche	
   di	
   Enterprise	
   Information	
   Management	
  
EIM	
  e	
  Knowledge	
  management	
  (KM).
24
Queste	
   riflessioni	
  si	
  potrebbero	
  applicare	
   –	
  con	
  le	
  dovute	
   differenze	
  –	
   a	
  moltissimi	
  contesti,	
  
basti	
   pensare	
   alle	
   scuole,	
   alla	
   pubblica	
   amministrazione,	
   alla	
   politica…	
   Sono	
   nati	
   e	
   stanno	
  
nascendo	
   moltissimi	
   progetti	
   a	
   riguardo,	
   anche	
   nel	
   nostro	
   Paese.	
   Sul	
   sito	
   della	
   Open	
  
Knowledege	
  Fondation	
  Italia	
  è	
  possibile	
  farsi	
  un’idea	
  dello	
  stato	
  attuale	
  dei	
  lavori.	
  [18]	
  
Figura	
  14:	
  Infografica	
  coi	
  dati	
  estratti	
  dal	
  portale	
  Rimozione	
  Macerie
25
Sul	
   sito	
   dell’agenzia	
   di	
   prodotti	
   multimediali	
   Mister	
   wolf	
   –	
   web&multimedia	
   [19]	
   abbiamo	
  
trovato	
  un	
  interessante	
  lavoro,	
  riassunto	
  in	
  Figura	
  14,	
  che	
  dimostra	
  quanto	
  l’utilizzo	
  dei	
  LOD	
  in	
  
contesti	
  specifici	
  sia	
  utile.	
  
Spieghiamo	
  ora	
  in	
  breve	
  il	
  motivo	
   per	
   cui	
  il	
  progetto	
  di	
   quest’agenzia	
   rappresenta	
   a	
  nostro	
  
parere	
  un	
  esempio	
  virtuoso,	
  da	
  applicare	
  in	
  moltissimi	
  altri	
  campi	
  e	
  contesti.	
  Il	
  progetta	
  mira	
  a	
  
raccogliere	
   i	
   dati	
   inerenti	
   al	
   lavoro	
   di	
   messa	
   in	
   sicurezza	
   degli	
   edifici	
   e	
   di	
   rimozione	
   delle	
  
macerie,	
   soprattutto	
  all’Aquila,	
  che	
   procede	
  ancora	
  oggi.	
   Si	
  stima	
  che	
  fino	
  a	
   ora	
  siano	
  state	
  
rimosse	
  quasi	
  426000	
  tonnellate	
  di	
  macerie	
  dai	
  lavori	
  per	
  gli	
  edifici	
  pubblici	
  e	
  circa	
  273000	
  per	
  
quelli	
   privati.	
   Il	
   sito	
   del	
   Commissariato	
   per	
   la	
   Ricostruzione	
   tiene	
   traccia	
   dei	
   lavori	
   e	
   delle	
  
operazioni	
  svolte	
  con	
  una	
  serie	
  di	
  Open	
  data	
  liberamente	
  consultabili	
  dalla	
  cittadinanza.	
  Sulla	
  
base	
  di	
  queste	
  informazioni,	
  l’agenzia	
  Mister	
  wolf	
   	
  ha	
  realizzato	
  l’infrografica	
  di	
  Figura	
  14,	
  per	
  
illustrare	
  il	
  lavoro	
  svolto	
  fino	
  ad	
  oggi	
  per	
  rimuovere	
  le	
  macerie.	
  L’infografica	
  offre	
  uno	
  sguardo	
  
d’insieme	
   sullo	
   stato	
   della	
   rimozione	
   e	
   smaltimento	
   delle	
   macerie	
   nell’area	
   del	
   cratere	
  
interessato	
   dal	
   sisma	
   che	
   ha	
   colpito	
   l’Abruzzo	
   nel	
   2009.	
   I	
   dati	
   si	
   riferiscono	
   alle	
   macerie	
  
rimosse,	
  provenienti	
  dai	
  cantieri	
  e	
  destinate	
  ai	
  punti	
  di	
  conferimento	
  ad	
  opera	
  delle	
  aziende	
  al	
  
Febbraio	
  2013.	
  Sono	
  poi	
  disponibili	
  le	
  percentuali	
  dei	
  cantieri	
  che	
  producono	
  macerie	
  suddivisi	
  
per	
  provincia	
  e	
  i	
  relativi	
  punti	
  di	
  conferimento	
  dove	
  le	
  macerie	
  vengono	
  destinate	
  attraverso	
  le	
  
aziende	
  incaricate	
  del	
  trasporto.	
  
Molti	
  quotidiani	
  online	
  hanno	
  parlato	
  di	
  questo	
  progetto	
  e	
  delle	
  informazioni	
  ricavate	
  da	
  esso,	
  i	
  
dati	
  raccolti	
  e	
   analizzati	
  hanno	
  risparmiato	
  molto	
  lavoro	
  a	
  chi	
  se	
   ne	
   occupa	
  e	
   ne	
   usufruisce;	
  
iniziative	
  come	
  queste	
  devono	
  essere	
  seguite	
  e	
  replicate	
  in	
  ambiti	
  simili	
  ma	
  non	
  solo,	
  devono	
  
vedere	
  la	
  collaborazione	
  di	
  aziende	
  e	
  agenzie	
  di	
  questo	
  tipo	
  al	
  fine	
  di	
  creare	
  progetti	
  sempre	
  
più	
  trasversali	
  e	
  utili	
  a	
  chiunque.	
  
Un	
  altro	
  campo	
  da	
  noi	
  indagato	
  in	
  cui	
  l’approccio	
  LOD	
  può	
  aiutare	
  a	
  migliorare	
  le	
  prestazioni	
  è	
  
quello	
   dei	
   motori	
   di	
   ricerca,	
   e	
   in	
   particolare,	
   potrebbero	
   essere	
   di	
   enorme	
   aiuto	
   alla	
  
problematica	
   delle	
   ricerche	
   correlate	
   e	
   suggerite	
   all’utente	
   da	
   parte	
   di	
   un	
   software	
   che	
  
“lavorerà”	
   per	
   conto	
   di	
   un	
   sito	
   o	
   anche	
   del	
   browser.	
   Come	
   ben	
   sappiamo	
   spesso	
   accanto	
  
all’esito	
  di	
  una	
  ricerca	
  da	
  noi	
  indagata,	
  compaiono	
  suggerimenti	
  e	
  consigli	
  riguardo	
  prodotti/
informazioni	
  simili.	
   Ad	
  esempio,	
   se	
   cerchiamo	
  su	
   Google	
   un’entità	
  (persone,	
   luoghi,	
   cose)	
   a	
  
fondo	
  del	
  sommario	
  di	
  informazioni	
  enciclopediche	
  sull’entità	
  che	
  stiamo	
  cercando,	
  compaiono	
  
altre	
  entità	
  che	
  vanno	
  sotto	
  l’etichetta	
  di	
  “ricerche	
  correlate”.	
  	
  
26
Figura	
  15:	
  	
  Risultati	
  della	
  ricerca	
  “Bacon”	
  su	
  Google
La	
  figura	
  15	
  mostra	
  cosa	
  accade	
  se	
  da	
  loggati	
  in	
  Google	
  cerchiamo	
  “Bacon”:	
  avremo	
  i	
  classici	
  
risultati	
  nella	
  colonna	
  di	
  sinistra	
  e	
  accanto,	
  in	
  una	
  nuova	
  colonna,	
  ci	
  verrà	
  chiesto	
  di	
  specificare	
  
se	
  intendiamo	
  il	
  filosofo,	
  il	
  pittore	
  o	
  l’attore.	
  
Figura	
  16:	
  Ricerca	
  successiva	
  su	
  Google	
  -­‐	
  Sommario	
  delle	
  informazioni	
  sul	
  personaggio	
  
d’interesse	
  e	
  ricerche	
  correlate
27
Come	
  mostra	
  la	
  figura	
  16,	
  supponendo	
  che	
  il	
  personaggio	
  che	
  interessa	
  a	
  noi	
  sia	
  Francis	
  Bacon	
  
–	
   Pittore,	
   appariranno	
   una	
   serie	
   di	
   informazioni	
   su	
   quest’ultimo,	
   alcune	
   sue	
   opere,	
   ed	
   altri	
  
artisti	
   correlati	
  (cercati	
  da	
  altri).	
   Ciò	
   avviene	
   grazie	
   al	
   Knowledge	
   Graph,	
   che	
   unisce	
   ricerca	
  
semantica	
  ad	
  analisi	
  statistiche	
  e	
  algoritmi.	
  Il	
  progetto,	
  ancora	
  in	
  evoluzione,	
  migliora	
  quindi	
  la	
  
ricerca,	
  grazie	
   alla	
  mappatura	
  di	
  3.5	
  miliardi	
   di	
  fatti	
  ossia	
  informazioni	
  sulle	
   relazioni	
  tra	
   500	
  
milioni	
  di	
  entità.
Questa	
  tendenza	
  è	
  riscontrabile	
  anche	
  in	
  molti	
  siti	
  di	
  quotidiani,	
  che	
  suggeriscono	
  articoli	
  simili	
  
per	
   tema	
  a	
  quello	
  che	
   si	
  sta	
  leggendo.	
  Ciò	
   accade	
  tramite	
   link	
  agli	
  articoli	
  visualizzabili	
  sulla	
  
stessa	
  schermata	
  dell’articolo	
  letto	
  e	
  facilita	
  l’utente	
  nella	
  comprensione	
  globale	
  di	
  quello	
  che	
  è	
  
il	
  tema	
   trattato.	
  Siti	
  di	
  e-­‐commerce	
   suggeriscono	
  prodotti	
  simili	
  a	
   quelli	
   acquistati.	
  YouTube	
  
rende	
  sempre	
  più	
  raffinate	
  le	
  ricerche	
   correlate	
  e	
  i	
  video	
  consigliati	
  in	
  conformità	
  a	
  quelli	
  già	
  
visti.	
  
È	
   dunque	
   chiaro	
   che	
   al	
   momento	
   i	
   motori	
   di	
  ricerca	
   di	
   questo	
   tipo	
   utilizzano	
   già	
   tecniche	
  
piuttosto	
  avanzate,	
  basate	
  in	
  parte	
  su	
   un	
  sistema	
  di	
  tag	
   (e	
  di	
  catalogazione	
   secondo	
  queste	
  
etichette)	
   e	
   in	
   parte	
   basate	
   su	
   algoritmi	
   che	
   cercano	
   collegamenti	
   semantici	
   fra	
   l’entità	
  
visualizzata	
   ed	
   altre	
   nuove,	
   ipoteticamente	
   correlate.	
   Per	
   questo	
   riteniamo	
   che	
   un	
   uso	
  
dell’approccio	
   Data	
   Context	
   Extraction	
   for	
   News	
   Articles	
   (DaCENA),	
   possa	
   essere	
   utile	
   per	
  
migliorare	
   la	
   tendenza	
   generale	
   verso	
   risultati	
   restituiti	
   non	
  solo	
  sulla	
   base	
   di	
  reti	
  di	
  link	
  di	
  
pagine	
  web,	
  ma	
  sempre	
  più	
  su	
  reti	
  di	
  conoscenza.
A	
   nostro	
   avviso	
   è	
   importante	
   che	
   il	
   software	
   lavori	
   non	
   solo	
   sulle	
   entità,	
   ma	
   anche	
   sulle	
  
proprietà.	
  Inoltre,	
  che	
   lavori	
  usando	
   il	
  filtro	
  delle	
   metriche	
  Rarity,	
  Popularity	
  e	
  Context	
   di	
  cui	
  
abbiamo	
  parlato	
  nel	
  secondo	
  capitolo.	
  Se	
  ad	
  esempio	
  un’entità	
  risulta	
  importante	
  secondo	
  la	
  
metrica	
  Rarity,	
  il	
  software	
  dovrà	
  cercare	
  entità	
  correlate	
  ad	
  essa	
  in	
  maniera	
  forte	
  (considerando	
  
cioè	
  la	
  lunghezza	
  del	
  percorso	
  e	
  l’importanza	
  delle	
  proprietà	
  che	
  legano	
  le	
  entità,	
  secondo	
  la	
  
metrica	
  in	
  questione)	
  che	
  siano	
  anch’esse	
  particolarmente	
  rilevanti	
  secondo	
  la	
  metrica	
  Rarity.	
  
Abbiamo	
  già	
   spiegato	
  il	
  significato	
  delle	
   metriche	
   citate,	
   per	
   quanto	
  riguarda	
   la	
  metrica	
  del	
  
Context	
  però,	
  riteniamo	
  che	
  in	
  un’operazione	
  come	
  quella	
  sopra	
  descritta,	
  il	
  software	
  dovrebbe	
  
considerare	
   tale	
   metrica	
   come	
   riferita	
   al	
   contesto	
   temporale.	
   Così	
   se	
   la	
   ricerca	
   indagata	
  
dall’utente,	
  da	
  come	
  esito	
  un’entità	
  rilevante	
  per	
  il	
  contesto	
  temporale	
  il	
  software	
  troverà	
  altre	
  
entità	
  che,	
   oltre	
  ad	
  essere	
   legate	
   in	
  maniera	
  rilevante	
   alla	
   prima,	
  siano	
  anch’essere	
   ritenute	
  
importanti	
  dato	
  il	
  preciso	
  momento	
  storico.	
  
Un’integrazione	
   dei	
   metodi	
   usati	
   oggi	
   con	
   l’approccio	
   DaCENA	
   è	
   quanto	
   proponiamo.	
   È	
  
evidente	
   che	
   un	
  lavoro	
  di	
  questo	
  tipo	
  preveda	
  un	
  numero	
  considerevole	
   di	
   teorici	
  del	
   web	
  
semantico,	
   di	
   tecnici	
   informatici	
   e	
   non	
   ultimi	
   di	
   esperti	
   di	
   dominio	
   che	
   lavorino	
   insieme	
   e	
  
collaborino	
  per	
  la	
  creazione	
  di	
  un	
  software	
  che	
  permetta	
  ad	
  un	
  algoritmo	
  di	
  indagare	
  le	
  entità	
  
del	
  database,	
  a	
  partire	
  da	
  un’entità	
  primaria,	
  al	
  fine	
  di	
  raggiungere	
  gli	
  scopi	
  sopra	
  illustrati.	
  Una	
  
sfida	
   impegnativa	
   che	
   però	
   può	
   essere	
   senz’altro	
   essere	
   accettata,	
   dati	
   i	
   risultati	
   finora	
  
raggiunti	
  e	
  la	
  portata	
  innovativa	
  di	
  questi	
  approcci.
4.5	
  La	
  visualizzazione	
  grafica	
  delle	
  associazioni	
  semantiche
Un	
  altro	
  punto	
  critico	
  riguardante	
   le	
   associazioni	
   semantiche	
   -­‐	
  e	
   il	
  loro	
  possibile	
   utilizzo	
   -­‐	
   è	
  
quello	
  che	
  tocca	
  la	
  resa	
  grafica	
  dei	
  collegamenti	
  tra	
  entità.	
   Ci	
  siamo	
  chiesti	
  come	
   rendere	
   le	
  
28
informazioni	
  estrapolate	
  dagli	
  articoli	
  tramite	
  l’approccio	
  DaCENA	
  fruibili	
  da	
  giornalisti	
  –	
  e	
  non	
  
solo	
   –	
   nel	
   modo	
   più	
   idoneo	
   ed	
   efficace	
   possibile.	
   Non	
   è	
   un	
   quesito	
   di	
   poco	
   conto,	
   se	
   si	
  
considera	
   quanto	
   tuttora	
   non	
   sia	
   facile	
   persuadere	
   l’opinione	
   pubblica	
   della	
   potenza	
   delle	
  
tecniche	
   utilizzate	
   per	
  il	
  DDJ	
   e	
  quanti	
  ancora	
  non	
  ritengano	
  questo	
  nuovo	
  approccio	
  utile	
   o	
  
perlomeno	
  diverso	
  da	
  una	
  semplice	
  stampa	
  digitale	
  delle	
  notizie.	
  Adattarsi	
  –	
  anche	
  dal	
  punto	
  di	
  
vista	
  dell’usabilità	
  –	
  alle	
  esigenze	
  degli	
  utenti,	
  consentendo	
  un	
  resoconto	
  dinamico	
  (e	
  facile	
  da	
  
utilizzare)	
   delle	
   informazioni	
   d’interesse,	
   è	
   quindi	
   a	
   nostro	
   parere	
   una	
   priorità	
   in	
   grado	
   di	
  
avvicinare	
  sempre	
  più	
  persone	
  a	
  queste	
  tecniche	
  innovative.
Come	
   abbiamo	
   notato	
   in	
  seguito	
  alle	
   valutazioni	
  delle	
   più	
   di	
  20000	
  associazioni	
  semantiche	
  
estrapolate	
  dagli	
  articoli,	
  la	
  grande	
  mole	
  informazioni	
  ricavate	
  seguendo	
  l’approccio	
  DaCENA	
  
può	
   causare	
   un	
   problema	
   al	
   giornalista	
   che	
   cerca	
   spunti	
   o	
   fatti	
   per	
   una	
   nuova	
   storia	
  
giornalistica.	
   Oltre	
   alla	
   quantità,	
   un	
   ostacolo	
   che	
   potrebbe	
   frapporsi	
   fra	
   il	
   giornalista	
   e	
   la	
  
comprensione	
  reale	
  di	
  quello	
  che	
  le	
  associazioni	
  semantiche	
  significano,	
  è	
  quello	
  di	
  usabilità	
  da	
  
parte	
  dell’utente.	
  Quanto	
  egli	
  sia	
  quindi	
  in	
  grado	
  di	
  visualizzare	
  queste	
  associazioni	
  semantiche.	
  
Il	
  layout	
  grafico	
  restituito	
  dalla	
  macchina,	
  l’interfaccia	
  software	
  –	
  utente	
  è	
  un	
  punto	
  cruciale	
  per	
  
il	
  buon	
  funzionamento	
  di	
  qualsiasi	
  programma.	
  Anche	
  per	
  i	
  percorsi	
  estratti	
  e	
   da	
  noi	
  valutati	
  
bisogna	
  tenerne	
  conto,	
  considerando	
  la	
  loro	
  potenziale	
  utilità	
  e	
  al	
  tempo	
  stesso	
  la	
  complessità	
  
dello	
  strumento	
  per	
  chi	
  non	
  è	
  addetto	
  ai	
  lavori.	
  
Figura	
  17:	
  Alcune	
  associazioni	
  semantiche	
  su	
  Excel
Durante	
   la	
   fase	
  di	
  valutazione	
   delle	
   associazioni,	
  queste	
   ci	
  sono	
  state	
  proposte	
  su	
   un	
  foglio	
  
Excel,	
  come	
  mostra	
  la	
  figura	
  17,	
  un	
  percorso	
  per	
  riga,	
  e	
  righe	
  di	
  differenti	
  lunghezze	
  in	
  accordo	
  
col	
  numero	
  delle	
  proprietà	
  e	
  delle	
  entità	
  presenti.	
  Questo	
  non	
  ci	
  è	
  sembrato	
  il	
  miglior	
  modo	
  per	
  
presentare	
   i	
   risultati	
  del	
   software,	
   anche	
   se,	
   per	
   una	
   quantità	
   ridotta	
   di	
   percorsi	
   potrebbe	
  
essere	
   più	
   facile	
   da	
   consultare.	
   Al	
   di	
   là	
   della	
   quantità	
   di	
   associazioni,	
   rimane	
   comunque	
   il	
  
problema	
  di	
  un	
  interfaccia	
  in	
  grado	
  di	
  soddisfare	
  gli	
  utenti	
  in	
  modo	
  intuitivo	
  ed	
  ergonomico.	
  Nel	
  
caso	
  poi	
  degli	
  usi	
  delle	
  associazioni	
  semantiche	
  in	
  contesti	
  diversi	
  dal	
  DDJ,	
  sorge	
  un	
  altro	
  punto	
  
interrogativo:	
   quando	
  è	
   necessario	
   presentare	
   gli	
   interi	
   percorsi	
   e	
   quando	
   solo	
   gli	
  esiti	
   (ad	
  
esempio,	
  prima	
  e	
  ultima	
  entità	
  collegate,	
  senza	
  visualizzazione	
  del	
  percorso,	
  in	
  modo	
  simile	
  alle	
  
entity	
  summary	
  di	
  Google	
  nella	
  figura	
  16)?	
  
In	
  questo	
  ultimo	
  modulo	
  cercheremo	
  di	
  rispondere	
   ai	
  dubbi	
  e	
  agli	
  interrogativi	
  che	
  ci	
  siamo	
  
posti	
  nelle	
  righe	
  precedenti.
Associazioni semantiche per il Computational Journalism
Associazioni semantiche per il Computational Journalism
Associazioni semantiche per il Computational Journalism
Associazioni semantiche per il Computational Journalism
Associazioni semantiche per il Computational Journalism

Weitere ähnliche Inhalte

Was ist angesagt?

2020 report blockchain19
2020 report blockchain192020 report blockchain19
2020 report blockchain19Daniel Rueda H
 
Metodi e obiettivi per un uso efficace dei fondi comunitari 2014-20
Metodi e obiettivi per un uso efficace dei fondi comunitari 2014-20Metodi e obiettivi per un uso efficace dei fondi comunitari 2014-20
Metodi e obiettivi per un uso efficace dei fondi comunitari 2014-20Osservatorio Europalab
 
Documento Requisiti_SdcExpert@Work
Documento Requisiti_SdcExpert@WorkDocumento Requisiti_SdcExpert@Work
Documento Requisiti_SdcExpert@WorkRoberta Sanzani
 
Internazionalizzazione in Svizzera
Internazionalizzazione in Svizzera Internazionalizzazione in Svizzera
Internazionalizzazione in Svizzera Alessio Vasta
 
La Reingegnerizzazione dei processi nel settore logistico: Un caso di studio
La Reingegnerizzazione dei processi nel settore logistico: Un caso di studioLa Reingegnerizzazione dei processi nel settore logistico: Un caso di studio
La Reingegnerizzazione dei processi nel settore logistico: Un caso di studioNicola Cerami
 
Community Management Capitolo Coltivare
Community Management Capitolo ColtivareCommunity Management Capitolo Coltivare
Community Management Capitolo ColtivareEmanuele Scotti
 

Was ist angesagt? (9)

2020 report blockchain19
2020 report blockchain192020 report blockchain19
2020 report blockchain19
 
Metodi e-obiettivi-per-un-uso-efficace-dei-fondi-comunitari-2014-20
Metodi e-obiettivi-per-un-uso-efficace-dei-fondi-comunitari-2014-20Metodi e-obiettivi-per-un-uso-efficace-dei-fondi-comunitari-2014-20
Metodi e-obiettivi-per-un-uso-efficace-dei-fondi-comunitari-2014-20
 
Metodi e obiettivi per un uso efficace dei fondi comunitari 2014-20
Metodi e obiettivi per un uso efficace dei fondi comunitari 2014-20Metodi e obiettivi per un uso efficace dei fondi comunitari 2014-20
Metodi e obiettivi per un uso efficace dei fondi comunitari 2014-20
 
Www.Italianfoodisbetter.It
Www.Italianfoodisbetter.ItWww.Italianfoodisbetter.It
Www.Italianfoodisbetter.It
 
Documento Requisiti_SdcExpert@Work
Documento Requisiti_SdcExpert@WorkDocumento Requisiti_SdcExpert@Work
Documento Requisiti_SdcExpert@Work
 
BACHELOR_THESIS
BACHELOR_THESISBACHELOR_THESIS
BACHELOR_THESIS
 
Internazionalizzazione in Svizzera
Internazionalizzazione in Svizzera Internazionalizzazione in Svizzera
Internazionalizzazione in Svizzera
 
La Reingegnerizzazione dei processi nel settore logistico: Un caso di studio
La Reingegnerizzazione dei processi nel settore logistico: Un caso di studioLa Reingegnerizzazione dei processi nel settore logistico: Un caso di studio
La Reingegnerizzazione dei processi nel settore logistico: Un caso di studio
 
Community Management Capitolo Coltivare
Community Management Capitolo ColtivareCommunity Management Capitolo Coltivare
Community Management Capitolo Coltivare
 

Andere mochten auch

Andere mochten auch (8)

反對異議處理
反對異議處理反對異議處理
反對異議處理
 
Google Chrome & Mozilla Firefox - Plugins & Extensions
Google Chrome & Mozilla Firefox - Plugins & ExtensionsGoogle Chrome & Mozilla Firefox - Plugins & Extensions
Google Chrome & Mozilla Firefox - Plugins & Extensions
 
Sistemi di raccomandazione
Sistemi di raccomandazioneSistemi di raccomandazione
Sistemi di raccomandazione
 
Fooid - onepager
Fooid - onepagerFooid - onepager
Fooid - onepager
 
DaCENA
DaCENADaCENA
DaCENA
 
Smart City & Smart People - La Pubblica Amministrazione, l'Istruzione, la Gre...
Smart City & Smart People - La Pubblica Amministrazione, l'Istruzione, la Gre...Smart City & Smart People - La Pubblica Amministrazione, l'Istruzione, la Gre...
Smart City & Smart People - La Pubblica Amministrazione, l'Istruzione, la Gre...
 
Eyewish
EyewishEyewish
Eyewish
 
Contropedia - Mockup
Contropedia - MockupContropedia - Mockup
Contropedia - Mockup
 

Ähnlich wie Associazioni semantiche per il Computational Journalism

Piano Nazionale Scuola Digitale (risorse integrative)
Piano Nazionale Scuola Digitale (risorse integrative)Piano Nazionale Scuola Digitale (risorse integrative)
Piano Nazionale Scuola Digitale (risorse integrative)Ministry of Public Education
 
Innovazione, comunità professionali e pubblica amministrazione il caso csi
Innovazione, comunità professionali e pubblica amministrazione  il caso csiInnovazione, comunità professionali e pubblica amministrazione  il caso csi
Innovazione, comunità professionali e pubblica amministrazione il caso csiCarlo Mazzocco
 
Studio e realizzazione di un sistema web per il monitoraggio delle previsioni...
Studio e realizzazione di un sistema web per il monitoraggio delle previsioni...Studio e realizzazione di un sistema web per il monitoraggio delle previsioni...
Studio e realizzazione di un sistema web per il monitoraggio delle previsioni...FrancescoPolita86
 
Piano triennale AREA Science Park 2011 e Progetti Premiali
Piano triennale AREA Science Park 2011 e  Progetti PremialiPiano triennale AREA Science Park 2011 e  Progetti Premiali
Piano triennale AREA Science Park 2011 e Progetti PremialiAREA Science Park
 
Handbook for Investors - Business Location in Switzerland
Handbook for Investors - Business Location in SwitzerlandHandbook for Investors - Business Location in Switzerland
Handbook for Investors - Business Location in SwitzerlandGiovanni Rabito
 
Manuale dell’investitore - Impiantare un’impresa in Svizzera
Manuale dell’investitore - Impiantare un’impresa in Svizzera Manuale dell’investitore - Impiantare un’impresa in Svizzera
Manuale dell’investitore - Impiantare un’impresa in Svizzera Giovanni Rabito
 
Cgil lombardia manuale-costruzione_bilancio_di_sostenibilità
Cgil lombardia manuale-costruzione_bilancio_di_sostenibilitàCgil lombardia manuale-costruzione_bilancio_di_sostenibilità
Cgil lombardia manuale-costruzione_bilancio_di_sostenibilitàFranzLanaro
 
Progettare artefatti cognitivi
Progettare artefatti cognitiviProgettare artefatti cognitivi
Progettare artefatti cognitiviStefano Bussolon
 
Progetto e sviluppo di un'applicazionemobile multipiattaforma per il supporto...
Progetto e sviluppo di un'applicazionemobile multipiattaforma per il supporto...Progetto e sviluppo di un'applicazionemobile multipiattaforma per il supporto...
Progetto e sviluppo di un'applicazionemobile multipiattaforma per il supporto...maik_o
 
Tesi Laurea Specialistica Ingegneria Informatica. Alessandro Andreosè
Tesi Laurea Specialistica Ingegneria Informatica. Alessandro AndreosèTesi Laurea Specialistica Ingegneria Informatica. Alessandro Andreosè
Tesi Laurea Specialistica Ingegneria Informatica. Alessandro Andreosèguesta10af3
 
Architettura Dellinformazione_SdcExpert@Work
Architettura Dellinformazione_SdcExpert@WorkArchitettura Dellinformazione_SdcExpert@Work
Architettura Dellinformazione_SdcExpert@WorkRoberta Sanzani
 
Open Innovation e Social Media: un indagine sullo stato del paradigma nelle a...
Open Innovation e Social Media: un indagine sullo stato del paradigma nelle a...Open Innovation e Social Media: un indagine sullo stato del paradigma nelle a...
Open Innovation e Social Media: un indagine sullo stato del paradigma nelle a...Michele Ceresoli
 
Validation and analysis of mobility models
Validation and analysis of mobility modelsValidation and analysis of mobility models
Validation and analysis of mobility modelsUmberto Griffo
 
Dispensa Interazione Uomo Macchina
Dispensa Interazione Uomo MacchinaDispensa Interazione Uomo Macchina
Dispensa Interazione Uomo MacchinaStefano Bussolon
 
[Document] La creazione di una Start-Up
[Document] La creazione di una Start-Up [Document] La creazione di una Start-Up
[Document] La creazione di una Start-Up Michele Palumbo
 

Ähnlich wie Associazioni semantiche per il Computational Journalism (20)

Compas Project
Compas ProjectCompas Project
Compas Project
 
Piano Nazionale Scuola Digitale (risorse integrative)
Piano Nazionale Scuola Digitale (risorse integrative)Piano Nazionale Scuola Digitale (risorse integrative)
Piano Nazionale Scuola Digitale (risorse integrative)
 
Innovazione, comunità professionali e pubblica amministrazione il caso csi
Innovazione, comunità professionali e pubblica amministrazione  il caso csiInnovazione, comunità professionali e pubblica amministrazione  il caso csi
Innovazione, comunità professionali e pubblica amministrazione il caso csi
 
Tesi_Adamou
Tesi_AdamouTesi_Adamou
Tesi_Adamou
 
Tesi_Adamou
Tesi_AdamouTesi_Adamou
Tesi_Adamou
 
Studio e realizzazione di un sistema web per il monitoraggio delle previsioni...
Studio e realizzazione di un sistema web per il monitoraggio delle previsioni...Studio e realizzazione di un sistema web per il monitoraggio delle previsioni...
Studio e realizzazione di un sistema web per il monitoraggio delle previsioni...
 
Piano triennale AREA Science Park 2011 e Progetti Premiali
Piano triennale AREA Science Park 2011 e  Progetti PremialiPiano triennale AREA Science Park 2011 e  Progetti Premiali
Piano triennale AREA Science Park 2011 e Progetti Premiali
 
Handbook for Investors - Business Location in Switzerland
Handbook for Investors - Business Location in SwitzerlandHandbook for Investors - Business Location in Switzerland
Handbook for Investors - Business Location in Switzerland
 
Manuale dell’investitore - Impiantare un’impresa in Svizzera
Manuale dell’investitore - Impiantare un’impresa in Svizzera Manuale dell’investitore - Impiantare un’impresa in Svizzera
Manuale dell’investitore - Impiantare un’impresa in Svizzera
 
Cgil lombardia manuale-costruzione_bilancio_di_sostenibilità
Cgil lombardia manuale-costruzione_bilancio_di_sostenibilitàCgil lombardia manuale-costruzione_bilancio_di_sostenibilità
Cgil lombardia manuale-costruzione_bilancio_di_sostenibilità
 
Progettare artefatti cognitivi
Progettare artefatti cognitiviProgettare artefatti cognitivi
Progettare artefatti cognitivi
 
Progetto e sviluppo di un'applicazionemobile multipiattaforma per il supporto...
Progetto e sviluppo di un'applicazionemobile multipiattaforma per il supporto...Progetto e sviluppo di un'applicazionemobile multipiattaforma per il supporto...
Progetto e sviluppo di un'applicazionemobile multipiattaforma per il supporto...
 
Tesi Laurea Specialistica Ingegneria Informatica. Alessandro Andreosè
Tesi Laurea Specialistica Ingegneria Informatica. Alessandro AndreosèTesi Laurea Specialistica Ingegneria Informatica. Alessandro Andreosè
Tesi Laurea Specialistica Ingegneria Informatica. Alessandro Andreosè
 
Architettura Dellinformazione_SdcExpert@Work
Architettura Dellinformazione_SdcExpert@WorkArchitettura Dellinformazione_SdcExpert@Work
Architettura Dellinformazione_SdcExpert@Work
 
WPF MVVM Toolkit
WPF MVVM ToolkitWPF MVVM Toolkit
WPF MVVM Toolkit
 
Open Innovation e Social Media: un indagine sullo stato del paradigma nelle a...
Open Innovation e Social Media: un indagine sullo stato del paradigma nelle a...Open Innovation e Social Media: un indagine sullo stato del paradigma nelle a...
Open Innovation e Social Media: un indagine sullo stato del paradigma nelle a...
 
Validation and analysis of mobility models
Validation and analysis of mobility modelsValidation and analysis of mobility models
Validation and analysis of mobility models
 
Project Management
Project Management Project Management
Project Management
 
Dispensa Interazione Uomo Macchina
Dispensa Interazione Uomo MacchinaDispensa Interazione Uomo Macchina
Dispensa Interazione Uomo Macchina
 
[Document] La creazione di una Start-Up
[Document] La creazione di una Start-Up [Document] La creazione di una Start-Up
[Document] La creazione di una Start-Up
 

Mehr von Valeria Gennari

Dossier Camereaperte 2013
Dossier Camereaperte 2013Dossier Camereaperte 2013
Dossier Camereaperte 2013Valeria Gennari
 
TripAdvisor - Un'indagine di mercato sul colosso delle review 2.0
TripAdvisor - Un'indagine di mercato sul colosso delle review 2.0TripAdvisor - Un'indagine di mercato sul colosso delle review 2.0
TripAdvisor - Un'indagine di mercato sul colosso delle review 2.0Valeria Gennari
 
TripAdvisor - Un'indagine di mercato sul colosso delle review 2.0
TripAdvisor - Un'indagine di mercato sul colosso delle review 2.0TripAdvisor - Un'indagine di mercato sul colosso delle review 2.0
TripAdvisor - Un'indagine di mercato sul colosso delle review 2.0Valeria Gennari
 
Report finale per il Corso di Strumenti d'indagine per le organizzazioni e i ...
Report finale per il Corso di Strumenti d'indagine per le organizzazioni e i ...Report finale per il Corso di Strumenti d'indagine per le organizzazioni e i ...
Report finale per il Corso di Strumenti d'indagine per le organizzazioni e i ...Valeria Gennari
 
Relazione finale Bee_cocca
Relazione finale Bee_coccaRelazione finale Bee_cocca
Relazione finale Bee_coccaValeria Gennari
 
Presentazione del progetto "Bee_cocca. Milano Bicocca: l'isola urbana. Territ...
Presentazione del progetto "Bee_cocca. Milano Bicocca: l'isola urbana. Territ...Presentazione del progetto "Bee_cocca. Milano Bicocca: l'isola urbana. Territ...
Presentazione del progetto "Bee_cocca. Milano Bicocca: l'isola urbana. Territ...Valeria Gennari
 
Differenze tra occidentali e orientali nella lettura dello schermo del pc
Differenze tra occidentali e orientali nella lettura dello schermo del pcDifferenze tra occidentali e orientali nella lettura dello schermo del pc
Differenze tra occidentali e orientali nella lettura dello schermo del pcValeria Gennari
 
Slides di presentazione del progetto di ergonomia, Supermercato Simply
Slides di presentazione del progetto di ergonomia, Supermercato SimplySlides di presentazione del progetto di ergonomia, Supermercato Simply
Slides di presentazione del progetto di ergonomia, Supermercato SimplyValeria Gennari
 
Progetto di ergonomia - Supermercato Simply, Viale Monza (MI)
Progetto di ergonomia - Supermercato Simply, Viale Monza (MI)Progetto di ergonomia - Supermercato Simply, Viale Monza (MI)
Progetto di ergonomia - Supermercato Simply, Viale Monza (MI)Valeria Gennari
 
Relazione finale pedalaMi
Relazione finale pedalaMiRelazione finale pedalaMi
Relazione finale pedalaMiValeria Gennari
 

Mehr von Valeria Gennari (11)

Dossier Camereaperte 2013
Dossier Camereaperte 2013Dossier Camereaperte 2013
Dossier Camereaperte 2013
 
TripAdvisor - Un'indagine di mercato sul colosso delle review 2.0
TripAdvisor - Un'indagine di mercato sul colosso delle review 2.0TripAdvisor - Un'indagine di mercato sul colosso delle review 2.0
TripAdvisor - Un'indagine di mercato sul colosso delle review 2.0
 
Sistemi distribuiti
Sistemi distribuitiSistemi distribuiti
Sistemi distribuiti
 
TripAdvisor - Un'indagine di mercato sul colosso delle review 2.0
TripAdvisor - Un'indagine di mercato sul colosso delle review 2.0TripAdvisor - Un'indagine di mercato sul colosso delle review 2.0
TripAdvisor - Un'indagine di mercato sul colosso delle review 2.0
 
Report finale per il Corso di Strumenti d'indagine per le organizzazioni e i ...
Report finale per il Corso di Strumenti d'indagine per le organizzazioni e i ...Report finale per il Corso di Strumenti d'indagine per le organizzazioni e i ...
Report finale per il Corso di Strumenti d'indagine per le organizzazioni e i ...
 
Relazione finale Bee_cocca
Relazione finale Bee_coccaRelazione finale Bee_cocca
Relazione finale Bee_cocca
 
Presentazione del progetto "Bee_cocca. Milano Bicocca: l'isola urbana. Territ...
Presentazione del progetto "Bee_cocca. Milano Bicocca: l'isola urbana. Territ...Presentazione del progetto "Bee_cocca. Milano Bicocca: l'isola urbana. Territ...
Presentazione del progetto "Bee_cocca. Milano Bicocca: l'isola urbana. Territ...
 
Differenze tra occidentali e orientali nella lettura dello schermo del pc
Differenze tra occidentali e orientali nella lettura dello schermo del pcDifferenze tra occidentali e orientali nella lettura dello schermo del pc
Differenze tra occidentali e orientali nella lettura dello schermo del pc
 
Slides di presentazione del progetto di ergonomia, Supermercato Simply
Slides di presentazione del progetto di ergonomia, Supermercato SimplySlides di presentazione del progetto di ergonomia, Supermercato Simply
Slides di presentazione del progetto di ergonomia, Supermercato Simply
 
Progetto di ergonomia - Supermercato Simply, Viale Monza (MI)
Progetto di ergonomia - Supermercato Simply, Viale Monza (MI)Progetto di ergonomia - Supermercato Simply, Viale Monza (MI)
Progetto di ergonomia - Supermercato Simply, Viale Monza (MI)
 
Relazione finale pedalaMi
Relazione finale pedalaMiRelazione finale pedalaMi
Relazione finale pedalaMi
 

Kürzlich hochgeladen

Alessio Mazzotti, Aaron Brancotti; Writer, Screenwriter, Director, UX, Autore...
Alessio Mazzotti, Aaron Brancotti; Writer, Screenwriter, Director, UX, Autore...Alessio Mazzotti, Aaron Brancotti; Writer, Screenwriter, Director, UX, Autore...
Alessio Mazzotti, Aaron Brancotti; Writer, Screenwriter, Director, UX, Autore...Associazione Digital Days
 
Alessandro Nasi, COO @Djungle Studio – “Cosa delegheresti alla copia di te st...
Alessandro Nasi, COO @Djungle Studio – “Cosa delegheresti alla copia di te st...Alessandro Nasi, COO @Djungle Studio – “Cosa delegheresti alla copia di te st...
Alessandro Nasi, COO @Djungle Studio – “Cosa delegheresti alla copia di te st...Associazione Digital Days
 
Luigi Di Carlo, CEO & Founder @Evometrika srl – “Ruolo della computer vision ...
Luigi Di Carlo, CEO & Founder @Evometrika srl – “Ruolo della computer vision ...Luigi Di Carlo, CEO & Founder @Evometrika srl – “Ruolo della computer vision ...
Luigi Di Carlo, CEO & Founder @Evometrika srl – “Ruolo della computer vision ...Associazione Digital Days
 
Gabriele Mittica, CEO @Corley Cloud – “Come creare un’azienda “nativa in clou...
Gabriele Mittica, CEO @Corley Cloud – “Come creare un’azienda “nativa in clou...Gabriele Mittica, CEO @Corley Cloud – “Come creare un’azienda “nativa in clou...
Gabriele Mittica, CEO @Corley Cloud – “Come creare un’azienda “nativa in clou...Associazione Digital Days
 
Federico Bottino, Lead Venture Builder – “Riflessioni sull’Innovazione: La Cu...
Federico Bottino, Lead Venture Builder – “Riflessioni sull’Innovazione: La Cu...Federico Bottino, Lead Venture Builder – “Riflessioni sull’Innovazione: La Cu...
Federico Bottino, Lead Venture Builder – “Riflessioni sull’Innovazione: La Cu...Associazione Digital Days
 
Mael Chiabrera, Software Developer; Viola Bongini, Digital Experience Designe...
Mael Chiabrera, Software Developer; Viola Bongini, Digital Experience Designe...Mael Chiabrera, Software Developer; Viola Bongini, Digital Experience Designe...
Mael Chiabrera, Software Developer; Viola Bongini, Digital Experience Designe...Associazione Digital Days
 
Programma Biennale Tecnologia 2024 Torino
Programma Biennale Tecnologia 2024 TorinoProgramma Biennale Tecnologia 2024 Torino
Programma Biennale Tecnologia 2024 TorinoQuotidiano Piemontese
 
Edoardo Di Pietro – “Virtual Influencer vs Umano: Rubiamo il lavoro all’AI”
Edoardo Di Pietro – “Virtual Influencer vs Umano: Rubiamo il lavoro all’AI”Edoardo Di Pietro – “Virtual Influencer vs Umano: Rubiamo il lavoro all’AI”
Edoardo Di Pietro – “Virtual Influencer vs Umano: Rubiamo il lavoro all’AI”Associazione Digital Days
 
Daniele Lunassi, CEO & Head of Design @Eye Studios – “Creare prodotti e servi...
Daniele Lunassi, CEO & Head of Design @Eye Studios – “Creare prodotti e servi...Daniele Lunassi, CEO & Head of Design @Eye Studios – “Creare prodotti e servi...
Daniele Lunassi, CEO & Head of Design @Eye Studios – “Creare prodotti e servi...Associazione Digital Days
 

Kürzlich hochgeladen (9)

Alessio Mazzotti, Aaron Brancotti; Writer, Screenwriter, Director, UX, Autore...
Alessio Mazzotti, Aaron Brancotti; Writer, Screenwriter, Director, UX, Autore...Alessio Mazzotti, Aaron Brancotti; Writer, Screenwriter, Director, UX, Autore...
Alessio Mazzotti, Aaron Brancotti; Writer, Screenwriter, Director, UX, Autore...
 
Alessandro Nasi, COO @Djungle Studio – “Cosa delegheresti alla copia di te st...
Alessandro Nasi, COO @Djungle Studio – “Cosa delegheresti alla copia di te st...Alessandro Nasi, COO @Djungle Studio – “Cosa delegheresti alla copia di te st...
Alessandro Nasi, COO @Djungle Studio – “Cosa delegheresti alla copia di te st...
 
Luigi Di Carlo, CEO & Founder @Evometrika srl – “Ruolo della computer vision ...
Luigi Di Carlo, CEO & Founder @Evometrika srl – “Ruolo della computer vision ...Luigi Di Carlo, CEO & Founder @Evometrika srl – “Ruolo della computer vision ...
Luigi Di Carlo, CEO & Founder @Evometrika srl – “Ruolo della computer vision ...
 
Gabriele Mittica, CEO @Corley Cloud – “Come creare un’azienda “nativa in clou...
Gabriele Mittica, CEO @Corley Cloud – “Come creare un’azienda “nativa in clou...Gabriele Mittica, CEO @Corley Cloud – “Come creare un’azienda “nativa in clou...
Gabriele Mittica, CEO @Corley Cloud – “Come creare un’azienda “nativa in clou...
 
Federico Bottino, Lead Venture Builder – “Riflessioni sull’Innovazione: La Cu...
Federico Bottino, Lead Venture Builder – “Riflessioni sull’Innovazione: La Cu...Federico Bottino, Lead Venture Builder – “Riflessioni sull’Innovazione: La Cu...
Federico Bottino, Lead Venture Builder – “Riflessioni sull’Innovazione: La Cu...
 
Mael Chiabrera, Software Developer; Viola Bongini, Digital Experience Designe...
Mael Chiabrera, Software Developer; Viola Bongini, Digital Experience Designe...Mael Chiabrera, Software Developer; Viola Bongini, Digital Experience Designe...
Mael Chiabrera, Software Developer; Viola Bongini, Digital Experience Designe...
 
Programma Biennale Tecnologia 2024 Torino
Programma Biennale Tecnologia 2024 TorinoProgramma Biennale Tecnologia 2024 Torino
Programma Biennale Tecnologia 2024 Torino
 
Edoardo Di Pietro – “Virtual Influencer vs Umano: Rubiamo il lavoro all’AI”
Edoardo Di Pietro – “Virtual Influencer vs Umano: Rubiamo il lavoro all’AI”Edoardo Di Pietro – “Virtual Influencer vs Umano: Rubiamo il lavoro all’AI”
Edoardo Di Pietro – “Virtual Influencer vs Umano: Rubiamo il lavoro all’AI”
 
Daniele Lunassi, CEO & Head of Design @Eye Studios – “Creare prodotti e servi...
Daniele Lunassi, CEO & Head of Design @Eye Studios – “Creare prodotti e servi...Daniele Lunassi, CEO & Head of Design @Eye Studios – “Creare prodotti e servi...
Daniele Lunassi, CEO & Head of Design @Eye Studios – “Creare prodotti e servi...
 

Associazioni semantiche per il Computational Journalism

  • 1. Relazione  Finale  del  Progetto  svolto  per  il   corso  di  Intelligenza  Artificiale A.A.  2012/2013 Professoressa  Bandini Professor  Palmonari Associazioni  semantiche  per  il  Computational   Journalism:  l’importanza  delle  valutazioni  di   esperti  di  dominio Valeria  Gennari  [758677] Riccardo  Pietra  [720918]
  • 2. 2 INDICE 1  Descrizione  del  dominio..................................................................................................................4 1.1  Computational  journalism.............................................................................................................4 1.2  Linked  open  data...........................................................................................................................6 1.3  Dbpedia  .........................................................................................................................................6 1.4  Dbpedia  spotlight..........................................................................................................................7 2  Descrizione  del  lavoro  di  tesi.........................................................................................................8   2.1  Introduzione  –  spiegazione  generale...........................................................................................8 2.2  Estrazione  della  base  documentale.............................................................................................8 2.3  Annotazione  della  base  documentale.........................................................................................9 2.4  Estrazione  del  grafo  massimale...................................................................................................9 2.5  Valutazione  dei  percorsi  e  selezione  del  grafo  ridotto...............................................................9 3  Descrizione  del  nostro  lavoro  di  valutazione...............................................................................11 3.1  Dataset  e  metriche  di  valutazione...............................................................................................11 3.2  Analisi  dei  risultati........................................................................................................................12 4  Conclusioni  personali  sul  lavoro  svolto........................................................................................17 4.1  Le  nostre  valutazioni  a  confronto  e  parametri  utilizzati............................................................17 4.2  Valutazione  generale  dei  risultati  prodotti  dall’algoritmo........................................................19 4.3  Possibili  usi  futuri  del  Computational  journalism........................................................................21 4.4  Oltre  il  Computational  journalism,  possibili  usi  delle  associazioni  semantiche........................22 4.5  La  visualizzazione  grafica  delle  associazioni  semantiche.........................................................27 Note  e  bibliografia  ..........................................................................................................................32
  • 3. 3 INDICE  DELLE  FIGURE Figura  1.  Guida  grafica  al  Data  journalism..........................................................................................5 Figura  2.  Tabella  riassuntiva  dell’articolo  di  sport............................................................................12 Figura  3.  Tabella  riassuntiva  dell’articolo  di  tecnologia...................................................................12 Figura  4.  Tabella  riassuntiva  dell’articolo  di  politica........................................................................12 Figura  5.  Precisione  +@K%  Articolo  sport........................................................................................13 Figura  6.  Precisione  -­‐@K%  Articolo  sport.........................................................................................13 Figura  7.  Precisione  +@K%  Articolo  politica.....................................................................................14 Figura  8.  Precisione  -­‐@k%  Articolo  politica......................................................................................14 Figura  9.  Precisione  +@K%  Articolo  tecnologia...............................................................................15 Figura  10.  Precisione  +@K%  Articolo  tecnologia.............................................................................15 Figura  11.  Tabella  dell’articolo  Obama  Campaign  Endgame:  grunt  Work  and  Cold  Math.................17 Figura  12.  Tabella  dell’articolo  Romney  is  Upbeat,  but  Math  is  the  Same........................................18 Figura  13.  Tabella  dell’articolo  Efforts  to  Curb  Social  Spending  Face  Resistance..............................18 Figura  14.  Infografica  coi  dati  estratti  dal  portale  Rimozione  Macerie..........................................24 Figura  15:  Risultati  della  ricerca  “Bacon”  su  Google.......................................................................26 Figura  16:  Ricerca  successiva  su  Google  -­‐    Sommario  delle  informazioni  sul  personaggio   d’interesse  e  ricerche  correlate.......................................................................................................26 Figura  17:  Alcune  associazioni  semantiche  su  Excel........................................................................28 Figura  18:  Esempio  di  proprietà  estratte,  su  Excel..........................................................................29
  • 4. 4 1  Descrizione  del  dominio 1.1  Computational  Journalism  o  Data-­‐driven  Journalism Data-­‐driven  journalism  is  a  journalistic  process  based  on  analyzing  and  filtering  large  data  sets  for   the  purpose  of  creating  a  new  story.  [1]   Il  Computational  journalism  consiste  in  un’attività  giornalistica  basata  sull’analisi  e  sul  filtraggio   di  grandi  quantità  di  dati,  liberamente  disponibili  online,  per   la  creazione   di  una  nuova  storia   giornalistica;   prevede   l’applicazione   di   software   e   tecnologie   nelle   attività   riguardanti   il   giornalismo.   Il  processo  si  divide  in  quattro  fasi  fondamentali: • Ricerca,  recupero  dati  dal  web • Filtraggio  dei  dati  recuperati  e  trasformazione  delle  informazioni  in  dati  strutturati • Visualizzazione  attraverso  particolari  tool  grafici  (interfaccia  per  il  giornalista) • Pubblicazione   di   una   nuova   storia   giornalistica,   sulla   base   dei   dati  precedentemente   selezionati. Per   quanto   riguarda   le   due   fasi   iniziali,   esistono   diverse   tecniche   per   portarle   a   termine,   metodologie   legate   alle   scienze   sociali   e   a   quelle   informatiche   –   tecniche   statistiche,   di   correlazione,   di   visualizzazione   mashup,   di   parsing   e   di   co-­‐creazione   –   che   permettono   il   recupero  di  informazioni  rilevanti  secondo  diverse  metriche  e  giudizi. La  diffusione  del  Computational  journalism  permetterebbe  un  miglioramento  delle  qualità  delle   notizie   giornalistiche   e   delle   notizie   digitali,   un   utilizzo   più   efficace   dei   dati   pubblicamente   disponibili  sul  web  e  una  riduzione  dei  tempi  di  ricerca  delle  informazioni  d’interesse. Il  Data-­‐driven  journalism  (DDJ)   è  un  approccio  innovativo  e  come  tale  deve  ancora  percorrere   molta  strada  per  essere  migliorato.  [2]   È  importante  sottolineare  come  esso  non  automatizzi   ogni  compito   fondamentale   del   lavoro   giornalistico  e   quindi   non  sostituisca   i  giornalisti   che   lavorano  per  una  particolare  testata.  Esso,  infatti,  è  incentrato  sull’importanza  del  giornalista,   ma  consente  di  semplificare  alcune  attività,  permettendo  un  risparmio  di  tempo  e  un  aumento   delle  qualità  di  nuove  storie  giornalistiche  prodotte.
  • 5. 5 Figura  1.  Guida  grafica  al  Data  journalism L’immagine   è   tratta   dalla   presentazione   [3]   del   libro   The  Data   Journalism  Handbook  [4]   che   nasce   come   progetto   collettivo   e   open   source   al   Mozfest   2011   di   Londra.     Co-­‐creato   da   moltissimi   personaggi   influenti   nel   settore   -­‐   membri   dell’Open   knowledge   Foundation,   giornalisti  del  Guardian,  della  BBC,  ricercatori  ecc.  -­‐  il  libro,  che  in  Italia  è  stato  presentato  al  
  • 6. 6 Festival   del   Giornalismo  di   Perugia,   è   una   guida   tascabile   e   alla   portata   di   tutti   per   il   Data   journalism:  fornisce  consigli  utili,  strumenti  e  dritte  su  come  iniziare,  cosa  fare,  dove  trovare  i   dati  e  come  sfruttarli.  La  figura  riassume  brevemente  gli  attori  principali,  i  loro  ruoli  e  i  passaggi   cruciali  per  creare  una  storia  giornalistica  con  i  Linked  Data.   1.2  Linked  Open  Data Linked   data  describes  a  method   of  publishing  structured   data  so   that   it   can   be  interlinked  and   become  more  useful.  [5] Il  termine  Linked  Open  Data  (LOD)  si  riferisce  a  un  insieme  di  pratiche  per  la  pubblicazione  e  il   collegamento  di  dati  strutturati  sul   web,  che   sono   state   adottate   nel   tempo  da  un  numero   crescente  di  fornitori  di  dati.  Ciò  ha  portato  alla  nascita  del  Web  of  Data,  uno  spazio  dati  globale   all’interno   del   web.   La   particolarità   dell’approccio   LOD   sta   nel   formato   con  cui   i  dati   sono   descritti,  ovvero  il  Resource  Description  Framework  (RDF),  che  è  caratterizzato  da  una  codifica   dei  dati  sotto  forma  di  triple  costituite  da  soggetto,  predicato  e  oggetto.  Il  soggetto  e  l’oggetto   possono  essere   descritti   da   Uniform   Resource  Identifier   (URI),   oppure   l’oggetto   può   essere   descritto  da   un  letterale,   il  predicato  risulta  caratterizzato   da   un  URI   e   permette   di  definire   come  sono  relazionati  tra  loro  soggetto  e  oggetto.  Ciò  permette  di  svolgere  una  relazione  tra   diverse  entità  appartenenti  a  diverse  fonti  dati,  poiché  ogni  entità  è  descritta  in  termini  simili  e   confrontabili   (in   accordo   con   determinati   principi,   conosciuti   e   condivisi).   Per   usare   una   metafora,  è  come  se  la  stessa  lingua  fosse  espressa  diversamente.  Ad  esempio  Ontology  Web   Language  (OWL)  -­‐  e  le  sue  molteplici  versioni,  molto  differenti  tra  loro  (OWL  DL,  OWL  lite,  OWL   Full,   OWL   2DL)   -­‐   è   un   linguaggio   di   markup   per   rappresentare   esplicitamente   significato   e   semantica  di  termini  con  vocabolari  e  relazioni  tra  gli  stessi.  È  quindi  in  grado  di  fornire  diversi   gradi  di  espressività  nella  modellazione  d’interesse.  Grazie  a  linguaggi  come  questo  chiunque   può  pubblicare  vocabolari  appositamente  creati  ed  essi  a  loro  volta  possono  essere  collegati  ad   altri  già  esistenti. 1.3  Dbpedia Dbpedia  è  un  progetto  che  mira  all’estrazione  dei  dati  presenti  in  Wikipedia  e  alla  conversione   di  questi   in  dati  strutturati,   in  modo  tale   che  le   tecniche   del   Semantic   Web   possano  essere   impiegate  sulla  base  di  conoscenza  strutturata.   Per  raggiungere  questo  scopo,  sono  necessari  i  seguenti  passi: • Sviluppo  di  un  framework  per  l’estrazione  delle  informazioni,  conversione  del  contenuto   di  Wikipedia  in  RDF • Il  dataset  RDF  multi  dominio  che  viene  creato,  rappresentante  il  contenuto  informativo   di  Wikipedia,  potrà  essere  utilizzato  da  diverse  applicazioni  del  Semantic  web • Il  dataset  Dbpedia  verrà  interconnesso  con  altri  dataset,  realizzando  una  visione  globale   del  Semantic  web • Una  serie  di  interfacce  e  moduli  d’accesso,  renderanno  i  dati  accessibili  tramite  servizi   web.
  • 7. 7 Ognuna  delle  entità  contenute  nel  dataset  risulta  identificata  univocamente  da  un  URI,  il  quale   rappresenta  l’indirizzo  della  risorsa.  Esistono  tre  modi  per  poter  accedere  al  dataset  di  Dbpedia:   • Linked  Data   • il  protocollo  SPARQL  (SPARQL  Protocol  and  RDF  Query  Language) • il  download  dei  dump  RDF. Poiché  le  informazioni  all’interno  di  Dbpedia  sono  in  continuo  aggiornamento  (o  almeno  parte   di  esse),  è  stato  realizzato  Dbpedia  Live,  il  quale  ha  il  compito  di  eseguire  una  sincronizzazione   di  Dbpedia  con  Wikipedia. 1.4  Dbpedia  Spotlight Dbpedia  spotlight  è   un  progetto  che  mira  a  collegare   documenti  testuali  con  LOD.  In  questa   direzione   è   stato   realizzato   Namer   Entity   Recognizer   (NER),   un   sistema   che   permette   di   annotare  automaticamente  documenti  testuali  sulla  base  di  URI  presenti  in  Dbpedia.   Questo  approccio  si  può  dividere  fondamentalmente  in  tre  fasi: • Individuazione   delle   frasi   nel   testo   che   potrebbero   contenere   delle   entità   presenti   all’interno  di  Dbpedia • Definizione  di  un  mapping  fra  le  entità  contenute  nelle  frasi  e  i  loro  candidati  selezionati,   i  quali  permetteranno  di  disambiguare  il  loro  significato • Utilizzo   del   contesto   delle   frasi   per   la   scelta   dei   migliori   candidati,   i   quali   verranno   selezionati   anche   sulla   base   dei   parametri   definiti   in   precedenza   e   specificati   inizialmente  dall’utente. Dbpedia  Spotlight  risulta  molto  flessibile  in  quanto  permette  di  selezionare  in  base  alle  proprie   esigenze  i  valori  dei  seguenti  parametri:   • Importanza  (numero  di  volte  in  cui  l’entità  è  menzionata  in  Wikipedia) • Disambiguazione  (basata  sul  contesto  del  documento  testuale)   • Annotazione  (scelta  dei  tipi  di  termini  grammaticali  da  selezionare) • Ambiguità  contestuale   • Confidenza. Lo  strumento  si  presenta  attraverso  una  semplice  interfaccia  web  all’interno  della  quale   sarà   possibile   definire   ogni   singolo   parametro   per   la   ricerca   di   entità   su   uno   o   più   documenti   testuali.
  • 8. 8 2  Descrizione  del  lavoro  di  tesi 2.1  Introduzione  –  Spiegazione  generale La  tesi  del  collega  Polidoro  -­‐  cui  siamo  stati  “affiancati”  -­‐  ha  come  scopo  la  realizzazione  di  un   sistema   software   che,   dato   un   insieme   di   documenti   testuali   (principalmente   articoli   giornalistici)  sia  in  grado  di  associare  un  contesto  fattuale  agli  stessi  sulla  base   dei  data  LOD   Cloud.   Questo   permetterà   di   associare   dei   dati   fattuali,   i   quali   costituiranno   un   approfondimento  contestuale  di  un  articolo.  In  altre  parole,  il  software  lanciato  troverà,  grazie   ad  un  algoritmo,  alcune  entità  presenti  nell’articolo,  entità  cui  sarà  associato  un  URI  sul  dataset   Dbpedia.  Proprio  grazie  alle  informazioni  presenti  su  Dbpedia,  riguardo  a  una  particolare  entità,   saranno  trovati  dei  collegamenti  con  altre  entità,  presenti  nell’articolo,  o  anche  solo  presenti   sul  dataset.  L’approccio  realizzato  è  stato  denominato  Data  Context  Extraction  for  News  Articles   (DaCENA). Quest’approccio  si  basa  su  un  processo  composto  idealmente  da  quattro  passi: • Estrazione  della  base  documentale • Annotazione  della  base  documentale • Estrazione  del  grafo  massimale • Valutazione  dei  percorsi  e  selezione  del  grafo  ridotto I  documenti  testuali  usati  sono  stati  tre  articoli  giornalistici  presenti  sul  sito  web  del  New  York   Times,  i  tre  articoli  trattano  tre  temi  diversi:  sport,  politica  e  tecnologia. 2.2  Estrazione  della  base  documentale Per  quanto  riguarda   l’estrazione   della  base  documentale,  cioè  il  recupero  del  corpo  testuale   dell’articolo,  un  problema  è  subito  evidente:  attorno  all’articolo  in  sé,  sulle  pagine  web  di  una   testata   giornalistica  ospitante   appunto  un  articolo,   appare   molto  materiale  testuale   (articoli   collegati,   pubblicità,   moduli   di   accesso,   impostazioni…)   e   questo   può   causare   problemi   al   processo  automatico  di  estrazione  della  base  documentale.  Ovviamente  un  algoritmo  non  ha  la   capacità  selettiva  che  può  avere  un  utente  umano  nello  scindere  il  corpo  dell’articolo  dalle  altre   annotazioni  testuali  presenti   sulla   pagina  web.   Per   risolvere   questo   problema,   il  software   si   basa  sul  linguaggio  HTML  con  cui  è  definita  la  formattazione  grafica  della  pagina  attraverso  dei   tag  univoci.  È  quindi  possibile  notare  come  all’interno  di  ogni  sorgente  html,  ogni  parte  testuale   contenuta  nelle  pagine  web  possa  essere  identificata  sulla  base  dell’apposito  tag  HTML  in  cui   essa  è  contenuta. Il  processo  di  recupero  automatizzato  della  parte  testuale  d’interesse  all’interno  della  sorgente   HTML   viene   denominato   web   scraping.   Questa   è   una   tecnica   software   che   permette   l’estrazione  delle   informazioni  presenti  all’interno  delle  pagine  web.   Fondamentalmente   web   scraping,   simulando  l’esplorazione   di  un  utente   all’interno   di  una   pagina   web,   è   in  grado  di   recuperare  le  informazioni  di  interesse  tramite  una  richiesta  al  relativo  portale  web  attraverso  il   protocollo   http.   Questa   tecnica   si   focalizza   sulla   trasformazione   dei   dati   non   strutturati   presenti   sul   web,   codificati   attraverso   il   formato   HTML,   in   dati   strutturati,   i   quali   possono   essere  memorizzati  ed  analizzati.  
  • 9. 9 All’interno  di  questo  primo  passo  relativo  all’estrazione  della  base  documentale,  il  web  scraping   è  stato  realizzato  sulla  base  di  un  parser  html,  che  permette  l’estrazione  e  la  pulizia  del  corpo   testuale  dell’articolo  giornalistico. 2.3  Annotazione  della  base  documentale L’annotazione   consiste   nell’identificazione  delle   entità  riportate   all’interno  del  testo,  le  quali   verranno  individuate  tramite  le  entità  definite  all’interno  di  Dbpedia.  Per  questo  processo  verrà   utilizzato   un   sistema   NER,   ovvero   Dbpedia   Spotlight,   il   corpo   dell’articolo   estratto   verrà   inoltrato  in  input  a  Dbpedia  Spotlight  che  lo  analizzerà  e  provvederà  ad  annotarlo. All’interno  di  questo  processo,  è  stato  deciso  di  chiedere  allo  strumento  di  fornire  un  output  in   formato   XML   (Extensible   Market   Language),   che   sia   caratterizzato   da   un   insieme   di   entità   riconosciute  nell’articolo  associate  al  relativo  URI  dell’entità  presente  in  Dbpedia.   2.4  Estrazione  del  grafo  massimale Il   grafo  massimale   contiene   tutti   i  percorsi  emersi  fra   le   entità   recuperate   dall’articolo.   Per   continuare   il   processo   di   estrazione   del   grafo   massimale,   è   necessario   identificare   l’entità   sorgente   dell’articolo,   in   modo   tale   da   poter   ricercare   associazioni   semantiche   tra   l’entità   sorgente  (cioè  quella  definita  come  la  più  citata  all’interno  dell’articolo)  e  le  restanti,  riducendo   la  ricerca  tra  coppie  di  entità  più  rilevanti  nei  confronti  dell’articolo. Per   ogni   coppia   di   entità   (entità   sorgente   –   entità   arbitraria   altra)   saranno   ricercate   delle   associazioni   semantiche   caratterizzate   da:   una   singola   proprietà,   una   sequenza   di   due   proprietà  con  un’entità  intermedia  sconosciuta,  una  sequenza  di  tre  proprietà  con  due  entità   intermedie  sconosciute.  È  inoltre   importante  evidenziare  come  ognuna  delle  proprietà  stanti   fra  una  coppia  di  entità,  possa  essere  entrante  o  uscente,  rispetto  alle  entità  stesse. Una  volta  completata  la  ricerca  delle  associazioni  semantiche  fra  l’entità  sorgente  e  le  restanti,   si  avrà  a  disposizione  il  grafo  massimale  relativo  all’articolo  giornalistico  analizzato. 2.5  Valutazione  dei  percorsi  e  selezione  del  grafo  ridotto L’insieme   delle   query   inviate   all’enpoint   di   Dbpedia   Live,   basato   sulla   ricerca   di   tutte   le   associazioni  semantiche  presenti  tra  coppie  di  entità  definite,  ha  restituito  un  grafo  massimale   ampio,   caratterizzato   da   un   minimo   di   650   ca   fino   a   un   massimo   di   8500   ca   associazioni   semantiche  per   ogni  articolo.  Data  la  vastità  delle  associazioni  semantiche  in  output,  diventa   necessario   individuare   quelle   rilevanti   tra   coppie   di   entità   sulla   base   di   un   ranking   fornito   all’utente.   La   valutazione   sarà   basata   su   alcune   metriche   formali   scelte,   ovvero   Rarity,   Popularity   e   Context.   Le   prime   due   permettono   di   effettuare   considerazioni   numeriche   sulle   proprietà   e   sulle  entità    identificate  all’interno  delle  associazioni  semantiche,  mentre  l’ultima  permette  di   prendere  in  considerazione  le  classi  a  cui  appartengono  le  entità  analizzate.  Illustriamole  un  po’   più  nel  dettaglio.  
  • 10. 10 • Rarity   permette   di   considerare   rilevanti   quelle   associazioni   che   contengono   delle   proprietà   ontologiche   che   occorrono   meno   frequentemente   all’interno   di   Dbpedia,   poiché   saranno  considerate   le   più   informative   rispetto  alle   restanti  caratterizzate   da   un’alta  frequenza  di  utilizzo • Popularity   permette   invece   di   considerare   le   entità   presenti   all’interno   di   ogni   associazione  semantica  (anziché  le  proprietà  ontologiche,  come  fa  Rarity),  privilegiando   quelle   associazioni   semantiche   che   contengono   entità   più   popolari   all’interno   di   Dbpedia.  La  popolarità  di  un’entità,  in  Dbpedia,  è  definita  come  la  somma  del  numero  di   proprietà  entranti  ed  uscenti  dalla  stessa • Context  permette  infine  di  considerare  la  semantica  delle  entità  identificate  all’interno   delle  associazioni  semantiche  recuperate  in  precedenza,  privilegiando  quelle  contenenti   delle   entità   correlate   al   contesto   giornalistico.   Ovvero,   per   ogni   entità   recuperata   dovranno  essere  recuperate  le  classi  alle  quali  essa  appartiene   all’interno  di  Dbpedia.   Attraverso   opportuni  calcoli,  otterremo  ogni  associazione   semantica   associata  con  la   propria  rilevanza  nei  confronti  del  contesto  dell’articolo  giornalistico. Poiché  le  rilevanze  ricavate  sono  caratterizzate  da  una  diversa  scala  di  valori,  risulta  necessario   effettuare  una  normalizzazione  degli  stessi  tra  un  valore   minimo  pari  a  0  un  valore   massimo   pari   a   1.   Attraverso   le   rilevanze   ricavate   e   normalizzate   sarà   possibile   procedere   a   una   combinazione   delle   stesse   tra   loro   sulla   base   del   valore   massimo   e   medio   risultante   tra   le   diverse   coppie   e   tra   tutte   e   tre   le   rilevanze   delle   rispettive   metriche.   Questo   permetterà   un’estrazione   dei   grafi   ridotti   caratterizzati   dalle   associazioni   semantiche   più   rilevanti   nei   confronti  di  ogni  metrica,  di  ogni  combinazione  e  dell’approccio  Random  basato  su  estrazione   casuale.
  • 11. 11 3  Descrizione  del  nostro  lavoro  di  valutazione 3.1  Dataset  e  metriche  di  valutazione I  tre  articoli  da  noi  valutati  trattano  argomenti  diversi,  vediamoli  ora  più  nel  dettaglio.  L’articolo   riferito  all’ambito  sportivo  dal  titolo  Can  Del  Piero  Inspire  Juventus  to  Glory:  Old  Lady  Puts  Hopes   On  One  Young  Star  [6]  descrive  i  trascorsi  di  Alessandro  Del  Piero  con  la  maglie  della  Juventus.   L’articolo  politico  Obama  Campaign  Endgame:  grunt  Work  and  Cold  Math  [7]  tratta  la  campagna   politica  affrontata  da  Obama  per  le  elezioni  2012.  Infine,  l’articolo  riguardante  la  tecnologia  dal   titolo  Apple  profit  Rises  24%  on  Sales  of  iPhone  5  [8]  tratta  i  profitti  di  Apple  riguardanti  la  vendita   di  iPhone  5. Lo  strumento,   per   ogni   articolo   selezionato,   ha   eseguito   i  passi  già   descritti,   restituendo   le   rilevanze  delle  associazioni  semantiche  nei  confronti  delle  metriche  Rarity,  Popularity,  Context  e   delle  loro  rispettive  combinazioni  e  un  insieme  di  numeri  generati  casualmente,  i  quali  saranno   utilizzati   per   una   selezione   casuale   secondo   l’approccio   Random.   Questo   rappresenta   la   valutazione  delle  associazioni  semantiche  ricavate,  da  parte  della  macchina. La  valutazione  da  parte  nostra  è  invece  avvenuta  attraverso  la  costruzione  di  un  Gold  Standard   e   quindi  mediante   giudizi  di  rilevanza   espressi  sulle  associazioni  semantiche   caratterizzanti  il   grafo  massimale  estratto  per  ogni  articolo.  È  stato  questo  dunque  il  nostro  ruolo.  Avendo  noi   un   background   formativo   adeguato,   poiché   provenienti   da   un   corso   di   laurea   triennale   in   Scienze   della   Comunicazione,   il  nostro   compito   è   stato  quello   di   valutare   ogni   associazione   semantica   presente   in  ognuno   dei   grafi   massimali,   output   del   lavoro   dell’algoritmo,   con   un   giudizio  che  andasse   da  0  a  3,  dove   0  significa  che  l’associazione  semantica  è   stata  valutata   errata,  1   che  è   stata   valutata  poco  interessante/significativa,  fino  a   3   che  indica  un  percorso   interessante,  sia  per   le   entità  presenti  sia  per   le   proprietà   che  le  relazionano.  Il   giudizio   0   è   stato  dato  solo  a  quelle  associazioni  semantiche  in  cui  l’entità  estratta  dall’articolo  (cioè  quella   all’estrema  destra  della  riga)  fosse  considerata  sbagliata,  non  idonea  cioè  ad  una  relazione  con   l’entità   principale   estratta   dall’articolo   (ovvero   la   prima   a   sinistra   nella   riga   che   esprime   l’associazione  semantica).  Per  riuscire  a  valutare  queste  relazioni,  è  stato  fatto  un  importante   lavoro   di   ricerca   di   informazioni   (sempre   sul   web)   riguardanti   le   entità   citate   nelle   numerosissime  associazioni  semantiche  presenti  nei  tre  grafi  massimali.  Una  volta  compiuta  la   valutazione   è   stato   possibile   ottenere   i   grafi   massimali   analizzati   dal   punto   di   vista   della   rilevanza  delle  associazioni  semantiche  contenute  nei  confronti  degli  articoli  giornalistici.     A   questo   punto   viene   fatto   un   confronto   fra   le   nostre   valutazioni   e   quelle   riportate   dalla   macchina  secondo  le  metriche  Rarity,  Popularity,  Context,  le   loro  rispettive  combinazioni  e  un   insieme   di   numeri  generati  casualmente,  i   quali   saranno  utilizzati   per   una   selezione   casuale   secondo  l’approccio  Random.  Per  le  nostre  valutazioni,  sono  state  selezionate  quelle  valutate  3   (Precisione+@K%)  e  separatamente  quelle  valutate  2  e  3  (Precisione-­‐@K%).   I   due   gruppi   sono   stati   quindi   associati   ad   ogni   metrica   (della   valutazione   da   parte   della   macchina)  e  ad  ogni    combinazione  delle  metriche  fra  loro  (a  diverse  percentuali  sul  totale  delle   associazioni  semantiche  ricavate).
  • 12. 12 3.2  Analisi  dei  risultati Di  seguito  vengono  presentate  le  tabelle  relative  alle  nostre  valutazioni  dei  tre  articoli  di  Sport,   Tecnologia  e  Politica: Figura  2.  Tabella  riassuntiva  dell’articolo  di  Sport Figura  3.  Tabella  riassuntiva  dell’articolo  di  Tecnologia Figura  4.  Tabella  riassuntiva  dell’articolo  di  Politica
  • 13. 13 La   prima   voce   presente   in  tutte   e   tre   le   tabelle   si  riferisce   al   numero  totale   di  associazioni   semantiche   trovate  dall’algoritmo.  Ogni  associazione   semantica  è   caratterizzata  da  un’entità   iniziale  (uguale  per  tutte),  un’entità  finale  e  una  proprietà  che  le  lega.    Fra  le  due  entità  possono   comparirne   di  nuove  (entità  intermedie),  legate  alla   prima,  all’ultima  e  fra  di  loro  attraverso   diverse  proprietà.  Se  un’associazione  è  costituita  da  due  entità  e  una  proprietà  che  le  relaziona,   si  dice  che  ha  lunghezza  1,  se  invece  ci  sono  tre  entità  e  quindi  due  proprietà  che  le  legano  si   dice   che   ha   lunghezza   2.   Il   numero   delle   proprietà   presenti  nel  percorso   trovato  (che   sarà   sempre  inferiore  di  un’unità   rispetto  al  numero  delle   entità  coinvolte  in  quella  associazione)   conta  come  “lunghezza”  dell’associazione  semantica  in  questione. Di  seguito  invece   presentiamo  i  grafici  relativi  al  confronto  fra  le   nostre   valutazioni  e   quelle   derivate  dalle  metriche  Rarity,  Context,  Random  e  le  loro  combinazioni.  Le  associazione  valutate   vengono   prese   a   una   certa   percentuale   sul   loro   totale.   Fra   queste   si   può   vedere   quale   percentuale  sia  stata  considerata  rilevante  dalla  macchina,  secondo  la  metrica  considerata. Figura  5.  Precisione  +@K%  Articolo  sport Attraverso  la  figura  5  si  evidenzia  come  la  metrica  Rarity   risulti  mediamente  migliore  rispetto   alle  restanti.  Al  75%  risulta  migliore  la  metrica  Popularity. Figura  6.  Precisione  -­‐@K%  Articolo  sport
  • 14. 14 Attraverso  la  figura  6  si  evidenzia  come   la   metrica   Context   e   la   combinazione   sulla  base  del   massimo   tra   le   metriche   Popularity   e   Context   risultino   mediamente   migliori   rispetto   alle   restanti.  Fino  al  25%  la  metrica  Context  supera  le  restanti,  in  modo  differente  al  50%  e  al  75%,   rispettivamente,  la  combinazione  sulla  base  del  massimo  tra  Rarity,   Context   e  Popularity   e  la   combinazione  sulla  base  della  media  tra  Popularity  e  Context  risultano  migliori. Figura  7.  Precisione  +@K%  Articolo  politica In  figura  7,  si  può  notare  che  la  metrica  Rarity  risulti  mediamente  migliore  rispetto  alle  restanti.   Al  25%  risulta  migliore  la  metrica  Context. Figura  8.  Precisione  -­‐@k%  Articolo  politica Dalla  figura  8  si  evince  che  la  metrica  Rarity  risulta  nettamente  migliore  rispetto  alle  altre.
  • 15. 15 Figura  9.  Precisione  +@K%  Articolo  tecnologia La  figura  9  invece  evidenzia  come  la  combinazione  sulla  base  del  massimo  tra  le  metriche  Rarity   e  Context  risulti  mediamente  migliore  rispetto  alle  restanti.  Fino  al  10%,  la  stessa  risulta  migliore   rispetto   alle   restanti,   differentemente   al   25%   risulta   migliore   la   combinazione   sulla   base   del   massimo   tra   le   metriche   Popularity   e  Context   ed  infine   al   50%   e   al   75%   risultano   migliori   la   metrica  Popularity  e  la  combinazione  sulla  base  della  media  tra  le  metriche  Popularity  e  Context. Figura  10.  Precisione  +@K%  Articolo  tecnologia Interpretando  il  grafico  in  figura  10,  si  deduce  che  la  combinazione  sulla  base  della  media  tra  le   metriche   Popularity   e  Context   risulti  mediamente   migliore   rispetto  alle   restanti.   La   stessa   è   migliore  anche  al  5%  ma  al  10%  e  al  25%  ,  rispettivamente,  la  metrica  Context  e  Rarity  risultano   migliori   rispetto   alle   restanti.   Infine   al   50%   e   al   75%,   la   metrica   Popularity   risulta   la   migliore   insieme  alla  combinazione  sulla  base  della  media  tra  le  metriche  Popularity  e  Context. È  importante   sottolineare  che  le  nostre  valutazioni  sono  tendenze  di  giudizio  personale,   che   dipendono  quindi  dalla  soggettività  di  chi  valuta.  L’analisi  dei  risultati  dati  dal  confronto  delle   nostre  valutazioni  con  quelle   della  macchina  mostra   come   l’ambito  di  cui  tratta  l’articolo  sia   rilevante   per   la  capacità  di  giudizio  delle  metriche:  nell’ambito  politico  le   combinazioni  tra  le   metriche   non   riescono   a   raggiungere   mediamente   gli   stessi   risultati   ottenuti   dalla   metrica   Rarity  (la  più  precisa),  così  come  risulta  anche  dall’analisi  riguardante  l’articolo  sportivo.  
  • 16. 16 Per   quanto   riguarda   l’articolo   in   ambito   tecnologico,   quello   che   esaminava   le   vendite   e   gli   introiti   dell’iPhone   5,   risulta   invece   migliore   la   combinazione   sulla   base   della   media   tra   le   metriche  Popularity  e  Context.
  • 17. 17 4  Conclusioni  personali  sul  lavoro  svolto 4.1  Le  nostre  valutazioni  a  confronto Gli   argomenti   e   i   giudizi   trattati   finora   riguardavano   il   nostro   ruolo   di   valutatori   delle   associazioni  semantiche  recuperate  nei  tre  articoli  analizzati  nella  tesi.  Dagli  incontri  col  Prof.   Palmonari  è  però  risultata  interessante  l’idea  di  andare  oltre  l’attività  in  collaborazione   con  il   collega  Polidoro.  Abbiamo  dunque  deciso  di  proseguire  il  nostro  lavoro  di  valutatori  su  altri  due   articoli,  che   avessero  come   tema   la  politica.    Questa   decisione  è   stata  presa   per   cercare  di   valutare  meglio  l’algoritmo  che  ha  prodotto  i  risultati  (l’articolo  di  politica  analizzato  per  la  tesi   di  Alessio  era   quello   con  le  valutazioni   più   basse),  in  un  ambito,   quello  della   politica,   che   ci   sembrava  quello  più  interessante  e   “caldo”.    Abbiamo  inoltre   deciso  che   le   valutazioni  per  i   nuovi  articoli  sarebbero  state  doppie,  a  differenza  della  prima  fase  di  lavoro  in  cui  ogni  articolo   era  stato  valutato  da  uno  solo  di  noi.  Riccardo  ha  quindi  analizzato  il  primo  articolo  di  politica,   valutato  precedentemente  da  Valeria,  siamo  poi  passati  alle  valutazioni  di  altri  due  articoli  e  li   abbiamo  in  seguito  messi  a  confronto  per  verificare  l’uniformità  dei  giudizi  dati  singolarmente.   Le  valutazioni  di  una  sola  persona  sono  interessanti,  e   sono  state   utili  per   il   lavoro  di  tesi  di   Polidoro,  ma  di  certo  non  bastano  in  linea  generale,  possono  insomma  essere  considerate  un   buon   punto   di   partenza.   Due   persone   –   con   giudizi,   conoscenze,   parametri   di   valutazione   ovviamente  diversi  –  offrirebbero  un’analisi  più  varia.   Abbiamo   dunque   proseguito   il   nostro   progetto   lavorando   in   quest’ottica:   con   valutazioni   incrociate   l’analisi   delle   associazioni   porterà   a   risultati  e   riflessioni   a   riguardo   di   più   ampio   respiro.   Gli   articoli   che   trattavano  argomenti   politici  sono   stati   dunque   tre:   il   primo,   come   abbiamo   detto,  è  lo  stesso  utilizzato  nella  tesi  (Obama  Campaign  Endgame:  grunt  Work  and  Cold  Math,  dal   sito  web  del  New  York  Times),  gli  altri  due,  sempre  provenienti  dal  sito  web  del  New  York  Times,   titolavano:   Romney   is  Upbeat,  but   Math   is  the  Same  [9]e  Efforts  to  Curb   Social  Spending  Face   Resistance  [10].  Il  primo  dei  due  si  focalizzava  sulla  campagna  elettorale  di  Romney  e  sui  numeri   delle  previsioni,  che  davano  la  sfida  aperta  fino  all’ultimo.  Il  secondo  invece  sui  provvedimenti   riguardo  a  Social  Security  e  Medicare  che  il  rieletto  presidente  Obama  cercherà  di  apportare. Come   già   detto,   ognuno   di   noi   ha   valutato   singolarmente   le   quasi   19000   associazioni   semantiche   estratte   in  totale  dai  tre   articoli.   Ecco  delle  tabelle  che   riassumono  le  differenze   quantitative  fra  le  due  valutazioni. Valeria Riccardo 1 2090 2638 2 1337 873 3 107 23 0 4 4 Figura  11.  Tabella  dell’articolo  Obama  Campaign  Endgame:  grunt  Work  and  Cold  Math
  • 18. 18 Valeria Riccardo 1 4630 4477 2 1223 1382 3 10 1 0 0 3 Figura  12.  Tabella  dell’articolo  Romney  is  Upbeat,  but  Math  is  the  Same Valeria Riccardo 1 8419 8157 2 858 1090 3 69 99 0 0 0 Figura  13.  Tabella  dell’articolo  Efforts  to  Curb  Social  Spending  Face  Resistance Nessuna  associazione  semantica  ricavata  dall’articolo  sopra  citato  è  stata  valutata  0. Come  si  può  osservare  dai  risultati  riportati  nelle  tabelle  di  queste  tre  figure,  le  valutazioni  sono   state  abbastanza  simili  ma  non  identiche.  È  chiaro  che,  data  la  grandissima  mole  di  associazioni   semantiche  da  valutare,  non  sempre  abbiamo  seguito  lo  stesso  metro  di  giudizio.   Ma,  in  linea  generale,  si  è  cercato  di  seguire  queste  regole  comuni  che  avevamo  in  precedenza   tra  di  noi  accordato:   • Valutare   0  solo  quei  percorsi  di  associazioni  aventi  l’entità   finale   in  disaccordo  con  la   prima  (entità  principale)   • Valutare   1   quei   percorsi   che   risultano   caratterizzati   da   entità   e   proprietà   coerenti   e   logicamente   connesse   fra   loro   ma   che   non   danno   luogo   a   delle   associazioni   particolarmente  interessanti   • Valutare  2  quei  percorsi  che,  oltre  a  essere  corretti  da  un  punto  di  vista  logico,   danno   luogo  ad  associazioni  singolari  in  quanto  alcune  entità  o  proprietà  coinvolte  risultano   (per  rarità  o  importanza  o  popolarità)  particolarmente  interessanti,   • Infine,  valutare  3  quei  percorsi  che,  oltre  a  essere  corretti  da  un  punto  di  vista  logico  e  a   contenere   entità  e   o   proprietà   interessanti,   sono   considerati   particolarmente   affini   e   quindi  congruenti  per  contenuto  all’articolo  da  cui  l’entità  principale  è  stata  estrapolata. Vediamo  ora  alcuni  esempi  tratti  dall’articolo  Efforts  to  Curb  Social  Spending  Face  Resistance  per   chiarire  meglio  i  parametri  di  giudizio  usati  e   per  notare   possibili  differenze   che   potrebbero   comunque  scaturire  tra  le  valutazioni  di  due  diversi  esperti  di  dominio.
  • 19. 19 Il  percorso  <dbp:Barack_Obama>      dbProp:party  >      dbp:Democratic_party_(United_States)>   può  essere  valutato  3  per  la  popolarità  della  notizia  rappresentata  dal  percorso  e  per  l’affinità   con  gli  argomenti  trattati  nell’articolo.  Lo  stesso  può  anche  essere  valutato  2,  in  quanto  esso  è   sì   coerente   con   l’articolo   e   popolare,   ma   allo  stesso  tempo,   rappresenta   una  notizia  ormai   conosciuta   da   tempo   e   quindi   non  rara,   anzi   banale.   Già   da   questo  esempio   si   può   notare     come,  nonostante  le  regole  generali  osservate  siano  le  stesse,  i  giudizi  possono  però  differire  a   seconda  di  chi  li  esprime.   Il  percorso  <dbp:Barack_Obama>       dbProp:president   <    <dbp:David_Jane>    dbProp:party   <     <dbp:Democratic_Party_(United_States)>     è   stato   valutato  1   perché   esprime   delle   relazioni   logiche,   reali,   ma   non   particolarmente   interessanti   né   originali   o   popolari.   Il   percorso   difficilmente  potrà  essere  giudicato  con  un  valore  più  alto.   Il  percorso  <dbp:Barack_Obama>    dbProp:president  <    <dbp:John_Boehner>  è  stato  valutato   da   entrambi   3   per   l’importanza   dell’entità   citata   (Boehner   è   presidente   della   camera   dei   deputati)  e  perché  la  stessa  entità  è  citata  nell’articolo  da  cui  quella  principale  è  estrapolata.  Il   percorso   è   dunque   congruente   con   l’articolo   giornalistico   a   cui   è   collegato   e   l’argomento   importante. Quasi  mai  è   successo,   analizzando   e   confrontando   le   nostre   valutazioni,   di   trovare   percorsi   valutati  1  da  un  esperto  di  dominio  e  3  dall’altro.  È  successo  invece  spesso  di  trovare  percorsi   valutati  2  o  3  a  seconda  di  chi  ha  espresso  il  giudizio  e,  ancora  più  spesso,  quelli  valutati  1  e  2.   Fra   le   associazioni  recuperate  dall’articolo   Efforts  to   Curb   Social   Spending   Face  Resistance  ne   troviamo  parecchie   che  collegano  l’entità  principale  a  uno  dei  propri  mestieri,   ovvero  quello   dell’avvocato.   Uno   di  noi   due   ha   deciso   di   valutare   quelle   associazioni  con   un   2  perché   ha   ritenuto  che  il  fatto  che  Obama  fosse,   oltre  che   politico  e   autore   di  scritti,  anche  avvocato,   abbastanza  interessante  e  originale  (non  tutti  d’altronde  lo  sanno),  l’altro  di  noi  due  ha  invece   deciso  di  valutare  questi  stessi  percorsi  con  un  1  perché  non  ha  ritenuto  che   il  collegamento   <Obama>   mestiere   >   <avvocato>   fosse   abbastanza   originale   da   poter   essere   valutato   diversamente. Nel  complesso,  e  data  la  grande   quantità  di  dati  da   analizzare,   riteniamo  che  i  nostri  giudizi   siano   stati   abbastanza   uniformi,   o   quantomeno   facilmente   confrontabili.   Da   un’analisi   dettagliata  risulta  evidente  che  i  due  valutatori  hanno  seguito  delle  metriche  basate  su  giudizi   di   popolarità,   originalità   e   contestualizzazione   dati   alle   entità   e   alle   proprietà   citate   nei   percorsi.   È   possibile   notare   macrodifferenze   come   quella   citata   nel   paragrafo   precedente   (Obama   avvocato:   interessante/banale)   ma   nel  complesso   c’è   stato  un  buon  livello   di   accordo   nella   valutazione   dei   percorsi,   soprattutto   quelli   contenenti   entità   salienti   (perché,   ad   esempio,   citate  nell’articolo  relativo  oppure  per  la  loro  popolarità).     4.2  Valutazione  generale  dei  risultati  prodotti  dall’algoritmo Come  già  scritto  in  precedenza,  le  associazioni  semantiche  estrapolate  dai  tre  articoli  di  politica   sono  state  quasi  19000  (per  la  precisione,  18749)  mentre  quelle  estrapolate   dai  tre  articoli  su   cui  la  tesi  si  è  basata  sono  state  9114.  Fra  i  cinque  articoli  citati,  quello  con  meno  associazioni   semantiche  recuperate  è  stato  Apple  profit  Rises  24%  on  Sales  of  iPhone  5con  890  percorsi,  il  più   ricco  invece  è  stato  Efforts  to  Curb  Social  Spending  Face  Resistance  con  ben  9346  percorsi.  
  • 20. 20 Nel  ruolo  di  esperti  di  dominio  entrambi  ci  siamo  resi  conto  che  questi  numeri  sono  troppo  alti,   soprattutto  se  si  considera  che  i  percorsi  valutati  con  1  sono  la  maggioranza  per  tutti  gli  articoli   analizzati.   Guardando   le   tabelle   riportate   precedentemente   (sia   quelle   che   riguardano  i   tre   articoli  valutati  per   il   lavoro   di   tesi,  sia   quelle   sul  confronto   delle   valutazioni   nei   tre   articoli   politici)  si  può  facilmente  evincere  quanto  appena  detto.  Il  fatto  che  molti  dei  percorsi  siano   stati  valutati   1   significa   che   la  maggior   parte   dei  “cammini”   ricavati  dalle   associazioni  fra   le   entità  sono  stati  valutati  giusti  ma  poco  interessanti,  perché  comuni  e/o  ripetitivi  oppure  perché   totalmente  privi  di  interesse.   Le  associazioni  con  valore   1   quindi  sono  molte,  ma  valutarle   1   è  riduttivo  e   in  un  certo  senso   fuorviante:   sarebbe   a   nostro   parere   utile   un   ulteriore   discriminazione   sugli   1,   poiché   la   differenza  fra  il  giudizio  comuni  e/o  ripetitivi  e   il  giudizio  totalmente  privi  di  interesse  è  molta.   Mentre  le  associazioni  considerate  comune/o  ripetitivi  [11]  hanno  ragione  di  essere  comunque   inserite  fra  quelle  ricavabili  dalle  entità  tratte  dall’articolo;  quelle  considerate  totalmente  prive   di   interesse   non   hanno   motivo   di   comparire   fra   i   percorsi   che   un   giornalista   o   un   utente   interessato   a   quell’argomento   avrebbe   piacere   di   trovare   fra   quelli   relativi   all’articolo   (o   semplicemente   all’argomento)   d’interesse.  Sarebbero  insomma,  a  nostro  parere,   un  po’   una   perdita  di  tempo,  non  un  acquisizione  di  informazioni  utili. Prendendo   ancora   ad   esempio   l’articolo   Efforts   to   Curb   Social   Spending   Face   Resistance,   proponiamo   uno   dei   percorsi   valutati   da   entrambi   1   e   giudicato   –   sempre   da   entrambi   -­‐     totalmente  non   interessante.   A   nostro   parere   esso  dimostra   che   i   percorsi  di  questo  genere   sarebbe   meglio   e   senza   dubbio   più   utile   che   non   comparissero   come   output   dell’analisi   in   Dbpedia  delle  entità  estrapolate  dall’articolo. <dbp:Barack_Obama>     dbProp:leader_name   <     dpb:United_States     dbpProp:country     <     dbp:Missouri_Valley_Iowa    dbProp:isPartOf  >    <dbp:Iowa> L’informazione  contenuta  in  questo  percorso  e  riassumibile  con  “Obama  è  il  leader  degli  Stati   Uniti,  in   cui  Missouri   Valley   è  un   paese,   che  fa   parte  dello   stato   Iowa”   non  è   interessante,   né   originale,  né  collegata  in  maniera  rilevante  e  congruente  all’articolo  da  cui  le  entità  sono  state   estrapolate. Alla  luce  di  queste  osservazioni  (in  sintesi:  i  percorsi  ricavati  sono  troppi,  e  fra  questi  molti  sono   stati  valutati  1.  Buona  parte  di  queste  associazioni  valutate  1  può  essere  considerata  totalmente   priva  di  interesse  per  chiunque  voglia  cercare  informazioni  sull’argomento  principale  da  cui  tale   associazione  è  stata  estrapolata)  siamo  giunti  alla  conclusione  che  l’algoritmo  ha  usato  delle   metriche   di   selezione   di   collegamenti   troppo   “larghe”.   In   linea   generale   però,   è   giusto   sottolineare  che  il  sistema  ha  rilevato:   • Percorsi  interessanti:  la  maggior  parte  di  quelli  da  noi  valutati  2  e  3   • Percorsi  meno  interessanti  ma  che  comunque  potrebbero  essere  utili:  quelli  valutati  1  in   quanto   rappresentano   informazioni  risapute   o  non  troppo  significative   (anche   se   su   questo   punto   bisogna   però   sottolineare   che   dipende   anche   dagli   utenti   che   usufruiscono  di  queste  informazioni) • Pochissimi   percorsi  giudicati   con  0:   questo  significa  che  l’algoritmo  non  ha  quasi  mai   fallito   nel   trovare  un  collegamento  fra  l’entità   principale   e   quella  finale   del  percorso,   l’unica   pecca   è   stata   che   troppo   spesso   quel   collegamento   rappresentava   un’informazione  davvero  banale  perché   potesse   essere  presa  in  considerazione  da  un   utente  interessato  a  questi  risultati.
  • 21. 21 4.3  Possibili  usi  futuri  del  Computational  journalism Nei   primi   paragrafi   abbiamo   descritto   il   Computational   oDDJ,   nello   studiarlo   ci   siamo   fatti   un’idea  dei  possibili  usi,  e  soprattutto  dei  possibili  vantaggi  che  tale  attività  potrebbe  portare  a   quella   più   ampia   del   giornalismo.   La   creazione   di   nuove   storie   giornalistiche   o   d’inchieste   quantitative  e   qualitative  da  parte   dei  giornalisti,   attraverso  la  ricerca  di  informazioni  tramite   tecniche  computazionali,  è  l’obiettivo  del  Computational  journalism.   Ad  esempio,  un  software  può  eseguire  la  scansione  di  differenti  database  e  reti  sociali,  in  modo   tale   da   identificare   e   riportare   informazioni   che   possono   essere   utilizzate   in   seguito   dai   giornalisti. The   Guardian   ha   realizzato  un’indagine   riguardante   le   spese   dei  membri  del   parlamento  del   Regno  Unito.  Tutte  queste  informazioni  recuperate  ed  elaborate  sono  state  rese  disponibili  nel   web   all’interno   di   fogli   di   calcolo,   i   quali   sono   stati   analizzati   dagli   utenti   della   rete,   identificando   le   voci   più   interessanti.   Le   informazioni  e   le   analisi   svolte   dagli   utenti   hanno   permesso  alla  testata  in  questione,  di  realizzare  nuove  storie  giornalistiche,  rendendo  palese  il   problema.   È   importante   evidenziare   come   l’indagine   al   momento   non  sia  stata   replicata   da   nessun’altra   testata,   poiché   computazionalmente   onerosa.   Attraverso   questa   iniziativa,   The   Guardian   è   stato   in   grado   di   migliorare   la   propria   reputazione   nell’ambito   del   giornalismo   investigativo  e  allo  stesso  tempo  è  riuscito  a  portare  alla  luce  un  problema  molto  critico  [12]. Un   altro   esempio   è   costituito   da   James   Hamilton   [13]   che,   utilizzando   il   database   della   protezione  ambientale  americana  riguardante  le  emissioni  di  sostanze  chimiche  da  parte  delle   industrie,   è   stato   in  grado   di   individuare   possibili   imprecisioni   nei   dati   forniti   dalle   diverse   compagnie.   Principalmente  nella  realizzazione  di  quest’analisi,  egli  utilizzò  metodi  statistici  e   matematici.   In   questo  modo,   Hamilton   riuscì  a   scovare   le   violazioni   della   legge   di  Benford   riguardante  il  limite  delle  emissioni  tossiche. Il   lavoro  di  Hamilton  deriva  da  una   semplice   osservazione   da   economia  dei   media:   dato   che   produrre  inchieste  e  reportage  giornalistici  è  attività  costosa,  laboriosa  (e  spesso  non  pagata  in   proporzione   dagli   investitori   pubblicitari)   è   preferibile   usare   tecnologie   digitali   in   grado   di   affiancare   il   giornalista   nel   produrre   inchieste   approfondite.   Il   Computational   Journalism,   rispondendo  agli  incredibili  cambiamenti  che  la  rivoluzione  digitale  ha  portato  nell’   accessibilità   dell’informazione   -­‐   se   utilizzato   nel   modo   migliore   e   supportato   da   strumenti   efficaci  e  sempre  meno  onerosi  -­‐  è  la  miglior  starda  percorribile  per  avere  sempre  più  qualità  e   affidabilità  nell’informazione. Ma   non   solo   i   giornalisti   professionisti   possono   usufruire   dei   LOD   e   delle   tecniche   computazionali  tipiche  del  Computational  Journalism  per  informarsi  e  per  costruire  nuove  storie   giornalistiche.  L’auspicio  è  che  anche  uno  studente,  un  blogger,  un  politico  o  un  imprenditore   (e   altre  figure  professionali  e  non)  possano  ritenere  utile   una   ricerca  di  dati  incrociata  e  ben   sviluppata  come  quella  cui  porterebbe   un  uso  ampio  e   diffuso  del  DDJ.  La  tendenza  è  ormai   quella,   lo   dimostrano  anche   –   nel   loro   piccolo   –   i  sempre   più   numerosi  comuni   italiani   che   hanno   realizzato   il   proprio   portale   regionale   di   Open   Data   [14]   rendendo   i   dati   un   diritto   fondamentale  ed  un  bene  comune. Un  esempio  di  strumento   per   tutti  è   stato  realizzato  da  Google   e  denominato  Living   Stories.   Esso  permette  di  raccogliere  tutte  le  versioni  di  un  fatto  di  cronaca  all’interno  di  un  articolo,  le   quali   possono   essere   consultate   sulla   base   di   una   timeline.   All’interno   dell’articolo,   costantemente  aggiornato,  vengono  creati  dei  collegamenti  a  delle  notizie  correlate.  In  questo  
  • 22. 22 modo   l’utente   senza   nessun   particolare   sforzo   può   prendere   visione   delle   informazioni   d’interesse,  recuperandole  nel  caso  in  cui  dovesse  creare   una   nuova  storia  giornalistica.  Una   ricerca  del  genere  potrebbe  richiedere  tempo  ma  nessun  tipo  di  tecnologia  particolare  se  non   quella  di  un  device  connesso  a  internet  e  –  dato  non  trascurabile  -­‐  nessun  tipo  di  costo  (fatta   eccezione  per  quello  che  garantisce  la  connessione  stessa). È   importante  sottolineare   come  il  Computational   journalism  vada  oltre  una   semplice   editoria   giornalistica   online.   Non   si   tratta   di   pubblicare   articoli   e   notizie   sul   web   (non   solo,   quantomeno)  ma  anche  (e  sopratutto)  di  indicizzare  le  entità  presenti  per  poi  poterle  collegare   ad  altre  entità  presenti  in  altri  articoli  e  fatti,  i  collegamenti  saranno  proposti  secondo  il  grado   di   connessione   che   c’è   fra   le   entità,   fra   gli   articoli   e   fra   gli   argomenti   trattati,   in   un   dato   momento  storico. Un  aspetto  importante  è,  a  nostro  avviso,  l’aggiornamento  dei  sistemi  che  permettono  queste   ricerche  computazionali.  È  evidente  che,  trattandosi  di  notizie  contemporanee  e  data  la  velocità   dell’informazione  oggi,  ci  deve  essere  un  aggiornamento  continuo  degli  articoli,  delle  entità  e   delle  proprietà,  così  come  delle  “qualità”  intrinseche   ad  ogni  entità  o  ad  ogni  proprietà;  può   succedere   infatti  che  collegamenti  ritenuti  molto  rilevanti  in  un  dato  momento,  possano  non   risultare  più  tali  in  un  altro.  È  necessario  in  altre  parole  tenere  costantemente  il  passo,  cosa  non   facile   e   su   cui  c’è   probabilmente   ancora  molto  da   lavorare.   È   un  approccio  innovativo   e   in   quanto  tale  deve  ancora  percorrere  molta  strada  per  poter  essere  migliorato.   4.4  Oltre  il  Computational  journalism,  possibili  usi  delle  associazioni  semantiche Come  abbiamo  detto,  sono  giornalisti  i  primi  utilizzatori  del  Computational  journalism,  ma  non   solo.  Gli  studenti  e  il  campo  della  ricerca  universitaria  potrebbero  trarre  grandi  benefici  da  un   uso  di  queste  tecniche  computazionali,  incentrate  però  non  solo  sui  fatti  e  le  notizie  dal  mondo,   ma  anche  sugli  articoli  scientifici  pubblicati  dalle  riviste  di  tutto  il  mondo.  Una  mappatura  di  tali   elementi,   con   estrazione   di   entità,   proprietà   e   creazione   di   un   grafo   massimale,   potrebbe   aiutare  i  ricercatori  nelle  loro  indagini.  È  evidente  come  uno  sforzo  del  genere  sia  impegnativo,   ma   comunque   possibile   se   basato  su   una   cooperazione   e   collaborazione   a  livello   mondiale,   ormai  possibile  grazie  alla  diffusione  di  internet,  del  cloud  che  ospita  tutte  le  piattaforme  utili  al   DDJ  e  che  permette  una  ricerca  collettiva  di  notizie  e  collegamenti  da  tutto  il  mondo.   Citando  Tim  Berners-­‐Lee  e  i  suoi  comandamenti  del  web  semantico:  “Se  ben  strutturato,  il  web   semantico   favorisce   l’evoluzione   della   conoscenza   umana.   Il   processo   di   creazione   della   conoscenza  è  caratterizzato  da  un’eterna  tensione  tra  l’efficacia  produttiva  di  ristretti  gruppi  di   persone  che  agiscono  in  modo  indipendente  e  la  loro  necessità  di  integrarsi  con  una  comunità   più   ampia.   I   gruppi   di   dimensioni  limitate   lavorano   rapidamente   ed   efficacemente,   ma   allo   stesso  tempo  danno  vita  a  delle  sottoculture  che  male  interagiscono  con  il  pubblico  esterno.   Coordinare  un  gruppo  ampio,  tuttavia,  richiede  tempo  e  un  immane  sforzo  comunicativo.  (…)   Se   fino   ad  ora   il  mondo  ha   funzionato   in   disequilibrio  tra   questi   estremi,   il  web  semantico   consente   a  diverse   sottoculture   di  entrare   in   contatto   tra   loro   e   scambiarsi  informazioni   in   modo  semplice  e  immediato.  Il  web  semantico  può  essere  visto  come  una  sorta  di  linguaggio   logico  internazionale  a  disposizione  di  tutte  le  sotto  strutture.”[15] È  riflettendo  su  queste  parole,  su   quanti  siano  i  gruppi  ristretti  ai  quali  i  LOD  gioverebbero  e   quanto  sia  importante  l’interazione  di  cui  parla  Tim  Berners-­‐Lee,  che  abbiamo  pensato  a  usi  dei   LOD  che  andassero  oltre  gli  scopi  classici  del  Computational  journalism,  che  prevedano  in  altre  
  • 23. 23 parole  l’uso  dei  LOD  in  contesti  che  non  siano  esclusivamente  quelli  del  web.  Gran  parte  delle   difficoltà   che   emergono  nello   sviluppo   del   Web  3.0  è   dovuta   alla  grande   quantità   di  dati  da   identificare  e  strutturare.  Un  utilizzo  dei  LOD  in  un  ambiente  più  ridotto  e  specifico  di  quello  del   web  potrebbe  portare  a  grandi  vantaggi  e  l’organizzazione  dovrebbe  essere  logicamente  meno   onerosa.   Un   contesto   che   sembra   adattarsi   bene   a   quanto   detto   finora   è   quello   delle   Big   Enterprises,   [16]   le   grandi   aziende,   che   spesso   hanno   una   struttura   articolata   e   una   mole   significativa  di  stakeholders,  il  che  si  traduce  ovviamente  in  una  grande  quantità  di  dati  diversi   da   catalogare.   Ci   siamo   quindi   chiesti,   come   sarebbe   possibile   integrare   l’approccio   e   la   tecnologia  LOD  con  un  ambiente  aziendale?  Quali  vantaggi  porterebbe  quest’operazione?   Per   rispondere   alla   prima   domanda  abbiamo  individuato  una   serie   di  passi  da  compiere   per   raggiungere   quella   che   è   stata   definita   dai   pionieri   di   questa   nuova   prospettiva   Enterprise   Linked  Opend  Data  (ELOD).  [17]  Presentiamoli: • Raccolta  e  definizione  della  topologia  dei  dati,  ovvero  quali  aree   aziendali  prendere   in   considerazione  e  come  organizzare  i  relativi  dati  in  cataloghi   • Specificare  i  formati:  dai  più  classici  (e  meno  utili)  .pdf,  .xls  ,  .csv/tsv,  fino  ad  arrivare  ai   più  evoluti  e  sicuramente  più  efficaci  .xml,  rdf/owl • Prelievo  dei  dati  dalle  fonti  individuate  nei  formati  scelti • Preparazione  di  una  piattaforma  centrale  di  servizi  per  l’amministrazione  dei  dati,  la  loro   classificazione,  fusione,  indagine  e  pubblicazione • Descrizione  del  ciclo  di  vita  dei  dati  aperti. • Definizione  delle  politiche  di  sicurezza  e  permessi  d’accesso  ai  dati  aperti • Infine   pubblicazione   conclusiva   dei   dati   in   LOD,   ovvero   sfruttando   tecnologie   semantiche   come   RDF,   OWL,   URI,   SPARQL,   per   ottenere   dati   con   una   semantica   esplicita  e  per  renderli  interconnessi  fra  di  loro  e  rintracciabili  tramite  un  URL  univoco. Vediamo   ora   alcuni   vantaggi   particolari   di   cui   potrà   usufruire   un’azienda   che   intraprende   questo  percorso: • I  dati  perderebbero  quella  carica  di  “potere  intrinseco”  che  hanno  ad  oggi  e  che  spesso   alimenta   controversie   sul   controllo   dei   vari   domini   di   competenza   all’interno   di   un   azienda • Non   si   avvertirebbe   più   la   necessità   di   commissionare   le   pratiche   di   valutazione   informativa  ad  aziende  esterne • Si  faciliterebbe  lo  sviluppo  di  nuove  applicazione  data-­‐consumer  e  di  data-­‐intergation • Si  otterrebbe  una  gestione  trasparente  del  patrimonio  informativo  dell’azienda • Si  ottimizzerebbero  i  processi  di  comunicazione  e  condivisione   dell’informazione  fra  le   diverse  aree  aziendali. Ovviamente   ci   sarebbero   alcune   criticità   nel   passaggio   dalla   gestione   attuale   dei   dati   di   un’azienda   a   quello  ELOD.   Per   esempio   la   sensibilizzazione   del   cliente   nei  confronti  di   tale   gestione,   la   difficoltà   iniziale   di   censire  i   dati,   ma   anche   l’opera  di  convincimento   dei   propri   dipendenti  dell’utilità  e   bontà  dell’operazione   a  fronte   di  una  facile  reticenza  a  condividere  i   propri   dati   e   la   necessità   imprescindibile   di   definire   delle   politiche   di   sicurezza   precise   sull’accesso  ai  dati.  Riteniamo  comunque  che  valga  la  pena  per  un’azienda  –  specie  se  di  grandi   dimensioni   -­‐   percorrere   tale   strada.   Realizzerebbe,   infatti,   un   vero   e   proprio   processo   di   censimento,   amministrazione,   riuso   di   tutti   quei   dati   che   di   solito   vengono   gelosamente   custoditi   o  nascosti  impedendo  così  corrette   pratiche   di   Enterprise   Information   Management   EIM  e  Knowledge  management  (KM).
  • 24. 24 Queste   riflessioni  si  potrebbero  applicare   –  con  le  dovute   differenze  –   a  moltissimi  contesti,   basti   pensare   alle   scuole,   alla   pubblica   amministrazione,   alla   politica…   Sono   nati   e   stanno   nascendo   moltissimi   progetti   a   riguardo,   anche   nel   nostro   Paese.   Sul   sito   della   Open   Knowledege  Fondation  Italia  è  possibile  farsi  un’idea  dello  stato  attuale  dei  lavori.  [18]   Figura  14:  Infografica  coi  dati  estratti  dal  portale  Rimozione  Macerie
  • 25. 25 Sul   sito   dell’agenzia   di   prodotti   multimediali   Mister   wolf   –   web&multimedia   [19]   abbiamo   trovato  un  interessante  lavoro,  riassunto  in  Figura  14,  che  dimostra  quanto  l’utilizzo  dei  LOD  in   contesti  specifici  sia  utile.   Spieghiamo  ora  in  breve  il  motivo   per   cui  il  progetto  di   quest’agenzia   rappresenta   a  nostro   parere  un  esempio  virtuoso,  da  applicare  in  moltissimi  altri  campi  e  contesti.  Il  progetta  mira  a   raccogliere   i   dati   inerenti   al   lavoro   di   messa   in   sicurezza   degli   edifici   e   di   rimozione   delle   macerie,   soprattutto  all’Aquila,  che   procede  ancora  oggi.   Si  stima  che  fino  a   ora  siano  state   rimosse  quasi  426000  tonnellate  di  macerie  dai  lavori  per  gli  edifici  pubblici  e  circa  273000  per   quelli   privati.   Il   sito   del   Commissariato   per   la   Ricostruzione   tiene   traccia   dei   lavori   e   delle   operazioni  svolte  con  una  serie  di  Open  data  liberamente  consultabili  dalla  cittadinanza.  Sulla   base  di  queste  informazioni,  l’agenzia  Mister  wolf    ha  realizzato  l’infrografica  di  Figura  14,  per   illustrare  il  lavoro  svolto  fino  ad  oggi  per  rimuovere  le  macerie.  L’infografica  offre  uno  sguardo   d’insieme   sullo   stato   della   rimozione   e   smaltimento   delle   macerie   nell’area   del   cratere   interessato   dal   sisma   che   ha   colpito   l’Abruzzo   nel   2009.   I   dati   si   riferiscono   alle   macerie   rimosse,  provenienti  dai  cantieri  e  destinate  ai  punti  di  conferimento  ad  opera  delle  aziende  al   Febbraio  2013.  Sono  poi  disponibili  le  percentuali  dei  cantieri  che  producono  macerie  suddivisi   per  provincia  e  i  relativi  punti  di  conferimento  dove  le  macerie  vengono  destinate  attraverso  le   aziende  incaricate  del  trasporto.   Molti  quotidiani  online  hanno  parlato  di  questo  progetto  e  delle  informazioni  ricavate  da  esso,  i   dati  raccolti  e   analizzati  hanno  risparmiato  molto  lavoro  a  chi  se   ne   occupa  e   ne   usufruisce;   iniziative  come  queste  devono  essere  seguite  e  replicate  in  ambiti  simili  ma  non  solo,  devono   vedere  la  collaborazione  di  aziende  e  agenzie  di  questo  tipo  al  fine  di  creare  progetti  sempre   più  trasversali  e  utili  a  chiunque.   Un  altro  campo  da  noi  indagato  in  cui  l’approccio  LOD  può  aiutare  a  migliorare  le  prestazioni  è   quello   dei   motori   di   ricerca,   e   in   particolare,   potrebbero   essere   di   enorme   aiuto   alla   problematica   delle   ricerche   correlate   e   suggerite   all’utente   da   parte   di   un   software   che   “lavorerà”   per   conto   di   un   sito   o   anche   del   browser.   Come   ben   sappiamo   spesso   accanto   all’esito  di  una  ricerca  da  noi  indagata,  compaiono  suggerimenti  e  consigli  riguardo  prodotti/ informazioni  simili.   Ad  esempio,   se   cerchiamo  su   Google   un’entità  (persone,   luoghi,   cose)   a   fondo  del  sommario  di  informazioni  enciclopediche  sull’entità  che  stiamo  cercando,  compaiono   altre  entità  che  vanno  sotto  l’etichetta  di  “ricerche  correlate”.    
  • 26. 26 Figura  15:    Risultati  della  ricerca  “Bacon”  su  Google La  figura  15  mostra  cosa  accade  se  da  loggati  in  Google  cerchiamo  “Bacon”:  avremo  i  classici   risultati  nella  colonna  di  sinistra  e  accanto,  in  una  nuova  colonna,  ci  verrà  chiesto  di  specificare   se  intendiamo  il  filosofo,  il  pittore  o  l’attore.   Figura  16:  Ricerca  successiva  su  Google  -­‐  Sommario  delle  informazioni  sul  personaggio   d’interesse  e  ricerche  correlate
  • 27. 27 Come  mostra  la  figura  16,  supponendo  che  il  personaggio  che  interessa  a  noi  sia  Francis  Bacon   –   Pittore,   appariranno   una   serie   di   informazioni   su   quest’ultimo,   alcune   sue   opere,   ed   altri   artisti   correlati  (cercati  da  altri).   Ciò   avviene   grazie   al   Knowledge   Graph,   che   unisce   ricerca   semantica  ad  analisi  statistiche  e  algoritmi.  Il  progetto,  ancora  in  evoluzione,  migliora  quindi  la   ricerca,  grazie   alla  mappatura  di  3.5  miliardi   di  fatti  ossia  informazioni  sulle   relazioni  tra   500   milioni  di  entità. Questa  tendenza  è  riscontrabile  anche  in  molti  siti  di  quotidiani,  che  suggeriscono  articoli  simili   per   tema  a  quello  che   si  sta  leggendo.  Ciò   accade  tramite   link  agli  articoli  visualizzabili  sulla   stessa  schermata  dell’articolo  letto  e  facilita  l’utente  nella  comprensione  globale  di  quello  che  è   il  tema   trattato.  Siti  di  e-­‐commerce   suggeriscono  prodotti  simili  a   quelli   acquistati.  YouTube   rende  sempre  più  raffinate  le  ricerche   correlate  e  i  video  consigliati  in  conformità  a  quelli  già   visti.   È   dunque   chiaro   che   al   momento   i   motori   di  ricerca   di   questo   tipo   utilizzano   già   tecniche   piuttosto  avanzate,  basate  in  parte  su   un  sistema  di  tag   (e  di  catalogazione   secondo  queste   etichette)   e   in   parte   basate   su   algoritmi   che   cercano   collegamenti   semantici   fra   l’entità   visualizzata   ed   altre   nuove,   ipoteticamente   correlate.   Per   questo   riteniamo   che   un   uso   dell’approccio   Data   Context   Extraction   for   News   Articles   (DaCENA),   possa   essere   utile   per   migliorare   la   tendenza   generale   verso   risultati   restituiti   non  solo  sulla   base   di  reti  di  link  di   pagine  web,  ma  sempre  più  su  reti  di  conoscenza. A   nostro   avviso   è   importante   che   il   software   lavori   non   solo   sulle   entità,   ma   anche   sulle   proprietà.  Inoltre,  che   lavori  usando   il  filtro  delle   metriche  Rarity,  Popularity  e  Context   di  cui   abbiamo  parlato  nel  secondo  capitolo.  Se  ad  esempio  un’entità  risulta  importante  secondo  la   metrica  Rarity,  il  software  dovrà  cercare  entità  correlate  ad  essa  in  maniera  forte  (considerando   cioè  la  lunghezza  del  percorso  e  l’importanza  delle  proprietà  che  legano  le  entità,  secondo  la   metrica  in  questione)  che  siano  anch’esse  particolarmente  rilevanti  secondo  la  metrica  Rarity.   Abbiamo  già   spiegato  il  significato  delle   metriche   citate,   per   quanto  riguarda   la  metrica  del   Context  però,  riteniamo  che  in  un’operazione  come  quella  sopra  descritta,  il  software  dovrebbe   considerare   tale   metrica   come   riferita   al   contesto   temporale.   Così   se   la   ricerca   indagata   dall’utente,  da  come  esito  un’entità  rilevante  per  il  contesto  temporale  il  software  troverà  altre   entità  che,   oltre  ad  essere   legate   in  maniera  rilevante   alla   prima,  siano  anch’essere   ritenute   importanti  dato  il  preciso  momento  storico.   Un’integrazione   dei   metodi   usati   oggi   con   l’approccio   DaCENA   è   quanto   proponiamo.   È   evidente   che   un  lavoro  di  questo  tipo  preveda  un  numero  considerevole   di   teorici  del   web   semantico,   di   tecnici   informatici   e   non   ultimi   di   esperti   di   dominio   che   lavorino   insieme   e   collaborino  per  la  creazione  di  un  software  che  permetta  ad  un  algoritmo  di  indagare  le  entità   del  database,  a  partire  da  un’entità  primaria,  al  fine  di  raggiungere  gli  scopi  sopra  illustrati.  Una   sfida   impegnativa   che   però   può   essere   senz’altro   essere   accettata,   dati   i   risultati   finora   raggiunti  e  la  portata  innovativa  di  questi  approcci. 4.5  La  visualizzazione  grafica  delle  associazioni  semantiche Un  altro  punto  critico  riguardante   le   associazioni   semantiche   -­‐  e   il  loro  possibile   utilizzo   -­‐   è   quello  che  tocca  la  resa  grafica  dei  collegamenti  tra  entità.   Ci  siamo  chiesti  come   rendere   le  
  • 28. 28 informazioni  estrapolate  dagli  articoli  tramite  l’approccio  DaCENA  fruibili  da  giornalisti  –  e  non   solo   –   nel   modo   più   idoneo   ed   efficace   possibile.   Non   è   un   quesito   di   poco   conto,   se   si   considera   quanto   tuttora   non   sia   facile   persuadere   l’opinione   pubblica   della   potenza   delle   tecniche   utilizzate   per  il  DDJ   e  quanti  ancora  non  ritengano  questo  nuovo  approccio  utile   o   perlomeno  diverso  da  una  semplice  stampa  digitale  delle  notizie.  Adattarsi  –  anche  dal  punto  di   vista  dell’usabilità  –  alle  esigenze  degli  utenti,  consentendo  un  resoconto  dinamico  (e  facile  da   utilizzare)   delle   informazioni   d’interesse,   è   quindi   a   nostro   parere   una   priorità   in   grado   di   avvicinare  sempre  più  persone  a  queste  tecniche  innovative. Come   abbiamo   notato   in  seguito  alle   valutazioni  delle   più   di  20000  associazioni  semantiche   estrapolate  dagli  articoli,  la  grande  mole  informazioni  ricavate  seguendo  l’approccio  DaCENA   può   causare   un   problema   al   giornalista   che   cerca   spunti   o   fatti   per   una   nuova   storia   giornalistica.   Oltre   alla   quantità,   un   ostacolo   che   potrebbe   frapporsi   fra   il   giornalista   e   la   comprensione  reale  di  quello  che  le  associazioni  semantiche  significano,  è  quello  di  usabilità  da   parte  dell’utente.  Quanto  egli  sia  quindi  in  grado  di  visualizzare  queste  associazioni  semantiche.   Il  layout  grafico  restituito  dalla  macchina,  l’interfaccia  software  –  utente  è  un  punto  cruciale  per   il  buon  funzionamento  di  qualsiasi  programma.  Anche  per  i  percorsi  estratti  e   da  noi  valutati   bisogna  tenerne  conto,  considerando  la  loro  potenziale  utilità  e  al  tempo  stesso  la  complessità   dello  strumento  per  chi  non  è  addetto  ai  lavori.   Figura  17:  Alcune  associazioni  semantiche  su  Excel Durante   la   fase  di  valutazione   delle   associazioni,  queste   ci  sono  state  proposte  su   un  foglio   Excel,  come  mostra  la  figura  17,  un  percorso  per  riga,  e  righe  di  differenti  lunghezze  in  accordo   col  numero  delle  proprietà  e  delle  entità  presenti.  Questo  non  ci  è  sembrato  il  miglior  modo  per   presentare   i   risultati  del   software,   anche   se,   per   una   quantità   ridotta   di   percorsi   potrebbe   essere   più   facile   da   consultare.   Al   di   là   della   quantità   di   associazioni,   rimane   comunque   il   problema  di  un  interfaccia  in  grado  di  soddisfare  gli  utenti  in  modo  intuitivo  ed  ergonomico.  Nel   caso  poi  degli  usi  delle  associazioni  semantiche  in  contesti  diversi  dal  DDJ,  sorge  un  altro  punto   interrogativo:   quando  è   necessario   presentare   gli   interi   percorsi   e   quando   solo   gli  esiti   (ad   esempio,  prima  e  ultima  entità  collegate,  senza  visualizzazione  del  percorso,  in  modo  simile  alle   entity  summary  di  Google  nella  figura  16)?   In  questo  ultimo  modulo  cercheremo  di  rispondere   ai  dubbi  e  agli  interrogativi  che  ci  siamo   posti  nelle  righe  precedenti.