Hypernexus nasce come progetto di ricerca industriale allo scopo di sperimentare un approccio innovativo alla gestione delle informazioni aziendali. Parte dall’assunto che sempre di più l’informazione aziendale è:
- costituita da documenti di tipo eterogeneo (file testuali di tipo diverso - .doc, .odf, .pdf, … - , pagine web, mail, …)
- dispersa in numerosi repository, diversi per natura (es. file system, sistemi documentali, mail server, siti web, database …) e per disposizione (su macchine in sede, su server in hosting o in servizi cloud).
Queste diversità e dispersione impedisce di avere una visione chiara e aggiornata su ciò che succede nelle varie iniziative aziendali (ad es. nei progetti)
Hypernexus mira così a fornire una visione unificata e globale delle informazioni di un'azienda, applicando il principio della separazione delle responsabilità:
- nei sistemi di Information Management i documenti continuano ad essere conservati e gestiti
- centralmente viene ricostruita una visione coerente delle informazioni
Hypernexus si propone come un organizzatore del corpo informativo di un'azienda e un navigatore per recuperare e analizzare i suoi documenti
La visione della documentazione aziendale proposta da Hypernexus si basa su un modello logico costruito secondo i principi e le tecnologie del Semantic Web
2. Cos’è Hypernexus
• Progetto di ricerca di Hyperborea srl finanziato attraverso il bando di Regione
Toscana “Aiuti allo sviluppo sperimentale 2009”
• Alcune keywords: Information Management, Semantic Web, Knowledge
Management
• Net7 ha partecipato agli sviluppi in qualità di consulente per svolgere l’obiettivo
operativo “Strumenti Semantici e Supporto al Knowledge Management”
• Durata del progetto: 12 mesi
3. Obiettivi
• Hypernexus nasce come progetto di ricerca industriale allo scopo di
sperimentare un approccio innovativo alla gestione delle informazioni aziendali.
• Parte dall’assunto che sempre di più l’informazione aziendale è:
– costituita da documenti di tipo eterogeneo (file testuali di tipo diverso
- .doc, .odf, .pdf, … - , pagine web, mail, …)
– dispersa in numerosi repository, diversi per natura (es. file system, sistemi
documentali, mail server, siti web, database …) e per disposizione (su
macchine in sede, su server in hosting o in servizi cloud)
• Queste diversità e dispersione impedisce di avere una visione chiara e
aggiornata su ciò che succede nelle varie iniziative aziendali (ad es. nei progetti)
4. I bisogni che vuole soddisfare
• Hypernexus mira a fornire una visione unificata e globale delle informazioni di
unʹ′azienda, applicando il principio della separazione delle responsabilità
– nei sistemi di Information Management i documenti continuano ad essere conservati e
gestiti
– centralmente viene ricostruita una visione coerente delle informazioni
• Hypernexus si propone come un organizzatore del corpo informativo di
unʹ′azienda e un navigatore per recuperare e analizzare i suoi documenti
• La visione della documentazione aziendale proposta da Hypernexus si basa su
un modello logico costruito secondo i principi e le tecnologie del Semantic Web
6. Logica di elaborazione
• Hypernexus propone una logica di elaborazione delle informazioni a catena di
montaggio
• Degli agenti automatici si occupano periodicamente di recuperare i nuovi
documenti dai vari repository (Sistemi Informativi), estraendo da essi i metadati
e il testo, per consentire delle analisi semantiche e l’indicizzazione full-text
• A partire da queste informazioni, e usando le tecnologie del Semantic Web,
viene ricostruita in Hypernexus una visione logica dei documenti, individuando
le relazioni tra di essi e fra questi e le altre entità del modello logico
• Tecniche automatiche di Business Intelligence Semantica mirano a suggerire
categorizzazioni per i documenti, individuando i “concetti chiave di cui parlano” e
evidenziando relazioni “non banali” e “non evidenti” fra di essi
8. Il modello logico di Hypernexus
• Si suppone che le informazioni aziendali siano sempre afferibili a Progetti
• Ai progetti sono associati i Documenti, conservati e gestiti in Repository.
Qualche esempio:
– documenti testuali (.txt, .doc, .pdf, .odf, etc) su file system, locale o di rete
– e-mail
– documenti testuali su servizi di Enterprise Content Management (es. Alfresco) via
protocollo CMIS
– documenti testuali in repository cloud (Dropbox, Google Drive, Microsoft SkyDrive)
– contenuti pubblicati in siti web e Social Network
• Altra “entità” rilevante del modello sono gli Attori, ovvero Persone o Aziende
• È un modello generico, riutilizzabile in vari contesti (dalle aziende private alle PA)
• Riuso di ontologie standard (Dublin Core, FOAF, SKOS, Schema.org…)
11. La logica di funzionamento
• Il sistema è altamente configurabile. Unʹ′azienda definisce i propri progetti e
configura i connettori che recuperano i documenti dai vari sistemi informativi
• I connettori operano in una logica di harvesting : accedono ai sistemi con
regolarità e recuperano le informazioni cambiate rispetto al precedente
collegamento
• Hypernexus ha bisogno di poche informazioni per essere operativo:
automaticamente arricchisce il modello e crea relazioni
• Il modello può essere in seguito raffinato dall’utente, per renderlo più preciso
– Non è quindi necessaria unʹ′analisi avanzata da eseguire a monte
12. Business Intelligence Semantica
• Uso di servizi di Entity Extraction per individuare “entità” nei documenti testuali.
• Permettono il riconoscimento di “concetti generici” e l’aggancio a elementi della
Linked Open Data (LOD) cloud (Wikipedia/DBpedia). Questi i servizi disponibili:
– TagMe (http://tagme.di.unipi.it/) del gruppo di ricerca A3 Lab del Dipartimento di
Informatica dell’Università di Pisa - assai efficace sull’Italiano e l’Inglese
– AlchemyAPI (http://www.alchemyapi.com/): servizio commerciale - molte lingue supportate
ma meno efficace di TagMe su Italiano e Inglese
– DBpedia Spotlight (http://spotlight.dbpedia.org/): servizio sperimentale - solo Inglese.
Abbastanza preciso ma molto lento
• Integrazione delle tecnologie di Apache Stanbol per il riconoscimento di concetti
da vocabolari privati e configurabili (es. elenco dipendenti/collaboratori
aziendali, lista di aziende partner, sigle/acronimi ad uso interno, …)
13. Classificazione automatica di documenti
• Questa è la logica con cui viene eseguita la classificazione automatica di
documenti in Hypernexus:
– Si parte dalla definizione di una o più tassonomie le cui voci (categorie) sono
associate a entità della LOD Cloud (es. a voci di Wikipedia o a entità di
DBpedia)
– I servizi di Entity Extraction individuano delle voci nel testo, identificate da
entità LOD
– Se queste entità sono associate a delle categorie di Hypernexus,
automaticamente si assume che queste classifichino il documento
esaminato
– Lʹ′azione di classificazione è semi-automatica: un operatore può
dall’interfaccia web di Hypernexus approvare o respingere la classificazione
suggerita.
18. La classificazione automatica per immagini
Documento
Concetto riconosciuto Tassonomia
via Entity Extraction
Conce&o
X
Conce&o
Y
Conce&o
Z
19. La classificazione automatica per immagini
Documento
Concetto riconosciuto Tassonomia
via Entity Extraction
Conce&o
X
Conce&o
Y
Conce&o
Z
20. La classificazione automatica per immagini
Documento
Concetto riconosciuto Tassonomia
via Entity Extraction
Conce&o
X
Conce&o
Y
Conce&o
Z
Classificazione
21. La tecnologia
• Hypernexus consiste in un applicativo web based che può funzionare in logica
Cloud
– Più aziende/PA accedono in ottica SaaS al servizio
– Ognuna vede, con il massimo rispetto della Privacy e della Sicurezza, il proprio universo
informativo
• Basato su unʹ′architettura applicativa aperta, completamente estendibile e
facilmente personalizzabile
• Software di base 100% open source
– Front-End/Presentation layer sviluppato in Java con il framework Spring
– Business logic implementata da servizi in esecuzione sull’Enterprise Service Bus JBoss ESB
– Data Layer partizionato tra dati relazionali (MariaDB), grafi RDF (Sesame/OpenRDF) e indici
per la ricerca full-text (Solr)