Hypernexus... ovvero un approccio innovativo alla gestione delle informazioni aziendali

Hypernexus…

… ovvero un approccio innovativo alla gestione delle informazioni aziendali.

Cos’è Hypernexus
•  Progetto di ricerca di Hyperborea srl finanziato attraverso il bando di Regione
Toscana “Aiuti allo sviluppo sperimentale 2009”

•  Alcune keywords: Information Management, Semantic Web, Knowledge
Management

•  Net7 ha partecipato agli sviluppi in qualità di consulente per svolgere l’obiettivo
operativo “Strumenti Semantici e Supporto al Knowledge Management”

•  Durata del progetto: 12 mesi

Obiettivi
•  Hypernexus nasce come progetto di ricerca industriale allo scopo di
sperimentare un approccio innovativo alla gestione delle informazioni aziendali.
•  Parte dall’assunto che sempre di più l’informazione aziendale è:
–  costituita da documenti di tipo eterogeneo (file testuali di tipo diverso
- .doc, .odf, .pdf, … - , pagine web, mail, …)
–  dispersa in numerosi repository, diversi per natura (es. file system, sistemi
documentali, mail server, siti web, database …) e per disposizione (su
macchine in sede, su server in hosting o in servizi cloud)
•  Queste diversità e dispersione impedisce di avere una visione chiara e
aggiornata su ciò che succede nelle varie iniziative aziendali (ad es. nei progetti)

I bisogni che vuole soddisfare
•  Hypernexus mira a fornire una visione unificata e globale delle informazioni di
unʹ′azienda, applicando il principio della separazione delle responsabilità
–  nei sistemi di Information Management i documenti continuano ad essere conservati e
gestiti

–  centralmente viene ricostruita una visione coerente delle informazioni

•  Hypernexus si propone come un organizzatore del corpo informativo di
unʹ′azienda e un navigatore per recuperare e analizzare i suoi documenti
•  La visione della documentazione aziendale proposta da Hypernexus si basa su
un modello logico costruito secondo i principi e le tecnologie del Semantic Web

Logica di elaborazione
•  Hypernexus propone una logica di elaborazione delle informazioni a catena di
montaggio
•  Degli agenti automatici si occupano periodicamente di recuperare i nuovi
documenti dai vari repository (Sistemi Informativi), estraendo da essi i metadati
e il testo, per consentire delle analisi semantiche e l’indicizzazione full-text
•  A partire da queste informazioni, e usando le tecnologie del Semantic Web,
viene ricostruita in Hypernexus una visione logica dei documenti, individuando
le relazioni tra di essi e fra questi e le altre entità del modello logico
•  Tecniche automatiche di Business Intelligence Semantica mirano a suggerire
categorizzazioni per i documenti, individuando i “concetti chiave di cui parlano” e
evidenziando relazioni “non banali” e “non evidenti” fra di essi

Il modello logico di Hypernexus
•  Si suppone che le informazioni aziendali siano sempre afferibili a Progetti
•  Ai progetti sono associati i Documenti, conservati e gestiti in Repository.
Qualche esempio:
–  documenti testuali (.txt, .doc, .pdf, .odf, etc) su file system, locale o di rete
–  e-mail
–  documenti testuali su servizi di Enterprise Content Management (es. Alfresco) via
protocollo CMIS
–  documenti testuali in repository cloud (Dropbox, Google Drive, Microsoft SkyDrive)
–  contenuti pubblicati in siti web e Social Network
•  Altra “entità” rilevante del modello sono gli Attori, ovvero Persone o Aziende
•  È un modello generico, riutilizzabile in vari contesti (dalle aziende private alle PA)
•  Riuso di ontologie standard (Dublin Core, FOAF, SKOS, Schema.org…)

La logica di funzionamento
•  Il sistema è altamente configurabile. Unʹ′azienda definisce i propri progetti e
configura i connettori che recuperano i documenti dai vari sistemi informativi

•  I connettori operano in una logica di harvesting : accedono ai sistemi con
regolarità e recuperano le informazioni cambiate rispetto al precedente
collegamento

•  Hypernexus ha bisogno di poche informazioni per essere operativo:
automaticamente arricchisce il modello e crea relazioni

•  Il modello può essere in seguito raffinato dall’utente, per renderlo più preciso
–  Non è quindi necessaria unʹ′analisi avanzata da eseguire a monte

Business Intelligence Semantica
•  Uso di servizi di Entity Extraction per individuare “entità” nei documenti testuali.
•  Permettono il riconoscimento di “concetti generici” e l’aggancio a elementi della
Linked Open Data (LOD) cloud (Wikipedia/DBpedia). Questi i servizi disponibili:
–  TagMe (http://tagme.di.unipi.it/) del gruppo di ricerca A3 Lab del Dipartimento di
Informatica dell’Università di Pisa - assai efficace sull’Italiano e l’Inglese
–  AlchemyAPI (http://www.alchemyapi.com/): servizio commerciale - molte lingue supportate
ma meno efficace di TagMe su Italiano e Inglese
–  DBpedia Spotlight (http://spotlight.dbpedia.org/): servizio sperimentale - solo Inglese.
Abbastanza preciso ma molto lento
•  Integrazione delle tecnologie di Apache Stanbol per il riconoscimento di concetti
da vocabolari privati e configurabili (es. elenco dipendenti/collaboratori
aziendali, lista di aziende partner, sigle/acronimi ad uso interno, …)

Classificazione automatica di documenti
•  Questa è la logica con cui viene eseguita la classificazione automatica di
documenti in Hypernexus:
–  Si parte dalla definizione di una o più tassonomie le cui voci (categorie) sono
associate a entità della LOD Cloud (es. a voci di Wikipedia o a entità di
DBpedia)
–  I servizi di Entity Extraction individuano delle voci nel testo, identificate da
entità LOD
–  Se queste entità sono associate a delle categorie di Hypernexus,
automaticamente si assume che queste classifichino il documento
esaminato
–  Lʹ′azione di classificazione è semi-automatica: un operatore può
dall’interfaccia web di Hypernexus approvare o respingere la classificazione
suggerita.

La classificazione automatica per immagini


Tassonomia


Tassonomia

Conce&o
X

Conce&o
Y

Conce&o
Z

Documento

Tassonomia

Conce&o
X

Conce&o
Y

Conce&o
Z

Documento
Concetto riconosciuto Tassonomia
via Entity Extraction

Conce&o
X

Conce&o
Y

Conce&o
Z

Documento
Concetto riconosciuto Tassonomia
via Entity Extraction

Conce&o
X

Conce&o
Y

Conce&o
Z

Classificazione

La tecnologia
•  Hypernexus consiste in un applicativo web based che può funzionare in logica
Cloud
–  Più aziende/PA accedono in ottica SaaS al servizio
–  Ognuna vede, con il massimo rispetto della Privacy e della Sicurezza, il proprio universo
informativo
•  Basato su unʹ′architettura applicativa aperta, completamente estendibile e
facilmente personalizzabile
•  Software di base 100% open source
–  Front-End/Presentation layer sviluppato in Java con il framework Spring
–  Business logic implementata da servizi in esecuzione sull’Enterprise Service Bus JBoss ESB
–  Data Layer partizionato tra dati relazionali (MariaDB), grafi RDF (Sesame/OpenRDF) e indici
per la ricerca full-text (Solr)

La Dashboard: una visione d’insieme

I concetti identificati e le relazioni tra di essi

Persone/account e la % di interazione

Timeline: distribuzione dei doc nel tempo

Vista di dettaglio a “drill-down” (Box View)

Dettaglio di un doc: tool di classificazione

Dettaglio di un progetto: concetti frequenti

Dettaglio di un progetto: vista alternativa

Navigazione del “grafo” del modello

Back-office: configurazione progetti

Back-office: configurazione connettori

Back-office: gestione delle tassonomie

desantis@netseven.it

http://www.netseven.it

Hypernexus... ovvero un approccio innovativo alla gestione delle informazioni aziendali

Recommended

Recommended

More Related Content

Similar to Hypernexus... ovvero un approccio innovativo alla gestione delle informazioni aziendali

Similar to Hypernexus... ovvero un approccio innovativo alla gestione delle informazioni aziendali (20)

More from Net7

More from Net7 (20)

Hypernexus... ovvero un approccio innovativo alla gestione delle informazioni aziendali