SlideShare ist ein Scribd-Unternehmen logo
1 von 33
COACH: Un workbenchper NLP, l'analisi dei testi e l'estrazione di termini  COACH: unWorkbench per NLP S.LaricciaSapienzaUniversità di Roma – Digilabstefano.lariccia@uniroma1.it Giovanni Toffoli [Link srl]   				toffoli@uni.net
1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini Open  Knowledge Open Learning Web Science
1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini Si descrive un work-in-progress consistente nell’adattamento, estensione e integrazione in Plone di un set di strumenti per l’elaborazione testi (NLP).  Ci siamo proposti di aggregare le principali risorse disponibili per la elaborazione della lingua italiana e di renderle accessibili attraverso un CMS per consentirne una utilizzazione  più estesa, cioè allargata a tutti coloro che pur interessati all’uso degli strumenti NLP non avrebbero le risorse per configurare il proprio workbench più documentata, per garantire anche ad utenti “sporadici” una utilizzazione rapida ed efficace  più flessibile d) più adatta  all’insegnamento e alla creazione di ambienti di didattica (non esclusivamente   Abbiamo scelto il linguaggio Python, il toolkit NLTK e l’ambiente CMS Plone.  ABSTRACT 1.1
1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini L'attività descritta intende anche essere un elemento di aggregazione per iniziative su cui richiedere un contributo di finanziamento pubblico, nell'ambito di programmi di ricerca nazionali ed europei, e di collaborazioni con enti che diffondono la cultura italiana nel mondo. Una domanda di finanziamento europeo COACH sarà presentata a luglio 2010   ABSTRACT 1.1
1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini Con COACH, un set di strumenti accessibili  trough-the-web, un workbench, per l’analisi dei testi e l’estrazione di termini da corpus linguistici pre-esistenti in italiano, inglese e spagnolo intendiamo presentare un “manifesto” per la costituzione di una comunità di ricerca attorno ad uno strumento, un workbench appunto, che ci consenta di aggregare le migliori risorse disponibili attorno ad alcune linee guida della ricerca in area umanistica.  1.2
1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini Il presente lavoro  è  proposto come un work-in-progress, consistente nell'adattamento, nell'estensione e nell'integrazione attorno all’ambiente  Plone di strumenti per l'elaborazione di testi (NLP), per  il tagging, il crunching e sullo sfondo l’inferenza semantica a partire corporapre-elaboraticontro cui confrontare testi singoli, e raccolte ulteriori di testi. Il focus del lavoro sarà per ora limitato (per quanto riguarda la sperimentazione iniziale) sulla lingua italiana.  1.3
1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini   1.4 Il primo obbiettivo è infatti quello di disporre anche per l'italiano di una suite di tool che consentano di effettuare una migliore indicizzazione full-text dei documenti e di estrarre da essi i "termini" rappresentativi candidati ad essere usati per il "tagging" dei contenuti stessi (nel contesto di blog, digitallibrary, ecc.). In seguito vorremmo supportare costruzione semi-automatica di glossari e ontologie, web mining, ecc.   Il secondo obbiettivo è quello di far tesoro delle risorse generate – in maniera più o meno  consapevole nel workbench comune – dalle attività autonome di ciascuno degli stakeholders, da ciascuno dei membri della comunità di utenti.
1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini   1.5     Il terzo obbiettivo è quello di costituire corpus specializzati nell’esame di testi non contemporanei, introducendo variabili e modelli che consentano l’identificazione su una scala diacronica dei testi sottoposti a indagine.
1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini   1.5     I principali componenti che intendiamo integrare in Plone sono: - NLTK (NaturalLanguageToolKit), una libreria Python e un insieme di risorse linguistiche, soprattutto corpora, risultato della più interessante iniziativa open-source nel campo della linguistica computazionale; si tratta di divulgazione ad alto livello - un paio di risorse linguistiche di libero dominio e di ottima qualità disponibili per l'italiano: costituiscono un'eccezione in un panorama desolante, tenuto conto anche degli ingenti finanziamenti pubblici italiani ed europei che sono stati dedicati a questo settore nel periodo 1990-2010.  
1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini   1.5     A parte PERL, che è un linguaggio di scripting specialistico e dalla sintassi criptica, crediamo che Python sia il linguaggio di programmazione general-purpose che meglio supporta la sperimentazione nel campo dell'analisi dei testi.
1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini   1.5     Plone di per sé non aggiunge un contributo essenziale, ma un sito Plone potrà beneficiare del package in corso di sviluppo la piattaforma Zope/Plone è comunque un'ottima base di partenza per qualsiasi applicazione che deve essere accessibile su web; e le funzionalità di content management  e di user management di Plone faciliteranno la gestione di risorse linguistiche personalizzate (es: basi di documenti e file di parametri) nell'ottica di installazioni che forniscano un servizio aperto.
2 COACH: Obbiettivi funzionali COACH, ambientecollaborativodi NLP 2.3   Nell’implementare COACH, l’ambiente collaborativo d di NLP, abbiamo definito alcuni obbiettivi funzionaliche ci sembrano abbastanza innovativi e che allo stesso tempo costituiscono un primo step realistico per “innestare” COACH nell’utilizzazione pratica di un numero consistente di apprendisti e di ricercatori. Gli obbiettivi elencati in ordine non gerarchico di importanza, sono in prima approssimazione i seguenti:
2 COACH: Obbiettivi funzionali WordPress, Joomla, Drupal and Plone 2.4   Effetto Wikinomics: Integrare tramite un CMS  – a partire dal progetto NLTK – la capacità di feedback intelligente sugli algoritmi di apprendimento basati sul confronto con un corpus standard - ad una comunità di studenti in linguistica computazionale, in modo da usufruire del supporto di un numero di operatori umani superiore di 1 o più ordini di grandezza rispetto agli attuali ristretti gruppi di ricerca (da 100 a 10.000, da 100 a 100.000)  
2 COACH: Obbiettivi funzionali 2.5   Rendere accessibile a linguisti, filologi, studiosi del testo, storici della lingua italiana e storici uno strumento che sia in grado di fornire un servizio valutabile per un ampio numero di ricercatori, rendendo così appetibile il suo utilizzo e creando in questo modo un feedback positivo sia per il perfezionamento di un corpus e delle regole di campionamento del corpus, sia per il perfezionamento degli algoritmi di analisi ed estrazione termini
2 COACH: Obbiettivi funzionali WordPress, Joomla, Drupal and Plone 2.6 Mettere a test la necessità di potenza di calcolo, sperimentando diverse soluzioni per rendere disponibili potenze di elaborazione crescenti on-demand, rendendo possibile la profilazione, la rendicontazione ed il pagamento del computingpower richiesto da ciascuna ricerca. .
2 COACH: Obbiettivi funzionali WordPress, Joomla, Drupal and Plone 2.7 Identificazione di uno standard identificativo unico per i termini di una lingua (sull’esempio del DOI? Dei riferimenti bibliografici? Etc.) che renda possibile la referenziazione dinamica, basata su una autorità formale, di un termine, di un concetto, di un significato in uno spazio linguistico definito da una sorgente – autoritativa (Webservices DNS?); provvedere ad un meccanismo di classificazione diacronica di tale lista  
2 COACH: un Workbenchcoopearativo per NLP Obbiettivi applicativi innovativi di COACH all’interno del progetto Sapienza Emozioni 2.8 abbiamo individuato obbiettivi applicativi che ci sembravano sufficientemente realistici (ciò che linguisti e filologi si attendono da uno strumento reale ed esistente) e allo stesso tempo potenzialmente innovativi.  Gli obbiettivi elencati in ordine non gerarchico di importanza, sono in prima approssimazione i seguenti:
2 COACH: un Workbenchcoopearativo per NLP Obbiettivi applicativi innovativi di COACH all’interno del progetto Sapienza Emozioni 2.8 Essere in grado di identificare le probabilità di occorrenza e co-occorrenza di termini dati in un contesto specifico dato, a fronte di analoghi valori generali dell’Italiano (classificazione degli ambiti della langue); significa avere meccanismi automatici di pre-identificazione di un numero limitato di contesti linguistici; crono-localizzazione
2 COACH: un Workbenchcoopearativo per NLP Obbiettivi applicativi innovativi di COACH all’interno del progetto Sapienza Emozioni 2.8 Mettere un ampio numero di utenti proattivi in grado di sperimentare algoritmi per l’associazione di stili autorali con testi dall’autore non identificato e di fornire feedback per il perfezionamento degli algoritmi stessi; ipso-identificazione
2 COACH: un Workbenchcoopearativo per NLP Obbiettivi applicativi innovativi di COACH all’interno del progetto Sapienza Emozioni 2.8 Mettere un ampio numero di utenti proattivi in grado di sperimentare algoritmi per l’associazione di stili regionali e di altre comunità locali e di fornire feedback per il perfezionamento degli algoritmi stessi;  geo –localizzazione
2 COACH: un Workbenchcoopearativo per NLP Obbiettivi applicativi innovativi di COACH all’interno del progetto Sapienza Emozioni 2.8 Preparare la piattaforma collettiva per il successivo ampliamento funzionale che estenda le funzionalità di analisi al dominio della semantica e delle ontologie, mediante la predisposizione di un impianto architetturale software APERTO, MODULARE, DOCUMENTATO e facilmente documentabile attraverso l’attività dello stesso utente.
2 CMS come aggregatori di modelli per la Web Science Casi d’ uso concreti nel progetto “Il linguaggio delle emozioni” 2.9   Come primo caso d’uso, all'interno del progetto PRIN “Il Linguaggio delle emozioni” ci proponiamo di costituire un ambiente di “sperimentazione linguistica” (LinguisticWorkbench) con il quale mettere alla prova i seguenti procedimenti e i seguenti framework di riferimento per una analisi semantica di corpora letterari:
2 CMS come aggregatori di modelli per la Web Science individuazione dei radicali caratterizzanti di uso più frequente del corpus SapienzaEmozioni descrizione del loro inserimento all'interno dell'ontologia Wordnet per creare una topografia specifica, verificarne il coinvolgimento di altri campi, e la discendenza relativa (facendo emergere proprietà specifiche come funzioni metaforiche e alti usi) fare emergere dal contrasto tra corpus testuale (corpus oggetto di indagine)  e corpus di riferimento le proprietà specifiche di ciascun dominio indagabile (autore, epoca, lingue, genere, linee stilistiche, “scuole”, etc. esser pronti a individuare tramite il feedback  tra corpus di riferimento e corpus di studio nuove strategie di studio e nuovi possibili domini Casi d’ uso concreti nel progetto “Il linguaggio delle emozioni” 2.1
3 COACH: casi d’uso Possibili casi d’ uso di COACH in altri ambiti di ricerca 3.1   Dato un dominio o una sottorete, si chiede al software di analizzare le pagine pubblicate sotto le URI appartenenti al dominio specificato estraendone sintagmi, termini e coppie di termini statisticamente rilevanti; Il “corpus delle emozioni” un’ analisi attraverso NLTK su un corpus preparato per il gruppo di lavoro  Un corpus delle leggi costituzionali di alcuni paesi europei    
3 COACH: Riferimenti Riferimenti bibliografici 3.2   Pecheux, M. 1982, Language, Semantics, and Ideology, {PalgraveMacmillan}. Pecheux, M.  AutomaticDiscourseAnalysis (Utrecht Studies in Language and Communication, No 5), RodopiBvEditions.  Fuksas, A. 2002, Etimologia e geografia nella lirica dei trovatori, Roma.  .
3 COACH: Riferimenti Riferimenti elettronici (DOI) 3.2     Nicola Simonetti, Filosofia della mente e neuroscienze: il caso dei neuroni specchio, giovedì, novembre 19, 2009, Relazione SFI, Novara, 28.10.2009   .
8 Web Semantico e “intelligence” per le comunità della scienza
8 COACH: un worbench collaborativo per  NLP
9 Riferimenti  Books and papers 9.1 1. Sherman, Chris.Partner & Executive Editor. London : Search Engine Land, 2008. paper. 2. Berners-Lee, T., et al.A framework for Web Science. s.l. : NOW, 2006. 1-933019-33-6. 3. Towards a Semantic Web. Lariccia, S. Toffoli, G. Ferrara : s.n., 2004. 4. Simon, Herbert A.The Science of artificial. Cambridge : The MIT Press, 1996. 0262691914.  
Sapienza University ,[object Object]
According to the Academic Ranking of World Universities published by the Institute of Higher Education of Shanghai Jiao Tong University,
Sapienza University of Rome ranks among top 30 european universities and as one of the best Italian Universities, together with the Universities of Milan, Pisa and Bologna...,[object Object],[object Object]
Summary ? Do You Have Any Questions? ? ?

Weitere ähnliche Inhalte

Ähnlich wie Plone4 ur coach un nlp framework per plone may 20 2010 1

201304011 comphumanities 2013
201304011 comphumanities 2013201304011 comphumanities 2013
201304011 comphumanities 2013Stefano Lariccia
 
Presentazione iws novembre 2015
Presentazione iws novembre 2015Presentazione iws novembre 2015
Presentazione iws novembre 2015Stefano Lariccia
 
Informatica umanistica 2016 - 4
Informatica umanistica   2016 - 4Informatica umanistica   2016 - 4
Informatica umanistica 2016 - 4Stefano Lariccia
 
Progetto Dldga : Ti racconto la Storia
Progetto Dldga : Ti racconto la StoriaProgetto Dldga : Ti racconto la Storia
Progetto Dldga : Ti racconto la Storiadmerlitti
 
Focus Group Open Source 11.02.2011 Andrea Pescetti
Focus Group Open Source 11.02.2011 Andrea PescettiFocus Group Open Source 11.02.2011 Andrea Pescetti
Focus Group Open Source 11.02.2011 Andrea PescettiRoberto Galoppini
 
PROGETTAZIONE E SVILUPPO DI UN FRAMEWORK DI SUPPORTO IN AMBIENTE AZIENDALE SU...
PROGETTAZIONE E SVILUPPO DI UN FRAMEWORK DI SUPPORTO IN AMBIENTE AZIENDALE SU...PROGETTAZIONE E SVILUPPO DI UN FRAMEWORK DI SUPPORTO IN AMBIENTE AZIENDALE SU...
PROGETTAZIONE E SVILUPPO DI UN FRAMEWORK DI SUPPORTO IN AMBIENTE AZIENDALE SU...Alex Ronci
 
2c. architettura open archive
2c. architettura open archive2c. architettura open archive
2c. architettura open archiveMau-Messenger
 
Sviluppare su OpenOffice.org con Java
Sviluppare su OpenOffice.org con JavaSviluppare su OpenOffice.org con Java
Sviluppare su OpenOffice.org con JavaMarcello Teodori
 
DSpace per la conservazione di oggetti digitali: breve introduzione.
DSpace per la conservazione di oggetti digitali:  breve introduzione.DSpace per la conservazione di oggetti digitali:  breve introduzione.
DSpace per la conservazione di oggetti digitali: breve introduzione.Lucia Bertini
 
Progettazione e realizzazione di una piattaforma middleware per la gestione a...
Progettazione e realizzazione di una piattaforma middleware per la gestione a...Progettazione e realizzazione di una piattaforma middleware per la gestione a...
Progettazione e realizzazione di una piattaforma middleware per la gestione a...LucaGre
 
EXELEARNING COME EDITOR DI CONTENUTI PER MOODLE
EXELEARNING COME EDITOR DI CONTENUTI PER MOODLEEXELEARNING COME EDITOR DI CONTENUTI PER MOODLE
EXELEARNING COME EDITOR DI CONTENUTI PER MOODLEWebinarPro srl
 
ProjectLibre - Manuale in Italiano dell'alternativa OpenSource a Microsoft Pr...
ProjectLibre - Manuale in Italiano dell'alternativa OpenSource a Microsoft Pr...ProjectLibre - Manuale in Italiano dell'alternativa OpenSource a Microsoft Pr...
ProjectLibre - Manuale in Italiano dell'alternativa OpenSource a Microsoft Pr...ROSARIO RIZZO, 2000+
 
E-LIS, archivio aperto per la biblioteconomia e la scienza dell'informazione
E-LIS, archivio aperto per la  biblioteconomia e la scienza dell'informazioneE-LIS, archivio aperto per la  biblioteconomia e la scienza dell'informazione
E-LIS, archivio aperto per la biblioteconomia e la scienza dell'informazioneAndrea Marchitelli
 
OntoPiA la rete di ontologie e vocabolari controllati per la pubblica amminis...
OntoPiA la rete di ontologie e vocabolari controllati per la pubblica amminis...OntoPiA la rete di ontologie e vocabolari controllati per la pubblica amminis...
OntoPiA la rete di ontologie e vocabolari controllati per la pubblica amminis...Giorgia Lodi
 
Criteri Di Riusabilita’ Di Un Learning Object
Criteri Di Riusabilita’ Di Un Learning ObjectCriteri Di Riusabilita’ Di Un Learning Object
Criteri Di Riusabilita’ Di Un Learning ObjectMarianna Amidei
 

Ähnlich wie Plone4 ur coach un nlp framework per plone may 20 2010 1 (20)

201304011 comphumanities 2013
201304011 comphumanities 2013201304011 comphumanities 2013
201304011 comphumanities 2013
 
Presentazione iws novembre 2015
Presentazione iws novembre 2015Presentazione iws novembre 2015
Presentazione iws novembre 2015
 
Object Oriented Programming
Object Oriented ProgrammingObject Oriented Programming
Object Oriented Programming
 
Plone
PlonePlone
Plone
 
Informatica umanistica 2016 - 4
Informatica umanistica   2016 - 4Informatica umanistica   2016 - 4
Informatica umanistica 2016 - 4
 
2006 Py01 intro
2006 Py01 intro2006 Py01 intro
2006 Py01 intro
 
Progetto Dldga : Ti racconto la Storia
Progetto Dldga : Ti racconto la StoriaProgetto Dldga : Ti racconto la Storia
Progetto Dldga : Ti racconto la Storia
 
Focus Group Open Source 11.02.2011 Andrea Pescetti
Focus Group Open Source 11.02.2011 Andrea PescettiFocus Group Open Source 11.02.2011 Andrea Pescetti
Focus Group Open Source 11.02.2011 Andrea Pescetti
 
PROGETTAZIONE E SVILUPPO DI UN FRAMEWORK DI SUPPORTO IN AMBIENTE AZIENDALE SU...
PROGETTAZIONE E SVILUPPO DI UN FRAMEWORK DI SUPPORTO IN AMBIENTE AZIENDALE SU...PROGETTAZIONE E SVILUPPO DI UN FRAMEWORK DI SUPPORTO IN AMBIENTE AZIENDALE SU...
PROGETTAZIONE E SVILUPPO DI UN FRAMEWORK DI SUPPORTO IN AMBIENTE AZIENDALE SU...
 
Ecollab Formazione Csp 200904
Ecollab Formazione Csp 200904Ecollab Formazione Csp 200904
Ecollab Formazione Csp 200904
 
2c. architettura open archive
2c. architettura open archive2c. architettura open archive
2c. architettura open archive
 
Sviluppare su OpenOffice.org con Java
Sviluppare su OpenOffice.org con JavaSviluppare su OpenOffice.org con Java
Sviluppare su OpenOffice.org con Java
 
DSpace per la conservazione di oggetti digitali: breve introduzione.
DSpace per la conservazione di oggetti digitali:  breve introduzione.DSpace per la conservazione di oggetti digitali:  breve introduzione.
DSpace per la conservazione di oggetti digitali: breve introduzione.
 
Progettazione e realizzazione di una piattaforma middleware per la gestione a...
Progettazione e realizzazione di una piattaforma middleware per la gestione a...Progettazione e realizzazione di una piattaforma middleware per la gestione a...
Progettazione e realizzazione di una piattaforma middleware per la gestione a...
 
EXELEARNING COME EDITOR DI CONTENUTI PER MOODLE
EXELEARNING COME EDITOR DI CONTENUTI PER MOODLEEXELEARNING COME EDITOR DI CONTENUTI PER MOODLE
EXELEARNING COME EDITOR DI CONTENUTI PER MOODLE
 
ProjectLibre - Manuale in Italiano dell'alternativa OpenSource a Microsoft Pr...
ProjectLibre - Manuale in Italiano dell'alternativa OpenSource a Microsoft Pr...ProjectLibre - Manuale in Italiano dell'alternativa OpenSource a Microsoft Pr...
ProjectLibre - Manuale in Italiano dell'alternativa OpenSource a Microsoft Pr...
 
E-LIS, archivio aperto per la biblioteconomia e la scienza dell'informazione
E-LIS, archivio aperto per la  biblioteconomia e la scienza dell'informazioneE-LIS, archivio aperto per la  biblioteconomia e la scienza dell'informazione
E-LIS, archivio aperto per la biblioteconomia e la scienza dell'informazione
 
Open Source at Istat
Open Source at IstatOpen Source at Istat
Open Source at Istat
 
OntoPiA la rete di ontologie e vocabolari controllati per la pubblica amminis...
OntoPiA la rete di ontologie e vocabolari controllati per la pubblica amminis...OntoPiA la rete di ontologie e vocabolari controllati per la pubblica amminis...
OntoPiA la rete di ontologie e vocabolari controllati per la pubblica amminis...
 
Criteri Di Riusabilita’ Di Un Learning Object
Criteri Di Riusabilita’ Di Un Learning ObjectCriteri Di Riusabilita’ Di Un Learning Object
Criteri Di Riusabilita’ Di Un Learning Object
 

Mehr von Stefano Lariccia

_دروس اللغة العربية لغير الناطقين بهاـ الجزء الأول .pdf
_دروس اللغة العربية لغير الناطقين بهاـ الجزء الأول .pdf_دروس اللغة العربية لغير الناطقين بهاـ الجزء الأول .pdf
_دروس اللغة العربية لغير الناطقين بهاـ الجزء الأول .pdfStefano Lariccia
 
XIV Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIV Lezione - Arabo G.Rammo @ Libera Accademia RomanaXIV Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIV Lezione - Arabo G.Rammo @ Libera Accademia RomanaStefano Lariccia
 
XIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIII Lezione - Arabo G.Rammo @ Libera Accademia RomanaXIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIII Lezione - Arabo G.Rammo @ Libera Accademia RomanaStefano Lariccia
 
XII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XII Lezione - Arabo G.Rammo @ Libera Accademia RomanaXII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XII Lezione - Arabo G.Rammo @ Libera Accademia RomanaStefano Lariccia
 
X Lezione - Arabo G.Rammo @ Libera Accademia Romana
X Lezione - Arabo G.Rammo @ Libera Accademia RomanaX Lezione - Arabo G.Rammo @ Libera Accademia Romana
X Lezione - Arabo G.Rammo @ Libera Accademia RomanaStefano Lariccia
 
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia RomanaXI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia RomanaStefano Lariccia
 
Application frame methods and techniques in HighEd courses and self-paced lea...
Application frame methods and techniques in HighEd courses and self-paced lea...Application frame methods and techniques in HighEd courses and self-paced lea...
Application frame methods and techniques in HighEd courses and self-paced lea...Stefano Lariccia
 
Application frame methods and techniques to include advanced digital technolo...
Application frame methods and techniques to include advanced digital technolo...Application frame methods and techniques to include advanced digital technolo...
Application frame methods and techniques to include advanced digital technolo...Stefano Lariccia
 
IX Lezione - Arabo G.Rammo Febbruary 2024(2).pdf
IX Lezione - Arabo G.Rammo Febbruary 2024(2).pdfIX Lezione - Arabo G.Rammo Febbruary 2024(2).pdf
IX Lezione - Arabo G.Rammo Febbruary 2024(2).pdfStefano Lariccia
 
VIII Lezione - Arabo G.Rammo febbraio 2024(1).pdf
VIII Lezione - Arabo G.Rammo febbraio 2024(1).pdfVIII Lezione - Arabo G.Rammo febbraio 2024(1).pdf
VIII Lezione - Arabo G.Rammo febbraio 2024(1).pdfStefano Lariccia
 
VII Lezione - Arabo G.Rammo febbraio 2024.pdf
VII Lezione - Arabo G.Rammo febbraio 2024.pdfVII Lezione - Arabo G.Rammo febbraio 2024.pdf
VII Lezione - Arabo G.Rammo febbraio 2024.pdfStefano Lariccia
 
VI Lezione - Arabo G.Rammo febbraio 2024 .pdf
VI Lezione - Arabo G.Rammo febbraio 2024 .pdfVI Lezione - Arabo G.Rammo febbraio 2024 .pdf
VI Lezione - Arabo G.Rammo febbraio 2024 .pdfStefano Lariccia
 
V Lezione - Arabo - G.Rammo febbraio .pdf
V Lezione - Arabo - G.Rammo febbraio .pdfV Lezione - Arabo - G.Rammo febbraio .pdf
V Lezione - Arabo - G.Rammo febbraio .pdfStefano Lariccia
 
IV Lezione-Arabo G.Rammo febbraio 2024.pdf
IV Lezione-Arabo G.Rammo febbraio 2024.pdfIV Lezione-Arabo G.Rammo febbraio 2024.pdf
IV Lezione-Arabo G.Rammo febbraio 2024.pdfStefano Lariccia
 
III Lezione - Arabo G.Rammo febbraio 2024.pdf
III Lezione - Arabo G.Rammo febbraio 2024.pdfIII Lezione - Arabo G.Rammo febbraio 2024.pdf
III Lezione - Arabo G.Rammo febbraio 2024.pdfStefano Lariccia
 
II Lezione - Arabo G.Rammo - Febbraio 2024
II Lezione - Arabo G.Rammo - Febbraio 2024II Lezione - Arabo G.Rammo - Febbraio 2024
II Lezione - Arabo G.Rammo - Febbraio 2024Stefano Lariccia
 
I Lezione - Arabo G.Rammo Arabic Language
I Lezione - Arabo G.Rammo Arabic LanguageI Lezione - Arabo G.Rammo Arabic Language
I Lezione - Arabo G.Rammo Arabic LanguageStefano Lariccia
 
01 - Genius Loci Tusciae 1 Lariccia.pptx
01 - Genius Loci Tusciae 1  Lariccia.pptx01 - Genius Loci Tusciae 1  Lariccia.pptx
01 - Genius Loci Tusciae 1 Lariccia.pptxStefano Lariccia
 
Presentazione Oleg 06.07.2023.pptx
Presentazione Oleg 06.07.2023.pptxPresentazione Oleg 06.07.2023.pptx
Presentazione Oleg 06.07.2023.pptxStefano Lariccia
 
ASviS Capranica ppt Genius loci 6 7 23.pptx
ASviS Capranica ppt Genius loci 6 7 23.pptxASviS Capranica ppt Genius loci 6 7 23.pptx
ASviS Capranica ppt Genius loci 6 7 23.pptxStefano Lariccia
 

Mehr von Stefano Lariccia (20)

_دروس اللغة العربية لغير الناطقين بهاـ الجزء الأول .pdf
_دروس اللغة العربية لغير الناطقين بهاـ الجزء الأول .pdf_دروس اللغة العربية لغير الناطقين بهاـ الجزء الأول .pdf
_دروس اللغة العربية لغير الناطقين بهاـ الجزء الأول .pdf
 
XIV Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIV Lezione - Arabo G.Rammo @ Libera Accademia RomanaXIV Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIV Lezione - Arabo G.Rammo @ Libera Accademia Romana
 
XIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIII Lezione - Arabo G.Rammo @ Libera Accademia RomanaXIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
 
XII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XII Lezione - Arabo G.Rammo @ Libera Accademia RomanaXII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XII Lezione - Arabo G.Rammo @ Libera Accademia Romana
 
X Lezione - Arabo G.Rammo @ Libera Accademia Romana
X Lezione - Arabo G.Rammo @ Libera Accademia RomanaX Lezione - Arabo G.Rammo @ Libera Accademia Romana
X Lezione - Arabo G.Rammo @ Libera Accademia Romana
 
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia RomanaXI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
 
Application frame methods and techniques in HighEd courses and self-paced lea...
Application frame methods and techniques in HighEd courses and self-paced lea...Application frame methods and techniques in HighEd courses and self-paced lea...
Application frame methods and techniques in HighEd courses and self-paced lea...
 
Application frame methods and techniques to include advanced digital technolo...
Application frame methods and techniques to include advanced digital technolo...Application frame methods and techniques to include advanced digital technolo...
Application frame methods and techniques to include advanced digital technolo...
 
IX Lezione - Arabo G.Rammo Febbruary 2024(2).pdf
IX Lezione - Arabo G.Rammo Febbruary 2024(2).pdfIX Lezione - Arabo G.Rammo Febbruary 2024(2).pdf
IX Lezione - Arabo G.Rammo Febbruary 2024(2).pdf
 
VIII Lezione - Arabo G.Rammo febbraio 2024(1).pdf
VIII Lezione - Arabo G.Rammo febbraio 2024(1).pdfVIII Lezione - Arabo G.Rammo febbraio 2024(1).pdf
VIII Lezione - Arabo G.Rammo febbraio 2024(1).pdf
 
VII Lezione - Arabo G.Rammo febbraio 2024.pdf
VII Lezione - Arabo G.Rammo febbraio 2024.pdfVII Lezione - Arabo G.Rammo febbraio 2024.pdf
VII Lezione - Arabo G.Rammo febbraio 2024.pdf
 
VI Lezione - Arabo G.Rammo febbraio 2024 .pdf
VI Lezione - Arabo G.Rammo febbraio 2024 .pdfVI Lezione - Arabo G.Rammo febbraio 2024 .pdf
VI Lezione - Arabo G.Rammo febbraio 2024 .pdf
 
V Lezione - Arabo - G.Rammo febbraio .pdf
V Lezione - Arabo - G.Rammo febbraio .pdfV Lezione - Arabo - G.Rammo febbraio .pdf
V Lezione - Arabo - G.Rammo febbraio .pdf
 
IV Lezione-Arabo G.Rammo febbraio 2024.pdf
IV Lezione-Arabo G.Rammo febbraio 2024.pdfIV Lezione-Arabo G.Rammo febbraio 2024.pdf
IV Lezione-Arabo G.Rammo febbraio 2024.pdf
 
III Lezione - Arabo G.Rammo febbraio 2024.pdf
III Lezione - Arabo G.Rammo febbraio 2024.pdfIII Lezione - Arabo G.Rammo febbraio 2024.pdf
III Lezione - Arabo G.Rammo febbraio 2024.pdf
 
II Lezione - Arabo G.Rammo - Febbraio 2024
II Lezione - Arabo G.Rammo - Febbraio 2024II Lezione - Arabo G.Rammo - Febbraio 2024
II Lezione - Arabo G.Rammo - Febbraio 2024
 
I Lezione - Arabo G.Rammo Arabic Language
I Lezione - Arabo G.Rammo Arabic LanguageI Lezione - Arabo G.Rammo Arabic Language
I Lezione - Arabo G.Rammo Arabic Language
 
01 - Genius Loci Tusciae 1 Lariccia.pptx
01 - Genius Loci Tusciae 1  Lariccia.pptx01 - Genius Loci Tusciae 1  Lariccia.pptx
01 - Genius Loci Tusciae 1 Lariccia.pptx
 
Presentazione Oleg 06.07.2023.pptx
Presentazione Oleg 06.07.2023.pptxPresentazione Oleg 06.07.2023.pptx
Presentazione Oleg 06.07.2023.pptx
 
ASviS Capranica ppt Genius loci 6 7 23.pptx
ASviS Capranica ppt Genius loci 6 7 23.pptxASviS Capranica ppt Genius loci 6 7 23.pptx
ASviS Capranica ppt Genius loci 6 7 23.pptx
 

Plone4 ur coach un nlp framework per plone may 20 2010 1

  • 1. COACH: Un workbenchper NLP, l'analisi dei testi e l'estrazione di termini COACH: unWorkbench per NLP S.LaricciaSapienzaUniversità di Roma – Digilabstefano.lariccia@uniroma1.it Giovanni Toffoli [Link srl] toffoli@uni.net
  • 2. 1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini Open Knowledge Open Learning Web Science
  • 3. 1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini Si descrive un work-in-progress consistente nell’adattamento, estensione e integrazione in Plone di un set di strumenti per l’elaborazione testi (NLP). Ci siamo proposti di aggregare le principali risorse disponibili per la elaborazione della lingua italiana e di renderle accessibili attraverso un CMS per consentirne una utilizzazione più estesa, cioè allargata a tutti coloro che pur interessati all’uso degli strumenti NLP non avrebbero le risorse per configurare il proprio workbench più documentata, per garantire anche ad utenti “sporadici” una utilizzazione rapida ed efficace più flessibile d) più adatta all’insegnamento e alla creazione di ambienti di didattica (non esclusivamente Abbiamo scelto il linguaggio Python, il toolkit NLTK e l’ambiente CMS Plone. ABSTRACT 1.1
  • 4. 1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini L'attività descritta intende anche essere un elemento di aggregazione per iniziative su cui richiedere un contributo di finanziamento pubblico, nell'ambito di programmi di ricerca nazionali ed europei, e di collaborazioni con enti che diffondono la cultura italiana nel mondo. Una domanda di finanziamento europeo COACH sarà presentata a luglio 2010   ABSTRACT 1.1
  • 5. 1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini Con COACH, un set di strumenti accessibili trough-the-web, un workbench, per l’analisi dei testi e l’estrazione di termini da corpus linguistici pre-esistenti in italiano, inglese e spagnolo intendiamo presentare un “manifesto” per la costituzione di una comunità di ricerca attorno ad uno strumento, un workbench appunto, che ci consenta di aggregare le migliori risorse disponibili attorno ad alcune linee guida della ricerca in area umanistica. 1.2
  • 6. 1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini Il presente lavoro è proposto come un work-in-progress, consistente nell'adattamento, nell'estensione e nell'integrazione attorno all’ambiente Plone di strumenti per l'elaborazione di testi (NLP), per il tagging, il crunching e sullo sfondo l’inferenza semantica a partire corporapre-elaboraticontro cui confrontare testi singoli, e raccolte ulteriori di testi. Il focus del lavoro sarà per ora limitato (per quanto riguarda la sperimentazione iniziale) sulla lingua italiana. 1.3
  • 7. 1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini   1.4 Il primo obbiettivo è infatti quello di disporre anche per l'italiano di una suite di tool che consentano di effettuare una migliore indicizzazione full-text dei documenti e di estrarre da essi i "termini" rappresentativi candidati ad essere usati per il "tagging" dei contenuti stessi (nel contesto di blog, digitallibrary, ecc.). In seguito vorremmo supportare costruzione semi-automatica di glossari e ontologie, web mining, ecc.   Il secondo obbiettivo è quello di far tesoro delle risorse generate – in maniera più o meno consapevole nel workbench comune – dalle attività autonome di ciascuno degli stakeholders, da ciascuno dei membri della comunità di utenti.
  • 8. 1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini   1.5     Il terzo obbiettivo è quello di costituire corpus specializzati nell’esame di testi non contemporanei, introducendo variabili e modelli che consentano l’identificazione su una scala diacronica dei testi sottoposti a indagine.
  • 9. 1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini   1.5     I principali componenti che intendiamo integrare in Plone sono: - NLTK (NaturalLanguageToolKit), una libreria Python e un insieme di risorse linguistiche, soprattutto corpora, risultato della più interessante iniziativa open-source nel campo della linguistica computazionale; si tratta di divulgazione ad alto livello - un paio di risorse linguistiche di libero dominio e di ottima qualità disponibili per l'italiano: costituiscono un'eccezione in un panorama desolante, tenuto conto anche degli ingenti finanziamenti pubblici italiani ed europei che sono stati dedicati a questo settore nel periodo 1990-2010.  
  • 10. 1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini   1.5     A parte PERL, che è un linguaggio di scripting specialistico e dalla sintassi criptica, crediamo che Python sia il linguaggio di programmazione general-purpose che meglio supporta la sperimentazione nel campo dell'analisi dei testi.
  • 11. 1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini   1.5     Plone di per sé non aggiunge un contributo essenziale, ma un sito Plone potrà beneficiare del package in corso di sviluppo la piattaforma Zope/Plone è comunque un'ottima base di partenza per qualsiasi applicazione che deve essere accessibile su web; e le funzionalità di content management e di user management di Plone faciliteranno la gestione di risorse linguistiche personalizzate (es: basi di documenti e file di parametri) nell'ottica di installazioni che forniscano un servizio aperto.
  • 12. 2 COACH: Obbiettivi funzionali COACH, ambientecollaborativodi NLP 2.3   Nell’implementare COACH, l’ambiente collaborativo d di NLP, abbiamo definito alcuni obbiettivi funzionaliche ci sembrano abbastanza innovativi e che allo stesso tempo costituiscono un primo step realistico per “innestare” COACH nell’utilizzazione pratica di un numero consistente di apprendisti e di ricercatori. Gli obbiettivi elencati in ordine non gerarchico di importanza, sono in prima approssimazione i seguenti:
  • 13. 2 COACH: Obbiettivi funzionali WordPress, Joomla, Drupal and Plone 2.4   Effetto Wikinomics: Integrare tramite un CMS – a partire dal progetto NLTK – la capacità di feedback intelligente sugli algoritmi di apprendimento basati sul confronto con un corpus standard - ad una comunità di studenti in linguistica computazionale, in modo da usufruire del supporto di un numero di operatori umani superiore di 1 o più ordini di grandezza rispetto agli attuali ristretti gruppi di ricerca (da 100 a 10.000, da 100 a 100.000)  
  • 14. 2 COACH: Obbiettivi funzionali 2.5   Rendere accessibile a linguisti, filologi, studiosi del testo, storici della lingua italiana e storici uno strumento che sia in grado di fornire un servizio valutabile per un ampio numero di ricercatori, rendendo così appetibile il suo utilizzo e creando in questo modo un feedback positivo sia per il perfezionamento di un corpus e delle regole di campionamento del corpus, sia per il perfezionamento degli algoritmi di analisi ed estrazione termini
  • 15. 2 COACH: Obbiettivi funzionali WordPress, Joomla, Drupal and Plone 2.6 Mettere a test la necessità di potenza di calcolo, sperimentando diverse soluzioni per rendere disponibili potenze di elaborazione crescenti on-demand, rendendo possibile la profilazione, la rendicontazione ed il pagamento del computingpower richiesto da ciascuna ricerca. .
  • 16. 2 COACH: Obbiettivi funzionali WordPress, Joomla, Drupal and Plone 2.7 Identificazione di uno standard identificativo unico per i termini di una lingua (sull’esempio del DOI? Dei riferimenti bibliografici? Etc.) che renda possibile la referenziazione dinamica, basata su una autorità formale, di un termine, di un concetto, di un significato in uno spazio linguistico definito da una sorgente – autoritativa (Webservices DNS?); provvedere ad un meccanismo di classificazione diacronica di tale lista  
  • 17. 2 COACH: un Workbenchcoopearativo per NLP Obbiettivi applicativi innovativi di COACH all’interno del progetto Sapienza Emozioni 2.8 abbiamo individuato obbiettivi applicativi che ci sembravano sufficientemente realistici (ciò che linguisti e filologi si attendono da uno strumento reale ed esistente) e allo stesso tempo potenzialmente innovativi. Gli obbiettivi elencati in ordine non gerarchico di importanza, sono in prima approssimazione i seguenti:
  • 18. 2 COACH: un Workbenchcoopearativo per NLP Obbiettivi applicativi innovativi di COACH all’interno del progetto Sapienza Emozioni 2.8 Essere in grado di identificare le probabilità di occorrenza e co-occorrenza di termini dati in un contesto specifico dato, a fronte di analoghi valori generali dell’Italiano (classificazione degli ambiti della langue); significa avere meccanismi automatici di pre-identificazione di un numero limitato di contesti linguistici; crono-localizzazione
  • 19. 2 COACH: un Workbenchcoopearativo per NLP Obbiettivi applicativi innovativi di COACH all’interno del progetto Sapienza Emozioni 2.8 Mettere un ampio numero di utenti proattivi in grado di sperimentare algoritmi per l’associazione di stili autorali con testi dall’autore non identificato e di fornire feedback per il perfezionamento degli algoritmi stessi; ipso-identificazione
  • 20. 2 COACH: un Workbenchcoopearativo per NLP Obbiettivi applicativi innovativi di COACH all’interno del progetto Sapienza Emozioni 2.8 Mettere un ampio numero di utenti proattivi in grado di sperimentare algoritmi per l’associazione di stili regionali e di altre comunità locali e di fornire feedback per il perfezionamento degli algoritmi stessi; geo –localizzazione
  • 21. 2 COACH: un Workbenchcoopearativo per NLP Obbiettivi applicativi innovativi di COACH all’interno del progetto Sapienza Emozioni 2.8 Preparare la piattaforma collettiva per il successivo ampliamento funzionale che estenda le funzionalità di analisi al dominio della semantica e delle ontologie, mediante la predisposizione di un impianto architetturale software APERTO, MODULARE, DOCUMENTATO e facilmente documentabile attraverso l’attività dello stesso utente.
  • 22. 2 CMS come aggregatori di modelli per la Web Science Casi d’ uso concreti nel progetto “Il linguaggio delle emozioni” 2.9   Come primo caso d’uso, all'interno del progetto PRIN “Il Linguaggio delle emozioni” ci proponiamo di costituire un ambiente di “sperimentazione linguistica” (LinguisticWorkbench) con il quale mettere alla prova i seguenti procedimenti e i seguenti framework di riferimento per una analisi semantica di corpora letterari:
  • 23. 2 CMS come aggregatori di modelli per la Web Science individuazione dei radicali caratterizzanti di uso più frequente del corpus SapienzaEmozioni descrizione del loro inserimento all'interno dell'ontologia Wordnet per creare una topografia specifica, verificarne il coinvolgimento di altri campi, e la discendenza relativa (facendo emergere proprietà specifiche come funzioni metaforiche e alti usi) fare emergere dal contrasto tra corpus testuale (corpus oggetto di indagine) e corpus di riferimento le proprietà specifiche di ciascun dominio indagabile (autore, epoca, lingue, genere, linee stilistiche, “scuole”, etc. esser pronti a individuare tramite il feedback tra corpus di riferimento e corpus di studio nuove strategie di studio e nuovi possibili domini Casi d’ uso concreti nel progetto “Il linguaggio delle emozioni” 2.1
  • 24. 3 COACH: casi d’uso Possibili casi d’ uso di COACH in altri ambiti di ricerca 3.1   Dato un dominio o una sottorete, si chiede al software di analizzare le pagine pubblicate sotto le URI appartenenti al dominio specificato estraendone sintagmi, termini e coppie di termini statisticamente rilevanti; Il “corpus delle emozioni” un’ analisi attraverso NLTK su un corpus preparato per il gruppo di lavoro Un corpus delle leggi costituzionali di alcuni paesi europei    
  • 25. 3 COACH: Riferimenti Riferimenti bibliografici 3.2   Pecheux, M. 1982, Language, Semantics, and Ideology, {PalgraveMacmillan}. Pecheux, M. AutomaticDiscourseAnalysis (Utrecht Studies in Language and Communication, No 5), RodopiBvEditions. Fuksas, A. 2002, Etimologia e geografia nella lirica dei trovatori, Roma. .
  • 26. 3 COACH: Riferimenti Riferimenti elettronici (DOI) 3.2     Nicola Simonetti, Filosofia della mente e neuroscienze: il caso dei neuroni specchio, giovedì, novembre 19, 2009, Relazione SFI, Novara, 28.10.2009   .
  • 27. 8 Web Semantico e “intelligence” per le comunità della scienza
  • 28. 8 COACH: un worbench collaborativo per NLP
  • 29. 9 Riferimenti Books and papers 9.1 1. Sherman, Chris.Partner & Executive Editor. London : Search Engine Land, 2008. paper. 2. Berners-Lee, T., et al.A framework for Web Science. s.l. : NOW, 2006. 1-933019-33-6. 3. Towards a Semantic Web. Lariccia, S. Toffoli, G. Ferrara : s.n., 2004. 4. Simon, Herbert A.The Science of artificial. Cambridge : The MIT Press, 1996. 0262691914.  
  • 30.
  • 31. According to the Academic Ranking of World Universities published by the Institute of Higher Education of Shanghai Jiao Tong University,
  • 32.
  • 33. Summary ? Do You Have Any Questions? ? ?