Plone4 ur coach un nlp framework per plone may 20 2010 1
-
Upload
stefano-lariccia -
Category
Technology
-
view
433 -
download
1
Transcript of Plone4 ur coach un nlp framework per plone may 20 2010 1
COACH: Un workbench per NLP, l'analisi dei testi e l'estrazione di termini
S.Lariccia Sapienza Università di Roma – Digilab [email protected]
Giovanni Toffoli [Link srl] [email protected]
COACH: un Workbench per NLP
YOUR LOGO
1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini
Open Knowledge
Web Science Open Learning
YOUR LOGO
Si descrive un work-in-progress consistente nell’adattamento, estensione e integrazione in Plone di un set di strumenti per l’elaborazione testi (NLP). Ci siamo proposti di aggregare le principali risorse disponibili per la elaborazione della lingua italiana e di renderle accessibili attraverso un CMS per consentirne una utilizzazione a) più estesa, cioè allargata a tutti coloro che pur interessati all’uso degli
strumenti NLP non avrebbero le risorse per configurare il proprio workbench b) più documentata, per garantire anche ad utenti “sporadici” una utilizzazione
rapida ed efficace c) più flessibile d) più adatta all’insegnamento e alla creazione di ambienti di
didattica (non esclusivamente Abbiamo scelto il linguaggio Python, il toolkit NLTK e l’ambiente CMS Plone.
1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini
ABSTRACT1.1
YOUR LOGO
L'attività descritta intende anche essere un elemento di aggregazione per iniziative su cui richiedere un contributo di finanziamento pubblico, nell'ambito di programmi di ricerca nazionali ed europei, e di collaborazioni con enti che diffondono la cultura italiana nel mondo.Una domanda di finanziamento europeo COACH sarà presentata a luglio 2010
1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini
ABSTRACT1.1
YOUR LOGO
Con COACH, un set di strumenti accessibili trough-the-web, un workbench, per l’analisi dei testi e l’estrazione di termini da corpus linguistici pre-esistenti in italiano, inglese e spagnolo intendiamo presentare un “manifesto” per la costituzione di una comunità di ricerca attorno ad uno strumento, un workbench appunto, che ci consenta di aggregare le migliori risorse disponibili attorno ad alcune linee guida della ricerca in area umanistica.
1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini
1.2
YOUR LOGO
Il presente lavoro è proposto come un work-in-progress, consistente nell'adattamento, nell'estensione e nell'integrazione attorno all’ambiente Plone di strumenti per l'elaborazione di testi (NLP), per il tagging, il crunching e sullo sfondo l’inferenza semantica a partire corpora pre-elaboraticontro cui confrontare testi singoli, e raccolte ulteriori di testi. Il focus del lavoro sarà per ora limitato (per quanto riguarda la sperimentazione iniziale) sulla lingua italiana.
1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini
1.3
YOUR LOGO
1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini
1.4
Il primo obbiettivo è infatti quello di disporre anche per l'italiano di una suite di tool che consentano di effettuare una migliore indicizzazione full-text dei documenti e di estrarre da essi i "termini" rappresentativi candidati ad essere usati per il "tagging" dei contenuti stessi (nel contesto di blog, digital library, ecc.). In seguito vorremmo supportare costruzione semi-automatica di glossari e ontologie, web mining, ecc. Il secondo obbiettivo è quello di far tesoro delle risorse generate – in maniera più o meno consapevole nel workbench comune – dalle attività autonome di ciascuno degli stakeholders, da ciascuno dei membri della comunità di utenti.
YOUR LOGO
1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini
1.5
Il terzo obbiettivo è quello di costituire corpus specializzati nell’esame di testi non contemporanei, introducendo variabili e modelli che consentano l’identificazione su una scala diacronica dei testi sottoposti a indagine.
YOUR LOGO
1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini
1.5
I principali componenti che intendiamo integrare in Plone sono:- NLTK (Natural Language ToolKit), una libreria Python e un insieme di risorse linguistiche, soprattutto corpora, risultato della più interessante iniziativa open-source nel campo della linguistica computazionale; si tratta di divulgazione ad alto livello- un paio di risorse linguistiche di libero dominio e di ottima qualità disponibili per l'italiano: costituiscono un'eccezione in un panorama desolante, tenuto conto anche degli ingenti finanziamenti pubblici italiani ed europei che sono stati dedicati a questo settore nel periodo 1990-2010.
YOUR LOGO
1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini
1.5
A parte PERL, che è un linguaggio di scripting specialistico e dalla sintassi criptica, crediamo che Python sia il linguaggio di programmazione general-purpose che meglio supporta la sperimentazione nel campo dell'analisi dei testi.
YOUR LOGO
1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini
1.5
Plone di per sé non aggiunge un contributo essenziale, maun sito Plone potrà beneficiare del package in corso di sviluppola piattaforma Zope/Plone è comunque un'ottima base di partenza per qualsiasi applicazione che deve essere accessibile su web; e le funzionalità di content management e di user management di Plone faciliteranno la gestione di risorse linguistiche personalizzate (es: basi di documenti e file di parametri) nell'ottica di installazioni che forniscano un servizio aperto.
YOUR LOGO
2 COACH: Obbiettivi funzionali
COACH, ambiente collaborativo di NLP2.3
Nell’implementare COACH, l’ambiente collaborativo d di NLP, abbiamo definito alcuni obbiettivi funzionali che ci sembrano abbastanza innovativi e che allo stesso tempo costituiscono un primo step realistico per “innestare” COACH nell’utilizzazione pratica di un numero consistente di apprendisti e di ricercatori. Gli obbiettivi elencati in ordine non gerarchico di importanza, sono in prima approssimazione i seguenti:
YOUR LOGO
2 COACH: Obbiettivi funzionali
WordPress, Joomla, Drupal and Plone2.4
1. Effetto Wikinomics: Integrare tramite un CMS – a partire
dal progetto NLTK – la capacità di feedback intelligente sugli algoritmi di apprendimento basati sul confronto con un corpus standard - ad una comunità di studenti in linguistica computazionale, in modo da usufruire del supporto di un numero di operatori umani superiore di 1 o più ordini di grandezza rispetto agli attuali ristretti gruppi di ricerca (da 100 a 10.000, da 100 a 100.000)
YOUR LOGO
2 COACH: Obbiettivi funzionali
2.5
2. Rendere accessibile a linguisti, filologi, studiosi del testo,
storici della lingua italiana e storici uno strumento che sia in grado di fornire un servizio valutabile per un ampio numero di ricercatori, rendendo così appetibile il suo utilizzo e creando in questo modo un feedback positivo sia per il perfezionamento di un corpus e delle regole di campionamento del corpus, sia per il perfezionamento degli algoritmi di analisi ed estrazione termini
YOUR LOGO
2 COACH: Obbiettivi funzionali
WordPress, Joomla, Drupal and Plone2.6
3. Mettere a test la necessità di potenza di calcolo, sperimentando diverse soluzioni per rendere disponibili potenze di elaborazione crescenti on-demand, rendendo possibile la profilazione, la rendicontazione ed il pagamento del computing power richiesto da ciascuna ricerca.
.
YOUR LOGO
2 COACH: Obbiettivi funzionali
WordPress, Joomla, Drupal and Plone2.7
4. Identificazione di uno standard identificativo unico per i termini di una lingua (sull’esempio del DOI? Dei riferimenti bibliografici? Etc.) che renda possibile la referenziazione dinamica, basata su una autorità formale, di un termine, di un concetto, di un significato in uno spazio linguistico definito da una sorgente – autoritativa (Webservices DNS?); provvedere ad un meccanismo di classificazione diacronica di tale lista
YOUR LOGO
2 COACH: un Workbench coopearativo per NLP
Obbiettivi applicativi innovativi di COACH all’interno del progetto Sapienza Emozioni2.8
abbiamo individuato obbiettivi applicativi che ci sembravano sufficientemente realistici (ciò che linguisti e filologi si attendono da uno strumento reale ed esistente) e allo stesso tempo potenzialmente innovativi.
Gli obbiettivi elencati in ordine non gerarchico di importanza, sono in prima approssimazione i seguenti:
YOUR LOGO
2 COACH: un Workbench coopearativo per NLP
Obbiettivi applicativi innovativi di COACH all’interno del progetto Sapienza Emozioni2.8
1. Essere in grado di identificare le probabilità di occorrenza e co-occorrenza di termini dati in un contesto specifico dato, a fronte di analoghi valori generali dell’Italiano (classificazione degli ambiti della langue); significa avere meccanismi automatici di pre-identificazione di un numero limitato di contesti linguistici; crono-localizzazione
YOUR LOGO
2 COACH: un Workbench coopearativo per NLP
Obbiettivi applicativi innovativi di COACH all’interno del progetto Sapienza Emozioni2.8
2. Mettere un ampio numero di utenti proattivi in grado di sperimentare algoritmi per l’associazione di stili autorali con testi dall’autore non identificato e di fornire feedback per il perfezionamento degli algoritmi stessi; ipso-identificazione
YOUR LOGO
2 COACH: un Workbench coopearativo per NLP
Obbiettivi applicativi innovativi di COACH all’interno del progetto Sapienza Emozioni2.8
3. Mettere un ampio numero di utenti proattivi in grado di sperimentare algoritmi per l’associazione di stili regionali e di altre comunità locali e di fornire feedback per il perfezionamento degli algoritmi stessi; geo –localizzazione
YOUR LOGO
2 COACH: un Workbench coopearativo per NLP
Obbiettivi applicativi innovativi di COACH all’interno del progetto Sapienza Emozioni2.8
4. Preparare la piattaforma collettiva per il successivo ampliamento funzionale che estenda le funzionalità di analisi al dominio della semantica e delle ontologie, mediante la predisposizione di un impianto architetturale software APERTO, MODULARE, DOCUMENTATO e facilmente documentabile attraverso l’attività dello stesso utente.
YOUR LOGO
2 CMS come aggregatori di modelli per la Web Science
Casi d’ uso concreti nel progetto “Il linguaggio delle emozioni”2.9
Come primo caso d’uso, all'interno del progetto PRIN “Il Linguaggio delle emozioni” ci proponiamo di costituire un ambiente di “sperimentazione linguistica” (Linguistic Workbench) con il quale mettere alla prova i seguenti procedimenti e i seguenti framework di riferimento per una analisi semantica di corpora letterari:
YOUR LOGO
1. individuazione dei radicali caratterizzanti di uso più frequente del corpus SapienzaEmozioni
2. descrizione del loro inserimento all'interno dell'ontologia Wordnet per creare una topografia specifica, verificarne il coinvolgimento di altri campi, e la discendenza relativa (facendo emergere proprietà specifiche come funzioni metaforiche e alti usi)
3. fare emergere dal contrasto tra corpus testuale (corpus oggetto di indagine) e corpus di riferimento le proprietà specifiche di ciascun dominio indagabile (autore, epoca, lingue, genere, linee stilistiche, “scuole”, etc.
4. esser pronti a individuare tramite il feedback tra corpus di riferimento e corpus di studio nuove strategie di studio e nuovi possibili domini
2 CMS come aggregatori di modelli per la Web Science
Casi d’ uso concreti nel progetto “Il linguaggio delle emozioni”2.1
YOUR LOGO
3 COACH: casi d’uso
Possibili casi d’ uso di COACH in altri ambiti di ricerca3.1
Dato un dominio o una sottorete, si chiede al software di analizzare le pagine pubblicate sotto le URI appartenenti al dominio specificato estraendone sintagmi, termini e coppie di termini statisticamente rilevanti;Il “corpus delle emozioni” un’ analisi attraverso NLTK su un corpus preparato per il gruppo di lavoro Un corpus delle leggi costituzionali di alcuni paesi europei
YOUR LOGO
3 COACH: Riferimenti
Riferimenti bibliografici3.2
Pecheux, M. 1982, Language, Semantics, and Ideology, {Palgrave Macmillan}.Pecheux, M. Automatic Discourse Analysis (Utrecht Studies in Language and Communication, No 5), Rodopi Bv Editions. Fuksas, A. 2002, Etimologia e geografia nella lirica dei trovatori, Roma.
.
YOUR LOGO
3 COACH: Riferimenti
Riferimenti elettronici (DOI)3.2
Nicola Simonetti, Filosofia della mente e neuroscienze: il caso dei neuroni specchio, giovedì, novembre 19, 2009, Relazione SFI, Novara, 28.10.2009
.
YOUR LOGO
8 Web Semantico e “intelligence” per le comunità della scienza
YOUR LOGO
8 COACH: un worbench collaborativo per NLP
YOUR LOGO
9 Riferimenti
Books and papers9.1
1. Sherman, Chris. Partner & Executive Editor. London : Search Engine Land, 2008. paper.2. Berners-Lee, T., et al. A framework for Web Science. s.l. : NOW, 2006. 1-933019-33-6.3. Towards a Semantic Web. Lariccia, S. Toffoli, G. Ferrara : s.n., 2004.4. Simon, Herbert A. The Science of artificial. Cambridge : The MIT Press, 1996. 0262691914.
YOUR LOGO
The University of Rome "La Sapienza“ was founded on April 20th, 1303 through an edict ("Bolla") by Pope Boniface the VIIIth.
According to the Academic Ranking of World Universities published by the Institute of Higher Education of Shanghai Jiao Tong University,
Sapienza University of Rome ranks among top 30 european universities and as one of the best Italian Universities, together with the Universities of Milan, Pisa and Bologna...
Sapienza University
YOUR LOGO
Digilab Centre
Digilab is starting now as a Centre for New Media
Sapienza University
The University of Rome "La Sapienza" has a very specific birth certificate since it was founded on April 20th, 1303 through an edict ("Bolla") by Pope Boniface the VIIIth.
Laboratory for Informatics Didactics and Science.
LIDS
Institutional mapping
YOUR LOGO
2: Research on new methods of Web-
learning, especially for Humanities
4: advanced services of communication for
research and science
Digilab is constituted in April 2009 with 4 tasks:
1: digitalization of books owned by Sapienza and Padua University
3: Service of certification and Continous Learning for the national Administration
Digilab Centre Sapienza
YOUR LOGO
Do You Have Any Questions?
Summary