Plone4 ur coach un nlp framework per plone may 20 2010 1

33
COACH: Un workbench per NLP, l'analisi dei testi e l'estrazione di termini S.Lariccia Sapienza Università di Roma – Digilab [email protected] Giovanni Toffoli [Link srl] [email protected] COACH: un Workbench per NLP

Transcript of Plone4 ur coach un nlp framework per plone may 20 2010 1

Page 1: Plone4 ur coach un nlp framework per plone   may 20 2010 1

COACH: Un workbench per NLP, l'analisi dei testi e l'estrazione di termini

S.Lariccia Sapienza Università di Roma – Digilab [email protected]

Giovanni Toffoli [Link srl] [email protected]

COACH: un Workbench per NLP

Page 2: Plone4 ur coach un nlp framework per plone   may 20 2010 1

YOUR LOGO

1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini

Open Knowledge

Web Science Open Learning

Page 3: Plone4 ur coach un nlp framework per plone   may 20 2010 1

YOUR LOGO

Si descrive un work-in-progress consistente nell’adattamento, estensione e integrazione in Plone di un set di strumenti per l’elaborazione testi (NLP). Ci siamo proposti di aggregare le principali risorse disponibili per la elaborazione della lingua italiana e di renderle accessibili attraverso un CMS per consentirne una utilizzazione a) più estesa, cioè allargata a tutti coloro che pur interessati all’uso degli

strumenti NLP non avrebbero le risorse per configurare il proprio workbench b) più documentata, per garantire anche ad utenti “sporadici” una utilizzazione

rapida ed efficace c) più flessibile d) più adatta all’insegnamento e alla creazione di ambienti di

didattica (non esclusivamente Abbiamo scelto il linguaggio Python, il toolkit NLTK e l’ambiente CMS Plone.

1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini

ABSTRACT1.1

Page 4: Plone4 ur coach un nlp framework per plone   may 20 2010 1

YOUR LOGO

L'attività descritta intende anche essere un elemento di aggregazione per iniziative su cui richiedere un contributo di finanziamento pubblico, nell'ambito di programmi di ricerca nazionali ed europei, e di collaborazioni con enti che diffondono la cultura italiana nel mondo.Una domanda di finanziamento europeo COACH sarà presentata a luglio 2010 

1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini

ABSTRACT1.1

Page 5: Plone4 ur coach un nlp framework per plone   may 20 2010 1

YOUR LOGO

Con COACH, un set di strumenti accessibili trough-the-web, un workbench, per l’analisi dei testi e l’estrazione di termini da corpus linguistici pre-esistenti in italiano, inglese e spagnolo intendiamo presentare un “manifesto” per la costituzione di una comunità di ricerca attorno ad uno strumento, un workbench appunto, che ci consenta di aggregare le migliori risorse disponibili attorno ad alcune linee guida della ricerca in area umanistica.

1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini

1.2

Page 6: Plone4 ur coach un nlp framework per plone   may 20 2010 1

YOUR LOGO

Il presente lavoro è proposto come un work-in-progress, consistente nell'adattamento, nell'estensione e nell'integrazione attorno all’ambiente Plone di strumenti per l'elaborazione di testi (NLP), per il tagging, il crunching e sullo sfondo l’inferenza semantica a partire corpora pre-elaboraticontro cui confrontare testi singoli, e raccolte ulteriori di testi. Il focus del lavoro sarà per ora limitato (per quanto riguarda la sperimentazione iniziale) sulla lingua italiana.

1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini

1.3

Page 7: Plone4 ur coach un nlp framework per plone   may 20 2010 1

YOUR LOGO

 

1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini

1.4

Il primo obbiettivo è infatti quello di disporre anche per l'italiano di una suite di tool che consentano di effettuare una migliore indicizzazione full-text dei documenti e di estrarre da essi i "termini" rappresentativi candidati ad essere usati per il "tagging" dei contenuti stessi (nel contesto di blog, digital library, ecc.). In seguito vorremmo supportare costruzione semi-automatica di glossari e ontologie, web mining, ecc. Il secondo obbiettivo è quello di far tesoro delle risorse generate – in maniera più o meno consapevole nel workbench comune – dalle attività autonome di ciascuno degli stakeholders, da ciascuno dei membri della comunità di utenti.

Page 8: Plone4 ur coach un nlp framework per plone   may 20 2010 1

YOUR LOGO

 

1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini

1.5

 

 

Il terzo obbiettivo è quello di costituire corpus specializzati nell’esame di testi non contemporanei, introducendo variabili e modelli che consentano l’identificazione su una scala diacronica dei testi sottoposti a indagine.

Page 9: Plone4 ur coach un nlp framework per plone   may 20 2010 1

YOUR LOGO

 

1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini

1.5

 

 

I principali componenti che intendiamo integrare in Plone sono:- NLTK (Natural Language ToolKit), una libreria Python e un insieme di risorse linguistiche, soprattutto corpora, risultato della più interessante iniziativa open-source nel campo della linguistica computazionale; si tratta di divulgazione ad alto livello- un paio di risorse linguistiche di libero dominio e di ottima qualità disponibili per l'italiano: costituiscono un'eccezione in un panorama desolante, tenuto conto anche degli ingenti finanziamenti pubblici italiani ed europei che sono stati dedicati a questo settore nel periodo 1990-2010. 

Page 10: Plone4 ur coach un nlp framework per plone   may 20 2010 1

YOUR LOGO

 

1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini

1.5

 

 

A parte PERL, che è un linguaggio di scripting specialistico e dalla sintassi criptica, crediamo che Python sia il linguaggio di programmazione general-purpose che meglio supporta la sperimentazione nel campo dell'analisi dei testi.

Page 11: Plone4 ur coach un nlp framework per plone   may 20 2010 1

YOUR LOGO

 

1 COACH: Un workbench per l'analisi dei testi e l'estrazione di termini

1.5

 

 

Plone di per sé non aggiunge un contributo essenziale, maun sito Plone potrà beneficiare del package in corso di sviluppola piattaforma Zope/Plone è comunque un'ottima base di partenza per qualsiasi applicazione che deve essere accessibile su web; e le funzionalità di content management e di user management di Plone faciliteranno la gestione di risorse linguistiche personalizzate (es: basi di documenti e file di parametri) nell'ottica di installazioni che forniscano un servizio aperto.

Page 12: Plone4 ur coach un nlp framework per plone   may 20 2010 1

YOUR LOGO

2 COACH: Obbiettivi funzionali

COACH, ambiente collaborativo di NLP2.3

 

Nell’implementare COACH, l’ambiente collaborativo d di NLP, abbiamo definito alcuni obbiettivi funzionali che ci sembrano abbastanza innovativi e che allo stesso tempo costituiscono un primo step realistico per “innestare” COACH nell’utilizzazione pratica di un numero consistente di apprendisti e di ricercatori. Gli obbiettivi elencati in ordine non gerarchico di importanza, sono in prima approssimazione i seguenti:

Page 13: Plone4 ur coach un nlp framework per plone   may 20 2010 1

YOUR LOGO

2 COACH: Obbiettivi funzionali

WordPress, Joomla, Drupal and Plone2.4

 1. Effetto Wikinomics: Integrare tramite un CMS – a partire

dal progetto NLTK – la capacità di feedback intelligente sugli algoritmi di apprendimento basati sul confronto con un corpus standard - ad una comunità di studenti in linguistica computazionale, in modo da usufruire del supporto di un numero di operatori umani superiore di 1 o più ordini di grandezza rispetto agli attuali ristretti gruppi di ricerca (da 100 a 10.000, da 100 a 100.000)

 

Page 14: Plone4 ur coach un nlp framework per plone   may 20 2010 1

YOUR LOGO

2 COACH: Obbiettivi funzionali

2.5

 2. Rendere accessibile a linguisti, filologi, studiosi del testo,

storici della lingua italiana e storici uno strumento che sia in grado di fornire un servizio valutabile per un ampio numero di ricercatori, rendendo così appetibile il suo utilizzo e creando in questo modo un feedback positivo sia per il perfezionamento di un corpus e delle regole di campionamento del corpus, sia per il perfezionamento degli algoritmi di analisi ed estrazione termini

Page 15: Plone4 ur coach un nlp framework per plone   may 20 2010 1

YOUR LOGO

2 COACH: Obbiettivi funzionali

WordPress, Joomla, Drupal and Plone2.6

3. Mettere a test la necessità di potenza di calcolo, sperimentando diverse soluzioni per rendere disponibili potenze di elaborazione crescenti on-demand, rendendo possibile la profilazione, la rendicontazione ed il pagamento del computing power richiesto da ciascuna ricerca.

.

Page 16: Plone4 ur coach un nlp framework per plone   may 20 2010 1

YOUR LOGO

2 COACH: Obbiettivi funzionali

WordPress, Joomla, Drupal and Plone2.7

4. Identificazione di uno standard identificativo unico per i termini di una lingua (sull’esempio del DOI? Dei riferimenti bibliografici? Etc.) che renda possibile la referenziazione dinamica, basata su una autorità formale, di un termine, di un concetto, di un significato in uno spazio linguistico definito da una sorgente – autoritativa (Webservices DNS?); provvedere ad un meccanismo di classificazione diacronica di tale lista

 

Page 17: Plone4 ur coach un nlp framework per plone   may 20 2010 1

YOUR LOGO

2 COACH: un Workbench coopearativo per NLP

Obbiettivi applicativi innovativi di COACH all’interno del progetto Sapienza Emozioni2.8

abbiamo individuato obbiettivi applicativi che ci sembravano sufficientemente realistici (ciò che linguisti e filologi si attendono da uno strumento reale ed esistente) e allo stesso tempo potenzialmente innovativi.

Gli obbiettivi elencati in ordine non gerarchico di importanza, sono in prima approssimazione i seguenti:

Page 18: Plone4 ur coach un nlp framework per plone   may 20 2010 1

YOUR LOGO

2 COACH: un Workbench coopearativo per NLP

Obbiettivi applicativi innovativi di COACH all’interno del progetto Sapienza Emozioni2.8

1. Essere in grado di identificare le probabilità di occorrenza e co-occorrenza di termini dati in un contesto specifico dato, a fronte di analoghi valori generali dell’Italiano (classificazione degli ambiti della langue); significa avere meccanismi automatici di pre-identificazione di un numero limitato di contesti linguistici; crono-localizzazione

Page 19: Plone4 ur coach un nlp framework per plone   may 20 2010 1

YOUR LOGO

2 COACH: un Workbench coopearativo per NLP

Obbiettivi applicativi innovativi di COACH all’interno del progetto Sapienza Emozioni2.8

2. Mettere un ampio numero di utenti proattivi in grado di sperimentare algoritmi per l’associazione di stili autorali con testi dall’autore non identificato e di fornire feedback per il perfezionamento degli algoritmi stessi; ipso-identificazione

Page 20: Plone4 ur coach un nlp framework per plone   may 20 2010 1

YOUR LOGO

2 COACH: un Workbench coopearativo per NLP

Obbiettivi applicativi innovativi di COACH all’interno del progetto Sapienza Emozioni2.8

3. Mettere un ampio numero di utenti proattivi in grado di sperimentare algoritmi per l’associazione di stili regionali e di altre comunità locali e di fornire feedback per il perfezionamento degli algoritmi stessi; geo –localizzazione

Page 21: Plone4 ur coach un nlp framework per plone   may 20 2010 1

YOUR LOGO

2 COACH: un Workbench coopearativo per NLP

Obbiettivi applicativi innovativi di COACH all’interno del progetto Sapienza Emozioni2.8

4. Preparare la piattaforma collettiva per il successivo ampliamento funzionale che estenda le funzionalità di analisi al dominio della semantica e delle ontologie, mediante la predisposizione di un impianto architetturale software APERTO, MODULARE, DOCUMENTATO e facilmente documentabile attraverso l’attività dello stesso utente.

Page 22: Plone4 ur coach un nlp framework per plone   may 20 2010 1

YOUR LOGO

2 CMS come aggregatori di modelli per la Web Science

Casi d’ uso concreti nel progetto “Il linguaggio delle emozioni”2.9

 Come primo caso d’uso, all'interno del progetto PRIN “Il Linguaggio delle emozioni” ci proponiamo di costituire un ambiente di “sperimentazione linguistica” (Linguistic Workbench) con il quale mettere alla prova i seguenti procedimenti e i seguenti framework di riferimento per una analisi semantica di corpora letterari:

Page 23: Plone4 ur coach un nlp framework per plone   may 20 2010 1

YOUR LOGO

1. individuazione dei radicali caratterizzanti di uso più frequente del corpus SapienzaEmozioni

2. descrizione del loro inserimento all'interno dell'ontologia Wordnet per creare una topografia specifica, verificarne il coinvolgimento di altri campi, e la discendenza relativa (facendo emergere proprietà specifiche come funzioni metaforiche e alti usi)

3. fare emergere dal contrasto tra corpus testuale (corpus oggetto di indagine) e corpus di riferimento le proprietà specifiche di ciascun dominio indagabile (autore, epoca, lingue, genere, linee stilistiche, “scuole”, etc.

4. esser pronti a individuare tramite il feedback tra corpus di riferimento e corpus di studio nuove strategie di studio e nuovi possibili domini

2 CMS come aggregatori di modelli per la Web Science

Casi d’ uso concreti nel progetto “Il linguaggio delle emozioni”2.1

Page 24: Plone4 ur coach un nlp framework per plone   may 20 2010 1

YOUR LOGO

3 COACH: casi d’uso

Possibili casi d’ uso di COACH in altri ambiti di ricerca3.1

 Dato un dominio o una sottorete, si chiede al software di analizzare le pagine pubblicate sotto le URI appartenenti al dominio specificato estraendone sintagmi, termini e coppie di termini statisticamente rilevanti;Il “corpus delle emozioni” un’ analisi attraverso NLTK su un corpus preparato per il gruppo di lavoro Un corpus delle leggi costituzionali di alcuni paesi europei  

Page 25: Plone4 ur coach un nlp framework per plone   may 20 2010 1

YOUR LOGO

3 COACH: Riferimenti

Riferimenti bibliografici3.2

 Pecheux, M. 1982, Language, Semantics, and Ideology, {Palgrave Macmillan}.Pecheux, M. Automatic Discourse Analysis (Utrecht Studies in Language and Communication, No 5), Rodopi Bv Editions. Fuksas, A. 2002, Etimologia e geografia nella lirica dei trovatori, Roma.

.

Page 26: Plone4 ur coach un nlp framework per plone   may 20 2010 1

YOUR LOGO

3 COACH: Riferimenti

Riferimenti elettronici (DOI)3.2

  Nicola Simonetti, Filosofia della mente e neuroscienze: il caso dei neuroni specchio, giovedì, novembre 19, 2009, Relazione SFI, Novara, 28.10.2009 

.

Page 27: Plone4 ur coach un nlp framework per plone   may 20 2010 1

YOUR LOGO

8 Web Semantico e “intelligence” per le comunità della scienza

Page 28: Plone4 ur coach un nlp framework per plone   may 20 2010 1

YOUR LOGO

8 COACH: un worbench collaborativo per NLP

Page 29: Plone4 ur coach un nlp framework per plone   may 20 2010 1

YOUR LOGO

9 Riferimenti

Books and papers9.1

1. Sherman, Chris. Partner & Executive Editor. London : Search Engine Land, 2008. paper.2. Berners-Lee, T., et al. A framework for Web Science. s.l. : NOW, 2006. 1-933019-33-6.3. Towards a Semantic Web. Lariccia, S. Toffoli, G. Ferrara : s.n., 2004.4. Simon, Herbert A. The Science of artificial. Cambridge : The MIT Press, 1996. 0262691914.

 

Page 30: Plone4 ur coach un nlp framework per plone   may 20 2010 1

YOUR LOGO

The University of Rome "La Sapienza“ was founded on April 20th, 1303 through an edict ("Bolla") by Pope Boniface the VIIIth.

According to the Academic Ranking of World Universities published by the Institute of Higher Education of Shanghai Jiao Tong University,

Sapienza University of Rome ranks among top 30 european universities and as one of the best Italian Universities, together with the Universities of Milan, Pisa and Bologna...

Sapienza University

Page 31: Plone4 ur coach un nlp framework per plone   may 20 2010 1

YOUR LOGO

Digilab Centre

Digilab is starting now as a Centre for New Media

Sapienza University

The University of Rome "La Sapienza" has a very specific birth certificate since it was founded on April 20th, 1303 through an edict ("Bolla") by Pope Boniface the VIIIth.

Laboratory for Informatics Didactics and Science.

LIDS

Institutional mapping

Page 32: Plone4 ur coach un nlp framework per plone   may 20 2010 1

YOUR LOGO

2: Research on new methods of Web-

learning, especially for Humanities

4: advanced services of communication for

research and science

Digilab is constituted in April 2009 with 4 tasks:

1: digitalization of books owned by Sapienza and Padua University

3: Service of certification and Continous Learning for the national Administration

Digilab Centre Sapienza

Page 33: Plone4 ur coach un nlp framework per plone   may 20 2010 1

YOUR LOGO

Do You Have Any Questions?

Summary