De "Literary and Linguistic Computing" jusqu'aux "Humanites numeriques" : quelle importance pour la...

Post on 22-Nov-2014

322 views 0 download

description

Pendant 30 ans l'application des technologies informatiques aux defis de la recherche en sciences humaines et sociales s'est revelee d'une importance croissante, presque a devenir incontournable pour ceux qui s'occupe des aspects culturelles de la vie contemporaine, vu l'omnipresence de l'informatique la-dedans. Cette application des technologies omnipresentes s'est meme dotee d'une nouvelle nomination, revelant ainsi son status comme discipline emergeante: les humanites numeriques. En traceant l'evolution de ce terme, et de ses usages actuels, je propose de faire un peu le bilan des resultats concrets de ces experiences jusqu'a present et de reflechir sur les effets concretes a attendre dans nos disciplines linguistiques.

Transcript of De "Literary and Linguistic Computing" jusqu'aux "Humanites numeriques" : quelle importance pour la...

De ‘Literary and Linguistic Computing’ jusqu'aux‘Humanites numeriques’

quelle importance pour la science des langues?

Lou Burnard

1/52

2/52

3/52

Textes numériques vs. données numériques

Le traitement informatisé des données concerne les chiffres,les quantités, les tendances statistiques...

Le traitement informatisé des textes concerne les mots,l'écriture, la langue...

L'informatique a donc systématiquement opposé les“donnees” aux “textes”

en traitant les textes comme si elles étaient des données

en traitant les donnees comme si elles n'étaient pas des textes

4/52

(cf Burnard, 1984)

5/52

eBooks

Les textes numériques se présentent comme des livresimprimés... mais on ne doit pas se laisser séduire par lesmétaphores !

Est-ce qu'on numérise les textes juste pour le plaisir de lesdistribuer dans un nouveau marché avec une nouvelletechnologie ? .

6/52

Conclusions

Il n'y a pas de retour sur le tournant numérique: lesinfrastructures scientifiques sont désormais numerisées

Les modèles économiques de l'infrastructure scientifique sonten train d'évoluer

Les changements plutot quantitatifs apportées par lenumérique provoquent des changements qualitatifs.

La numérisation massive rend possible de nouveauxperspectives sur la langue.

7/52

Le numérique incontournable

Les objets de recherches dans les SHS sont devenusnumériques

Les méthodes des SHS ne peuvent pas échapper àl'environnement technologique qui nous englobe

Une transition du “web de documents” vers le “web dedonnées” s'effectue actuellement

Les questions politiques et culturelles restent, mais leurcontexte évolue dans un monde de plus en plus “ouvert”

Pour commencer, une petite leçon d'histoire...

8/52

9/52

1949-1980

L'age des héros ...Padre Busa et l'Index ThomasticumThe Brown CorpusThesaurus Linguae Graecaeetc.

Concordances, analyse stylistique, études sur l'auctorialité,corpus de langue

L'ordinateur central géré par des ingenieurs sérieux en blouseblanche lançait des travaux en batch qui étaient transmis à unefile d'attente puis exécutés pour produire des sorties

10/52

Colloque ALLC No. 6 (1980)

11/52

Problèmes d'auctorialité

From A.Q. Morton Paul, the man and the myth (1966)

12/52

LLC: ce qui compte, c'est de compter

Les objets et les résultats principes sont

Les concordances (un objet en lui meme)

Des statistiques riches et complexes

Il y a une hypothèse plus ou moins explicite que le “style” ou“registre” seraient identifiable de manière statistique

Aux Etats Unis, histoire de “cliometrics” et Time on the Cross(1974)

13/52

LLC est également une revue et un colloque

.

......http://llc.oxfordjournals.org/

14/52

LLC est vivant et bien vivant en France

Text considéré comme un phénomène statistique

Maurice Tournier Les mots de mai 68

Analyse factorielle et fouille de données

Applications marketing

Textometrie

15/52

16/52

1980-1994

Institutionalisation

Les historiens réinvestissent le champs

Humanities Computing : une Discipline Universitaire ?

Projet “text encoding”

17/52

Années 80 : décennie d'une foi illimitée dans lestechnologies

Dans les universités les ressources et méthodes numériquesbien que percues comme étranges et difficiles trouvaient aussileur placeAu Royaume Uni

Computers in Teaching InitiativeArts and Humanities Data Service

Une nouveauté ou une amélioration du passé?

L'arrivée du centre HC

18/52

Communautés

E-mail et listes de diffusion : HumanistParadigmes de texte eléctronique

Oxford Text Archive, Projet GutenbergPublishing sur CD-ROM : OED

Traitement de langage naturel et intelligence artificiel

Financement public important pour des activitésd'infrastructure

A la fois national and européen

Peut on gagner de l'argent dans la publication electronique?L'informatique personelle? Sur l' Internet?

19/52

Institutionalisation

De nouveaux instances d'enseignment et de support pourl'application de l'informatique aux SHS apparaissent

En faisant le bilan, on les valorise...

20/52

Réapparition de la quellenkritik

En France, J-P Genet et d'autres proposent l'idée que lesdonnées historiques une fois numerisées pourraient servir àenrichir une analyse

Encore systematisée en Allemagne par Manfred Thaller avec lelogiciel kleio, un sgbd textuel avant la lettre

Une Association for History and Computing nait en 1987

21/52

Défi pour le HC

Mais Humanities Computing ne possède aucune théoriesousjacente!

Quel principe peut on identifier pour justifier la mise enrelation des outils employés par le HC ?On propose les traditions scientifiques (”scholarly primitives”)

La recherche effectuée selon des traits externesL'analyse selon des traits internesLes associations selon des perceptions partagées

Ce qui serviraient à valoriser et controler l'efficacité des outilsproposés

22/52

It's all about modelling, stupid

23/52

24/52

Les inconvenients des ressources numériques (circa 1989)Elles ne fonctionnent pas(Il faut bien choisir son ordinateur pour les faire fonctionner)Elles sont difficiles a trouverElles ne sont pas disponible en BU, ni mentionnées dans lesrevuesElles ne sont pas cataloguées de manière cohérent, ou pas dutoutElles ne sont pas fiablesElles émergent d'un contexte inconnu, pas (toujours) trèsscientifiqueElles bougent tout le tempsElles ne restent pas au memes endroitElles disparaissent, se transforment, ou deviennent inutisablessans préavisEt surtout...

.

......Elles utilisent vraiment trop de plusieurs formats d'encodagemutuellement incompréhensibles !!

25/52

L'effet Babel

Bien sûr il existe plusieurs lectures possibles pour la plupart destextes...

... et (malheureseument) plusieurs manières d'expression pour ceslectures!

26/52

Encodage ou babel?

Bonne nouvelle: il existe des logiciels capables de traduireentre 500 formats divers

Mauvaise nouvelle: on en a besoin

27/52

Encodage ou babel?

Bonne nouvelle: il existe des logiciels capables de traduireentre 500 formats divers

Mauvaise nouvelle: on en a besoin

27/52

Encodage ou babel?

Bonne nouvelle: il existe des logiciels capables de traduireentre 500 formats divers

Mauvaise nouvelle: on en a besoin

27/52

La science repose sur une continuité des connaissances

Conserver les “bytes” d'un encodage ne suffit pas

Il faut aussi une continuité de compréhension: l'encodage doitetre auto-descriptif

Transmettre nos interprétations

.

......D'où l' importance de laTEI (Text Encoding Initiative)http://www.tei-c.org

28/52

TEI: le résultat le plus significatif de HC?

D'origine une réponse aux problèmes posés par l'incohérencedes formats et le manque des standards numériques

La TEI est devenue un seul modèle encyclopédique des“particularités significatives” des ressources textuelles

Et une infrastructure capable de répondre aux besoins etpriorités évolutifs de la communauté scientifique

29/52

Exemple: les tablettes Vindolanda

30/52

TEI en pratique

Travaux collaboratifs de transcription scientifique

Des conventions Leiden au standard Epidoc

31/52

32/52

1995 - ?

Pendant que nous théorisions...Le web est arrivé!Le tournant numérique transforme les archives et lesbibliothèquesLa numérisation de masse s'effectueLes traitements numériques se déplacent sur des grilles deservices, et/ou des systèmes domestiquesLes résaux sociaux emergent sur Internet

Convergence et travaux collectifs : méthodes ‘scientifique’On s'interoge sur, par exemple, l'édition classique, et lesméthodes collectives (cloud/crowd computing)On s'aperçoit du besoin des infrastructures numériques

33/52

La cycle de vie scientifique

34/52

Les humanités numériques sont partout

Comme M Jourdain, je fais des digital humanities sans lesavoir?

Les DH ne sont-elles qu'une gamme de technologies a lamode?

“When the mode of the music changes, the walls of the palaceshake”

35/52

Digital humanities Manifesto 2.0

http://dev.cdh.ucla.edu/digitalhumanities/2009/05/29/the-digital-humanities-manifesto-20/#0

36/52

Les manifestes, ça on les connait...

37/52

Définition

1. Le tournant numérique pris par la société modifie etinterroge les conditions de production et de diffusion dessavoirs....

3. Les digital humanities désignent une transdiscipline,porteuse des méthodes, des dispositifs et des perspectivesheuristiques liés au numérique dans le domaine des Scienceshumaines et sociales..

38/52

Nous constatons...

que se sont multipliées les expérimentations dans le domainedu numérique en SHS depuis un demi-siècle ;

que le numérique induit une présence plus forte descontraintes techniques et donc économiques dans larecherche  ; que cette contrainte est une opportunité pourfaire évoluer le travail collectif  ;

qu’il existe un certain nombre de méthodes éprouvées,inégalement connues et partagées  ;

qu’existent de multiples communautés particulières issues del’intérêt pour des pratiques, des outils ou des objetstransversaux divers

39/52

Déclarations

Nous, acteurs des digital humanities, nous nous constituons encommunauté … sans frontières. … multilingue etmultidisciplinaire.

Nous avons pour objectifs ... l’enrichissement du savoir et dupatrimoine collectif, au-delà de la seule sphère académique.

Nous appelons à l’intégration de la culture numérique dans ladéfinition de la culture générale du XXIe siècle.

40/52

The economics of abundance

Digital Humanities implies the multi-purposing and multiplechanneling of humanistic knowledge: no channel excludes theother. Its economy is abundance based, not one based uponscarcity ... though notions of humanistic research are everywhereunder institutional pressure, there is (potentially) plenty for all. And,indeed, there is plenty to do.

41/52

L'importance de ne pas lire

“What can you do with a million books?” (Greg Crane)

“Although there is still a need for close-reading... we neverdon't not read” (John Unsworth)Une nouvelle synthèse de methodes :

Linguistique de corpusReconnaissances des patronsData miningVisualisation

ou une réappropriation des techniques anciens?

42/52

Le défi: comprendre l'énormité des données disponibles

Quelques outils disponible aujourd'hui pour traiter un millionde livres:

http://books.google.com/ngramshttp://www.etalab.gouv.fr/http://rechercheisidore.fr/

Mais bouger de l'étude de l'oeuvre a l'étude du contexte resteproblematique pour certains ...

43/52

http://www.scottishcorpus.ac.uk/corpus/diaview/

44/52

45/52

46/52

Comment effectuer une telle démarche?

It's not rocket science (pas besoin d'avoir fait saint cyr) !

Un balisage riche et sémantique ( par exemple TEI-XML)

Une politique d'Open Access

Une infrastructure permettant l'intégration et l'archivagepérenne des données

47/52

Repenser l'édition numérique

On est dans un monde où les documents prolifèrent, mais lestextes risquent de disparaitre

Nous avons besoin de conserver nos interprétations, noslectures, pour construire les éditions numériques

Sans perdre les vertus traditionelles d'un empirisme sceptique

48/52

Composants de l'édition numérique

Images de pages (ou d'autres surfaces)

Transcriptions, éventuellement annotées

Edition/s synthètiques

Traduction modernes, sommaires

Annotations paratextuelles, glossaires, prefaces,bibliographie...

Descriptions des sources; métadonnées

Pointeurs sur des “Factoids”

49/52

Convergence

Le numérique nous permet, voire oblige, d'en faire des mashup : par exemple de combiner :

Un SIG sur les lieux dans la mer d' AegéanUn index cartographique des toponymes de la meme régionUn corpus de textes où ces toponymes sont attestés(La TEI traite maintenant et les entités nommées et leur noms)

De telles activités nécéssitent des compétences philologiques,a priori nonautomatisable

Et une politique d'accès ouvert

50/52

Un rôle majeur pour les SHSNous comprenons les objets textuels

De quelle manière se presente ce discours?Quelles sont les histoires qu'il raconte?

Nous connaissons l'hermeneutiquequelle est la portée de ce discours?Qu'est-ce qu'il veut dire – mais ne dit pas ?

Voici notre contribution au web sémantique.

51/52

Merci de votre attention!

52/52