L’analyse de similitude appliquée aux corpus textuels : les primaires socialistes pour...

download L’analyse de similitude appliquée aux corpus textuels : les primaires socialistes pour l’élection présidentielle française

of 13

description

Análise de Similitude aplicada a corpus textuais

Transcript of L’analyse de similitude appliquée aux corpus textuels : les primaires socialistes pour...

  • Lanalyse de similitude applique aux corpus textuels : les primaires socialistes

    pour llection prsidentielle franaise (septembre-octobre 2011)

    Pascal Marchand1, Pierre Ratinaud2

    1 Universit de Toulouse [email protected] Universit de Toulouse [email protected]

    AbstractThe analysis of similarity (ADS) is a technique based on graph theory, conventionally used to describe the social representations using survey questionnaires. We integrated the analysis of similarity of a textual matrix to the software Iramuteq (P. Ratinaud).The results can show, in a single graph, both common elements (usually absent of specific research, analysis of lexical correspondences or classifications), and the varying elements of variables related to the corpus.The corpus analyzed here as an example is the discussion of socialist primary for the presidential election of 2012.

    RsumLanalyse de similitude (ADS) est une technique, reposant sur la thorie des graphes, classiquement utilise pour dcrire des reprsentations sociales, sur la base de questionnaires denqute. Nous avons intgr au logiciel Iramuteq (P. Ratinaud) lanalyse de similitude dune matrice textuelle.Les analyses permettent de montrer, en un seul graphique, la fois les lments communs (gnralement absents des recherches de spcificits, analyses des correspondances ou classifications lexicales), mais galement les lments diffrentis en fonction de variables lies au corpus.Le corpus analys ici titre dexemple est constitu des dbats des primaires socialistes pour llection prsidentielle de 2012.

    Mots-cls : Analyse de similitude ; Discours politique ; Iramuteq.

    1. Introduction

    On a parfois limpression, aprs une analyse lexicomtrique, que le monde lexical est bien partag et que nos variables dlimitent des territoires lexicaux bien tracs. Cette impression vient surtout du fait que le tableau lexical est, le plus souvent, partitionn selon des hypothses plus ou moins clairement explicites. La recherche de spcificits lexicales, lanalyse des correspondances, voire mme la CDH (avec lattention apporte aux lments illustratifs), accentuent alors les diffrences et minimisent les ressemblances entre les colonnes du tableau. Nous montrerons que lanalyse de similitude (ADS) permet de reprsenter graphiquement la

  • 688 pAscAlmArcHAnd,pierrerAtinAud

    structure dun corpus, en distinguant galement les parties communes et les spcificits des variables codes.

    Nous proposerons de lillustrer sur le corpus des primaires socialistes , qui ont pos dintressantes questions danalyse : les candidats devaient se diffrencier les uns des autres tout en prservant lunit du parti quils seraient amens dfendre ensemble.

    Les questions que nous pouvons nous poser sont les suivantes :

    Quels sont les mots, les phrases et les relations lexicales qui peuvent caractriser chacun des dbatteurs ?

    Les trois dbats ont-ils t quivalents ?

    - Chacun des candidats a-t-il t constant dans les trois dbats ou peut-on observer des changements ou des volutions ?

    2. Principes gnraux de lanalyse de similitude (ADS)

    LADS est une technique, reposant sur la thorie des graphes, classiquement utilise pour dcrire des reprsentations sociales, sur la base de questionnaires denqute (Flament, 1962 ; Flament, 1981 ; Vergs & Bouriche, 2001).

    Lobjectif de lADS est dtudier la proximit et les relations entre les lments dun ensemble, sous forme darbres maximum : le nombre de liens entre deux items voluant comme le carr du nombre de sommets (Flament & Rouquette, 2003 : 88), lADS cherche rduire le nombre de ces liens pour aboutir un graphe connexe et sans cycle (Degenne & Vergs, 1973 : 473).

    Les bases thoriques de cette technique sont rsumes dans un exemple dvelopp par Flament & Rouquette (2003, o.c.). Dans la figure suivante, le graphique de gauche montre tous les liens possibles entre chaque item.

    Figure 1 : Exemple de calcul de larbre maximum (ADS)

    A partir de ces liens, on va chercher reprsenter un arbre sans cycle, dit arbre maximum , cr par les artes les plus fortes du graphique. Cest larbre le plus simple que lon peut obtenir, mais cest aussi le plus lourd (en termes dinformation). A partir de lexemple prcdent : on considre la clique ABCA et on limine le lien le plus faible (entre A et C). On considre ensuite la clique BCDB et on limine le lien le plus faible (entre B et D). Et ainsi de suite pour toutes les cliques possibles. Le graphique de droite sur la figure 1 reprsente larbre maximum, sans cycle, du graphique de similitude de gauche.

  • lAnAlysedesimilitudeAppliqueAuxcorpustextuels 689

    Lanalyse de similitude dune matrice textuelle a t intgre au logiciel IRaMuTeQ (dvelopp par Pierre Ratinaud) et permet de dcrire des classes lexicales, des profils de spcificits ou mme des corpus entiers.

    3. Le corpus

    Les primaires socialistes pour llection prsidentielle franaise de 2012 se sont droules en deux tours. Au premier tour saffrontaient six candidats : Martine Aubry, Jean-Michel Baylet, Franois Hollande, Arnaud Montebourg, Sgolne Royal et Manuel Valls. Trois dbats ont dabord t organiss et diffuss sur des chanes de radio et de tlvision :

    Jeudi 15 septembre 2011 (2h50 sur France 2, Le Monde)

    Mercredi 28 septembre 2011 (2h30 sur i-Tl, Europe 1, Le Parisien, LCP-Assemble Nationale)

    Mercredi 05 octobre 2011 (2h20 sur BFM, RMC, Le Point, Public Snat).

    La retranscription des trois dbats permet de dresser les tableaux suivants :

    nombre duci : 295 (tours de parole)nombre doccurrences : 71913nombre de formes : 5265moyenne doccurrences par forme : 18.96nombre dhapax : 1472 (2.05% des occurrences - 27.96% des formes)moyenne doccurrences par uci : 243.77

    Tableau 1 : Caractristiques gnrales (corpus lemmatis)

    Le vote du 9 octobre 2011 a permis de dgager les deux finalistes : Martine Aubry et Franois Hollande se sont affronts le 16 octobre 2011.

    Partie occurrences formes hapax Frq. Max Forme

    Aubry1 4990 817 408 165 tre

    Aubry2 4956 830 412 187 tre

    Aubry3 4374 774 382 147 avoir

    Aubry4 10543 1189 510 402 tre

    Baylet1 4160 750 367 198 tre

    Baylet2 4036 781 407 183 tre

    Baylet3 3368 742 402 149 tre

    Hollande1 4519 807 382 180 tre

    Hollande2 4096 772 373 179 tre

    Hollande3 3518 730 372 164 tre

    Hollande4 9352 1200 531 439 tre

    Montebourg1 3920 844 449 161 de

    Montebourg2 3821 910 519 161 de

  • 690 pAscAlmArcHAnd,pierrerAtinAud

    Montebourg3 3592 870 505 154 de

    Royal1 4093 835 436 159 la

    Royal2 4048 856 453 162 de

    Royal3 3034 687 377 108 tre

    Valls1 4483 835 416 182 de

    Valls2 4146 826 427 158 tre

    Valls3 3640 749 404 142 de

    Tableau 2 : Principales caractristiques lexicomtriques (corpus lemmatis)

    Les premiers traitements du corpus suivent rigoureusement la mthode ALCESTE (Reinert, 1983, 1990) : reconnaissance et lemmatisation des formes, dcoupage en units de contextes lmentaires (UCE), et cration de la matrice habituellement soumise une CDH simple sur UCE .

    4. Analyses lexicomtriques classiques

    Classiquement, nous avons soumis le corpus des analyses factorielles et classificatoires. Nous analysons ici le corpus partitionn selon les lignes du Tableau 2, cest--dire en croisant les trois premiers dbats avec les six locuteurs. Le tableau lexical comprend donc 18 colonnes et 1086 lignes (slectionnes sur critre de frquence).

  • lAnAlysedesimilitudeAppliqueAuxcorpustextuels 691

    4.1. Analyse des correspondances

    Figure 2 : AFC des formes lexicales pour les trois premiers dbats

    Le premier facteur oppose les formes : inventer, imaginer, histoire, nouvelle, unir, vie, banque, aux formes : priorit, sortir, falloir, recherche, justice, changer

    Le deuxime facteur oppose les formes : devoir, soutien, Nicolas Sarkozy, oublier, chec, doute, droite, tranger, drogue, effort, vrit, candidature, aux formes : aider, an, je, Manuel, tenir, supprimer, centrale, nuclaire, absolument, bien sr, moi, droit, ressource, smic, prix

  • 692 pAscAlmArcHAnd,pierrerAtinAud

    Figure 3 : AFC des six locuteurs dans les trois premiers dbats (nj=18)

    On observe tout dabord que les locuteurs restent sur des lexiques constants au long des trois dbats. Les dbats nont donc pas structur le corpus aussi fortement que les dbatteurs. On montre ensuite quArnaud Montebourg soppose quasiment tous les autres (1er facteur) et que Manuel Valls et Franois Hollande sopposent Martine Aubry, Jean-Michel Baylet et Sgolne Royal (2me facteur). On recherche alors les spcificits des six dbatteurs.

    4.2. Spcificits (sur les trois premiers dbats)

    4.2.1. Martine Aubry

    Sp+ : on, dire, moi, coter, je, rduire, voil, accord, exemple, profondment, qu, rien, vouloir, effectivement, oui, tu, achat, allemagne, alors, arrter, augmenter, battre, commencer, croire, croissance, dfendre, fermer, former, lieu, supprimer, sr, taxe, a

  • lAnAlysedesimilitudeAppliqueAuxcorpustextuels 693

    Sp- : dans, de, y, un, une, nos, solution, tre, dette, candidat, devoir, difficile, elles, il, entreprise, plus, voquer, situation.

    Uce caractristiques : Et moi, je lai dit, je serai la prsidente du redressement de la France, redressement conomique mais non, mais je vous ai dit que je ne rpondrai pas

    Mais, je le dis, il faudra, moi je lai dit comme une priorit, je vais vous dire que a cote, il faut environ, il faut rorganiser la police, Manuel a totalement raison, ils font des tches qui nont rien voir avec ce quon leur demande, cest--dire maintenir la scurit pour les habitants.

    4.2.2. Jean-Michel Baylet

    Sp+ : naturellement, commun, radical, quand, parler, mme, quant, cannabis, cela, porter, concitoyen, que, relancer, voir, europen, principe, sant, je, ils, diffrent, entendre, europe, nous, regarder, rpublicain, trop, constater, crer, particulier, peu, tre

    Sp- : des, pays, qui, faire, exemple, augmenter, enfant, payer, pour, videmment, financier, cette, notamment

    Uce caractristiques : Moi je voudrais quand mme en venir lEurope parce que je vois que si, je vois que le temps tourne.

    Je ne suis pas, encore une fois je ne suis pas pour les mesures coercitives.

    4.2.3. Franois Hollande

    Sp+ : il, candidat, est_ce, voquer, gnration, 25, jeunesse, y, puis, qui, prendre, violence, gnraliste, avoir, milliard, prison, 0, 2012, financement, falloir, une, cette, donc, quartier, rapport, secteur, intervenir, poste, contrat, l, esprance, prsidence, quinquennat, lection, eh, senior

    Sp- : je, cela, vouloir, moi, france, de, la, banque, contre, et, raison, europen, que, relancer, juste, chose, exemple, accord

    Uce caractristiques : Parce que cette jeunesse, qui a des talents, mais qui a aussi des retards, qui a aussi des discriminations, qui a aussi des violences, eh bien il faut la faire esprer.

    Et puis, il y a ce que jai appel le contrat de gnration qui servira aussi.

    4.2.4. Arnaud Montebourg

    Sp+ : approuver, mdicament, financier, argent, vos, distribuer, mondial, banque, dividende, finalement, face, population, de, 15, systme, ses, dette, maintenant, mesure, contre, europen, appliquer, le, plan, march, sous, actionnaire, mdecin, train, dans, devenir, s, stratgie

    Sp- : moi, falloir, quand, a, juste, mais, dire, on, mme, qu, je, vouloir, videmment, franais, parler, priorit, justice, sur, retraite, confiance, parce, jeune, l

    Uce caractristiques : Nous navons, dans notre pays, nous navons pas de pnurie de mdecins.

    Il ny aurait, je vous le dis, si nous avions mis si les dirigeants qui, aujourdhui, nous ont prcipit dans cette crise - car cette crise est la consquence de lincomptence de nos

  • 694 pAscAlmArcHAnd,pierrerAtinAud

    dirigeants -, si nous avions mis en place ces mesures, nous naurions pas aujourdhui de crise de la zone euro.

    4.2.5. Sgolne Royal

    Sp+ : licenciement, cologique, juste, interdiction, inscrire, capital, activit, pourquoi, tat, peuple, mtier, effet, rgion, chance, rvolution, c_est__dire, 40, accs, ouvrier, bancaire, des, retraite, 50, dure, et, rentrer, libert, quitable, dvelopper, remettre, entreprise, dcision, dlinquant, travail, puisque, nation, possible, couter, leur, banque

    Sp- : nous, il, falloir, nos, quand, on, parler, gauche, s, mais, videmment, hpital, sarkozy, nicolas, devoir, manire, aujourd, hui, prsident, avoir, y, notre, mdecin

    Uce caractristiques : Quelle dcision ? celle que lon a dj entendue avant la crise de 2008, cest linterdiction des banques et a a doit tre une dcision europenne et mme internationale, linterdiction des banques de spculer sur la dette des tats cest--dire sur la misre des peuples.

    Et demain je veux que toutes les rgions puissent entrer au capital des entreprises stratgiques.

    4.2.6. Manuel Valls

    Sp+ : videmment, vrit, ingalit, comptitivit, nos, immigration, uniquement, effort, gouverner, gauche, nicolas, devoir, soutenir, dbat, sujet, inscurit, notamment, doute, davantage, mais, sarkozy, notre, l, sur, confiance, demain, police, quilibre, soutien, facile, un

    Sp- : je, vous, payer, quand, on, avoir, milliard, finalement, voir, sr, argent, moi, aider, voil, an, prendre, dj

    Uce caractristiques : Si nous pensons un seul instant que demain il y a une majorit et que nous pourrons tout faire uniquement sur notre programme et que nous naurons pas entendu la voix des franais, alors je ne donne pas le cher du temps que nous passerons dans un contrat de confiance avec les Franais.

    Donc, il y a dabord un chec majeur de Nicolas Sarkozy et de la droite sur ce sujet-l.

    4.3. ADS des sous-corpus

    Lanalyse de similitude est applique chacun des sous-corpus dfinis par les locuteurs, aprs dcoupage en UCE, et cration de la matrice formes * UCE. Si lon retrouve, sur chacun des arbres de similitude ci-aprs, les spcificits dfinies ci-dessous pour chaque locuteur, des formes communes apparaissent galement et avec un critre de centralit (France, franais, aller)

  • lAnAlysedesimilitudeAppliqueAuxcorpustextuels 695

    Figure 4 : ADS du sous-corpus Aubry Figure 5 : ADS du sous-corpus Baylet

    Figure 6 : ADS du sous-corpus Hollande Figure 7 : ADS du sous-corpus Montebourg

    Figure 8 : ADS du sous-corpus Royal Figure 9 : ADS du sous-corpus Valls

  • 696 pAscAlmArcHAnd,pierrerAtinAud

    Les mthodes classiques permettent de spcifier les colonnes du tableau lexical et rendent trs bien compte des diffrences qui sinstaurent entre les six locuteurs, qui structurent davantage le lexique que les trois situations de dbat. Quant lADS de chacun des sous-corpus de locuteurs, elle fournit une reprsentation graphique indpendante des calculs factoriels et des spcificits, mais qui les confirme nanmoins, tout en restituant les usages communs.

    5. ADS du corpus global

    Aprs segmentation, reconnaissance et lemmatisation des formes, puis partition en UCE, la matrice du corpus global peut tre reprsente de diverses faons (arbres linaires ou circulaires ; taille des formes proportionnelle la frquence ou la liaison statistique). On reprsente ici larbre des liaisons lexicales du corpus (calcul de cooccurrence et algorithme de Fruchterman-Reingold).

    Figure 10 : Exemple dADS applique au corpus primaires PS

    A partir de cette reprsentation, on peut mettre en vidence les spcificits des locuteurs (figure 11 : il est possible de colorier les formes lexicales en fonction des locuteurs et la taille de police est proportionnelle la spcificit) 1.

    1 On se reportera la version lectronique pour visualiser les couleurs.

  • lAnAlysedesimilitudeAppliqueAuxcorpustextuels 697

    Figure 11 : Exemple dADS applique au corpus primaires PS (avec spsificits)

    6. Conclusions

    LADS permet de voir que les diffrences entre les modalits de variables (le plus souvent en colonnes du tableau lexical) ne sont pas aussi absolues que des mthodes plus classiques inciteraient parfois le penser. Lintrt de lADS est de rtablir la partie commune, en reprsentant les relations entre les formes lexicales dans un corpus non partitionn par des variables exognes, mais uniquement en units de contexte.

    On repre alors les diverses thmatiques qui structurent le corpus et on observe que les spcificits de chaque locuteur ne sont pas toutes regroupes dans le graphe des similitudes du corpus global. On peut donc en conclure que les locuteurs convergeaient sur les thmatiques abordes, mais diffraient dans la faon de les aborder.

  • 698 pAscAlmArcHAnd,pierrerAtinAud

    7. Epilogue

    A lissue du premier dbat, et sur la base de la Figure 3, on pouvait imaginer :

    QuArnaud Montebourg prouverait des difficults prendre position pour lun des deux finalistes ;

    Que Manuel Valls se rallierait Franois Hollande ;

    Que Jean-Michel Baylet et Sgolne Royal se rallieraient Martine Aubry.

    Seules les deux premires hypothses se sont vrifies, indiquant que la proximit lexicale ne saurait expliquer toutes les stratgies lectorales.

    Si lon introduit, dans le corpus, le dbat du deuxime tour, on observe que les deux finalistes sont rests dans leur vocabulaire et nont fait aucun mouvement de rapprochement vers les lexiques des candidats limins.

    Figure 12 : AFC des six locuteurs dans les quatre dbats (nj=20)

  • lAnAlysedesimilitudeAppliqueAuxcorpustextuels 699

    RfrencesDegenne, A., Vergs, P. (1973). Introduction lanalyse de similitude. Revue franaise de sociologie,

    14 (4), 471-511.Flament, C. (1962). Lanalyse de similitude. Cahiers du centre de recherche oprationnelle, 4, 63-97.Flament, C. (1981). LAnalyse de Similitude, une Technique pour les Recherches sur les Reprsentations

    Sociales. Cahiers de Psychologie Cognitive, 1, 375- 395.Flament, C., Rouquette, M.L. (2003). Anatomie des ides ordinaires : comment tudier les reprsentations

    sociales. Paris : Armand Colin.Ratinaud, P. (2003). Les professeurs et Internet : Contribution la modlisation des penses sociale

    et professionnelle par ltude de la reprsentation professionnelle dInternet denseignants du secondaire. Thse de lUniversit de Toulouse 2 - Le Mirail, dcembre 2003.

    Ratinaud, P. (2009). Iramuteq : Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires. www.iramuteq.org

    Reinert, M. (1983). Une mthode de classification descendante hirarchique : application lanalyse lexicale par contexte. Les cahiers de lanalyse des donnes, VIII (2), 187-198.

    Reinert, M. (1990). ALCESTE : Une mthodologie danalyse des donnes textuelles et une application : Aurlia de Grard de Nerval. Bulletin de mthodologie sociologique, 26, 24-54.

    Vergs, P. & Bouriche, B. (2001). Lanalyse des donnes par les graphes de similitude. Sciences Humaines (en ligne : http://www.scienceshumaines.com/textesInedits/Bouriche.pdf).