Dynamiques sociales et sémantiques dans les communautés de ...
Transcript of Dynamiques sociales et sémantiques dans les communautés de ...
HAL Id tel-00464316httpspastelarchives-ouvertesfrtel-00464316
Submitted on 16 Mar 2010
HAL is a multi-disciplinary open accessarchive for the deposit and dissemination of sci-entific research documents whether they are pub-lished or not The documents may come fromteaching and research institutions in France orabroad or from public or private research centers
Lrsquoarchive ouverte pluridisciplinaire HAL estdestineacutee au deacutepocirct et agrave la diffusion de documentsscientifiques de niveau recherche publieacutes ou noneacutemanant des eacutetablissements drsquoenseignement et derecherche franccedilais ou eacutetrangers des laboratoirespublics ou priveacutes
Dynamiques sociales et seacutemantiques dans lescommunauteacutes de savoirs morphogenegravese et diffusion
Jean-Philippe Cointet
To cite this versionJean-Philippe Cointet Dynamiques sociales et seacutemantiques dans les communauteacutes de savoirs mor-phogenegravese et diffusion Sociologie AgroParisTech 2009 Franccedilais tel-00464316
Ecole Polytechnique
T H E S E
pour obtenir le titre de
Docteur en SciencesMention HUMANITEacuteS ET SCIENCES SOCIALES
preacutesenteacutee par
Jean-Philippe COINTET
Dynamiques sociales et seacutemantiques dans les communauteacutes de savoirs
mdashmdashmdash
Morphogenegravese et diffusion
Thegravese co-dirigeacutee par Paul BOURGINE et Pierre-Benoicirct JOLY
preacutepareacutee au CREA (Ecole Polytechnique amp CNRS) et agrave TSV (INRA)
soutenue le 9 Octobre 2009
devant le jury composeacute de
Preacutesident Michel CALLON - Mines Paris Paristech (CSI)
Rapporteurs Jean-Benoicirct ZIMMERMANN - CNRS (GREQAM)
Michel GROSSETTI - Toulouse II (LISST-CERS)
Examinateurs Natalie GLANCE - Google
Matthieu LATAPY - CNRS (LIP6)
Directeurs Paul BOURGINE - CNRS (CREA)
Pierre-Benoicirct JOLY - INRA (INRASenS)
Reacutesumeacute de la thegravese
Les communauteacutes de savoirs en tant qursquoespaces hybrides mettent en jeudrsquoune part des individus qui interagissent au sein drsquoun reacuteseau social et quiproduisent des contenus localement et drsquoautre part des entiteacutes seacutemantiqueslieacutees au sein drsquoun reacuteseau seacutemantique doteacute drsquoune structure autonome Cettethegravese vise agrave explorer les dynamiques sociales et seacutemantiques qui animent cescommunauteacutes de savoirs ainsi que leur couplage structurel
Elle srsquoappuie essentiellement sur deux types drsquoobjets empiriques les com-munauteacutes scientifiques et les blogosphegraveres politiques dont nous suivons lrsquoacti-viteacute gracircce agrave lrsquoobservation in-vivo de leurs traces digitales Notre ambition est dereacutealiser une reconstruction pheacutenomeacutenologique reacutealiste des dynamiques socio-seacutemantiques de ces communauteacutes de savoirs Pour ce faire nous distinguonsentre les dynamiques lieacutees agrave la morphogenegravese puis agrave la phylogenegravese des reacute-seaux qui composent ces systegravemes et les processus dynamiques de diffusionqursquoils supportent
Les meacutethodes de caracteacuterisation de la morphogenegravese des communauteacutes desavoirs permettent drsquoune part de repeacuterer et repreacutesenter les structures et pro-prieacuteteacutes eacutemergentes de ces communauteacutes de savoirs et drsquoautre part de mettreen eacutevidence les comportements individuels reacuteguliers qui les animent La phy-logenegravese des communauteacutes de savoirs consiste en la reconstruction des dyna-miques de ces structures de haut-niveau eacutemergeant au cours de la morphoge-negravese Lrsquoanalyse des processus de diffusion nous amegravene agrave interroger les deacutetermi-nants structurels micro et macro qui conditionnent la circulation drsquoinformationdans ces communauteacutes Lrsquoensemble de ces approches nous permettent de deacute-crire les communauteacutes de savoirs comme des systegravemes dont les dimensionssociale et seacutemantique sont par essence en co-eacutevolution
1
Remerciements
Une thegravese consacreacutee aux nouveaux espaces de production collective des sa-voirs ne serait pas complegravetement fidegravele agrave son propos si elle avait ressembleacute agrave unetraverseacutee solitaire Ce travail est avant tout le fruit de nombreuses rencontres dontcertaines remontent bien avant le commencement de ma thegravese Je tiens en preacute-ambule agrave remercier collectivement toutes celles et tout ceux aupregraves de qui jrsquoai pumucircrir ce projet et plus geacuteneacuteralement mon goucirct pour la recherche
Jrsquoaimerais en premier lieu exprimer ma gratitude agrave deux personnes dont lesconseils preacutecieux et le soutien indeacutefectible mrsquoont permis de mrsquoengager dans cetteaventure Merci agrave Claude Millier qui a su prolonger mes doutes et mes questionsplutocirct que de les eacuteteindre et agrave Franccedilois Taddeacutei pour sa disponibiliteacute et sa tregraves grandeliberteacute drsquoesprit Merci eacutegalement agrave tous ceux qui ont contribueacute agrave ma cause lors desdeacutelibeacuterations estivales ayant preacuteceacutedeacute mon entreacutee en thegravese Et merci au corps duGREF bien sucircr de mrsquoavoir finalement fait confiance
Je remercie sincegraverement mes deux directeurs de thegravese pour leur confianceMerci Paul de mrsquoavoir toujours maintenu dans un eacutetat de curiositeacute scientifiqueMerci pour tes intuitions fulgurantes ton regard peacutetillant de jour comme de nuitet ton exigence Merci Pierre-Benoicirct drsquoavoir eacutegalement accepteacute de diriger cette thegraveseMerci pour la patience dont tu as fait preuve pour tenter de mrsquoinitier aux sciencessociales et agrave la sociologie des sciences en particulier Merci pour le tact dont tu asuseacute et dont tu risques de devoir user encore
Je remercie vivement Natalie Glance Michel Callon Matthieu Latapy drsquoavoir ac-cepteacute de prendre part agrave mon jury de thegravese ainsi que Michel Grossetti et Jean-BenoicirctZimmermann pour avoir accepteacute drsquoen ecirctre les rapporteurs malgreacute les deacutelais plutocirctserreacutes que je leur ai imposeacutes
Le travail quotidien de recherche peut parfois vous transformer en ermitemerci tout particuliegraverement agrave Camille et David pour mrsquoavoir pris sous leur aileagrave mon arriveacutee au laboratoire et mrsquoavoir eacuteviteacute cet eacutecueil Jrsquoai eacutenormeacutement apprisagrave votre contact nos collaborations et projets communs de tout ordre ont donneacuteune veacuteritable orientation agrave mon travail jrsquoespegravere qursquoelles se prolongeront encorelongtemps
Je remercie tout particuliegraverement mes comparses de bureau pour avoir sup-porteacute avec tant de bonhomie mes humeurs ma faculteacute drsquooccupation de lrsquoespaceet ma tendance chronophage agrave partager certains eacutecrans agrave haute voix Merci agrave Em-manuel pour sa deacutecontraction naturelle agrave Benoicirct pour sa gentillesse agrave Thierry pourses trois bises et pour bien drsquoautres choses encore ainsi qursquoagrave Marc et Pipo pour lespreacutetextes qursquoil nrsquoont cesseacute drsquooffrir Sans oublier le sens de lrsquoorientation en milieu ur-bain de Masa la bonne humeur de Carla les deacutejeuners avec Antoine les oursins deLouise les pauses pelouse avec Lionel la belle eacutepoque du Brelan avec Thomas Alexet Julien le Tecirctu de Marc nos ballades cartographiques avec Jean-Paul et Chris-tophe
2
Merci aux ldquogens drsquoen hautrdquo de lrsquoInstitut des Systegravemes Complexes Paris-Icirclede France qui mrsquoa heacutebergeacute pendant deux anneacutees Daniel Romain Pierre et biendrsquoautres pour mrsquoavoir honoreacute drsquoun titre prestigieux bien que mensuel Je nrsquooubliepas Tam Kien dont jrsquoai tant appreacutecieacute lrsquoeacuteclectisme Merci eacutegalement agrave Reneacute au charmeanglo-saxon et au sens de lrsquoordonnancement inimitable
Je remercie lrsquoensemble du personnel administratif qui a toujours eacuteteacute drsquoune aidepreacutecieuse pour mrsquooffrir un environnement de travail confortable et des momentsde respiration bienvenus Merci beaucoup agrave vous Steacutephanie Geneviegraveve Noemi Na-diegravege Marie-Jo Yamina et Danielle
Je tiens eacutegalement agrave remercier lrsquoensemble des stagiaires avec qui jrsquoai eu le plaisirde travailler et qui je lrsquoespegravere auront autant appris que moi agrave leur contact Je tiensparticuliegraverement agrave remercier Pierre pour sa gentillesse et son courage Mais aussiOlivier Jean-Charles Hugo Richard Flavien Matthieu et Adrien
Je souhaite eacutegalement remercier et tirer mon chapeau agrave celles et ceux qui ont ac-cepteacute de se confronter agrave mon orthographe et agrave ma ponctuation toutes personnellesdurant la deacutelicate phase de correction de cette thegravese Mes remerciements (ainsi quemes excuses) agrave Adrien pour son enthousiasme Benoicirct pour sa minutie Michaelpour son haut degreacute de toleacuterance Tanguy pour sa science du point virgule Mariepour mrsquoavoir appris agrave ne pas me satisfaire des ldquoformes admisesrdquo etc
Je terminerai en remerciant tous ceux qui mrsquoont toujours entoureacute que ce soitdans mon travail ou dans la vie de tous les jours Je remercie mes parents sanslrsquoaide desquels je nrsquoaurais pu reacutealiser ce travail et ma sœur si loin si proche (uncoucou agrave Hugo) Mais aussi mes amis qui ont supporteacute mon rythme estudiantinLeacuteonard Mathieu Hadia Franck Vincent Antonin Bastien Corentin Benjamin et lesautres
Merci agrave toi Jessica drsquoecirctre agrave mes cocircteacutes
Table des matiegraveres
Introduction 7
I Suivre les communauteacutes de savoirs 11
1 Communauteacutes de savoirs 13
11 Proprieacuteteacutes des communauteacutes de savoirs 13
111 Communauteacutes de blogueurs politiques et communauteacutesscientifiques des communauteacutes de savoirs 14
112 Heacuteteacuterogeacuteneacuteiteacute des engagements et frontiegraveres des commu-nauteacutes de savoirs 17
113 Un systegraveme socio-cognitif distribueacute 20
114 Un mode de coordination stigmergique 23
12 Des reacuteseaux socioseacutemantiques 24
121 Dualiteacute socio-seacutemantique 24
122 Reacuteseaux eacutepisteacutemiques 28
123 Formalisme 31
2 Dynamiques multi-eacutechelles des communauteacutes de savoirs 35
21 Analyse longitudinale des dynamiques des communauteacutes de savoirs 36
211 Limites de lrsquoapproche statique 36
212 Formalisme dynamique 38
22 Articuler les niveaux micro et macro 38
221 Boucle eacutemergence immergence 38
222 Individus et reacuteseaux 42
23 Observation in-vivo des dynamiques 44
231 Suivre les acteurs agrave lrsquoegravere digitale 44
232 Reconstuction pheacutenomeacutenologique des traces 46
233 Des traces textuelles au reacuteseau eacutepisteacutemique 48
234 Un eacutechantillon de la blosphegravere politique franccedilaise 50
235 Un multi-reacuteseau dynamique 53
236 Caracteacuterisation seacutemantique 55
237 Blogosphegravere ameacutericaine 58
24 Une approche par faces 59
4 Table des matiegraveres
II Morphogenegravese dans les reacuteseaux de savoirs 65
3 Dynamiques locales 67
31 Dynamiques locales dans le reacuteseau social 69311 Attachements preacutefeacuterentiels 69312 Attachement preacutefeacuterentiel aux degreacutes capital social et capital
seacutemantique 71313 Attachement preacutefeacuterentiel agrave la distance sociale et seacutemantique 76314 Motifs coheacutesifs locaux 81315 Capitaux homophilie sociale et seacutemantique deacutecoupler les
effets 8432 Dynamiques locales dans le reacuteseau socio-seacutemantique 86
321 Similariteacute et interaction 86322 Coheacutesion socio-seacutemantique locale 91
33 Dynamiques locales dans le reacuteseau seacutemantique 93331 Mesures drsquooccurrences 93332 Mesures de co-occurrences 95
4 Structures eacutemergentes 101
41 Communauteacutes theacutematiques et communauteacutes structurelles 104411 Une portion du web social franccedilais 104412 Deacutetection des communauteacutes structurelles 105413 Heacuteteacuterogeacuteneacuteiteacute des topologies 107414 Conclusion 107
42 De lrsquoanalyse de lrsquoactiviteacute scientifique agrave la cartographie des sciences 108421 Les mutations contemporaines de lrsquoactiviteacute scientifique 108422 Les bases de donneacutees de publications scientifiques une op-
portuniteacute pour la cartographie des sciences 110423 Un modegravele de lrsquoactiviteacute scientifique 110424 un modegravele multi-eacutechelle de la connaissance 112425 Meacutethodes scientomeacutetriques de cartographie des sciences 113
43 Cartographier les sciences 114431 Jeux de donneacutees 114432 Une mesure asymeacutetrique de proximiteacute entre termes 116433 Construction du reacuteseau lexical 122434 Echelle microscopique voisinages locaux 122
44 Echelle meacutesoscopique la notion de champ eacutepisteacutemique 123441 Deacutefinitions 123442 Identifier les champs eacutepisteacutemiques 125443 Plongement des clusters dans un espace bi-dimensionnel 127444 Qualifier les clusters 129445 Repreacutesentation macroscopique 130
Table des matiegraveres 5
446 Reconstruction multi-eacutechelle 132
447 Proceacutedures de validation 136
45 Meacutethode de reconstruction dynamique 137
451 Dynamiques de voisinage 138
452 Dynamique drsquoun champ eacutepisteacutemique 138
453 Vers les dynamiques macroscopiques 141
454 Reconstruction de la phylogeacutenie des sciences 144
46 Trajectoires des individus au sein des paysages seacutemantiques 153
461 Opeacuterateur de projection 153
462 Reacutetroaction macro-micro 156
463 Se deacuteplacer dans un espace mouvant 160
III Diffusion dans les reacuteseaux sociaux 165
5 Correacutelations intertemporelles entre sources 167
51 Creacuteation des cateacutegories de blogs 169
511 Deacutefinition des profils seacutemantiques instantaneacutes des blogs 169
512 Cateacutegorisation des blogs selon leur sensibiliteacute politique 170
52 Diagramme de correacutelations intertemporelles 172
521 Contexte 172
522 Machines agrave eacutetats causaux 173
523 Alphabet des concepts 174
524 Deacutefinition drsquoune dynamique symbolique 175
525 Resultats 176
526 Perspectives 178
6 Du rocircle de la topologie des reacuteseaux sur la diffusion 183
61 Protocole de simulation 186
611 Protocole de simulation 186
612 Topologies de reacuteseaux 188
62 Dynamiques de diffusion 191
621 Reacutesultat des simulations 191
622 Interpreacutetation 193
63 Rocircle des regravegles de transmission 196
631 Directionaliteacute de la transmission 196
632 Hypothegraveses de transmission reacutealistes 199
633 Modegraveles de transmission styliseacutes 201
634 Reacutesultats des simulations 202
6 Table des matiegraveres
7 Cascades informationnelles 207
71 Cascades informationnelles et diffusion 208711 Jeu de donneacutees empirique 208712 Distance attentionnelle 209713 Sous-graphes de diffusion 212
72 Relais drsquoinformation et attention 214721 Premiegraveres transmissions 214722 Petits-Fils 215723 Secondes transmissions et attention 216
73 Courts-circuits informationnels 217731 Secondes transmissions et edge range 217732 Effets coupleacutes 219733 Conclusion 220
Conclusion 225
A Liste des termes associeacutes agrave la blogosphegravere politique franccedilaise 231
A1 Liste des 190 syntagmes utiliseacutes deacutefinir le bagage seacutemantique desblogs politiques franccedilais 231
A2 Liste des termes associeacutes agrave la blogosphegravere politique ameacutericaine 232
B Corpus de termes des bases des domaines scientifiques exploreacutes 233
B1 Systegravemes complexes 233B2 La meacutetaphore reacuteseau en biologie 235B3 Deacuteveloppement durable - CAB 238
C Requecircte deacuteveloppement durable 242
Bibliographie 243
Introduction
AVEC le deacuteveloppement des nouvelles technologies de lrsquoinformation et de lacommunication les processus de production et de partage de la connaissance
subissent une transition majeure Le savoir se retrouve maintenant archiveacute de fa-ccedilon systeacutematique au sein de bibliothegraveques digitales ldquolibrementrdquo consultables etlargement distribueacutees agrave travers la planegravete il fait systegraveme au sens ougrave les nouvellesbriques de connaissance srsquoinscrivent au sein drsquoune topologie de la connaissanceqursquoelles contribuent agrave modifier de faccedilon infiniteacutesimale Cet espace pourtant bacirctipar lrsquoactiviteacute cognitive des hommes est doteacute drsquoune dynamique largement auto-nome au sens ougrave elle donne lieu agrave lrsquoeacutemergence drsquoun certain nombre de structuresendogegravenes peacuterennes Parallegravelement les reacutegimes de production et de reacutegulationde la connaissance srsquoinscrivent dans des architectures toujours plus reacutesiliaires les individus reacuteunis au sein de communauteacutes de savoirs manipulent eacutechangent etproduisent ces connaissances au sein de reacuteseaux eacutevolutifs mecirclant des acteurs heacute-teacuterogegravenes se deacuteployant dans des espaces sociaux interconnecteacutes Certaines struc-tures eacutemergentes stables caracteacuterisent eacutegalement ces reacuteseaux sociaux En ce sensla sphegravere sociale peut comme la sphegravere culturelle ecirctre deacutecrite comme un systegravemecomplexe autonome
Couplage structurel des systegravemes social et seacutemantique Neacuteanmoins les dyna-miques qui animent les communauteacutes de savoirs ne sont jamais purement socialesou purement culturelles Notre thegravese consiste agrave affirmer que les dynamiques
respectives de la sphegravere sociale et de la sphegravere culturelle ne peuvent ecirctre saisies
sans envisager les couplages structurels qursquoelles entretiennent agrave diffeacuterents niveaux
Nous parlerons dans cette thegravese de systegravemes socioseacutemantiques mettant en jeudrsquoune part des acteurs en interaction au sein drsquoun reacuteseau social et drsquoautre partdes entiteacutes seacutemantiques doteacutees drsquoune organisation propre et deacutecrivant une topo-logie de la connaissance agrave part entiegravere En suivant lrsquohypothegravese drsquoune autonomie agraveun certain niveau des dimensions sociale et seacutemantique nous tacirccherons donc nonpas de traiter ces dynamiques socioseacutemantiques drsquoun seul bloc mais de proposerune modeacutelisation aussi symeacutetrique que possible des deux dimensions sociale etseacutemantique Dans un second temps nous eacutevaluerons la faccedilon dont le reacuteseau socio-seacutemantique qui lie les individus aux entiteacutes seacutemantiques qursquoils mobilisent produitdes couplages plus ou moins forts entre drsquoune part les dynamiques individuelles
8 Introduction
et la distribution des connaissances au sein du reacuteseau social et symeacutetriquementles dynamiques conceptuelles et la distribution des individus au sein du reacuteseauseacutemantique Agrave un plus haut niveau les structures du reacuteseau social que deacutecriventles motifs plus ou moins stables eacutemergeant des comportements individuels fonteacutecho aux structures organisant le reacuteseau seacutemantique
Observer les traces de la vie sociale La numeacuterisation des contenus et des in-teractions entre individus dont la production et lrsquoaccessibiliteacute srsquoest largement ac-ceacuteleacutereacutee ces derniegraveres anneacutees par les technologies de lrsquoInternet offre la possibiliteacutedrsquoune observation quasi-complegravete de ces dynamiques sociales et seacutemantiques Ladigitalisation des traces (aussi bien sociales que seacutemantiques) produites par les in-teractions des individus avec leur environnement permet de suivre les acteurs auplus pregraves et de mettre en œuvre un observatoire in-vivo des dynamiques socio-cognitives du monde social Neacuteanmoins se doter drsquooutils drsquoobservation des tracesdigitales textuelles et drsquoune meacutethodologie permettant de geacuterer de larges corpusde donneacutees heacuteteacuterogegravenes afin de collecter des donneacutees sur les dynamiques socialeset seacutemantiques dans ces espaces ne constitue qursquoune premiegravere eacutetape vers la com-preacutehension de ces systegravemes socioseacutemantiques Peut-on mettre en eacutevidence des loisou a minima des reacutegulariteacutes qui dirigent ces dynamiques sociales et seacutemantiquesquels motifs eacutemergents remarquables structurent ces reacuteseaux etc Agrave cette eacutetapede collecte il faut donc ajouter le deacuteveloppement de meacutethodes quantitatives dereconstruction et de repreacutesentation dans le perspective de reacutealiser une reconstruc-tion pheacutenomeacutenologique formelle des dynamiques multi-eacutechelles qui caracteacuterisent cessystegravemes socioseacutemantiques sans en reacuteduir la complexiteacute intrinsegraveque
Protocole drsquoobservation Cette thegravese srsquoattache donc agrave deacutecrire analyser et recons-truire des communauteacutes de savoirs mettant en jeu des individus qui interagissentau sein drsquoun reacuteseau social et qui produisent des contenus lieacutes agrave un domaine speacute-cifique ces contenus srsquoinscrivant dans un espace seacutemantique doteacute drsquoune structureet drsquoune dynamique propre Elle srsquoappuie essentiellement sur deux objets empi-riques En premier lieu les communauteacutes scientifiques mettent en rapport drsquounepart des chercheurs en interaction au sein de diffeacuterents reacuteseaux (collaborationscitations etc) et drsquoautre part des reacuteseaux de proximiteacute entre concepts construitagrave partir de leurs publications Notre objectif consistera dans un premier tempsagrave reconstruire la structure du reacuteseau seacutemantique produit par la juxtaposition delrsquoensemble de la production drsquoune communauteacute scientifique donneacutee afin de pro-poser un repreacutesentation pertinente de son organisation et de ses dynamiques Dansun second temps nous examinerons la faccedilon dont ces structures seacutemantiques sontsusceptibles drsquoagir sur les comportements individuels des chercheurs dans la pers-pective plus large drsquoune co-eacutevolution entre les dynamiques sociales et seacutemantiquesqui animent ces communauteacutes Le second objet abordeacute est un espace public nou-
9
veau et tregraves reacuteactif les blogosphegraveres politiques propres agrave chaque pays (nous nousconcentrerons preacuteciseacutement sur les deux blogosphegraveres politiques franccedilaise et ameacute-ricaine) Il est agrave nouveau interpreacuteteacute de faccedilon duale drsquoune part comme un sys-tegraveme drsquointeractions sociales multiples entre blogueurs drsquoautre part comme unsystegraveme de production de contenus distribueacute sur un ensemble de sources Le sub-strat essentiellement numeacuterique des dynamiques drsquointeraction et de productionde contenu au sein de ce territoire virtuel en fait un lieu drsquoexpeacuterimentation parti-culiegraverement pertinent pour eacutetudier les processus de diffusion drsquoinformation dontil est le siegravege Lrsquoobservation in-vivo des dynamiques de ces communauteacutes nouspermettra eacutegalement de caracteacuteriser certains couplages existant ente les compor-tements micros (lieacutes aussi bien aux nouvelles interactions entre individus qursquoagrave laproduction de nouveaux contenus) et les proprieacuteteacutes structurelles observeacutees dansles reacuteseaux sociaux seacutemantiques et socio-seacutemantiques
Plan des parties agrave venir Lrsquoobjectif de cette thegravese est donc de deacutevelopper desoutils drsquoanalyse quantitative des dynamiques et des processus en jeu au sein deces communauteacutes de savoirs en adoptant une double perspective sociale et seacute-mantique Apregraves avoir dans la partie I deacutefini ce que recouvre le concept decommunauteacute de savoirs et preacutesenteacute le formalisme dans lequel nous envisageonsleur analyse nous deacutecoupons les interrogations porteacutees sur ces systegravemes socio-seacutemantiques en deux grandes cateacutegories (i) morphogenegravese de reacuteseau (partie II) mise en eacutevidence de motifs structurels globaux non triviaux (structures seacuteman-tiques ouet sociales remarquables deacutetection de champs eacutepisteacutemiques etc) cou-pleacutee agrave lrsquoeacutetude des comportements locaux (propension drsquoun acteur agrave srsquoattacherpreacutefeacuterentiellement agrave des acteurs preacutesentant certaines proprieacuteteacutes structurelles (parexemple homophilie sociale ou seacutemantique)) susceptibles de faire eacutemerger ces mo-tifs meacutesoscopiques ou macroscopiques puis phylogenegravese eacutevaluation des dyna-miques de certaines structures eacutemergentes du systegraveme (ii) eacutetude des dynamiquesdes processus agrave lrsquoœuvre sur ces reacuteseaux en particulier la diffusion (partie III) agrave unniveau global en appreacutehendant les motifs drsquoinfluence existant entre des groupesde sources de contenus puis au niveau du reacuteseau social en interrogeant le rocirclede la topologie du reacuteseau sur la vitesse de circulation drsquoune information sur lrsquoen-semble du reacuteseau et enfin au niveau individuel en mettant en eacutevidence lrsquoimpor-tance de certaines proprieacuteteacutes structurelles locales sur la dynamique de cascadesinformationnelles empiriques
Premiegravere partie
Suivre les communauteacutes de savoirs
CETTE premiegravere partie vise agrave deacutefinir notre objet drsquoeacutetude les communauteacutes de sa-voirs agrave travers lrsquoexamen de deux cas drsquoeacutetude les communauteacutes scientifiques
et les communauteacutes de blogueurs politiques Sans avoir preacutetention agrave deacutecrire de fa-ccedilon analytique ce qursquoentend recouvrir lrsquoappellation communauteacute de savoirs noustacirccherons dans le premier chapitre de saisir certaines de leurs caracteacuteristiquessaillantes en deacutegageant les proprieacuteteacutes communes et les speacutecificiteacutes respectives deces deux terrains empiriques Nous essaierons eacutegalement de remettre la notionde communauteacute de savoirs en perspective par rapport aux diffeacuterents modegraveles decommunauteacute existants Nos communauteacutes de savoirs seront formaliseacutees commedes reacuteseaux eacutepisteacutemiques qui permettent drsquoarticuler dans un mecircme cadre les dimen-sions sociale et seacutemantique Cette formalisation nous accompagnera tout au longde cette thegravese
Dans le second chapitre nous reviendrons plus en deacutetail sur les avantagesdrsquoune modeacutelisation de ces systegravemes sous forme de reacuteseaux Nous insisterons no-tamment sur la possibiliteacute drsquointeacutegrer au sein drsquoun mecircme cadre les dynamiquesmicroscopiques des individus et les motifs macroscopiques eacutemergents Dans cemecircme chapitre nous preacutesenterons et justifierons notre meacutethodologie de recueillongitudinal des traces de lrsquoactiviteacute des communauteacutes de savoirs afin de recons-truire aussi fidegravelement que possible la pheacutenomeacutenologie de leurs dynamiques
CHAPITRE 1
Communauteacutes de savoirs
Sommaire
11 Proprieacuteteacutes des communauteacutes de savoirs 13
111 Communauteacutes de blogueurs politiques et communauteacutesscientifiques des communauteacutes de savoirs 14
112 Heacuteteacuterogeacuteneacuteiteacute des engagements et frontiegraveres des communau-teacutes de savoirs 17
113 Un systegraveme socio-cognitif distribueacute 20
114 Un mode de coordination stigmergique 23
12 Des reacuteseaux socioseacutemantiques 24
121 Dualiteacute socio-seacutemantique 24
122 Reacuteseaux eacutepisteacutemiques 28
123 Formalisme 31
Cette thegravese srsquoappuie essentiellement sur deux types drsquoobjets empiriques drsquounepart les communauteacutes scientifiques dont les membres interagissent notamment autravers de collaborations ou de citations pour produire de la connaissance drsquoautrepart des communauteacutes de blogueurs politiques formant un espace public virtuelcoheacuterent au sein de la blogosphegravere Nous entreprendrons dans ce chapitre de don-ner une deacutefinition et drsquoeacutenumeacuterer les proprieacuteteacutes de ce que nous appellerons descommunauteacutes de savoirs agrave travers les speacutecificiteacutes de nos deux cas drsquoeacutetude Nousintroduirons eacutegalement le formalisme des reacuteseaux eacutepisteacutemiques qui est un cadredrsquoanalyse privileacutegieacute pour appreacutehender la dualiteacute socio-seacutemantique intrinsegraveque descommunauteacutes de savoirs
11 Proprieacuteteacutes des communauteacutes de savoirs
Nous partons de nos deux cas drsquoeacutetude empiriques communauteacutes de blogueurspolitiques et communauteacutes scientifiques pour illustrer les proprieacuteteacutes que recouvrentla notion de communauteacute de savoirs tout en tacircchant de contextualiser cette notionpar rapport aux diffeacuterents modegraveles connexes de communauteacutes existants
14 Chapitre 1 Communauteacutes de savoirs
111 Communauteacutes de blogueurs politiques et communauteacutes scienti-
fiques des communauteacutes de savoirs
Nous nous sommes inteacuteresseacutes agrave deux terrains empiriques durant cette thegravese des communauteacutes scientifiques dont les membres interagissent notamment au tra-vers de collaborations pour produire des eacutenonceacutes scientifiques au sein de publica-tions ainsi que des communauteacutes de blogueurs ldquocitoyensrdquo formant une aregravene dediscussion virtuelle la blogosphegravere politique qui se deacutefinit agrave la fois comme un ter-ritoire drsquoexpression de prise de position sur la chose publique et comme un espacedrsquoeacutechange et de mises en relation entre blogueurs
Ces exemples de communauteacutes de savoirs ne sont pas uniques on peut eacutegale-ment citer lrsquoencyclopeacutedie ouverte que constitue Wikipedia ou nombre de wikisouverts au public les communauteacutes de logiciel libre etc Il faut drsquoailleurs noter quela plupart des des communauteacutes de savoirs existantes ont reacutecemment vu le jouressentiellement gracircce agrave Internet et qursquoelles se deacuteploient geacuteneacuteralement sur le WebDrsquoapregraves Conein (2004) ldquoles technologies cognitives agrave base Internet et les infrastruc-tures Open Source faciliteraient en mecircme temps lrsquoaccroissement de la connaissanceet la coordination socialerdquo au sein de systegravemes qursquoil appelle par ailleurs des reacute-seaux socio-cognitifs
Nos deux exemples preacutesentent a priori de nombreuses diffeacuterences autant dupoint de vue des normes qui en reacutegissent lrsquoactiviteacute des modaliteacutes de coopeacuterationqui les animent ou encore plus simplement de la nature des eacutenonceacutes qui y cir-culent Sans souci drsquoexhaustiviteacute et en eacutecho agrave la liste qui vient drsquoecirctre donneacutee onpeut deacutetailler deux diffeacuterences majeures qui apparaissent entre nos deux systegravemesEn ce qui concerne les reacutegimes de reacutegulation de la production de contenus un blo-gueur peut publier ses billets librement sans avoir agrave recevoir lrsquoaval de ses pairs acontrario de nombreux processus drsquoexpertise des articles scientifiques en reacutegulentla publication Lrsquoexigence drsquooriginaliteacute et drsquoinnovation au-delagrave de lrsquoeacutetat de lrsquoart quipreacutevaut dans les communauteacutes scientifiques perd de sa pertinence dans la blogo-sphegravere politique ougrave les emprunts copies voire plagiats parfois revendiqueacutes sontfreacutequents Ces diffeacuterences induisent un certain nombre de conseacutequences quant agravela vitesse drsquoeacutevolution des contenus produits les communauteacutes de blogueurs poli-tiques traitent souvent de theacutematiques faisant eacutecho agrave lrsquoactualiteacute et sont susceptiblesdrsquoy reacuteagir rapidement alors que les communauteacutes scientifiques ont une eacutevolutionqui pourra paraicirctre plus lente et qui se trouve parfois deacutephaseacutee par rapport auxeacuteveacutenements exteacuterieurs
Concernant les modaliteacutes de coopeacuteration lorsque des chercheurs collaborent leurtravail donne lieu agrave un texte (geacuteneacuteralement sous la forme drsquoun article) qursquoils co-signeront la coopeacuteration ou plutocirct la coordination dans la blogosphegravere nrsquoimpliquepas le mecircme degreacute drsquoengagement entre agents elle se manifeste plutocirct comme laparticipation drsquoun ensemble drsquointervenants agrave une ldquoconversationrdquo ou agrave un ldquoforumrdquosans frontiegravere preacutecise Ainsi si les billets de blogs se reacutepondent les uns aux autres
11 Proprieacuteteacutes des communauteacutes de savoirs 15
chaque blog eacutedite neacuteanmoins seul ses billets il nrsquoy a pas de partage du statutdrsquoauteur (agrave moins de consideacuterer les commentaires drsquoun billet comme une formedrsquoexcroissance de celui-ci) ce qui est produit collectivement crsquoest lrsquoensemble dela conversation et non pas les contenus de base que constituent les billets (dontle pendant serait lrsquoarticle dans le monde scientifique) Ce mode de coordinationpropre aux blogueurs peut par contre ecirctre rapprocheacute drsquoun modegravele de construc-tion increacutementale de la connaissance scientifique lorsque des auteurs proposentun nouvel eacutenonceacute en srsquoappuyant sur et en faisant reacutefeacuterence agrave un certain nombredrsquoarticles deacutejagrave publieacutes
Malgreacute ces diffeacuterences majeures nous faisons lrsquohypothegravese qursquoil est pertinent deles appreacutehender dans un mecircme cadre Communauteacutes scientifiques et communau-teacutes de blogueurs politiques sont toutes deux modeacutelisables comme des systegravemessocioseacutemantiques de production de contenus et drsquointeractions distribueacutes
Nous deacutefinissons les communauteacutes de savoirs comme un ensemble drsquoindivi-dus en interaction au sein drsquoun reacuteseau social et qui manipulent eacutechangent et pro-duisent de lrsquoinformation lieacutee agrave un domaine drsquointeacuterecirct ou drsquoexpertise partageacute Agrave cetitre les communauteacutes de savoirs se caracteacuterisent conjointement comme un sys-tegraveme social complexe et comme un ensemble de sources de contenus distribueacuteesAinsi concernant nos deux cas drsquoeacutetude on retrouve dans chacun des reacuteseaux drsquoin-teraction entre agents (par exemple reacuteseaux de collaboration ou de citation entreauteurs dans le premier cas reacuteseaux de citation ou de commentaire entre blo-gueurs dans le second cas) tisseacutes au greacute de leurs actions locales Les contenussont eacutegalement produits de faccedilon distribueacutee (par chaque chercheur ou groupe dechercheurs ou par les blogueurs ou leurs commentateurs) et srsquoinscrivent dans desespaces situeacutes
La notion de communauteacute de savoirs entretient une forte proximiteacute avec lesconcepts de communauteacute drsquointeacuterecirct et de communauteacute de pratique La communauteacutedrsquointeacuterecirct se deacutefinit comme un groupe composeacute drsquoindividus qui partagent un inteacute-recirct des expeacuteriences ou des preacuteoccupations communes Elle avait eacuteteacute propheacutetiseacuteepar Licklider and Taylor (1968) comme le mode de regroupement que les individusprivileacutegieraient agrave lrsquoegravere informatique imaginant par lagrave-mecircme le concept agrave venir decommunauteacute virtuelle
ldquo[] geographically separated members sometimes grouped insmall clusters and sometimes working individually They will be com-munities not of common location but of common interestrdquo
Les communauteacutes drsquointeacuterecirct ont pour objectif essentiel de disseacuteminer une informa-tion a priori diffuse Ainsi les membres drsquoune communauteacutes drsquointeacuterecirct tels qursquounensemble de patients victimes drsquoune maladie (comme la scleacuterose en plaques chezDillenbourg et al (2003)) sont agrave la recherche drsquoinformations sur les symptocircmes deleur maladie ou les traitements existants que drsquoautres membres pourraient deacutetenirLrsquoobjectif nrsquoest pas de produire une connaissance nouvelle ou drsquoeacutelaborer un savoir
16 Chapitre 1 Communauteacutes de savoirs
collectif mais drsquoinstaurer une structure drsquoeacutechanges entre ses membres permettantla circulation de connaissances ou de teacutemoignages
La communauteacute de pratique est tout aussi informelle et spontaneacutee que la com-munauteacute drsquointeacuterecirct Elle a neacuteanmoins des objectifs distincts et deacutecrit des groupesdrsquoune autre nature La notion de communauteacute de pratique est attribueacutee agrave EtienneWenger (Wenger and Snyder 2000) elle peut deacutesigner une grande varieacuteteacute de si-tuation drsquoapprentissage collectif (Amin and Roberts 2006) figurant ldquodes groupesdrsquoindividus qui partagent un inteacuterecirct un ensemble de problegravemes ou encore unemecircme passion agrave propos drsquoun sujet [et qui] approfondissent leur connaissance etleur expertise en interagissant continucircmentrdquo 1(Wenger and Snyder 2000)
Les analyses des processus de production de connaissances dans les commu-nauteacutes de pratique se sont essentiellement porteacutees sur la nature sociale du pro-cessus drsquoapprentissage Si nous nous reacutefeacuterons aux premiegraveres eacutetudes de terrainlrsquoapprentissage de marins novices (Hutchins 1996) ou drsquoapprentis bouchers (Laveand Wenger 1991) au sein de communauteacutes de pratique tend vers un objectif co-gnitf relativement bien baliseacute (par exemple dans le premier cas ecirctre agrave mecircme dereacutealiser des manœuvres navales complexes) La communauteacute de pratique est geacute-neacuteralement bacirctie sur un systegraveme de connaissances unique (quel que soit la naturede ces connaissances) dans lequel les nouveaux venus partant de la peacuteripheacuteriede la communauteacute doivent cheminer en son centre au greacute des expeacuteriences qursquoilspartagent avec les membres plus anciens et plus expeacuterimenteacutes de la communauteacuteCrsquoest donc un mode drsquoorganisation essentiellement centreacute sur les compeacutetences deses membres Une communauteacute de pratique est certes geacuteneacuteralement creacuteeacutee spon-taneacutement agrave un moment donneacute et en reacuteponse agrave un problegraveme apparu au sein drsquouneorganisation mais une fois ses objectifs atteints (ie le problegraveme reacutesolu) elle sedissout aussi rapidement qursquoelle est apparue
Si les communauteacutes de savoirs srsquoappuient agrave la fois sur les notions drsquoun do-maine drsquointeacuterecirct partageacute entre ses membres et drsquoun apprentissage situeacute capitalisantsur le collectif qui sont des caracteacuteristiques premiegraveres des communauteacutes drsquointeacute-recirct et de pratique elles se diffeacuterencient neacuteanmoins de ces derniegraveres dans le sensougrave elles sont reacuteellement orienteacutees vers la creacuteation de nouvelles connaissances Acontrario les communauteacutes drsquointeacuterecirct sont focaliseacutees sur la disseacutemination drsquoinfor-mations existantes mecircme si distribueacutees sur un ensemble drsquoagents tandis que lescommunauteacutes de pratique dans leur acception originale 2 tendent vers la reacutealisa-
1 ldquo[Communities of practice are] groups of people who share a concern a set of problems or apassion about a topic and who deepen their knowledge and expertise by interacting on an ongoingbasisrdquo
2 La litteacuterature sur les COPs (communauteacutes de pratique) a eacuteteacute foisonnante ces derniegraveres an-neacutees ce foisonnement ayant eacutegalement donneacute lieu agrave une diversification deacutefinitionnelle les COPsrecouvrent maintenant une grande diversiteacute de structures caracteacuteriseacutees par diffeacuterents rapports agrave laconnaissance et agrave lrsquoapprentissage dans lrsquoaction ainsi Amin and Roberts (2006 2008) proposent unetypologie rendant compte de cette variabiliteacute en distinguant entre les modes de relation au savoirdu type eacutepisteacutemique creacuteatif professionnel ou virtuel
11 Proprieacuteteacutes des communauteacutes de savoirs 17
tion drsquoune activiteacute bien deacutefinie (Fischer 2001 Cohendet et al 2003) dont lrsquoaccom-plissement marque la fin de la communauteacute
Le terme de communauteacute eacutepisteacutemique est eacutegalement parfois mobiliseacute pour deacute-finir notamment les communauteacutes de creacuteation de nouvelles connaissances (Aminand Roberts 2008 Cowan et al 2000) telles que les communauteacutes de logiciel libre(Conein 2003) Cet usage nous semble neacuteanmoins probleacutematique pour deux rai-sons En premier lieu la deacutefinition la plus commune des communauteacutes eacutepisteacute-miques introduite par Haas (1992) englobe des groupements drsquoexperts souventtransnationaux articuleacutes en reacuteseau et partageant un ensemble de croyances ou denormes et dont lrsquoautoriteacute dans leur domaine drsquoexpertise les rend leacutegitimes pourformuler des recommandations agrave destination des deacutecideurs publics Une commu-nauteacute scientifique en son entier ne saurait donc pas relever a priori de cette deacute-finition restreinte Mais mecircme en eacutevacuant les rapports qursquoentretiennent les com-munauteacutes eacutepisteacutemiques agrave la deacutecision politique cette deacutefinition nous paraicirct encoretrop restrictive pour englober lrsquoensemble des communauteacutes rentrant dans le ldquoreacute-pertoirerdquo des communauteacutes de savoirs Ainsi il paraicirctrait abusif de dire drsquounecommunauteacutes de blogueurs politiques (fucirct-elle en partie peupleacutee de journalistesprofessionnels ou de militants politiques) qursquoelle est composeacutee ldquodrsquoexpertsrdquo Dansune moindre mesure un telle notion de communauteacute interdit le renouvellementde ses membres par lrsquointeacutegration progressive de ldquonovicesrdquo nouveaux entrants enposition drsquoapprentissage (comme lrsquoeacutetudiant rentrant dans une communauteacute scien-tifique tout en faisant lrsquoapprentissage de ses probleacutematiques principales et de sesprincipaux acteurs)
Crsquoest pour lrsquoensemble des ces raisons que nous preacutefeacuterons parler de commu-nauteacute de savoirs dans le but drsquoy inteacutegrer une population de membres plus heacuteteacutero-gegravene sans lui attribuer un objectif ou un pouvoir de prescription a priori Il pourraitparaicirctre preacutetentieux de parler de production de savoirs quand on envisage un en-semble de programmeurs travaillant au deacuteveloppement drsquoun logiciel libre ou deblogueurs chroniquant lrsquoactualiteacute politique La notion de ldquosavoirsrdquo doit naturel-lement ecirctre entendue dans son acception la plus large possible le deacutenominateurcommun de lrsquoensemble de ces systegravemes reacutesidant dans lrsquoexistence de processus cog-nitifs donnant lieu agrave la production drsquoartefacts culturels varieacutes (lignes de codes ar-gumentaire en faveur drsquoune baisse des impocircts ou eacutenonceacute scientifique) distribueacutesdiscuteacutes et neacutegocieacutes au sein drsquoun reacuteseau social
112 Heacuteteacuterogeacuteneacuteiteacute des engagements et frontiegraveres des communauteacutes de
savoirs
Malgreacute le contexte local et situeacute de la production de contenus au sein des com-munauteacutes de savoirs une forme de continuiteacute perdure dans lrsquoensemble du sys-tegraveme et lui confegravere sa coheacuterence Cette coheacuterence drsquoensemble nrsquoest pas seulementtheacutematique les membres drsquoune communauteacute de savoirs srsquoengagent dans celle-ci
18 Chapitre 1 Communauteacutes de savoirs
agrave travers leur activiteacute eacuteditoriale mais aussi agrave travers les liens qursquoil entretiennentavec drsquoautres membres Les reacutegulariteacutes inheacuterentes agrave ces mises en relation stabi-lisent les repreacutesentations mentales de ses membres et les motifs relationnels quiles reacuteunissent
Ainsi un scientifique speacutecialiseacute dans la recherche sur les cellules souches a unsentiment drsquoappartenance agrave la communauteacutes scientifique associeacutee non seulementparce que ses probleacutematiques sont partageacutees par la communauteacute mais eacutegalementau travers des mises en relations qui le lient agrave divers eacuteleacutements de la communauteacuteCes liens sont varieacutes ses publications peuvent faire reacutefeacuterence agrave (ou ecirctre citeacutees par)drsquoautres travaux issus de la communauteacute il peut collaborer avec des chercheursde la communauteacute ou encore entrer reacuteguliegraverement en interaction avec drsquoautresmembres ou se tenir au courant des derniegraveres avanceacutees de sa speacutecialiteacute lors desconfeacuterences du domaine De la mecircme faccedilon un blogueur politique dont on consi-degravere freacutequemment qursquoil srsquoadonne agrave une pratique ldquoindividualisterdquo (voire narcis-sique) srsquoengage dans une activiteacute de chronique de la vie politique non seulementen reacuteagissant agrave lrsquoactualiteacute politique mais aussi en ldquose liantrdquo par une grande varieacuteteacutede modaliteacutes de mise en contact agrave une ldquoconversationrdquo plus large agrave laquelle parti-cipent drsquoautres membres de la communauteacute des blogueurs politiques Ces engage-ments sont toujours locaux et limiteacutes Neacuteanmoins ce sont ces mises en relation quipermettent aux membres drsquoune communauteacute de savoirs de deacutevelopper un senti-ment drsquoappartenance drsquoen apprendre les regravegles et les valeurs et de deacutefinir le rocircleqursquoils y jouent tout en donnant corps dans un mecircme temps (et on retrouve alors ledouble processus drsquoindividuation individuelle et collective de Simondon que nousdeacutetaillerons dans le chapitre suivant) agrave la communauteacute en question
Pour reacutesumer nous somme en preacutesence drsquoun systegraveme drsquoaction collective guideacutepar des actions purement individuelles il y a construction drsquoune forme de struc-ture collective (sans que quiconque nrsquoest neacutecessairement cette construction commeobjectif ni mecircme conscience de lrsquoopeacuteration de construction en cours) chaque nou-vel eacuteleacutement (et ce quel que soit sa nature une personne ou un texte) srsquoappuyantsur certaines entiteacutes anteacuterieures pour se deacutefinir au sein de la structure globale et lamodifier dans un mecircme mouvement
Naturellement il existe autant de formes drsquoengagement dans ces communau-teacutes de savoirs que de membres et ces engagements peuvent revecirctir des intensiteacutesdiverses Ainsi certaines personnes auront une relation eacutepisodique avec un com-munauteacute scientifique uniquement au travers de collaborations avec un membreactif de la dite communauteacute tandis que drsquoautres auront un haut degreacute drsquoimplica-tion et srsquoinvestiront par exemple dans lrsquoorganisation de confeacuterences ou dans uneactiviteacute drsquoeacutedition pour une revue speacutecialiseacutee deacutedieacutee agrave la communauteacute Lrsquoapparte-nance agrave une communauteacute de savoirs nrsquoest pas exclusive les individus participenta priori agrave un large nombre de cercles sociaux pour reprendre la terminologie de Sim-mel Crsquoest lrsquointersection des diverses ldquoaffiliationsrdquo (Simmel 1955) drsquoun individuqui en deacutefinit lrsquoidentiteacute (Breiger 1974 Kadushin 1966) Crsquoest eacutegalement pour cette
11 Proprieacuteteacutes des communauteacutes de savoirs 19
raison que les communauteacutes de savoirs preacutesentent des degreacutes contrasteacutes drsquoenga-gement de la part de leurs membres dont lrsquoinvestissement deacutepend notamment deleur disponibiliteacute et donc du temps et des ressources deacutejagrave investis par ailleurs dansdrsquoautres activiteacutes et eacuteventuellement dans drsquoautres communauteacutes de savoirs (quelrsquoon songe simplement agrave un scientifique impliqueacute dans la vie de plusieurs commu-nauteacutes scientifiques ou un blogueur technophile animant eacutegalement un blog po-litique) Lrsquoinvestissement deacutepend eacutegalement du degreacute drsquoexpertise des membresAinsi les blogs politiques peuvent aussi bien ecirctre animeacutes par des personnaliteacutespolitiques nationales ou locales des journalistes (travaillant pour le compte deleur journal ou entretenant un blog indeacutependant) des conseillers en communi-cation ou encore des citoyens ldquoordinairesrdquo (Flichy 2000) chacun ayant des mo-tivations diffeacuterentes vis-agrave-vis de son activiteacute de blogueur Il en va de mecircme dansles communauteacutes scientifiques ou dans drsquoautres communauteacutes de savoirs les ingeacute-nieurs se mecirclent aux chercheurs eux-mecircmes plus ou moins expeacuterimenteacutes vis-agrave-visdrsquoune speacutecialiteacute de recherche Dans le cas de la Wikipedia Bryant et al (2005) deacute-crivent les meacutecanismes de transformation progressive des modes de participationdes contributeurs de la communauteacute
Lrsquoheacuteteacuterogeacuteneacuteiteacute dans lrsquoengagement de leurs membres (que nous illustreronsquantitativement agrave travers la notion drsquoactiviteacute dans le cas la blogosphegravere politiqueameacutericaine dans le chapitre 3) que les communauteacutes de savoirs autorisent et encou-ragent est eacutegalement une conseacutequence de la permeacuteabiliteacute de leurs frontiegraveres Lesmembres drsquoune communauteacute de savoirs peuvent ecirctre renouveleacutes agrave un rythme tregravesimportant sans que ne soit neacutecessairement mise en peacuteril la dynamique collectivede la communauteacute Nous reviendrons eacutegalement dans le chapitre 3 sur la stabiliteacutede certaines structures caracteacuterisant ces communauteacutes Lrsquoouverture des frontiegraveresde la blogosphegravere politique paraicirct mecircme constitutive de son essence Cardon andDelaunay-Teterel (2006) dans sa typologie des blogs deacutefinit la blogosphegravere poli-tique par son rapport agrave lrsquoespace public Ces blogs se caracteacuterisent (contrairementaux autres types de blogs journaux intimes blogs de ldquotribusrdquo ou blog de ldquofansrdquo)par un eacutenonceacute deacutetacheacute de la personne de lrsquoeacutenonciateur afin drsquoafficher ldquoles marquesde distanciation indispensables agrave la prolifeacuteration drsquoune opinion drsquoun jugementou drsquoune critique dans un espace publicrdquo Degraves lors la blogosphegravere politique sortdrsquoun logique de fermeture communautaire afin drsquoeacutelargir le deacutebat public aux non-professionnels de la politique en un immense forum de discussion
Au delagrave de la varieacuteteacute et de la mobiliteacute des acteurs de ces communauteacutes ledomaine drsquointeacuterecirct qui reacuteunit ses membres peut ecirctre sujet agrave glissements Contraire-ment aux cas des communauteacutes de pratique classiques ou des communauteacutes drsquoin-teacuterecirct la nature mecircme de ce qui reacuteunit les individus est soumise agrave une neacutegociationcollective permanente Ainsi la deacutefinition de ce que doit ecirctre une encyclopeacutediecollaborative comme Wikipedia ainsi que les processus de reacutegulation y eacutetant ob-serveacutes ont largement eacutevolueacute au cours de son deacuteveloppement (Viegas et al 2007b)Les probleacutematiques autour desquelles se retrouve dans une confeacuterence annuelle
20 Chapitre 1 Communauteacutes de savoirs
lrsquoensemble des participants drsquoune communauteacute scientifique donneacutee subissent deseacutevolutions en fonction drsquoavanceacutees reacutecentes ou de la deacutecouverte de nouvelles ldquoairesdrsquoignorancerdquo (Mulkay 1976)
113 Un systegraveme socio-cognitif distribueacute
Lrsquoune des caracteacuteristiques premiegraveres des communauteacutes de savoirs est que leurdynamique nrsquoest dirigeacutee par aucun organe de centralisation deacutefinissant pour lrsquoen-semble un objectif commun ou des regravegles de fonctionnement internes Les inter-actions ainsi que les contenus produits sont entiegraverement distribueacutes sur lrsquoensembledu systegraveme Ainsi crsquoest lrsquoensemble des comportements individuels rassembleacutes quideacutefinit la dynamique de la communauteacute de savoirs en son entier
La somme des contenus produits par une communauteacute de savoirs est distri-bueacutee sur lrsquoensemble des agents du systegraveme (billets eacutecrits par un blogueur ou ar-ticles reacutedigeacutes par un chercheur) Ces agents sont lieacutes agrave travers un reacuteseau social com-poseacute de la somme des mises en relation de chacun Ces mises en relation peuventmettre en jeu des dyades (un blogueur eacutecrit un commentaire sur le blog drsquoun autreblogueur) ou plus largement un ensemble drsquoagents reacuteunis au sein drsquoun hyperlienlorsque des chercheurs co-publient un article
Morris and der Veer Martens (2008) srsquoappuie sur Storer (1966) pour remarquerque le systegraveme social de la Science diffegravere de celui drsquoautres formes drsquoorganisationsformelles ou informelles au sens ougrave passeacutee la phase de recrutement les rocircles oc-cupeacutes par leurs membres sont bien moins hieacuterarchiseacutes et diffeacuterencieacutes qursquoils ne lesont classiquement Ce dernier parle de canaux drsquoimplication qui sont essentielle-ment dicteacutes par la pertinence et la compleacutementariteacute des approches drsquoun point devue purement cognitif 3 Les relations entre blogueurs politiques suivent le mecircmetrait et apparaissent comme largement supporteacutees par des critegraveres cognitifs lechapitre 3 illustre drsquoailleurs de faccedilon quantitative lrsquoimportance drsquoun critegravere drsquoali-gnement cognitif entre deux blogs sur la propension drsquoun couple de blogs agrave entreren relation
Les dynamiques agrave lrsquoœuvre dans les communauteacutes de savoirs sont donc drsquoabordle fait des comportements individuels de ses membres neacuteanmoins cet aspect dis-tribueacute nrsquoempecircche pas lrsquoexistence drsquoune structuration drsquoordre macroscopique par-ticuliegravere Ainsi aussi bien au sein de la blogosphegravere que dans le monde acadeacute-mique on observe des effets de hieacuterarchie relatifs agrave lrsquoautoriteacute dont sont pourvuscertains agents dans le systegraveme Cette hieacuterarchie eacutemergente peut induire un certainnombre drsquoasymeacutetries dans le systegraveme les ressources disponibles par chacun nesont pas neacutecessairement les mecircmes (attention exerceacutee sur la communauteacute oppor-tuniteacutes de collaborations etc) mais cette distribution heacuteteacuterogegravene des ressources
3 Naturellement les institutions drsquoappartenance des chercheurs ainsi qursquoun certain nombre deregravegles tacites sont autant drsquoeffets exogegravenes qui appellent agrave nuancer cette vision ideacutealiseacutee
11 Proprieacuteteacutes des communauteacutes de savoirs 21
est en permanence reneacutegocieacutee et est construite par cristallisation progressive drsquoac-tions drsquoordre exclusivement microscopique
Les communauteacutes de savoirs se caracteacuterisent eacutegalement par des pheacutenomegravenesde structuration agrave un niveau que lrsquoon pourrait qualifier de meacutesoscopique regrou-pant des ldquosous-groupesrdquo de participants attacheacutes agrave des ldquosous-domainesrdquo de speacute-cialiteacute de la communauteacute Ces agreacutegats locaux se distinguent par les sujets deacutebat-tus en leur sein (agrave titre drsquoexemple on a observeacute au sein de la blogosphegravere politiquefranccedilaise un ensemble de sites speacutecialiseacutes dans le droit ou encore dans les affaireseuropeacuteennes dans les sciences ces sous-groupes renvoient agrave divers niveaux despeacutecialisation de la communauteacute scientifique envisageacutee) mais eacutegalement par laforte densiteacute de relations liant ses participants formant une micro-communauteacuteau sein de la communauteacute au sens large Ainsi lrsquoespace peut se structurer selondes critegraveres hieacuterarchiques mais aussi selon des sensibiliteacutes plus ou moins parta-geacutees entre membres Un exemple classique est celui mis en eacutevidence par Adamicand Glance (2005a) de deacutecoupage de la blogosphegravere politique ameacutericaine selondes critegraveres partisans - ce deacutecoupage politique srsquoaccompagnant drsquoune forme drsquoiso-lation structurelle des clans deacutemocrates et reacutepublicains Ces questions de structu-ration dans la blogosphegravere politique sont primordiales car elles peuvent mettre agravemal les conditions drsquoun deacutebat deacutemocratique controverseacute (Goldman 2008) Nousverrons neacuteanmoins comment la varieacuteteacute des modaliteacutes de mises en relation auto-riseacutees peut permettre de contrecarrer la balkanisation de lrsquoespace et des opinionspublics (Flichy 2008)
Cette structuration de lrsquoespace ne se limite pas agrave la seule dimension socialeLes contenus qui circulent dans les communauteacutes de savoirs srsquoinscrivent dans desagreacutegats seacutemantiques coheacuterents dont lrsquoarticulation forme des espaces cognitifs agravepart entiegravere On peut parler drsquoune organisation de la connaissance qui peut eacutegale-ment structurer les dynamiques individuelles Nous explorerons plus preacuteciseacutementdans le chapitre 4 la nature et le rocircle de ces agreacutegats dans lrsquoorganisation drsquounecommunauteacute de savoirs
Le caractegravere distribueacute et local des communauteacutes de savoirs est eacutegalement per-mis gracircce aux technologies de communication et de gestion de la connaissanceoffertes par Internet (Origgi 2006) En effet la plupart de ces systegravemes sont inti-mement lieacutes avec le medium sur lequel ils se deacuteploient Les interactions entre desindividus disperseacutes agrave travers le globe sont rendues possible gracircce aux technologiesde communication (comme le mail ou les outils du web 20) Lrsquoarchive universelleque constitue le Web autorise lrsquoaccessibiliteacute et la visibiliteacute des contenus produitspar chacun tandis que les moteurs de recherche garantissent la possibiliteacute de na-viguer agrave travers ces contenus
Les communauteacutes scientifiques ont sans doute eacuteteacute parmi les premiegraveres agrave avoirbeacuteneacuteficieacute des technologies du Web agrave la fois comme espace drsquoeacutechange par le mailou les listes de discussion et de partage drsquoabord gracircce agrave la multiplication desbases de donneacutees de publications (de plus en plus souvent ouvertes et gratuites)
22 Chapitre 1 Communauteacutes de savoirs
et maintenant agrave travers la mise agrave disposition croissante de donneacutees expeacuterimen-tales communes (telles que le proposent les grands eacutequipements deacuteployeacutes en phy-sique atomique et sub-atomique ou la biologie systeacutemique par exemple) Les blogssont eacutegalement caracteacuteristiques drsquoun usage des outils drsquoInternet croisant dispositifdrsquoauto-publication et outil de communication collective (Cardon and Delaunay-Teterel 2006)
Malgreacute lrsquoutilisation que font les blogueurs et les scientifiques des technologiesdrsquoInternet il faut neacuteanmoins apporter des eacuteleacutements de nuance qui distinguent tregravesfortement lrsquousage qui est fait de ces outils dans les deux cas Dans le cas des scienti-fiques les eacutechanges sur Internet apparaissent comme le prolongement drsquoune com-munication qui a pris et peut prendre drsquoautre voies par ailleurs Ainsi une ren-contre initieacutee au deacutetour drsquoun cafeacute durant une confeacuterence se poursuivra par uneacutechange de mails Les technologies drsquoInternet apparaissent alors comme une voiede communication parmi drsquoautres La communication par production de liens hy-pertextes au sein de billets de blogs ou par le biais de commentaires est drsquouneautre nature Un blogueur nrsquoa a priori drsquoautre choix pour communiquer avec unautre blogueur que drsquoutiliser lrsquoespace du blog 4 (que ce soit le sien en reacutedigeantun billet en reacuteaction au billet drsquoun blog tiers ou en commentant directement lebillet drsquoun blog tiers) En bref la communication inter-individuelle est neacutecessaire-ment meacutediatiseacutee par lrsquoespace du blog qui est un espace ouvert et public Ainsi unesingulariteacute de la communication dans la blogosphegravere reacuteside dans le fait que le pu-blic du blog constitue lrsquoinviteacute permanent de toutes les formes drsquointeraction entredeux individus une certaine forme ldquodrsquoexhibitionnismerdquo eacutetant de rigueur dans cedispositif panoptique 5
Ainsi toute intervention sur la blogosphegravere (production drsquoun billet ou drsquouncommentaire) est exposeacutee au regard public des internautes 6 Dans le cas des com-munauteacutes scientifiques seuls les traces de certaines interactions prolongeacutees entrechercheurs apparaissent publiquement telles qursquoune liste de coauteurs ayant colla-boreacute agrave lrsquoeacutelaboration drsquoune publication Mecircme si lrsquoon peut reconstruire gracircce agrave cestraces (cas de figure tregraves particuliers mis agrave part on peut raisonnablement supposerque les coauteurs drsquoun papier ont eacuteteacute ameneacutes agrave eacutechanger les uns avec les autres) lesreacuteseaux sociaux qui structurent ces communauteacutes la majoriteacute des eacutechanges entrechercheurs restent neacuteanmoins priveacutes
4 Il est parfois possible de prendre contact directement avec le blogueur lorsque son adressemail est publique mais ces pratiques sont sans doute minoritaires
5 Cette exhibitionnisme doit neacuteanmoins eacutegalement ecirctre nuanceacute Mecircme si la technologie du bloggarantit une forme publicisation de lrsquoensemble des contenus produits tous les blogs ne sont pasneacutecessairement doteacutes de la mecircme visibiliteacute comme on lrsquoa vu il y a eacutegalement des effets de hieacute-rarchisation entre sources lrsquoheacuteteacuterogeacuteneacuteiteacute des engagements de chacun se deacutedoublant drsquoune formedrsquoheacuteteacuterogeacuteneacuteiteacute dans la visibiliteacute ou lrsquoaudience des sites(Hindman et al 2003)
6 Mieux les billets des blogs peuvent ecirctre commenteacutes par tout un chacun que le commentateurpossegravede un blog ou non
11 Proprieacuteteacutes des communauteacutes de savoirs 23
114 Un mode de coordination stigmergique
La discussion sur les usages des technologies de communication employeacuteesdans nos deux types de communauteacutes de savoirs nous amegravene agrave discuter une autreproprieacuteteacute essentielle de ces systegravemes le caractegravere stigmergique de la coordinationentre agents En effet dans les deux cas qui nous occupent lrsquointeacutegraliteacute des conte-nus produits (que la publication soit soumise agrave un certain nombre de regravegles dansle cas de la production scientifique ou qursquoelle soit entiegraverement libre avec les ou-tils drsquoauto-publication que constituent les blogs) sont publiquement consultablessur le Web (parfois de faccedilon payante concernant lrsquoaccegraves aux bases de donneacutees depublications) 7
Lrsquoaccessibiliteacute de ces contenus est essentielle pour la coordination entre les par-ticipants des communauteacutes de savoirs Ainsi un chercheur peut gracircce agrave cette litteacute-rature archiveacutee et structureacutee par des liens de citation saisir lrsquoeacutetat de la connaissanceagrave un instant donneacute dans son domaine de speacutecialiteacute 8 La disponibiliteacute et lrsquoaccessi-biliteacute de ces textes lui permet de ldquoconverserrdquo agrave distance (spatialement et tempo-rellement) avec drsquoautres chercheurs Agrave la maniegravere de la communication entre lesfourmis signalant leur passage par tel ou tel lieu en laissant une trace dans leurenvironnement sous la forme drsquoun deacutepocirct de pheacuteromones on dit de cette coordi-nation qursquoelle est stigmergique (Heylighen et al 2004) car les articles sont publi-quement consultables et que cette visibiliteacute permet un mode drsquointeraction indirecteet diachronique entre les chercheurs Cette proprieacuteteacute est eacutegalement veacuterifieacutee dans lecas de la blogosphegravere Les contenus publieacutes par un blogueur sont en permanenceconsultables car automatiquement archiveacutes par la plate-forme drsquoeacutedition Un blo-gueur peut alors aiseacutement mobiliser en srsquoy reacutefeacuterant un billet reacutedigeacute parfois plu-sieurs mois plus tocirct
Dans les deux cas lrsquoaccessibiliteacute des contenus deacutejagrave produits joue un rocircle fon-damental dans le production de nouveaux contenus Il ne srsquoagit pas uniquementpour un acteur de ldquosrsquoinformer sur lrsquoeacutetat de lrsquoartrdquo drsquoun domaine mais drsquoecirctre agrave mecircmedrsquoy contribuer en proposant sur un mode plutocirct increacutemental (en sciences) plutocirctpoleacutemique (dans la blogosphegravere) de nouveaux contenus qui participent de la creacutea-tion drsquoune ldquoœuvre collectiverdquo Il y a coordination stigmergique agrave chaque fois qursquounagent lie un de ses textes agrave un autre texte de faccedilon agrave prolonger une ldquodiscussionrdquodont les frontiegraveres spatiales et temporelles restent ouvertes
7 Nous parlons ici drsquoune certaine portion de la production scientifique lrsquointeacutegraliteacute (incluantnotamment la recherche priveacutee) nrsquoeacutetant pas publique ou ne lrsquoest qursquoagrave agrave un certain degreacute (pour unediscussion de la notion de la Science comme bien public voir (Callon 1994))
8 La possibiliteacute de mettre en relation des textes eacutepars peut mener aux plus grandes ldquoreacutevolutionsrdquoscientifiques comme lrsquoillustre Latour (1987) agrave propos de la du travail de recomposition du ldquopuzzleeacutepars des textes adulteacutereacutesrdquo de lrsquoalmageste de Ptoleacutemeacutee reacutealiseacute par Copernic
24 Chapitre 1 Communauteacutes de savoirs
12 Des reacuteseaux socioseacutemantiques
Nous deacutecrivons et justifions dans cette section le formalisme des reacuteseauxsocioseacutemantiques ou reacuteseaux eacutepisteacutemiques que nous adoptons pour rendre comptedes dynamiques duales des communauteacutes de savoirs
121 Dualiteacute socio-seacutemantique
Du fait de la nature distribueacutee des interactions inter-individuelles nous noussommes naturellement orienteacutes vers le formalisme offert par lrsquoanalyse des reacuteseauxsociaux pour donner un cadre agrave lrsquoeacutetude de nos communauteacutes de savoirs Lrsquoanalysedes reacuteseaux sociaux propose un certain nombre de meacutethodes formelles appliqueacuteesagrave des donneacutees de terrains (Freeman 2004 Wasserman and Faust 1994) sa po-pulariteacute srsquoest accrue reacutecemment notamment gracircce agrave certains apports venus de laphysique statistique (Barabaacutesi and Albert 1999 Strogatz 2001) mais crsquoest avanttout agrave cause des hypothegraveses sur lesquelles elle se fonde agrave savoir la primauteacute desinteractions dans la compreacutehensions du monde social que nous nous tournonsvers ce type drsquoapproche
Lrsquoanalyse traditionnelle des reacuteseaux sociaux srsquoappuie essentiellement sur deshypothegraveses structuralistes Elle place au centre de lrsquoanalyse non pas les individuset leurs attributs ou des cateacutegories censeacutees agir les individus en fonction drsquouneappartenance de classe mais des relations inter-personnelles et les structures rela-tionnelles entre nœuds comme lrsquouniteacute premiegravere de compreacutehension et de modeacutelisa-tion du social
Comme le reacutesument Smith-Doerr and Powell (2005) en srsquoappuyant sur une ana-lyse anteacuterieure de Granovetter (1985)
ldquoIn contrast to deterministic cultural (oversocialized) accounts net-work analysis afforded room for human agency and in contrast to in-dividualist atomized (undersocialized) approaches networks empha-sized structure and constraint [] Network studies offered a middleground a third way []rdquo
Le trait saillant de lrsquoapproche reacuteseau est donc de prendre comme uniteacute pre-miegravere drsquoanalyse les relations inter-individuelles Dans une revue reacutecente Marinand Wellman (2010) affirment
ldquoSocial network analysis takes as its starting point the premise thatsocial life is created primarily and most importantly by relations andthe patterns formed by these relationsrdquo
Comme le citent Marin and Wellman (2010) la primauteacute du lien social sur lesentiteacutes trouve notamment ses racines dans la sociologie de Simmel
ldquoThe significance of these interactions among men lies in the factthat it is because of them that the individuals in whom these driving
12 Des reacuteseaux socioseacutemantiques 25
impulses and purposes are lodged form a unity that is a society Forunity in the empirical sense of the word is nothing but the interactionof elements An organic body is a unity because its organs maintaina more intimate exchange of their energies with each other than withany other organism a state is a unity because its citizens show similarmutual effectsrdquo (Simmel 1971)
Cette troisiegraveme voie comme lrsquoappellent Smith-Doerr et Powell est ceacuteleacutebreacutee parla plupart pour sa fideacuteliteacute agrave un impeacuteratif anti-cateacutegorique Ainsi White et al (1976)eacutecrivent ldquoWe would like the reader to entertain instead the idea that the presentlyexisting largely categorical descriptions of social structure have no solid theoreticalgrounding furthermore network concepts may provide the only way to constructa theory of social structurerdquo ou encore dans le mecircme article ldquo[f]irst social struc-ture is regularities in the patterns of relations among concrete entities it is not aharmony among abstract norms and values or a classification of concrete entitiesby their attributes Second to describe social structure we must aggregate theseregularities in a fashion consistent with their inherent nature as networksrdquo
Neacuteanmoins cette perspective qui postule que les structures sociales relegraveve-raient exclusivement des motifs relationnels entre individus est critiqueacutee par cer-tains auteurs aussi bien au sein de la communauteacute proche de lrsquoanalyse des reacuteseauxsociaux qursquoagrave lrsquoexteacuterieur pour sa tendance agrave obliteacuterer les autres dimensions parti-cipant de lrsquoaction sociale Ces auteurs reprochent agrave lrsquoanalyse des reacuteseaux sociauxde neacutegliger les opeacuterations cognitives porteacutees par les agents qui animent les sys-tegravemes eacutetudieacutes ainsi que les autres formes que revecirct la vie sociale au-delagrave de sesmanifestations purement structurelles
Crsquoest la critique principale qursquoEmirbayer and Goodwin (1994) adressent agravelrsquoanalyse de reacuteseaux lorsqursquoils eacutecrivent
ldquoWe have also suggested however that despite its powerfulconceptualization of social structure network analysis as it has beendeveloped to date has inadequately theorized the causal role of idealsbeliefs and values and of the actors that strive to realize them as aresult it has neglected the cultural and symbolic moment in the verydetermination of social actionrdquo
Ainsi dans un article interrogeant les preacute-supposeacutes theacuteoriques de lrsquoanalyse de reacute-seau vis-agrave-vis des notions de structure social drsquoldquoagencyrdquo et de culture et agrave tra-vers une revue critique des principaux travaux drsquoanalyse de reacuteseaux ayant uneambition socio-historique Emirbayer and Goodwin (1994) renvoient dos agrave dosles trois approches qui selon eux animent la recherche sur les reacuteseaux sociaux lrsquoapproche deacuteterministe (qui neacuteglige les causes pouvant eacutemaner des croyances oudes valeurs des individus) lrsquoorientation instrumentale (qui envisage les acteurscomme de simples agents maximisant une fonction drsquoutiliteacute en niant leur capa-citeacute drsquoinnovation) et enfin la perspective constructiviste (la plus apte agrave leur sens
26 Chapitre 1 Communauteacutes de savoirs
agrave conceptualiser les transformations potentielles de lrsquoaction sociale induites parles idiomes culturels ou les engagements normatifs mais qui eacutechoue neacuteanmoins agraveinterroger pleinement la co-eacutevolution existant entre les deux dimensions)
Archer (1996) a introduit les notions drsquoupward conflation et de downward confla-tion pour deacutesigner deux positions extrecircmes tendant agrave fonder les reacutegimes drsquointer-preacutetation sur des bases relevant uniquement de la structure sociale ou uniquementdu domaine culturel Selon Emirbayer and Goodwin (1994) les deux approchesfont lrsquoerreur de reacuteduire la dualiteacute entre dimensions sociale et seacutemantique agrave unsimple eacutepipheacutenomegravene alors mecircme qursquoelle sont toutes les deux doteacutees drsquoautono-mie et se co-deacuteterminent
ldquo[]agency and structure interpenetrate with one another in all in-dividual units (as well as complexes) of empirical action and that allhistorical processes are structured at least in part by cultural and poli-tical discourses as well as by networks of social interactionrdquo
Mecircme si lrsquoapproche privileacutegieacutee dans cet article est celle de la compreacutehensiondes processus historiques la critique srsquoeacutetend naturellement agrave lrsquoanalyse de tout sys-tegraveme social que lrsquoon tenterait de reacuteduire agrave sa seule composante relationnelle enfaisant lrsquoimpasse sur un point capital lrsquoautonomie des structures culturelles quipreacutevalent dans le systegravemes contraignent et rendent possibles (ou eacutenactent) lrsquoactionsociale aussi bien que ne le feraient des structures relationnelles preacute-existantes Enbref ldquo[network analysis] has negected the cultural and symbolic moment in thevery determination of social actionrdquo ibid
Callon (2006) deacuteveloppe un argumentaire convergent agrave lrsquoencontre de lrsquoanalysedes reacuteseaux sociaux (voir eacutegalement Callon and Ferrary (2006)) Mecircme srsquoil sou-ligne lrsquoattrait eacutepisteacutemologique drsquoune analyse ex post des cateacutegories srsquoopposant agraveune approche adossant un certain nombre drsquoattributs preacute-deacutefinis aux individusil critique lrsquoanalyse des reacuteseaux sociaux dans sa tendance agrave donner de lrsquoespacesocial une repreacutesentation unifieacutee composeacutee drsquoacteurs homogegravenes doteacutes geacuteneacuterale-ment drsquoun seul reacutegime drsquoaction et limitant de par la mecircme les modes de ldquomiseen relationrdquo Un des reacutesultats principaux de la sociologie de la traduction consistejustement agrave introduire dans le cadre drsquoanalyse des dynamiques lieacutees aux scienceset aux techniques une pluraliteacute drsquoacteurs heacuteteacuterogegravenes (les actants regroupant aussibien des humains que des non-humains) et une diversiteacute de reacutegimes drsquoaction (Bol-tanski and Theacutevenot 1991) mettant en relations ces acteurs (selon des modaliteacutes denatures diffeacuterentes scientifique eacuteconomique politique etc) Selon (Callon 2006)la composition des reacuteseaux eacutegocentreacutes heacuteteacuterogegravenes 9 ainsi formeacutes offrent les condi-tions drsquoexistence drsquoespaces sociaux locaux et non neacutecessairement unifieacutes
Le cadre theacuteorique et meacutethodologique deacuteveloppeacute par lrsquoanalyse des reacuteseau so-
9 Ces reacuteseaux sont mecircme doublement heacuteteacuterogegravenes Drsquoune part leurs constituants peuvent aussibien deacutesigner des individus des collectifs que des non-humains drsquoautre part ces entiteacutes sont relieacuteesles unes aux autres par une grande varieacuteteacute de mises en relation
12 Des reacuteseaux socioseacutemantiques 27
ciaux rend selon lui impossible la prise en compte de cette complexiteacute Crsquoest la rai-son pour laquelle il lui preacutefegravere une approche fondeacutee sur la cartographie de reacuteseauxeacutegocentreacutes heacuteteacuterogegravenes recomposeacutes Seule la repreacutesentation de ces reacuteseaux est tou-jours selon (Callon 2006) agrave mecircme de rendre compte de la diversiteacute des reacutegimesdrsquoaction des acteurs et des espaces Elle constitue de plus une interface pratiquepour partager avec les acteurs du systegraveme envisageacute le travail du sociologue
La critique portant sur lrsquohypothegravese drsquoun espace social unifieacute srsquoappuie essen-tiellement sur une certaine forme drsquoanalyse des reacuteseaux sociaux que lrsquoon pourraitqualifier de positionnelle 10 et dont lrsquoobjet consiste agrave deacutefinir la position drsquoun nœuddu reacuteseau en comparant son environnement relationnel agrave celui de lrsquoensemble desautres nœuds Cette approche vise alors agrave deacutefinir le rocircle le statut ou la positiondrsquoun individu au sein drsquoun reacuteseau en fonction de lrsquoensemble des nœuds et des liensdu reacuteseau et en ignorant la pluraliteacute potentielle des espaces sociaux Il est vrai quecette meacutethode est susceptible drsquoassigner un mecircme rocircle ou une mecircme position agraveun ensemble de nœuds parfaitement deacuteconnecteacutes et suppose donc en premier lieuque ceux-ci appartiennent agrave un espace social partageacute
Pour autant elle ne saurait recouvrir lrsquoensemble des modes drsquoanalyse des reacute-seaux existants Emirbayer and Goodwin (1994) opposent ainsi lrsquoanalyse relation-nelle (ou de type ldquosocial cohesionrdquo) agrave lrsquoanalyse positionnelle Lrsquoanalyse relation-nelle srsquoappuie directement sur les connections directes ou indirectes reliant les ac-teurs entre eux La pertinence de ces deux grands modes drsquoanalyse des reacuteseaux aainsi notamment eacuteteacute compareacutee agrave propos des meacutethodes de division des reacuteseauxen sous-groupes ainsi qursquoagrave propos du rocircle respectif des positions et des voisi-nages locaux pour saisir la dynamique drsquoune diffusion (Burt 1978) Parmi cesapproches relationnelles on retrouve des notions telles que les liens faibles (Gra-novetter 1973) ou les trous structurels (Burt 2004) Drsquoautres srsquoattachent encore agraverepeacuterer dans le reacuteseau certains motifs (Holland and Leinhardt 1976) ou groupescoheacutesifs (Moody and White 2003) Lrsquoensemble de ces approches invite agrave la prise encompte de groupes sociaux locaux diffeacuterencieacutes au sein drsquoune structure plus largeCes exemples nous eacuteloignent drsquoune analyse des reacuteseaux sociaux cantonneacutee agrave unespace social unique et semblent nous rapprocher un peu plus drsquoun objectif derepreacutesentation des agencements sociotechniques (Callon 2006) ldquo[] the most fai-thful representation of the configurations resulting from the eternally unfinished workof composition and combination of egocentric networksrdquo
La question de lrsquouniciteacute des reacutegimes drsquoaction peut ecirctre partiellement reacutesoluepar la prise en compte de multi-reacuteseaux inteacutegrant lrsquoensemble des modaliteacutes demises en relation entre acteurs Au sein de la theacuteorie des reacuteseaux sociaux le lienou la relation entre nœuds peut ecirctre de diffeacuterents types Borgatti et al (2009) deacute-
10 Plus preacuteciseacutement Callon (2006) prend comme exemple la notion drsquoeacutequivalence structurelle(Lorrain and White 1971) qui permet de regrouper dans un mecircme ldquoblocrdquo (White et al 1976) lesnœuds du reacuteseau ayant un rocircle structurellement eacutequivalent vis-agrave-vis du reacuteseau (mecircme si ceux-cipeuvent ne pas ecirctre voisins des mecircmes nœuds)
28 Chapitre 1 Communauteacutes de savoirs
nombrent quatre grands types de relations geacuteneacuteralement abordeacutees par lrsquoanalysede reacuteseaux sociaux relations de similariteacute (deux entiteacutes du reacuteseau sont connecteacuteeslorsqursquoelles partagent un certain nombre drsquoattributs exogegravenes) relations sociales(on entend par relations sociales tout type de relation continue entre individus ex amitieacute collaboration connaissance etc) interactions (dans cette cateacutegorie seretrouvent lrsquoensemble des liens associeacutes agrave un comportement ou agrave une action speacute-cifique et a priori deacutelimiteacute dans le temps tels qursquoapporter un conseil citer le travaildrsquoautrui etc) et enfin les relations de type flux (elles incluent lrsquoensemble des reacute-seaux drsquoeacutechange de type flux financiers ou flux informationnels) 11
La diversiteacute de ces cateacutegories laisse entrevoir la varieacuteteacute des modes de mise enrelation possibles entre entiteacutes que lrsquoanalyse des reacuteseaux sociaux a comme ambi-tion drsquoeacutetudier La prise en compte drsquoune pluraliteacute de modes de mise en relationau sein drsquoun mecircme reacuteseau (qui forme alors un multi-reacuteseau) permet drsquointeacutegrerlrsquoensemble des processus pertinents en fonction drsquoune probleacutematique donneacutee Lesoutils drsquoanalyse des multi-reacuteseaux peuvent sembler encore assez primitifs maisil nrsquoen demeure pas moins possible dans une perspective comparative drsquoeacutetudierla faccedilon dont la dynamique de deux reacuteseaux est guideacutee par tel ou tel processus(nous nous attacheront ainsi chapitre 3 agrave comparer la dynamique drsquoun reacuteseau decommentaire et drsquoun reacuteseau de citation) ou dans une perspective de compreacutehen-sion des couplages entre reacuteseaux de rechercher les correacutelations existant entre lesobservables drsquoun reacuteseau vis-agrave-vis drsquoun autre reacuteseau (par exemple afin de mieuxcomprendre les dynamiques des cascades informationnelles chapitre 7 nous ana-lyserons les correacutelations entre la structure des reacuteseaux formeacutes par les flux drsquoinfor-mation et certaines proprieacuteteacutes du reacuteseau drsquointeraction social sous-jacent)
Concernant la derniegravere critique adresseacutee au manque drsquoheacuteteacuterogeacuteneacuteiteacute des ac-teurs engageacutes dans la modeacutelisation du reacuteseau (ldquoendowing human and non-humanactors with larger and richer competenciesrdquo) elle rejoint en partie les objectionssouleveacutees par Emirbayer and Goodwin (1994) Nous tentons drsquoy reacutepondre en in-troduisant dans la section suivante un formalisme original les reacuteseaux eacutepisteacutemiquesdeacutejagrave introduit par Roth (2006 2008ab) qui eacutetend la perspective classique couvertepar lrsquoanalyse des reacuteseaux sociaux en rajoutant une dimension seacutemantique au pro-fil relationnel des acteurs (qui sont alors doteacutes drsquoun profil de relation social et seacute-mantique) cette dimension seacutemantique eacutetant elle-mecircme doteacutee drsquoune dynamiqueautonome qui co-eacutevolue avec le reacuteseau social deacutecrivant les relations entre acteurs
122 Reacuteseaux eacutepisteacutemiques
Au-deacutelagrave des critiques opposeacutees agrave lrsquoanalyse de reacuteseaux sociaux discuteacutees ci-dessus le contexte actuel drsquoune ldquoscience des reacuteseaux complexesrdquo dans laquelle des
11 Naturellement ces diffeacuterents types de relation peuvent srsquoaveacuterer redondants Par exemple onsrsquoattend agrave ce qursquoun reacuteseau drsquoemail entre eacutetudiants drsquoune mecircme universiteacute qui est un reacuteseau drsquointer-action soit fortement correacuteleacute au reacuteseau drsquoamitieacute entre ces mecircmes eacutetudiants
12 Des reacuteseaux socioseacutemantiques 29
meacutethodes geacuteneacuteriques issues des sciences physiques (et principalement la physiquestatistique) ou de lrsquoinformatique des graphes ont eacuteteacute massivement appliqueacuteesrend agrave nos yeux encore plus pertinente la neacutecessiteacute de rediscuter les hypothegravesesous-tendant ces modeacutelisations Le deacuteveloppement et lrsquoutilisation drsquooutils sur detregraves grands reacuteseaux drsquointeraction indiffeacuterencieacutes (reacuteseaux drsquoinfrastructure meacutetabo-liques sociaux ou de communication sont souvent simplement consideacutereacutes commeautant drsquoinstance drsquoun mecircme objet) a certes permis drsquointerroger de faccedilon transver-sale certains invariants propres agrave lrsquoensemble des reacuteseaux reacuteels (comme la distribu-tion de degreacute de ces reacuteseaux de terrain qui semble ecirctre geacuteneacuteralement heacuteteacuterogegravene)mais cette recherche drsquouniversaliteacute srsquoest eacutegalement parfois reacutealiseacutee en ignorant laspeacutecificiteacute des systegravemes eacutetudieacutes et des questionnements qursquoils appellent
Ainsi dans le cas qui nous occupe lrsquoentreprise de modeacutelisation et de carac-teacuterisation de la morphogenegravese des communauteacutes de savoirs agrave partir des seulesobservables lieacutees au reacuteseau social nous semble probleacutematique il paraicirct judicieuxde srsquointerroger sur le rocircle des contenus seacutemantiques dans le deacuteveloppement descomportement individuels la distribution des repreacutesentations culturelles eacutetant unfacteur drsquoinfluence capital des dynamiques sociales Les reacuteseaux de savoirs sont eneffet le theacuteacirctre drsquointeractions agrave fort contenu seacutemantique soulignant ainsi la perti-nence de lrsquoutilisation de motifs structurels ou de meacutecanismes de mise en relationqui ne soient pas drsquoordre strictement sociaux (au sens ougrave ils engageraient unique-ment des humains avec des humains) Plus exactement les nouvelles interactionsproduites au sein drsquoun systegraveme complexe socioseacutemantique sont au moins partiel-lement deacutetermineacutees par la structure des interactions passeacutees et par les affiniteacutesconceptuelles entre agents
Lrsquoeacutetude des communauteacutes de savoirs requiert donc une double attention auxdynamiques sociales et aux dynamiques de production de savoirs ou de diffusiondrsquoinformation qui les traversent Ainsi le formalisme des reacuteseaux eacutepisteacutemiquespermet lrsquointeacutegration drsquoune dimension seacutemantique autonome coupleacutee aux reacuteseauxdrsquointeraction entre individus classique en analyse de reacuteseaux sociaux 12
La dimension seacutemantique nrsquoest pas inteacutegreacutee comme une variable exogegravenesuppleacutementaire adosseacutee aux caracteacuteristiques individuelles mais bien comme unesource de dynamiques agrave part entiegravere traduisant aussi bien la distribution desldquoconnaissancesrdquo sur lrsquoensemble des sources que lrsquoorganisation des connaissancesspeacutecifiques agrave la communauteacute de savoirs eacutetudieacutee
Comme lrsquoappelle de ses vœux Emirbayer and Goodwin (1994) cette dimensionseacutemantique est a priori doteacutee de sa propre autonomie ldquo These symbolic forma-tions [Cultural discourses narratives and idioms] have emergent properties - aninternal logic and organization of their own - that require that they be conceptua-
12 Le reacuteseau social peut en fonction de lrsquoobjet drsquoeacutetude et de la question poseacutee sur le systegravemeecirctre constitueacute de liens drsquoattribution drsquoautoriteacute (par exemple un lien de citation dans une publicationscientifique) de liens drsquointeractions creacuteeacutes par exemple dans la blogosphegravere via les commentaires oude diffeacuterents types de liens si lrsquoon envisage des multi-reacuteseaux
30 Chapitre 1 Communauteacutes de savoirs
FIGURE 11 Reacuteseau eacutepisteacutemique reacuteunissant deux types drsquoentiteacutes un ensemble drsquoacteurs(mateacuterialiseacutes par des cercles) en interaction au sein drsquoun reacuteseau social (liens dirigeacutes) unensemble drsquoattributs seacutemantiques (mateacuterialiseacutes par des carreacutes) relieacutes par des relations desimilariteacute (lignes continues non dirigeacutees) au sein drsquoun reacuteseau seacutemantique et enfin un reacute-seau biparti socio-seacutemantique (lignes en pointilleacutes) caracteacuterisant lrsquousage des entiteacutes seacute-mantiques par les acteurs
lized as ldquocultural structuresrdquordquo Elle nrsquoest donc pas reacuteductible agrave une ldquosur-coucherdquoqui doterait les agents de certains attributs exogegravenes elle forme au contraire unedimension autonome agrave part entiegravere des dynamiques humaines qui animent la com-munauteacute de savoirs Bien que doteacutee drsquoautonomie elle est co-deacutetermineacutee par le reacute-seau social et le co-deacutetermine en retour on peut dire que les dimensions socialeset seacutemantiques sont en co-eacutevolution lrsquoune avec lrsquoautre
Le scheacutema figure 11 offre une vision scheacutematique agrave la fois de notre approchetheacuteorique et de notre formalisation pratique des communauteacutes de savoirs Un reacute-seau cognitif est en fait la combinaison de trois reacuteseaux un reacuteseau social qui traduitles interactions inter-individuelles un reacuteseau socio-seacutemantique qui deacutecrit la faccedilondont les entiteacutes seacutemantiques sont mobiliseacutees par les acteurs et enfin un reacuteseauseacutemantique rendant compte de la structuration de lrsquoensemble des entiteacutes seacuteman-tiques Cette modeacutelisation peut ecirctre interpreacuteteacutee comme un premier pas vers uneformalisation de lrsquoensemble des ldquomises en relationrdquo (Latour 2005 Callon 2006)drsquoentiteacutes humaines ou non-humaines possibles
Ces diffeacuterents reacuteseaux sont en co-eacutevolution les uns avec les autres Ainsi une denos hypothegraveses est que les interactions entre individus deacutecrites par le reacuteseau socialsont fortement lieacutees aux attributs cognitifs de ces agents que lrsquoon modeacutelise gracircceau reacuteseau socio-seacutemantique biparti reliant les agents aux entiteacutes seacutemantiques dusystegraveme (nous preacuteciserons plus tard la faccedilon dont ces entiteacutes sont deacutefinies) De fa-ccedilon symeacutetrique au reacuteseau social les entiteacutes seacutemantiques sont eacutegalement relieacutees enfonction de leur similariteacute au sein drsquoun reacuteseau seacutemantique Ce reacuteseau est construiten fonction des freacutequences de co-occurrences des couples drsquoentiteacutes seacutemantiquesobserveacutees dans lrsquoensemble du systegraveme
Concernant la blogopshegravere par exemple un blogueur qui reacutedige un billet en
12 Des reacuteseaux socioseacutemantiques 31
faisant reacutefeacuterence au billet drsquoun blog tiers met en relation son propre blog avecle blog citeacute au sein drsquoun reacuteseau social Les occurrences de termes au sein de cebillet deacutefinissent un ensemble de relations liant le blog aux contenus qursquoil produit(reacuteseau socio-seacutemantique) Enfin lrsquoensemble des billets produits par lrsquoensembledes blogueurs de la portion de blogosphegravere consideacutereacutee forme un corpus agrave partirduquel on peut construire un reacuteseau de similariteacute qui relie les entiteacutes seacutemantiquesfreacutequemment mises en relations au sein drsquoun mecircme billet et qui repreacutesente la struc-ture des ldquoconnaissancesrdquo mobiliseacutees dans la communauteacute de blogueurs consideacutereacutee(reacuteseau seacutemantique)
Lrsquoensemble de ces reacuteseaux traduisent donc tous agrave leur faccedilon des opeacuterationsde co-preacutesence ou de co-apparition drsquoentiteacutes heacuteteacuterogegravenes La perspective adop-teacutee se situe donc dans la ligneacutee des approches de la sociologie de la traductionpronant la prise en compte de reacuteseaux hybrides Neacuteanmoins nous avons agrave faire agravediffeacuterents types de cooccurrences (correspondant agrave autant de modes de mise en re-lation diffeacuterents) en fonction des types drsquoentiteacutes rencontreacutees (individuindividuindividuentiteacute seacutemantique entiteacute seacutemantiqueentiteacute seacutemantique) Crsquoest pour-quoi mecircme si notre objectif est bien de saisir la faccedilon dont les trois reacuteseaux seco-deacuteterminent nous respecterons les speacutecificiteacutes de ces reacuteseaux en proposant uncadre drsquoanalyse distinct pour chacun drsquoentre eux Ce choix meacutethodologique esteacutegalement dicteacute par lrsquohypothegravese que nous suivons drsquoautonomie agrave un certain ni-veau drsquoeacutemergence des structures sociales et seacutemantiques Agrave nouveau les troisreacuteseaux ne sont nullement reacuteductibles les uns aux autres 13
Pratiquement nous deacutefinissons les entiteacutes seacutemantiques qui caracteacuterisent lrsquoeacutetatcognitif de chaque agent directement agrave partir des traces textuelles qursquoils pro-duisent Plus preacuteciseacutement nous ferons lrsquohypothegravese qursquoun ensemble limiteacute determes et drsquoexpressions que nous appellerons concepts par commoditeacute suffit agrave deacute-finir le bagage seacutemantique des individus Nous deacutetaillerons par la suite les hypo-thegraveses qui preacutesident au choix de ces ensembles
123 Formalisme
Formellement nous deacutefinissons les trois reacuteseaux qui composent le reacuteseau eacutepis-teacutemique de la faccedilon suivante (les trois reacuteseaux sont repreacutesenteacutes figure 31) On noteGS = (S RS) le reacuteseau social ougrave S deacutesigne lrsquoensemble des agents et RS sub S times S
repreacutesente la liste des liens du reacuteseau social un lien (eacuteventuellement orienteacute)l = (s sprime) isin RS signifie que s est relieacute agrave sprime
13 Il faut noter ici que la ldquoprojectionrdquo du reacuteseau socio-seacutemantique biparti liant les agents agrave leursattributs seacutemantiques sur la dimension sociale (ce qui correspondrait agrave relier les agents partageantles mecircmes attributs seacutemantiques) est a priori diffeacuterente du reacuteseau social (construit par lrsquoagreacutegationdes interactions ou des relations entre individus indeacutependamment de toute production de contenu)symeacutetriquement le reacuteseau seacutemantique est distinct de la projection du reacuteseau socio-seacutemantique surla dimension seacutemantique
32 Chapitre 1 Communauteacutes de savoirs
GS = (S RS) GSC = (SC RSC) GC = (C RC)
FIGURE 12 Les trois reacuteseaux distincts social (GS) socio-seacutemantique (GSC) et seacutemantique(GC) dont est composeacute un reacuteseau eacutepisteacutemique Lrsquoensemble des agents (deacutesigneacutes pas S) sontfigureacutes par des cercles gris tandis que lrsquoensemble concepts (deacutesigneacutes pas C) sont figureacutespar des carreacutes bleus Les trois reacuteseaux sont tous bien diffeacuterents les uns des autres ainsi lereacuteseau social nrsquoest pas une projection du reacuteseau socio-seacutemantique
Du cocircteacute seacutemantique nous appellons concepts les termes et expressions quipeuvent composer le bagage seacutemantique des agents C deacutesigne lrsquoensemble desconcepts Le reacuteseau socio-seacutemantique GSC = (SC RSC) est constitueacute des agentsS de lrsquoensemble des concepts C et des liens entre ces eacuteleacutements RSC soit lrsquousage decertains concepts par certains agents dans sa forme la plus simple un agent estlieacute aux concepts qursquoil mentionne Ainsi un lien l = (s c) isin RSC sub S timesC indiqueque s mentionne c
Ces deux reacuteseaux sont de nature diffeacuterente le reacuteseau social est un reacuteseau mo-noparti reliant uniquement des acteurs les uns avec les autres le reacuteseau socio-seacutemantique est un reacuteseau biparti (appeleacute eacutegalement reacuteseau 2-mode) 14 meacutelangeantacteurs et concepts ce qui revient pratiquement agrave doter les agents drsquoattributs cog-nitifs
Enfin on deacutefinit le reacuteseau seacutemantique GC de faccedilon similaire au reacuteseau socialGC = (C RC) deacutesigne le reacuteseau seacutemantique ougrave C est lrsquoensemble des concepts etRC sub CtimesC repreacutesente la liste des liens du reacuteseau seacutemantique un lien l = (c cprime) isin
RC signifie que c est relieacute agrave cprime (nous preacutecisons ulteacuterieurement la faccedilon dont le lienest modeacuteliseacute dans le reacuteseau seacutemantique)
14 Un graphe est dit biparti srsquoil existe une partition de son ensemble de nœuds en deux sous-ensembles S et C telle que chaque lien ait une extreacutemiteacute dans S et lrsquoautre dans C Dans notre cas lesensembles S et C deacutesignent alors respectivement lrsquoensemble des acteurs et lrsquoensemble des concepts
12 Des reacuteseaux socioseacutemantiques 33
Reacutesumeacute du chapitre
Dans ce premier chapitre nous avons tenteacute de deacutelimiter notre objet drsquoeacutetudeles communauteacutes de savoirs de faccedilon inductive agrave travers lrsquoexamen des pro-prieacuteteacutes de nos deux cas drsquoeacutetude blogosphegraveres politiques et communauteacutesscientifiques Nous nous sommes eacutegalement efforceacutes de les situer par rapportaux notions theacuteoriques existantes pour qualifier des collectifs produisant dela connaissance Nous deacutefinissons une communauteacute de savoirs comme unensemble drsquoindividus en interaction au sein drsquoun reacuteseau social qui mani-pulent eacutechangent et produisent de lrsquoinformation lieacutee agrave un domaine drsquointeacuterecirctou drsquoexpertise
Les communauteacutes de savoirs se construisent comme un systegraveme socio-cognitif distribueacute lrsquoensemble des dynamiques premiegravere(sociales ou seacuteman-tiques) qursquoelles abritent sont par essence locales La coordination entre leseacuteleacutements drsquoune communauteacute est de type stigmergique ainsi la production denouveaux contenus srsquoappuie sur la mise en reacuteseau de textes drsquoauteurs dis-tincts eacutecrits agrave diffeacuterents moments (reacuteseau de citation scientifique ou de billetsde blogs) Ses frontiegraveres sont par nature ouvertes agrave la circulation drsquoentiteacutes so-ciales ou seacutemantiques qui sont susceptibles par leur agreacutegation drsquoen redeacutefinirlrsquoidentiteacute
Ces communauteacutes se caracteacuterisent eacutegalement par la dualiteacute entrete-nue entre les dynamiques sociales qui affectent le reacuteseau de relations inter-individuelles et les dynamiques seacutemantiques traduisant la production de conte-nus Un cadre drsquoanalyse celui des reacuteseaux eacutepisteacutemiques a eacuteteacute introduit Il per-met de modeacuteliser une communauteacute de savoirs comme un ensemble de troisreacuteseaux le reacuteseau social (liant les individus entrant en interaction) le reacuteseausocio-seacutemantique (traduisant lrsquousage des concepts par les individus) et enfinle reacuteseau seacutemantique (liant les concepts proches) Ce cadre nous semble perti-nent et neacutecessaire pour rendre compte de la dynamique de ces communauteacutescar il respecte le mode drsquoorganisation deacutecentraliseacutee de ces communauteacutes etpermet drsquoavoir une approche symeacutetrique vis-agrave-vis des dynamiques drsquointerac-tions sociales et seacutemantiques
CHAPITRE 2
Dynamiques multi-eacutechelles des
communauteacutes de savoirs
Sommaire
21 Analyse longitudinale des dynamiques des communauteacutes de savoirs 36
211 Limites de lrsquoapproche statique 36
212 Formalisme dynamique 38
22 Articuler les niveaux micro et macro 38
221 Boucle eacutemergence immergence 38
222 Individus et reacuteseaux 42
23 Observation in-vivo des dynamiques 44
231 Suivre les acteurs agrave lrsquoegravere digitale 44
232 Reconstuction pheacutenomeacutenologique des traces 46
233 Des traces textuelles au reacuteseau eacutepisteacutemique 48
234 Un eacutechantillon de la blosphegravere politique franccedilaise 50
235 Un multi-reacuteseau dynamique 53
236 Caracteacuterisation seacutemantique 55
237 Blogosphegravere ameacutericaine 58
24 Une approche par faces 59
Les communauteacutes de savoirs dont nous avons tacirccheacute de cerner les proprieacuteteacutesdans le chapitre preacuteceacutedent se saisissent essentiellement comme des objets eacutevolu-tifs formation de nouvelles interactions ou deacuteformation de configurations pas-seacutees production de nouveaux contenus deacutepart de certains acteurs remplaceacutes parde nouveaux arrivants eacutemergence de ldquonormesrdquo processus drsquoapprentissage collec-tif ou de diffusion porteacutes par ces communauteacutes etc Lrsquooriginaliteacute des communau-teacutes de savoirs est qursquoelles sont par nature largement auto-organiseacutees leur fonc-tionnement eacutetant en partie lieacute agrave la stratification progressive et auto-entretenue decertaines structures stables eacutemergeant des dynamiques individuelles Cette dua-liteacute micro-macro neacutecessite donc pour la compreacutehension du fonctionnement deces communauteacutes drsquoappreacutehender aussi bien les dynamiques microscopiques (quidoivent ecirctre envisageacutees en regard de lrsquoespace de contraintes ou de possibles laisseacutevacant par les motifs et les proprieacuteteacutes de haut-niveau ) que macroscopiques (dontla morphogenegravese est directement lieacutee aux premiegraveres)
36 Chapitre 2 Dynamiques multi-eacutechelles des communauteacutes de savoirs
La dualiteacute socioseacutemantique de nos communauteacutes de savoirs srsquoenrichit donc decette division par niveaux Nous devons ecirctre attentifs aux dynamiques sociales etseacutemantiques et agrave leur couplage simultaneacutement agrave un niveau local microscopiqueen suivant lrsquoactiviteacute des membres de la communauteacute et les dynamiques drsquousagelieacutees agrave tel ou tel sujet drsquointeacuterecirct et agrave un niveau meacutesoscopique ou macroscopique ensuivant lrsquoeacutevolution des proprieacuteteacutes et motifs eacutemergents du reacuteseau eacutepisteacutemique quine peuvent pas ecirctre attribueacutes agrave un simple eacuteleacutement de la communauteacute mais qui sonttributaires de lrsquoensemble de ses constituants
Ce chapitre vise agrave expliciter le type de couplage dynamique entre niveaux agravelrsquoœuvre dans nos communauteacutes de savoirs Or la compreacutehension de ce couplageet de la morphogenegravese drsquoensemble de la communauteacute requiert un suivi longitu-dinal des dynamiques individuelles et collectives A cet effet nous enrichirons leformalisme des reacuteseaux eacutepisteacutemiques deacutejagrave introduit dans le chapitre preacuteceacutedent parlrsquoajout drsquoune dimension temporelle Nous preacuteciserons enfin notre approche empi-rique fondeacutee sur un recueil de donneacutees longitudinales qui fonde une sociologiedes traces tout en soulignant les limites et deacutefis expeacuterimentaux affeacuterents
21 Analyse longitudinale des dynamiques des communau-
teacutes de savoirs
Dans cette section nous introduisons le cadre dynamique dans lequel nous ap-preacutehendons nos communauteacutes de savoirs Nous eacutenumeacuterons lrsquoensemble des avan-tages que ce cadre confegravere par rapport agrave une approche statique
211 Limites de lrsquoapproche statique
On peut critiquer lrsquoanalyse des reacuteseaux sociaux agrave cause de sa tendance agrave res-treindre son champ drsquoapplication agrave des analyses transversales (appeleacutees eacutegalementldquocross-sectionalrdquo dans la litteacuterature) des systegravemes limiteacutees agrave lrsquoobservation de sys-tegravemes en un seul point dans le temps notamment parce que ce type drsquoeacutetude ne per-met drsquointerroger que partiellement la morphogenegravese du reacuteseau et ne permet pasdrsquoen saisir les processus de reacutegulation Neacuteanmoins cette limite nrsquoest pas due agrave deslimites theacuteoriques inheacuterentes mais bien agrave la difficulteacute pratique que constitue uneentreprise de collecte longitudinale de donneacutees Dans les cas ougrave ces donneacutees sontaccessibles les outils de lrsquoanalyse de reacuteseaux permettent drsquoaborder la question dela causaliteacute sans ambiguiumlteacute (a contrario drsquoune analyse statique qui ne permet a priorique drsquoinfeacuterer des correacutelations entre variables) De nombreuses eacutetudes reacutecentes ontmontreacute lrsquointeacuterecirct drsquoune perspective dynamique srsquoappuyant sur des seacuteries tempo-relles deacutecrivant les eacutetats successifs drsquoun reacuteseau (Gulati 1995 Padgett and Ansell1993 Christakis and Fowler 2007 2008 Steglich et al 2006 Jones and Handcock2003 Gotz et al 2009) La principale innovation agrave venir tiendra sans doute agrave la
21 Analyse longitudinale des dynamiques des communauteacutes de savoirs 37
granulariteacute temporelle des donneacutees empiriques issues de lrsquoobservation des sys-tegravemes sociaux Les donneacutees collecteacutees dans les communauteacutes en ligne permettentde rendre toujours plus preacutecise cette granulariteacute Certaines analyse dynamiquesreacutecentes srsquoappuient sur une granulariteacute temporelle de lrsquoordre du jour (site de reacute-seau social (Holme et al 2004)) de lrsquoheure (reacuteseaux de communication par email(Kossinets et al 2008)) et tendent maintenant vers le temps reacuteel (production decontenus de la blogosphegravere et des media sociaux (Leskovec et al 2009))
Effectuer un suivi temporel de lrsquoactiviteacute de nos communauteacutes de savoirs offretrois avantages par rapport agrave une vision purement statique Lrsquoanalyse de donneacuteestemporelles permet de proceacuteder agrave un suivi longitudinal des motifs structurant lescommunauteacute de savoirs elle est eacutegalement une opportuniteacute pour saisir les reacutegu-lariteacutes guidant les dynamiques individuelles enfin elle offre la possibiliteacute drsquointer-roger les processus dynamiques que supportent les communauteacutes de savoirs telsque la diffusion
En premier lieu ces donneacutees permettent naturellement drsquoappreacutecier la faccedilondont certains motifs se stabilisent ou se reconfigurent en effectuant un simple suivilongitudinal des variables qui les caracteacuterisent Les interactions entre deux agentssont-elles entretenues dans le temps Est-ce que le nombre de motifs cycliqueseacutevolue dans le reacuteseau Lrsquousage de certains concepts augmente-t-il dans le temps
Au delagrave drsquoune analyse longitudinale de certaines observables deacutecrivant lrsquoeacutetatdu systegraveme agrave diffeacuterents pas de temps un jeu de donneacutees dynamique doteacute drsquounegranulariteacute temporelle suffisante permet eacutegalement drsquointerroger les reacutegulariteacutesguidant les comportements des entiteacutes du systegraveme On peut ainsi chercher lescorreacutelations existant entre les structures du reacuteseau eacutepisteacutemique entre deux pas detemps successifs Certaines proprieacuteteacutes structurelles drsquoun nœud ou drsquoun couple denœuds (on parle alors de dyade) rendent-elles plus ou moins probable la creacuteationdrsquoun nouveau lien srsquoarrimant agrave ce nœud ou connectant les nœuds ce cette dyade Le suivi des communauteacutes de savoirs dans le temps permet ainsi de saisir les reacute-gulariteacutes eacuteventuelles dans les comportements individuels qui resteraient inacces-sibles si lrsquoon consideacuterait un reacuteseau statique le chapitre 3 srsquoattachera notamment agravedeacutefinir la faccedilon dont la probabiliteacute de creacuteation de nouveaux liens dans le reacuteseausocial ou socio-seacutemantique peut ecirctre estimeacutee sous la forme drsquoun attachement preacute-feacuterentiel agrave certains paramegravetres structurels du reacuteseau eacutepisteacutemique
Enfin le suivi dynamique de lrsquoactiviteacute des communauteacutes de savoirs offre lrsquoop-portuniteacute drsquoobserver les processus dynamiques qui srsquoy deacuteploient tels que les pheacute-nomegravenes de diffusion (cf partie III) Ces processus peuvent agrave nouveau ecirctre inter-preacuteteacutes comme des pheacutenomegravenes eacutemergeant des dynamiques microscopiques Ils sediffeacuterencient des motifs eacutemergents statiques (tels qursquoune distribution de degreacutes ouune structuration modulaire qui sont deacuteduits de lrsquoobservation du reacuteseau eacutepisteacute-mique agrave un moment donneacute) par leur nature exclusivement dynamique au sensougrave leur description appelle naturellement un cadre dynamique Agrave la maniegravere dela houle ridant la surface de lrsquooceacutean que nous sommes intuitivement plus enclin
38 Chapitre 2 Dynamiques multi-eacutechelles des communauteacutes de savoirs
agrave interpreacuteter comme la succession drsquoondes que comme le deacutephasage progressifdrsquoun ensemble des particules drsquoeau soumises agrave des oscillations locales la diffusiondrsquoune information au sein drsquoun reacuteseau social se conccediloit naturellement comme unprocessus dynamique de propagation drsquoune information de proche en proche
212 Formalisme dynamique
Par extension du formalisme deacutejagrave introduit dans le preacuteceacutedent chapitre nousdeacutefinissons dans le cadre dynamique le reacuteseau social GS = (SRS) ougrave S deacutesignelrsquoensemble des agents et RS sub S times S times N repreacutesente la liste des liens du reacuteseausocial un lien l = (s sprime t) isin RS signifie que s se lie agrave sprime au temps t
Le reacuteseau socio-seacutemantique dynamique GSC est constitueacute des agents S de lrsquoen-semble des concepts C et des liens entre ces eacuteleacutementsRSC soit lrsquousage de certainsconcepts par les agents agrave un moment donneacute Ainsi RSC sub S times C times N et un lienl = (s c t) isin RSC indique que s mentionne c au temps t
Enfin on deacutefinit le reacuteseau seacutemantique dynamique GC de faccedilon similaire aureacuteseau social dynamique GC = (CRC) deacutesigne le reacuteseau seacutemantique ougrave C estlrsquoensemble des concepts etRC sub CtimesCtimesN repreacutesente la liste des liens du reacuteseauseacutemantique un lien l = (c cprime t) isin RC signifie que c est relieacute agrave cprime au temps t
22 Articuler les niveaux micro et macro
Dans cette section nous souhaitons deacutetailler plus avant le cadre multi-niveaudans lequel les dynamiques des communauteacutes de savoirs se deacuteploient Nous mon-trerons ensuite comment une modeacutelisation par des reacuteseaux permet drsquoappreacutehenderces dynamiques multi-eacutechelles
221 Boucle eacutemergence immergence
Le caractegravere naturellement distribueacute de la communication et de la productionde contenus au sein des communauteacutes de savoirs contraste avec un mode classiquede reacutegulation hieacuterarchique des organisations Les interactions qui animent ces sys-tegravemes qursquoelles soient drsquoordre social ou seacutemantique sont essentiellement localeset nulle entiteacute centralisatrice fonctionnant sur un mode drsquoorganisation vertical necontrocircle lrsquoactiviteacute de leurs membres
Pour autant ces communauteacutes ne sont pas deacutenueacutees de proprieacuteteacutes de haut ni-veau que lrsquoon songe aux nombreuses regravegles et normes tacites ou non qui en reacute-gulent lrsquoorganisation ou les processus de diffeacuterenciation des membres que lrsquoonretrouve dans de nombreuses communauteacutes de savoirs wikis comme la Wikipe-dia (Bryant et al 2005 Lih 2003 Weiss and Moroiu 2007 Viegas et al 2007a)communauteacutes de logiciel libre (Conein 2003) Les communauteacutes scientifiques ne
22 Articuler les niveaux micro et macro 39
deacuterogent pas agrave la regravegle malgreacute lrsquoexistence drsquoun contexte institutionnel fort (insti-tuts de recherche division en deacutepartements des universiteacutes laboratoires institu-tions de financement etc) les dynamiques de production de connaissance sontsouvent le fait de collaborations locales mettant en jeu un ensemble drsquoindividuset de ressources (Lazega et al 2007) Crsquoest bien lrsquoensemble de ces eacuteveacutenements deproduction de connaissance aussi locaux soient-ils qui oriente collectivement ladynamique drsquoune communauteacute scientifique De faccedilon similaire le tissu relation-nel observeacute au sein de la blogosphegravere preacutesente des motifs caracteacuteristiques drsquounestructuration par couleur politique (Adamic and Glance 2005a) ou plus simple-ment theacutematique (Uchida et al 2007) Ces proprieacuteteacutes macroscopiques sont neacutean-moins organiquement lieacutees agrave lrsquoactiviteacute des individus qui constituent ces commu-nauteacutes elles eacutemergent des dynamiques individuelles distribueacutees sur lrsquoensemble dusystegraveme
Ces motifs et ces proprieacuteteacutes de haut niveau eacutemergent des dynamiques indivi-duelles mais ne sont pas pour autant inopeacuterants par rapport agrave ces derniegraveres Encontinuiteacute avec lrsquoideacutee drsquoun individualisme meacutethodologique complexe (Dupuy 2004)nous qualifierons drsquoimmergentes les ldquocauses induitesrdquo par les dynamiques de hautniveau sur les dynamiques de bas niveau Dans cette perspective Il serait vain dechercher lequel des deux niveaux preacutecegravede lrsquoautre dans une chaicircne causale lesdeux niveaux se co-deacuteterminent lrsquoun lrsquoautre Une telle modeacutelisation permet eacutegale-ment de reacutesoudre le deacutebat entre lrsquohypothegravese drsquoune deacutetermination du macro parle micro (hypothegravese atomiste) ou du micro par le macro (hypothegravese holiste) en lesrendant compatibles au sein drsquoune boucle eacutemergenceimmergence qui lie de faccedilonciculaire dynamiques de bas et de haut niveau
La figure 21 scheacutematise cette boucle eacutemergenceimmergence en la saisissantagrave lrsquointersection des dynamiques de bas et de haut-niveau respectivement deacutecritespar lrsquoeacutevolution des fonctions x(t) et X(t) Lrsquoeacutetat macro X(t) du systegraveme deacutependdes comportements micros x(t) agrave travers la fonction drsquoeacutemergence tandis que lestransformations de lrsquoeacutetat micro du systegraveme x(t)rarr x(t+dt) sont conditionneacutees parla fonction drsquoimmergence 1
Micro et macro-sociologies se rejoignent donc en un mecircme modegravele qui integravegresimultaneacutement le rocircle des motifs de haut niveau dans la deacutetermination des dyna-miques individuelles (ces motifs ou cateacutegories ne sont pas donneacutees comme une va-riable exogegravene immanente mais eacutemergent des actions individuelles de bas-niveau)et la capaciteacute des acteurs agrave agir les pheacutenomegravenes collectifs de haut-niveau Ainsiles acteurs sont bien doteacutes drsquoun ldquolibre-arbitrerdquo ils ne sont pas des producteursconscients drsquoun ordre ldquosupeacuterieurrdquo (ldquoThe result of human action but not of human
1 Ce diagramme est de plus commutatif ie lrsquoeacutetat du macro X(t + dt) du systegraveme peut ecirctredeacutecrit (voire preacutedit dans une perspective de reconstruction) agrave partir de lrsquoeacutetat micro du systegraveme x(t)
soit par la composition de la fonction drsquoeacutemergence suivie de la fonction guidant la dynamique dehaut niveau x(t) rarr X(t) rarr X(t + dt) soit inversement en composant les fonctions dirigeant ladynamique micro puis la fonction drsquoeacutemergence x(t) rarr x(t + dt) rarr X(t + dt) (Roth 2006)
40 Chapitre 2 Dynamiques multi-eacutechelles des communauteacutes de savoirs
x(t+dt)x(t)
X(t) X(t+dt)
Dynamique de bas-niveau
Dynamique de haut-niveau
immergenceeacutemergence eacutemergence
FIGURE 21 Scheacutema de la boucle eacutemergenceimmergence sur un systegraveme dont la dyna-mique se deacuteploie agrave deux niveaux micro et macro
designrdquo selon la formule drsquoAdam Ferguson rappeleacutee par Dupuy (2004)) mais ycontribuent par un effet de composition de lrsquoensemble de leurs actions ne srsquoex-primant que dans les limites induites par une forme drsquoordre social preacute-existantLrsquoexistence drsquoun ldquopoint fixe endogegravenerdquo que chacun contribue agrave constituer reacutecon-cilie la possibiliteacute drsquoune conception de la socieacuteteacute produite par lrsquoensemble des indi-vidus qui la compose et neacuteanmoins doteacutee drsquoune autonomie propre (eacutemergence deproprieacuteteacutes auto-organiseacutees doteacutees de dynamiques autonomes)
Les niveaux micro et macro que nous nous efforcerons de deacutecrire ne sont doncsoumis agrave aucune forme de preacuteeacuteminence drsquoun niveau sur lrsquoautre distinguant entreun niveau absolu et un niveau relatif drsquoexplication du social Notre approcheprend neacuteanmoins comme point de deacutepart le niveau micro les traces que nous sui-vrons eacutetant essentiellement le fait drsquoinscriptions locales Lrsquoambition consiste alorsagrave reconstruire les eacutemergences de haut niveau associeacutees agrave ces dynamiques La deacute-marche inductive que nous adoptons rejoint finalement le principe de reconstruc-tion du ldquograndrdquo par le ldquopetitrdquo procircneacute par Tarde (1898) et sur lequel Latour (2001)srsquoappuie pour opposer agrave une logique drsquoexplication des comportements individuelspar quelque macro-structure sociale surplombante une perspective attentive auxldquoactions eacuteleacutementairesrdquo des acteurs
ldquo[]au lieu drsquoexpliquer tout par la preacutetendue imposition drsquoune loidrsquoeacutevolution qui contraindrait les pheacutenomegravenes drsquoensemble agrave se repro-duire agrave se reacutepeacuteter identiquement dans un certain ordre au lieu drsquoexpli-quer le petit par le grand le deacutetail par le gros jrsquoexplique les similitudesdrsquoensemble par lrsquoentassement de petites actions eacuteleacutementaires le grandpar le petit le gros par le deacutetail Cette maniegravere de voir est destineacutee agraveproduire en sociologie la mecircme transformation qursquoa produite en ma-theacutematiques lrsquointroduction du calcul infiniteacutesimal rdquo Tarde (1898) p 21
Il ne srsquoagit pas agrave nouveau de nier lrsquoexistence de regravegles ou de proprieacuteteacutes ma-croscopiques propres au systegraveme en son entier et srsquoappliquant sur lrsquoensemble des
22 Articuler les niveaux micro et macro 41
individus mais de prendre au seacuterieux la dialectique de co-construction des dy-namiques individuelles et de la ldquostructurerdquo drsquoensemble du systegraveme Sewell (1992)part de la dualiteacute intrinsegraveque de la notion de structure chez Giddens pour reacuteins-crire la genegravese des structures dans les actions sociales Dans lrsquoacception qursquoil leurconfegravere les structures ne sont pas statiques mais dynamiques car sans cesse entre-tenues par les agents du systegraveme
ldquoStructures shape peoplersquos practices but it is also peoplersquos practicesthat constitute (and reproduce) structures In this view of things hu-man agency and structure far from being opposed in fact presupposeeach otherrdquo Sewell (1992)
Ces niveaux ne relegravevent pas non plus drsquoontologies neacutecessairement discor-dantes Ce qui rend possible la boucle eacutemergenceimmergence crsquoest notammentla nature des diffeacuterentes formes observeacutees agrave diffeacuterents niveaux quel que soit leniveau envisageacute et on a toujours agrave faire agrave des ldquomotifsrdquo sociaux socio-seacutemantiquesou seacutemantiques dont les manifestations sont perceptibles au moins partiellementpar les agents
Il nrsquoy a donc pas drsquoeacutemergence transcendantale mais une circulation des motifsagrave travers toutes les eacutechelles puisque dans notre cadre socioseacutemantique il est apriori possible de mettre en relation ces motifs heacuteteacuterogegravenes les uns avec les autresConsidegraverons un exemple simple tel que la peacuterennisation drsquoun champ de rechercheeacutemergent agrave travers la creacuteation drsquoune nouvelle revue ou drsquoune nouvelle confeacuterenceOn peut si lrsquoon reprend la deacutefinition des macro-acteurs de (Callon and Latour1981) suivre la faccedilon dont ce champ grandit en enrocirclant de nouvelles volonteacutes eten srsquoadossant agrave un certains nombre de boicirctes noires On peut eacutegalement suivre lacirculation des macro-acteurs dans le monde des micro-acteurs (Latour 2006) lesmacro-acteurs sont par nature ldquopubliciseacutesrdquo car ils srsquoappuient sur leur rocircle de re-preacutesentants drsquoentiteacutes plus petites Ainsi la notion drsquoimmergence qui en attribuantun pouvoir causal agrave des entiteacutes macroscopiques sur les constituants mecircmes quilui donnent vie pourrait sembler paradoxale redevient naturelle pourvu que lesentiteacutes eacutemergentes circulent dans le monde ldquodrsquoen-basrdquo aussi librement qursquoun ldquo ap-pel agrave contribution pour une confeacuterencerdquo diffuseacute agrave lrsquoensemble des abonneacutes drsquouneldquomailing listrdquo
Lrsquoexistence de structures sociales et culturelles eacutemergeant des dynamiques lo-cales renforce encore la dualiteacute socio-seacutemantique que nous avions introduit auchapitre preacuteceacutedent (section 121) Bien que fortement coupleacutees au niveau indivi-duel (ce sont bien les acteurs qui mobilisent des concepts dans le reacuteseau bipartisocio-seacutemantique GSC) les dimensions sociale et seacutemantique nrsquoen demeurent pasmoins largement autonomes au sens ougrave elles se caracteacuterisent toutes deux par lapreacutesence de structures peacuterennes (au moins par rapport agrave lrsquoeacutechelle de temps carac-teacuteristique des dynamiques micros du systegraveme) des organisations sociales ou sym-boliques qui sont toutes deux agrave mecircme de conditionner les actions des individus et
42 Chapitre 2 Dynamiques multi-eacutechelles des communauteacutes de savoirs
la dynamique agrave venir du systegraveme
222 Individus et reacuteseaux
La prise en compte de lrsquohistoire relationnelle drsquoun acteur au moment de la creacutea-tion de nouvelles interactions est eacutegalement un moyen de donner une certaineldquoeacutepaisseur biographiquerdquo aux entiteacutes Ainsi les agents ne recreacuteent pas ex-nihiloleur identiteacute agrave chaque nouvelle interaction comme sils se retrouvaient plongeacutes dansune scegravene goffmanienne durant laquelle leur identiteacute eacutetait eacuteternellement redeacutefinieLa dimension temporelle assure une forme de continuiteacute biographique en offrantun contexte et une anteacuterioriteacute au delagrave du lieu et du moment preacutecis de lrsquointeractiondans laquelle les acteurs srsquoengagent 2 Lahire (1998) cite Montaigne pour illustrerla pluraliteacute de lrsquoidentiteacute humaine construite agrave travers ses expeacuteriences
ldquoVoilagrave pourquoi pour juger drsquoun homme il faut suivre longuementet curieusement sa tracerdquo (Montaigne Essais Livre second) extrait de(Lahire 1998) p 348
Notre objectif est de rester fidegravele agrave cet impeacuteratif de suivi longitudinal des actionsindividuelles Que celles-ci traduisent un comportement changeant ou une ex-trecircme stabiliteacute nous souhaitons bien reconstruire la pheacutenomeacutenologie de toute ladiversiteacute des dynamiques individuelles
Un des principaux attraits de la modeacutelisation sous forme de reacuteseaux est deproposer un cadre drsquoanalyse qui ne place pas a priori lrsquoindividu ou ses attributs aucentre du dispositif Lrsquoanalyse de reacuteseaux sociaux prend comme objet drsquoeacutetude lesrelations inter-individuelles Mais lrsquoattention qursquoelle porte agrave lrsquointeraction socialene saurait ecirctre reacuteduite agrave une theacuteorie ou mecircme une approche purement interaction-niste Lrsquointeraction ou la relation inter-individuelle se trouve toujours plongeacutee dansun contexte plus large un tissu relationnel On peut donc dire que la modeacutelisa-tion sous forme de reacuteseau deacutecrit les interactions locales des agents les uns avec lesautres tout en inteacutegrant un contexte meacuteso- ou macroscopique incluant une partieou lrsquoensemble des agents et de leurs interactions
Pour reprendre les termes de Granovetter (1985) lrsquoapproche ldquoreacuteseaurdquo proposeune alternative aux ldquoconceptions sur-socialiseacutees ou sous-socialiseacutees de lrsquoaction hu-maine en sociologie ou en eacuteconomierdquo 3 Dans ce texte ldquolrsquohomo-economicus deseacuteconomistesrdquo et lrsquoldquoindividu sur-socialiseacutee des sociologuesrdquo sont renvoyeacutes dos agravedos au motif qursquoils se fondent sur le postulat drsquoun acteur atomiseacute dont les com-portements ne sauraient ecirctre influenceacutes qursquoagrave la marge par le ldquocontexte social localrdquoLa notion ldquodrsquoembedednessrdquo permet de remplacer les approches classiques drsquoex-plication des comportements humains soit par un ldquocalculrdquo strictement utilitaire de
2 Srsquoappuyer sur ces interactions anteacuterieures est drsquoautant plus aiseacute dans le cas qui nous occupeici que les inscriptions textuelles accessibles offrent des eacuteleacutements de contexte tregraves riches sur ldquolrsquohis-toirerdquo des individus Lrsquoindividu est ainsi de facto mis en position de se constituer en sujet reacuteflexif
3 ldquoover- and undersocialized conceptions of human action in sociology and economicsrdquo p 483
22 Articuler les niveaux micro et macro 43
lrsquoacteur en fonction de ses inteacuterecircts personnels deacutefinis de maniegravere restrictive soitpar la subordination drsquoun acteur agrave un ensemble de normes sociales inteacuterioriseacuteesUne fois les comportements individuels plongeacutes (ldquoenlitementrdquo) dans un systegravemeempirique de relations sociales les effets de ldquotraductionsrdquo locales propres agrave unenvironnement donneacute apparaissent comme les motifs premiers de deacuteterminationdes comportements des individus
Cette vision de lrsquoindividu comme saisi entre un contexte local et un horizonplus large entretient certaines similitudes avec la notion drsquoindividuation deacutefenduepar Simondon Dans Simondon (1989) lrsquoindividu est par essence en ldquodevenirrdquoLrsquoindividu drsquoecirctre preacute-individuel devient donc un individu de groupe agrave travers unedouble individuation psychique puis collective Ce dernier eacutecrit
lsquoIl nrsquoest donc pas juste de parler de lrsquoinfluence du groupe sur lrsquoin-divividu en fait le groupe nrsquoest pas fait drsquoindividus reacuteunis en groupepar certains liens mais drsquoindividus groupeacutes drsquoindividus de groupe Lesindividus sont individus de groupe comme le groupe est groupe drsquoin-dividus [] On ne peut pas dire que le groupe exerce une influence surles individus car cette action est contemporaine de la vie des individuset nrsquoest pas indeacutependante de la vie des individusrdquo Simondon (1989)
Lrsquoindividuation de groupe tout comme lrsquoindividuation psychique ne musellepas lrsquoautonomie de lrsquoagent qui reste dans un eacutetat meacutetastable empli de potentiali-teacutes Aussi bien que le groupe advient gracircce aux individus les individus sont eux-mecircmes transformeacutes par la structure qursquoils ont produite Crsquoest un pheacutenomegravene simi-laire que Gilbert (2003) analyse sur une configuration minimale deux individusadaptant le rythme de leur pas pour ldquomarcher ensemblerdquo
La sociologie des organisations eacutepouse cette mecircme attention agrave la dualiteacute entrelrsquoacteur et le systegraveme (Friedberg 1997) Lrsquoordre est sans cesse construit et recons-truit dans le champ des interactions sociales Agrave nouveau lrsquoaffirmation de lrsquoexis-tence drsquoun systegraveme dans lequel les acteurs deacuteveloppent leur strateacutegie nrsquoest pascontradictoire avec leur autonomie Au contraire ldquoSystegraveme et acteur sont co-constitutifs ils se structurent et restructurent mutuellementrdquo Les acteurs parti-cipent donc activement agrave la reacutegulation du systegraveme ce qui chez Friedberg garantiteacutegalement une certaine heacuteteacuterogeacuteneacuteiteacute des ordres locaux
ldquoIci les acteurs nrsquoexistent ni dans un vaccum social ni dans unchamp social homogegravene et unifieacute mais bien dans un systegraveme socialfractionneacute par lrsquoenchevecirctrement deacutesordonneacute drsquoune multipliciteacute de reacute-gulations locales heacuteteacuterogegravenes - leurs actions et leur rationnaliteacute nepeuvent ecirctre analyseacutees que replaceacutees dans ce jeu globalrdquo Friedberg(1997)
De faccedilon similaire Giddens (1981) refuse drsquoidentifier le concept de structureavec celui de grille ou de contrainte Selon lui cette deacutefinition nous condamnerait
44 Chapitre 2 Dynamiques multi-eacutechelles des communauteacutes de savoirs
au dualisme entre theacuteories institutionnelles et theacuteories de lrsquoaction (ou plus preacute-ciseacutement de ldquolrsquoagencyrdquo) Plutocirct que de deacutefinir les systegravemes sociaux comme desstructures Giddens renverse lrsquoassertion ce sont ldquoles systegravemes sociaux qui ont desproprieacuteteacutes structurellesrdquo Au dualisme entre action et institution il oppose la dualiteacutedu concept de structure
ldquo[] the structure is both the medium and outcome of the socialpractices it recursively organizesrdquo
Structure et actions locales se retrouvent alors entremecircleacutees simultaneacutement cau-santes et causeacutees la notion de reacutecursiviteacute nous invitant agrave examiner les dynamiquessociales locales de reproduction ou de transformation des structures
Les reacuteseaux apparaissent donc comme une faccedilon pertinente de modeacuteliser lessystegravemes sociaux en rendant compte dans un mecircme cadre des actions locales et desstructures sociales de plus haut niveau dans lesquelles elles se deacuteploient pourvuque cette modeacutelisation permette simultaneacutement (i) de suivre fidegravelement les ac-tions individuelles et plus preacuteciseacutement les dynamiques de mise en relation (ii) dedeacutecrire les ordres locaux eacutemergents des dynamiques individuelles Lrsquoimportancede la place des processus dynamiques (qursquoils rendent compte des comportementsindividuels ou de la dynamique des structures de haut-niveau) appelle agrave lrsquointeacutegra-tion drsquoune dimension temporelle agrave notre formalisme
23 Observation in-vivo des dynamiques
Un parti-pris important de cette thegravese tient eacutegalement agrave lrsquoapproche empiriquede lrsquoanalyse des dynamiques des communauteacutes de savoirs que nous adoptons Cechoix meacutethodologique est notamment ducirc agrave lrsquoimpeacuteratif que nous nous fixons derestituer les dynamiques des entiteacutes qui constituent les communauteacutes de savoirsdans leur contexte drsquoaction locale afin de ne pas imposer de cadre drsquoanalyse oude cateacutegories a priori 4 Nous preacutesentons eacutegalement dans cette section la strateacutegiede collecte que nous adoptons depuis la collecte des traces digitales sur Internetjusqursquoagrave la reconstruction pheacutenomeacutenologique de ces traces
231 Suivre les acteurs agrave lrsquoegravere digitale
La multiplication des eacutechanges sur Internet et des traces digitales qui en reacute-sultent est une opportuniteacute sans preacuteceacutedent pour ldquosuivre les acteurs agrave la tracerdquoPour prendre lrsquoexemple de la blogosphegravere lrsquoactiviteacute des blogueurs laisse des mar-queurs textuels au cœur mecircme des blogs sous la forme drsquoun billet archiveacute ou drsquoun
4 Au delagrave des modaliteacutes drsquoanalyse cet impeacuteratif peut ecirctre probleacutematique au moment de la deacute-limitation pratique des frontiegraveres des systegravemes consideacutereacutes (selon quel critegravere peut-on deacutecreacuteter quetelle ou telle entiteacute appartient agrave une communauteacute de savoirs donneacutee ou non) on verra neacuteanmoinspar la suite comment cette deacutelimitation peut-ecirctre conccedilue en limitant autant que possible la prise encompte de critegraveres exogegravenes
23 Observation in-vivo des dynamiques 45
ensemble de commentaires Dans ce cas la trace laisseacutee par lrsquoaction de lrsquoagentsrsquoapparente agrave lrsquoaction en tant que telle La technologie impose ici agrave lrsquoagent commeunique moyen drsquoexpression et de communication avec son environnement drsquoy ap-poser une trace textuelle Le caractegravere panoptique du medium Internet qui srsquoap-puie sur lrsquoarchivage quasi-systeacutematique des contenus (historiques des eacuteditionsdans les wikis (Viegas et al 2007a) archives des mailing-listes de communauteacutesde deacuteveloppeurs (Dorat et al 2007) ou enfin plus classiquement archives en lignede publications scientifiques (Newman 2004b)) ouvre de nouvelles perspectivespour les sciences sociales Comme lrsquoaffirme Latour (2007) ldquo[les sciences sociales]ont enfin accegraves agrave des masses de donneacutees du mecircme ordre de grandeur que celles deleurs grandes sœurs les sciences de la naturerdquo 5
Crsquoest gracircce agrave cette visibiliteacute et au caractegravere public des eacutechanges sur Internetque lrsquoon peut parler drsquoobservation in-vivo des dynamiques sociales et seacutemantiquesdans ces espaces Pour reprendre lrsquoanalyse de Latour and Woolgar (1986) les ma-nipulations opeacutereacutees dans le cadre du laboratoire sont ici directement assureacutees parle medium mecircme de communication qui fonctionne comme un instrument drsquoen-registrement systeacutematique des traces laisseacutees par les activiteacutes humaines Un autreavantage de ce mode drsquointerrogation du social est qursquoil garantit une ldquodiscreacutetionrdquoquasiment absolue vis-agrave-vis de lrsquoobjet drsquoeacutetude Les traces eacutetant produites dans lecadre de lrsquoaction on peut alors eacutegalement faire lrsquoeacuteconomie des questionnementsmeacutethodologiques traditionnels qui accompagnent habituellement les enquecirctes deterrain Cette disponibiliteacute permet de lire sous un jour nouveau lrsquointroduction dupremier chapitre des Lois de lrsquoimitation dans laquelle Tarde eacutecrit
ldquoEn matiegravere sociale on a sous la main par un privilegravege excep-tionnel les causes veacuteritables les actes individuels dont les faits sontfaits ce qui est absolument soustrait agrave nos regards en toute autre ma-tiegravererdquoTarde (1890) p 20
Les ldquoactes sociauxrdquo srsquoeacutecrivent maintenant par eacutecrans interposeacutes et sont graveacutesdans des meacutemoires en silicium ce qui facilite consideacuterablement leur accumula-tion (avant de srsquoadonner selon le programme de sociologie quantitative de Tarde(1890) au travail de repeacuterage des ressemblances neacutecessaire pour ldquonombrerrdquo etldquomesurerrdquo les faits sociaux )
Ces traces constituent donc un veacuteritable laboratoire drsquoexpeacuterimentation socio-logique et ethnographique permettant drsquoeacutetudier les dynamiques sociales et cogni-tives agrave des eacutechelles ineacutedites (Shalizi 2007)
ldquoThe precise forces that mould our subjectivities and the precisecharacters that furnish our imaginations are all open to inquiries by thesocial sciences It is as if the inner workings of private worlds have been
5 ldquo[Social Sciences] can finally have access to masses of data that are of the same order of ma-gnitude as that of their older sisters the natural sciencesrdquo
46 Chapitre 2 Dynamiques multi-eacutechelles des communauteacutes de savoirs
pried open because their inputs and outputs have become thoroughlytraceablerdquo (Latour 2007)
Mais au-delagrave de lrsquoaccegraves agrave de nouvelles sources de donneacutees la publicisation etlrsquoacceacuteleacuteration des eacutechanges dans ces espaces neacutees entre autres de lrsquoavegravenementdu Web 20 constituent eacutegalement un enjeu de recherche agrave part entiegravere Ce sontbien de nouveaux modes de sociabiliteacute drsquoexpression publique drsquoeacutelaboration de laconnaissance ou drsquoaction collective qui sont agrave lrsquoœuvre au sein de ces nouveauxldquoconduits pour la vie sociale contemporainerdquo 6 (Hine 2005) et dont la compreacute-hension constitue un veacuteritable deacutefi pour les anneacutees agrave venir (Chateauraynaud andTrabal 2003) Ce changement de medium a eacutegalement pour effet de faire eacutemergerde nouveaux acteurs au sein du jeu social ou politique traditionnel les pouvoirssont susceptibles drsquoecirctre redistribueacutes tregraves rapidement des effets de loupe pouvantsubitement faire augmenter la ldquotaillerdquo drsquoun acteur au sein du forum mondial queconstituent ces nouveaux espaces
232 Reconstuction pheacutenomeacutenologique des traces
La disponibiliteacute agrave grande eacutechelle de ces traces est eacutegalement une condition neacute-cessaire agrave leur traitement statistique Lrsquoideacutee tardienne de faire entrer le monde socialen statistique semble de plus en plus creacutedible gracircce agrave ces donneacutees mais aussi gracircceaux outils de traitement de ces donneacutees dont nous disposons Il est utile agrave ce titrede revenir plus preacuteciseacutement sur les ldquoconquecirctesrdquo auxquelles la statistique sociolo-gique consideacutereacutee comme ldquolrsquoeacutetude appliqueacutee de lrsquoimitation et de ses loisrdquo pouvaitpreacutetendre selon Tarde
Pour illustrer sa vision drsquoune statistique sociologique Tarde (1890) compare lacourbe des reacutecidives criminelles ou correctionnelles avec les brusques relegravevementsdu vol drsquoune hirondelle Lrsquooriginaliteacute de la meacutetaphore de Tarde reacuteside dans le faitqursquoil ne considegravere pas que les deux traceacutes (drsquoun cocircteacute les courbes construites parun bureau de statistiques et drsquoun autre cocircteacute celles que le mouvement drsquoun oiseaudessine sur une reacutetine) reflegravetent deux repreacutesentations du monde de natures diffeacute-rentes Pourtant la premiegravere est classiquement ldquoreacuteputeacutee symboliquerdquo tandis que laseconde est usuellement jugeacutee comme ldquoune reacutealiteacute inheacuterente agrave lrsquoecirctre mecircme qursquoelleexprimerdquo Tarde reacutefute cette distinction Selon lui les seules diffeacuterences qursquoentre-tiennent les ldquocourbes graphiques des statisticiensrdquo et les ldquoimages visuellesrdquo se reacute-sument essentiellement agrave la difficulteacute que lrsquoon peut rencontrer lorsqursquoil srsquoagit detracer et drsquointerpreacuteter les premiegraveres alors que les secondes seraient capteacutees et in-terpreacuteteacutees de faccedilon continue 7
6 ldquoThere is then a considerable will to research and understand technologically mediated inter-actions [] as an important conduit for contemporary social liferdquo
7 ldquoLa diffeacuterence la plus saisissable qui subsiste degraves lors entre les courbes graphiques des statis-ticiens et les images visuelles crsquoest que les premiers coucirctent de la peine agrave lrsquohomme qui les trace etmecircme agrave celui qui les interpregravete tandis que les secondes se font en nous et sans nul effort de notre
23 Observation in-vivo des dynamiques 47
La comparaison de la statistique sociologique avec lrsquoobservation reacutetinienne drsquounobjet mouvant reacutevegravele bien ici lrsquoambition tardienne Dans les deux cas qursquoil srsquoagissedu monde des ldquofigures mobiles en mouvementrdquo ou de celui des ldquofaits sociauxrdquonous somme confronteacutes au mecircme besoin de reconstruction pheacutenomeacutenologique destraces que la reacutealiteacute nous permet drsquoobserver La reconstruction du vol drsquoune hi-rondelle est rendue possible et nous semble ldquonaturellerdquo gracircce et agrave cause de lrsquoex-trecircme perfectionnement de notre reacutetine et de notre systegraveme cognitif transformantun processus drsquoinscription photochimique en ldquolrsquoillusionrdquo drsquoun vol drsquooiseau Enmatiegravere sociale il faudra nous eacutequiper drsquoun certain nombre de prothegraveses senso-rielles 8 avant drsquoecirctre agrave mecircme de reconstruire les dynamiques sociales avec une preacute-cision telle que ldquode chaque fait social en train de srsquoaccomplir srsquoeacutechappera pourainsi dire automatiquement un chiffrerdquo
Or on sait que la vision ainsi que lrsquoensemble de nos sens nrsquoagissent pascomme de simples instruments de captation drsquoune reacutealiteacute exteacuterieure mais commedes machines adaptatives sophistiqueacutees Agrave partir de signaux relativement frustresde cette reacutealiteacute ces machines reconstruisent un certain nombre de structures re-marquables telles une texture une forme ou un corps un mouvement qui rassem-bleacutees composent la pheacutenomeacutenologie Les faits sociaux appellent au mecircme travail dereconstruction Agrave partir drsquoune captation de la reacutealiteacute aussi bruiteacutee et limiteacutee soit-elle il srsquoagit non pas simplement de compter et drsquoeacutenumeacuterer mais de reconstruirela pheacutenomeacutenologie de ces faits en deacutecrivant et en deacutetectant leurs motifs caracteacuteris-tiques leurs reacutegulariteacutes remarquables les diffeacuterentes formes couleurs et texturesqursquoils revecirctent eacutegalement
Latour and Woolgar (1986) deacutecrivent le travail de recherche comme fondeacute surles inscriptions produites par des instruments agrave mecircme drsquoidentifier et drsquoenregis-trer des traces laisseacutees par des entiteacutes invisibles Mais collecter ces traces nrsquoest passuffisant Comme lrsquoaffirme Callon (2006) les chercheurs de toutes disciplines tra-vaillent agrave partir drsquoinscriptions produites par des instruments qursquoils doivent par lasuite traduire en eacutenonceacutes 9 Cette derniegravere opeacuteration de traduction nrsquoest pas tou-jours la plus aiseacutee et crsquoest celle que nous deacutecrirons sous le terme de reconstruc-tion pheacutenomeacutenologique Ce que nous recherchons agrave travers ces traces ce sont lrsquoen-semble des traits et motifs reacuteguliers nous permettant de reconnaicirctre dans ces tracesla manifestation de tel ou tel processus social aussi sucircrement que les traces quelrsquoeacutevolution drsquoun oiseau dans le ciel laissent sur nos reacutetines nous permettent de lesreconnaicirctre comme le vol drsquoun oiseau
part et se laissent interpreacuteter le plus facilement du monde crsquoest encore que les premiegraveres sont tra-ceacutees longtemps apregraves lrsquoapparition des faits et la production des changements qursquoelles traduisent dela maniegravere la plus intermittente la plus irreacuteguliegravere aussi bien que la plus tardive tandis que lessecondes nous reacutevegravelent ce qui vient de se faire ou ce qui est mecircme en train de se faire et nous lereacutevegravelent toujours reacuteguliegraverement sans interruptionrdquo(Tarde 1890) p101
8 Tarde (1890) compare drsquoailleurs ses ldquobureaux de statistiquesrdquo agrave lrsquoœil ou agrave lrsquooreille9 ldquoResearchers irrespective of their discpline work on inscriptions produced by instruments
which they have to decipher and put into statementsrdquo
48 Chapitre 2 Dynamiques multi-eacutechelles des communauteacutes de savoirs
Internet nous promet un accegraves de plus en plus faciliteacute et deacutetailleacute aux tracesde lrsquoactiviteacute sociale telles qursquoelle se deacuteploie dans les communauteacutes virtuelles etailleurs neacuteanmoins le prochain deacutefi pourrait consister agrave ecirctre capable agrave recons-truire agrave grande eacutechelle et de faccedilon satisfaisante la pheacutenomeacutenologie des faits so-ciaux cacheacutes derriegravere ces traces
233 Des traces textuelles au reacuteseau eacutepisteacutemique
La construction du reacuteseau eacutepisteacutemique drsquoune communauteacute de savoirs revientagrave modeacuteliser la dynamique du systegraveme agrave partir de ses traces Il srsquoagit de concep-tualiser de faccedilon aussi fidegravele que possible la richesse originale des dynamiquesdes traces textuelles produites par lrsquoactiviteacute de ces communauteacutes tout en simpli-fiant suffisamment sa description de faccedilon agrave la rendre interpreacutetable par les outilsdrsquoanalyse agrave notre disposition Nous deacutecrivons dans cette partie cette opeacuteration demodeacutelisation qui agrave partir drsquoun corpus de textes T permet de construire les troisreacuteseaux qui composent notre reacuteseau eacutepisteacutemique le reacuteseau social GS le reacuteseauseacutemantique GC et le reacuteseau socio-seacutemantique GSC
Notre mateacuteriau de deacutepart est constitueacute drsquoun ensemble de textes des billets dansle cas de la blogosphegravere des articles scientifiques dans le cas des communauteacutesscientifiques chaque texte combine des eacuteleacutements sociaux et seacutemantiques agrave savoirdes acteurs et des concepts Nous avons repreacutesenteacute figure 22 le scheacutema conceptueldrsquoun texte dans cet espace socio-seacutemantique (dont la seacuteparation est signaleacutee par untrait en pointilleacutes et de part et drsquoautre duquel on retrouve lrsquoensemble des acteurs(S) et des concepts (C) de la communauteacute) Le texte est repreacutesenteacute par une surfacerouge qui agrave une date de publication donneacutee (dans notre exemple le texte a eacuteteacuteproduit agrave la date D2) rassemble un auteur qui initie la frontiegravere de la surface (S1) 10un ensemble de concepts mobiliseacutes (C1 C3) et un ensemble de relations liant cetexte agrave drsquoautres entiteacutes (dans notre exemple nous avons repreacutesenteacute des liens decitation vers drsquoautres auteurs (S2 S3) 11) Formellement un texte est donc un arc(ou plutocirct un hyper-arc) dans un hyper-reacuteseau reacuteunissant deux types drsquoentiteacutes (desacteurs et des concepts) lieacutes selon diffeacuterentes reacutefeacuterences (un auteur faire reacutefeacuterence agravedrsquoautres auteurs (citations) ou agrave diffeacuterents concepts (usages)) On peut donc deacutecrireun texte T comme lrsquoobjet doteacute des attributs suivants
T Texte(Auteur(T ) S Usages(T ) 2C Citations(T ) 2S Date(T ) N)
Dans notre scheacutema on a ainsi repreacutesenteacute le texte suivant
10 Dans le cas des billets de blogs le nombre drsquoauteurs est naturellement limiteacute agrave 1 il en va autre-ment dans le cas des publications scientifiques mais par mesure de simpliciteacute nous consideacutereronsdans la suite que chaque texte a un seul auteur
11 Neacuteanmoins ces relations peuvent ecirctre de diffeacuterents types elles peuvent aussi bien deacutesignerdes reacutefeacuterences dans un article ou dans un billet ou des commentaires de blogueurs Elles peuventeacutegalement pointer vers un auteur ou un autre texte etc Dans notre exemple nous nous sommeslimiteacutes pour simplifier la repreacutesentation agrave des relations de citation pointant vers drsquoautres acteurs
23 Observation in-vivo des dynamiques 49
Texte(S1 (C1 C3) (S2 S3) D2)) En toute rigueur un texte est donc un hyper-lien orienteacute dans un hyper-reacuteseau complexe Les fonctions utiliseacutees pour deacutefinirlrsquoobjet texte sont les suivantes
ndash Auteur Texterarr S dans notre exemple Auteur(T ) = S1
ndash Usages Texterarr 2C dans notre exemple Usages(T ) = (C1 C3)
ndash Citations Texterarr 2S dans notre exemple Citations(T ) = (S2 S3)
ndash Date Texterarr N dans notre exemple Date(T ) = D2
S5
S4
S3
S2
C1
C2
C3
C4
C5
C6
C7
S1
D2
FIGURE 22 Repreacutesentation scheacutematique drsquoun texte dateacute (D2) (pouvant figurer aussi bienun article scientifique qursquoun billet de blog) regroupant un auteur (S1) les concepts mobi-liseacutes (C1 C3) et lrsquoensemble des acteurs citeacutes (S2 S3)
Agrave partir de ces opeacuterateurs de projection on peut deacutefinir les reacuteseaux dynamiquesqui constituent notre reacuteseau eacutepisteacutemique Ainsi le reacuteseau social GS est composeacutedes liens dateacutes suivants
RS = (S1 S2 D) | existT isin T S1 = Auteur(T ) and S2 isin Citations(T ) andD = Date(T )
De la mecircme faccedilon le reacuteseau GSC est constitueacute de lrsquoensemble des triplets
RSC = (S CD) | existT isin T S = Auteur(T ) and C isin Usages(T ) andD = Date(T )
On deacutefinit enfin les liensRC dans le reacuteseau seacutemantique GC comme lrsquoensemble destriplets deacutefini tel que
RC = (C1 C2 D) | existT isin T C1 C2 sub Usages(T ) andD = Date(T )
Nous serons ameneacutes par la suite agrave affiner ces diffeacuterentes deacutefinitions (et en particu-lier celles ayant trait agrave la deacutefinition du reacuteseau seacutemantique) afin de les rendre plusagrave mecircme de restituer de faccedilon reacutealiste les pheacutenomegravenes sous-jacents
50 Chapitre 2 Dynamiques multi-eacutechelles des communauteacutes de savoirs
Neacuteanmoins ce qursquoil importe de noter ici crsquoest que nous avons transformeacute notrehyper-reacuteseau de deacutepart dont chaque texte formait un arc en trois reacuteseaux de typesdyadiques (deux monopartis et le troisiegraveme biparti) La reacuteduction est double nousavons drsquoune part seacutepareacute les entiteacutes sociales et seacutemantiques en les consideacuterant iso-leacutement dans les reacuteseaux social et seacutemantique ou en les regroupant au sein drsquoune to-pologie de reacuteseau bien particuliegravere celle drsquoun reacuteseau biparti dans le cas du reacuteseausocio-seacutemantique Cette premiegravere hypothegravese de modeacutelisation srsquoappuie sur notrehypothegravese de deacutepart drsquoautonomie des sphegraveres sociales et seacutemantiques tout en ga-rantissant lrsquoexistence drsquoun couplage entre les deux dimensions
La seconde reacuteduction importante que nous avons opeacutereacutee relegraveve plus drsquoune neacute-cessiteacute pratique que drsquoune hypothegravese de modeacutelisation Mecircme en supposant qursquoilest pertinent de modeacuteliser lrsquoactiviteacute des communauteacutes de savoirs comme la combi-naison de nos trois reacuteseaux en toute rigueur les reacuteseaux ainsi deacutecrits devraient enfait ecirctre des hyper-reacuteseaux Par exemple le reacuteseau seacutemantique devrait mettre enrelation au sein drsquoun mecircme hyperlien lrsquoensemble des concepts ayant eacuteteacute conjoin-tement utiliseacutes dans un mecircme texte de la mecircme faccedilon un reacuteseau de collaboration(non deacutecrit dans notre cadre mais formellement eacutequivalent) devrait theacuteoriquementecirctre constitueacute drsquohyperliens de tailles variables regroupant lrsquoensemble des auteursdrsquoun texte Nous avons pourtant fait le choix de modeacuteliser nos reacuteseaux agrave lrsquoaidede relations purement dyadiques plutocirct que n-adiques Les outils et la conceptua-lisation mecircme des hyper-reacuteseaux sont encore embryonnaires 12 aussi nous privi-leacutegierons une modeacutelisation par des reacuteseaux exclusivement dyadiques Lrsquoenjeu estalors de garder agrave lrsquoesprit cette opeacuteration de reacuteduction au cours de la modeacutelisationet de rester attentif aux biais eacuteventuels introduits par cette deacutenaturation des tracesoriginales
234 Un eacutechantillon de la blosphegravere politique franccedilaise
Dans cette section et les suivantes nous deacutecrivons en deacutetail le protocole de col-lecte de donneacutees qui a eacuteteacute employeacute pour deacutecrire les jeux de donneacutees analyseacutes danscette thegravese La structure drsquoun jeu de donneacutees deacutecrivant une communauteacutes de sa-voirs est la mecircme pour lrsquoensemble de nos cas drsquoeacutetude neacuteanmoins la reacutealisationpratique de cette collecte varie eacutenormeacutement selon que lrsquoon srsquoapplique agrave ldquocraw-lerrdquo la blogosphegravere ou agrave interroger une base de donneacutees de publications scienti-fiques On peut grossiegraverement deacutecrire la proceacutedure geacuteneacuterale comme la successionde trois eacutetapes (i) deacutelimitation drsquoun ensemble de textes ou drsquoacteurs qui deacutefinitles limites de notre communauteacutes de savoirs (cette phase peut aller de la deacutefini-
12 On peut neacuteanmoins citer lrsquoapproche hypergraphique mise en œuvre dans Ruef et al (2004)pour caracteacuteriser la formation de nouvelles eacutequipes drsquoentrepreneurs ou le cadre theacuteorique plus largeactuellement conccedilu par Johnson (2006) pour rendre compte de la dynamiques des systegravemes com-plexes agrave travers un formalisme original fondeacute sur les hyper-reacuteseaux sans oublier les hypothegravesespremiegraveres de nature typiquement hypergraphique que Simmel (1955) mettait en œuvre
23 Observation in-vivo des dynamiques 51
tion drsquoune requecircte pour interroger une base de donneacutees agrave un travail drsquoenquecirctepour identifier les acteurs drsquoune communauteacute de savoirs) (ii) collecte du corpusde textes correspondant et extraction des informations pertinentes (ldquoparsingrdquo drsquouncorpus de pages web ou drsquoun ensemble de publications scientifiques) et enfin (iii)modeacutelisation des informations extraites pour construire notre reacuteseau eacutepisteacutemiqueCette derniegravere phase correspond agrave la premiegravere eacutetape de ldquoreconstruction pheacutenomeacute-nologiquerdquo des donneacutees textuelles originales en une description plus reacuteduite maiseacutegalement plus facile agrave appreacutehender par les outils drsquoanalyse
Nous illustrerons ces trois phases de faccedilon deacutetailleacutee sur lrsquoun de nos cas drsquoeacutetude celui constitueacute drsquoune portion de la blogosphegravere politique franccedilaise La constitutionde ce jeu de donneacutees a neacutecessiteacute de trouver un compromis entre la richesse desinformation extraites de lrsquoobservation de lrsquoactiviteacute de la blogosphegravere et le nombrede blogs seacutelectionneacutes pour figurer dans cette collection
Concernant la premiegravere phase de deacutelimitation de notre systegraveme nous avonsappliqueacute un processus de seacutelection de type ldquoboule de neigerdquo (Herring et al 2005)dont lrsquoinitiateur a eacuteteacute un blog choisi parmi les 5 blogs les plus influents de la blo-gosphegravere des commentateurs politiques franccedilais 13) Partant de ce blog on a reacuteunitous les blogs mentionneacutes dans son ldquoblogrollrdquo (le blogroll drsquoun blog est classique-ment interpreacuteteacute comme ses ldquofavorisrdquo drsquoun blog on considegravere geacuteneacuteralement quele blogroll reacuteunit les blogs reacuteguliegraverement lus par lrsquoauteur du blog) Ces blogs si-tueacutes dans le voisinage de notre blog initial ont ensuite eacuteteacute seacutelectionneacutes ou rejeteacutessur la base de leur activiteacute (leur activiteacute moyenne devait ecirctre au moins eacutegale agrave unbillet hebdomadaire) et en fonction des theacutematiques traiteacutees (nous avons eacutecarteacute lesblogs qui nrsquoeacutetaient pas focaliseacutes sur le commentaire de la vie politique franccedilaise) certaines consideacuterations techniques nous ont eacutegalement parfois contraint agrave eacutecartercertains sites mais ce type de cas srsquoest finalement limiteacute agrave quelques blogs seule-ment Cette premiegravere couronne constitueacutee par les blogs politiques actifs situeacutes agraveun clic du blogroll de notre site initial est constitueacutee de 23 blogs Elle a ensuite eacuteteacutecompleacuteteacutee par une opeacuteration similaire agrave partir des blogs figurant dans le blogrollde cette premiegravere couronne Au final notre jeu de donneacutees contient un ensemblede 120 blogs noteacutes B Ces blogs se trouvent tous au plus agrave deux clics du blog dedeacutepart (si lrsquoon se limite aux seuls liens de blogroll) Cependant les liens de blogrolleacutetant orienteacutes deux blogs de cet ensemble peuvent tregraves bien par exemple se trou-ver agrave une distance 5 lrsquoun de lrsquoautre le reacuteseau de blogroll reacutesultant nrsquoest drsquoailleursnaturellement pas neacutecessairement connexe La phase de seacutelection est reacutesumeacutee parla repreacutesentation du processus de boule de neige figure 23 crsquoest le reacuteseau de blo-groll qui est repreacutesenteacute de faccedilon agrave ce que lrsquoagencement spatial des nœuds (organi-sation en deux cercles concentriques) corresponde aux deux couronnes construitesen srsquoeacuteloignant agrave distance 1 puis 2 du blog initial
13 http versacnet fait partie du top 5 du classement des blogs de commentairespolitiques publieacute par le moteur de recherche speacutecialiseacute dans la blogosphegravere Technorati(http wwwtechnoraticom
52 Chapitre 2 Dynamiques multi-eacutechelles des communauteacutes de savoirs
FIGURE 23 Ensemble des 120 blogs constituant notre jeu de donneacutees repreacutesenteacutes selonleur appartenance agrave la premiegravere ou agrave la seconde couronne autour du blog de versac (aucentre du scheacutema)
La seconde phase de collecte et drsquoextraction drsquoun corpus textuel pertinent aeacuteteacute meneacutee sur cette portion de la blogosphegravere politique franccedilaise en ldquocollectantrdquosysteacutematiquement les traces textuelles produites pendant 6 mois drsquoactiviteacute du 1er
janvier 2007 jusqursquoau 30 juin 2007 une peacuteriode durant laquelle des deacutebats nourrisont accompagneacute le deacuteroulement des eacutelections preacutesidentielles (1er et 2nd tour aumois drsquoavril et mai) puis leacutegislatives (en juin) franccedilaises
Lrsquoactiviteacute de chacun des blogs de notre seacutelection a eacuteteacute ldquocrawleacuteerdquo gracircce agrave desscripts deacuteveloppeacutes de faccedilon ad-hoc pour chaque plate-forme de blog et si neacuteces-saire pour chaque blog en reacutealisant une exploration ldquoreacutetrospectiverdquo de lrsquohistoriquedrsquoeacutedition des blogs Nous avons ainsi extrait sur lrsquoensemble de la peacuteriode drsquoobser-vation 11 552 billets leur date de publication (telle qursquoelle apparaicirct dans le billet)et lrsquoensemble des commentateurs drsquoun billet donneacute (pourvu que le commentaireait eacuteteacute signeacute par un des blogs de notre eacutechantillon) Nous avons eacutegalement extraitlrsquoensemble des liens de blogrolls entre blogs de notre eacutechantillon B 14
Restreindre notre seacutelection agrave un nombre relativement faible de blogs nous aainsi permis drsquoemployer une meacutethodologie drsquoextraction certes coucircteuse (chaqueblog a beacuteneacuteficieacute a minima drsquoune adaptation du script de collecte agrave ses speacutecifici-teacutes techniques) mais permettant drsquoobtenir une description tregraves preacutecise des dyna-miques drsquointeraction entre blogueurs (sur les liens de commentaire et de citation)et de production de contenu Drsquoautres meacutethodologies ont eacuteteacute mises en œuvre pourcollecter des donneacutees de blogs agrave grande eacutechelle Lrsquoune drsquoelle consiste agrave employerles flux rss des blogs (Shi et al 2007) afin drsquoaider agrave la reconstruction du contenudes billets agrave partir drsquoheuristiques simples une autre meacutethode consiste agrave effectuer
14 Techniquement la technique de ldquoweb scrappingrdquo employeacutee eacutetait fondeacutee sur le repeacuterage deDOM associeacutes aux champs drsquointeacuterecirct (date du billet titre liens de commentaires etc) au sein ducode de la page drsquoun blog Ce travail de collecte a eacuteteacute reacutealiseacute avec le concours preacutecieux de HugoLebrun Richard Norton et Charles Cizel
23 Observation in-vivo des dynamiques 53
des crawls quotidiens de la page principale drsquoun blog et de deacutetecter les diffeacuterencesentre deux eacutetats successifs du site pour tacirccher drsquoen isoler les nouveaux contenus(Glance et al 2004) De par leur robustesse ces meacutethodes sont bien adapteacutees agrave lacollecte de jeux de donneacutees massifs mais elles sont exposeacutees agrave certaines limitationsquant agrave lrsquoexhaustiviteacute et la fiabiliteacute de lrsquoopeacuteration de collecte absence de flux rsspour certains blogs difficulteacute agrave seacuteparer les changements issus drsquoune modificationde la charte graphique ou de lrsquoajout de commentaires dans la meacutethode diffeacuteren-tielle les reacuteseaux de commentaires restant geacuteneacuteralement le parent pauvre de cesanalyses
Notre meacutethode ldquoreacutetrospectiverdquo preacutesente lrsquoavantage de donner une repreacutesenta-tion plus deacutetailleacutee de lrsquoactiviteacute des blogueurs incluant notamment le reacuteseau descommentaires Elle permet eacutegalement un ldquoparsingrdquo des donneacutees homogegravene dansle temps le crawl eacutetant effectueacute ldquoen une passerdquo sur lrsquoensemble des 6 mois drsquoactiviteacutedes blogueurs (on eacutelimine ainsi le bruit induit par exemple par des modificationsde chartes graphiques) De faccedilon plus geacuteneacuterale la reconnaissance automatiseacutee dela structure des textes au sein drsquoun blog ou drsquoune page web constitue un champde recherche agrave part entiegravere (Bar-Yossef and Rajagopalan 2002) qui se deacuteveloppetregraves rapidement Dans un contexte plus industriel il semble deacutesormais possible deconstruire des jeux de donneacutees beaucoup plus larges et sans doute bientocirct plusdeacutetailleacutes que celui sur lequel nous nous penchons
Enfin la troisiegraveme et derniegravere phase de modeacutelisation de notre corpus de textesest deacutecrite dans la section suivante
235 Un multi-reacuteseau dynamique
Les blogueurs peuvent entrer en relation les uns avec les autres de trois ma-niegraveres diffeacuterentes Ainsi un blog peut se lier agrave un autre blog (i) en lrsquoincluant dansson blogroll (ii) en commentant un de ses billets (iii) en le citant au sein drsquoun billet (lacitation peut pointer vers un de ses billet ou directement vers lrsquoadresse du blog)Ces trois types de liens sont illustreacutes figure 24 (agrave gauche) agrave partir drsquoune capturedrsquoeacutecran du premier site de notre eacutechantillon Ces relations deacutefinissent trois reacuteseauxde blogs dont une repreacutesentation scheacutematique est donneacutee sur la mecircme figure (agravedroite) Ces liens sont de diffeacuterentes natures On peut grossiegraverement les distinguerde la maniegravere suivante les liens de blogroll sont des liens correspondant agrave des rela-tion drsquoautoriteacute les liens que lrsquoon trouve au sein des billets sont des liens de citationet enfin nous consideacutererons les liens de commentaire comme des interactions entreblogs
Lrsquoanalyse de lrsquoactiviteacute de cette portion de la blogosphegravere pendant 6 mois a per-mis de reconstruire lrsquointeacutegraliteacute du multi-reacuteseau social composeacute du reacuteseau de cita-tion du reacuteseau de commentaire et du reacuteseau de blogroll On deacutefinit formellementce multi-reacuteseau de la faccedilon suivante Le quadruplet (B R PC) forme le multi-reacuteseau de blogs mdash- R P et C deacutesignent respectivement les liens de blogroll de
54 Chapitre 2 Dynamiques multi-eacutechelles des communauteacutes de savoirs
citation link
blogroll link comment link
citation link
comment link
blogroll link
FIGURE 24 Agrave gauche Exemple de blog (http versacnet) illustrant les trois types de lienspossibles agrave droite scheacutema du multi-reacuteseau de blogs on distingue les liens de blogroll (enbleu) les liens de citation (en vert) et enfin les liens de commentaire (en rouge) Ces deuxderniers sont de plus dynamiques les liens eacutetant dateacutes le premier reacuteseau de blogroll estconsideacutereacute comme statique
citation de billet et de commentaire dont les matrices drsquoadjacence associeacutees sonttoutes de taille |B| times |B| Ces donneacutees sont eacutegalement dynamiques avec une granu-lariteacute temporelle de lrsquoordre du jour on notera Pt et Ct les reacuteseaux de citation et decommentaire consideacutereacutes au temps t (t variant entre 1 et 181) Ainsi Pt(i j) = 1 si i
cite j dans un billet au temps t Ct(i j) = 1 lorque i commente un billet sur le blogj agrave t (en laissant lrsquoURL de son blog dans la signature du commentaire qursquoil laisse agravela suite drsquoun billet de j)
La dynamique du reacuteseau de blogroll est particuliegravere agrave au moins deux titres (i) son temps caracteacuteristique drsquoeacutevolution est bien plus lent que celui des autresreacuteseaux (Qazvinian et al 2007) mdash une grande majoriteacute des liens restant inchangeacutesdurant les six mois mdash et (ii) ce nrsquoest pas un reacuteseau croissant comme les autresreacuteseaux puisque certains liens peuvent disparaicirctre Par mesure de simpliciteacute nousconsideacutererons que le reacuteseau de blogroll est statique Rt(i j) = R(i j) Ce reacuteseaune sera de toute faccedilon employeacute que de faccedilon tregraves marginale dans lrsquoensemble desanalyses qui vont suivre et nous aura principalement aideacute dans la conception duprocessus de collecte de donneacutees
Dans la suite nous omettrons lrsquoindice t quand la deacutependance dans le tempsest implicite Nous avons respectivement extrait 725 2 299 and 3 396 liens orien-teacutes et dateacutes dans dans R P et C formant au total seulement 1 568 liens distincts(les liens de commentaire et de citation eacutetant dateacutes lrsquointeraction entre certainesdyades peut ecirctre reacutepeacuteteacutee dans le temps) La figure 25 represente le recouvremententre les trois reacuteseaux en nombre de liens uniques Ces diffeacuterents liens ne sont quetregraves partiellement recouvrants On remarque qursquoenviron deux tiers des liens sontpropres agrave un seul des trois reacuteseaux Cette observation est coheacuterente avec une eacutetudeanteacuterieure reacutealiseacutee par Ali-Hasan and Adamic (2007) Cette speacutecificiteacute des liens dechaque reacuteseau semble indiquer que ce sont bien trois espaces relationnels distincts
23 Observation in-vivo des dynamiques 55
$amp()+-
amp()01-
234533()67-
88088
67 6
80
88
+8
FIGURE 25 Proportion de liens appartenant agrave chaque reacuteseau et recouvrements respectifsen nombre de liens Par exemple 279 liens sont communs au reacuteseau de blogroll et aureacuteseau de commentaires tandis que 173 apparaissent dans les trois reacuteseaux
qui co-existent mecircme si des correacutelations entre reacuteseaux sont sucircrement possiblesLa grande diversiteacute dans le nombre drsquooccurrences de chaque lien nous pousse
agrave introduire pour les reacuteseaux de citation et de commentaire leur version pondeacutereacuteeet agreacutegeacutee deacutefinie comme Pt =
sumttprime=1 Ptprime et Ct =
sumttprime=1 Ctprime
15 Le blogroll eacutetantconsideacutereacute comme statique nous eacutecrirons Rt = R Le reacuteseau social GS dynamiquedeacutecrivant la dimension sociale de cette communauteacute de savoirs est donc deacutefinicomme le multi-reacuteseau dynamique agreacutegeant les reacuteseaux de citation de commen-taire et de blogroll (BPtCtRt)
236 Caracteacuterisation seacutemantique
Au-delagrave de la structure sociale liant ces blogs nous souhaitons caracteacuteriser cesystegraveme en introduisant une dimension seacutemantique lieacutee aux contenus produits eteacutechangeacutes par les blogueurs Les billets traitent geacuteneacuteralement drsquoun sujet ou drsquounequestion en particulier parfois en srsquoappuyant sur certaines ressources exteacuterieuresNous faisons lrsquohypothegravese que nous pouvons caracteacuteriser le contenu des billets desblogueurs agrave partir des sujets et theacutematiques qursquoils discutent ceux-ci sont repeacutereacutesdans le texte des billets agrave partir drsquoun ensemble de syntagmes jugeacutes pertinents vis-agrave-vis de la communauteacute de savoirs En ce qui concerne les ressources exteacuterieuressur lesquelles les blogueurs peuvent srsquoappuyer nous faisons eacutegalement lrsquohypo-thegravese que les URLs qui ne sont pas des liens de citation permettent de deacutefinir unensemble de ressources digitales qursquoun blogueur est agrave mecircme de diffuser dans sonenvironnement Ces ressources serviront speacutecifiquement agrave deacutefinir des entiteacutes ato-miques diffusant dans la blogosphegravere
Par conseacutequent nous distinguerons par la suite ndash un ensemble de sujets de haut-niveau W que nous appellerons eacutegalement
15 Les notations en gras deacutesigneront de faccedilon geacuteneacuterale dans le texte des mesures agreacutegeacutees tem-porellement
56 Chapitre 2 Dynamiques multi-eacutechelles des communauteacutes de savoirs
concepts relatif agrave lrsquoactiviteacute de chronique de la vie politique dans notrecontexte W est constitueacute de 190 syntagmes dont la liste est donneacutee en an-nexe A1 allant de noms de figures politiques agrave des questions de socieacuteteacutes quiont animeacute la derniegravere campagne preacutesidentielle comme ldquo changement clima-tiquerdquo ldquoimpocirct sur la successionrdquo ldquodeacutebat publicrdquo ldquopreacutevention de la deacutelinquancerdquoldquoreferendum sur la Constitution Europeacuteennerdquo ldquoheures suppleacutementairesrdquo etc
ndash un ensemble drsquoURLs noteacute U distinctes de liens dans le reacuteseau de citation mdashcelles-ci sont simplement des ressources exteacuterieures videacuteos en ligne articlesde media billets drsquoautres blogs exteacuterieurs agrave notre seacutelection etc U consiste enune seacutelection de 3 140 URLs (dont le nombre de caractegravere est supeacuterieur agrave10 16)
Munis de lrsquoensemble W des syntagmes pertinents nous proceacutedons ensuite agravelrsquoindexation de ces concepts au sein de lrsquoensemble des billets extraits Cette in-dexation dans le cas de la blogosphegravere politique franccedilaise a eacuteteacute reacutealiseacutee avec lrsquoaidede Didier Bourigault et Franck Sajous concepteur de Leximedia 2007 17 Le logicieldrsquoanalyse syntaxique Syntex (Bourigault et al 2005) a eacuteteacute utiliseacute de faccedilon agrave inteacutegrercertains traitements linguistiques tels que le repeacuterage des types grammaticaux dechaque occurrence de notre ensemble de concepts (ainsi le logiciel diffeacuterencie parexemple durant lrsquoindexation le terme ldquoRoyalrdquo entre son emploi en tant qursquoadjectifou en tant que nom propre) Cette tacircche drsquoindexation permet de connaicirctre le oules concepts employeacutes par tel ou tel blogueur un jour donneacute On introduit ainsi lamatrice temporelle Wt qui retrace les contenus publieacutes par les blogueurs Wt(i w)
vaut 1 si le terme w isin W apparaicirct dans un billet publieacute par le blog i au temps t 0
sinonOn deacutefinit le profil seacutemantique drsquoun agent i au temps t comme lrsquoagreacutegation des
sujets qursquoil a abordeacute jusque lagrave Ce profil est un vecteur de dimension |W| noteacuteWt(i) Il est deacutefini comme eacutetant eacutegal agrave la somme des vecteurs Wtprime(i) pour tprime le tLe profil seacutemantique de chaque agent est donc repreacutesenteacute par un vecteur dans unespace dont les termes forment les dimensions
Cette matrice dynamique peut srsquointerpreacuteter de faccedilon eacutequivalente comme le reacute-seau socio-seacutemantique dynamique GSC liant les agents du systegraveme aux conceptsqursquoils mobilisent On deacutefinit simplement lrsquoensemble des liens RSC de GSC danssa version non pondeacutereacutee comme lrsquoensemble des couples (i w) drsquoagents et deconcepts veacuterifiant Wt(i w) gt 0 Dans sa version pondeacutereacutee les liens (i w) dureacuteseau GSC sont simplement doteacutes drsquoun poids eacutegal agrave Wt(i w) Le reacuteseau socio-seacutemantique comme le reacuteseau social est par deacutefinition croissant En pratique nousnrsquoemploierons que de faccedilon mineure cette formalisation (dans le chapitre 3 exclu-sivement) et utiliserons essentiellement lrsquoexpression des profils seacutemantiques desagents soit pour les plonger dans une structure seacutemantique plus large soit pourconstruire une distance seacutemantique entre deux agents
16 les chaicircnes de caractegraveres ldquohttp rdquo et ldquowwwrdquo mises agrave part17 http erssiritfr 8080LexiMedia2007
23 Observation in-vivo des dynamiques 57
Pour comparer les contenus produits par deux agents i et j au temps t nousadopterons une mesure classique de similariteacute baseacutee sur un calcul de correacutelationsoit le cosinus de leur profil seacutemantique Wt(i) et Wt(j) Mais avant de reacutealisercette mesure nous appliquons drsquoabord une proceacutedure de normalisation des termesen fonction de leur freacutequence respective en suivant lrsquoapproche du ldquotfmiddotidfrdquo Saltonet al (1975) Ce type de traitement est largement appliqueacute dans lrsquoingeacutenierie docu-mentaire
La proceacutedure de normalisation consiste agrave pondeacuterer la ldquofreacutequence des termesrdquoldquotfrdquo ou freacutequence du terme au sein de la production textuelle drsquoune source avecla ldquofreacutequence inverse de documentrdquo ldquoidfrdquo soit lrsquoinverse de la freacutequence du termedans lrsquoensemble du corpus des sources porteacute au log Cette meacutethode permet dedonner plus de poids aux termes rares dans les profils seacutemantiques des agents Lesprofils Wt(i) sont donc remplaceacutes par des profils ajusteacutes par tfmiddotidf wt(i) deacutefinisde la faccedilon suivante
wt(i w) =Wt(i w)
sum|W|w=1 Wt(i w)
middot log|B|
|jWt(j w) gt 0|
ougrave la partie droite de la formule correspond au ratio inverse du nombre de sourcesmentionnant le terme w
Nous obtenons ensuite une expression de la similariteacute entre deux agents i et j
comme le produit scalaire de leur profil seacutemantique normaliseacute diviseacute par le produitde leur norme La dissimilariteacute seacutemantique entre deux agents i et j δt(i j) peutsrsquointerpregraveter comme une ldquodissonance cognitiverdquo et srsquoexprime sous la forme
δt(i j) = 1minusWt(i) middot Wt(j)
Wt(i)Wt(j)
La dissimilariteacute δt(i j) vaut 0 si les deux agents partagent exactement le mecircmeprofil seacutemantique agrave t et vaut 1 srsquoils nrsquoont jamais mobiliseacute les mecircmes conceptsjusque lagrave
Le reacuteseau seacutemantique GC neacutecessite geacuteneacuteralement un traitement particulier lieacute agravela deacutefinition drsquoune mesure de proximiteacute entre concepts Nous nrsquoen donnons doncpour lrsquoinstant qursquoune description simplifieacutee Le reacuteseau seacutemantique reflegravete la struc-ture des concepts tels qursquoils sont mobiliseacutes dans lrsquoensemble de la communauteacute desavoirs agrave un moment donneacute Dans sa forme la plus simple ses liensRC sont deacutefinisau temps t comme lrsquoensemble des couples de concepts (w1 w2) qui co-apparaissentdans un mecircme billet publieacute agrave la date t Nous ne deacutecrivons pas pour le momentles formes plus eacutevolueacutees que peuvent prendre ce reacuteseau nous aurons lrsquooccasiondrsquoapprofondir sa description dans la section 332 et plus largement au chapitre 4lorsque nous aborderons les questions de cartographie des dynamiques scienti-fiques Notons neacuteanmoins que contrairement aux deux reacuteseaux preacuteceacutedents le reacute-seau seacutemantique nrsquoest pas croissant
58 Chapitre 2 Dynamiques multi-eacutechelles des communauteacutes de savoirs
237 Blogosphegravere ameacutericaine
Malgreacute la richesse du jeu de donneacutees de la blogosphegravere politique franccedilaise safaible eacutetendue peut parfois rendre son observation quantitative peu concluanteLes questions concernant le processus drsquoeacutechantillonnage employeacute sont eacutegalementagrave mecircme de compliquer lrsquointerpreacutetation de nos reacutesultats Aussi nous avons sou-haiteacute au prix drsquoune richesse descriptive un peu moindre adosser nos analyses agraveune seconde base de donneacutees de mecircme nature mais de taille plus importante les blogs politiques ameacutericains suivis durant la derniegravere compagne preacutesidentielleameacutericaine par RTGI 18 une entreprise speacutecialiseacutee dans le monitoring de conver-sations sur le web social
Cette second jeu de donneacutees est construit agrave partir du suivi de lrsquoensemble desbillets publieacutes par une seacutelection de 1 066 blogs politiques ameacutericains dans lecontexte de lrsquoeacutelection preacutesidentielle ameacutericaine ces donneacutees originellement deacute-ployeacutees au sein du portail Presidential Watch rsquo08 19 ont eacuteteacute collecteacutees du 1er no-vembre 2007 au 29 feacutevrier 2008 La seacutelection des blogs politiques ameacutericains actifsa eacuteteacute reacutealiseacutee ldquomanuellementrdquo par des documentalistes ce qui garantit la perti-nence et lrsquoexhaustiviteacute de cette seacutelection
Au total un ensemble de 71 376 billets dateacutes a eacuteteacute collecteacute par RTGI Agrave partir dece corpus de billets nous avons ensuite suivi la mecircme proceacutedure de constructiondes reacuteseaux social socio-seacutemantique et seacutemantique que celle qui a eacuteteacute deacutecrite agravepropos de la blogosphegravere politique franccedilaise
A partir des URLs extraites de ces billets nous avons ainsi construit le reacuteseaude citation dynamique que nous noterons eacutegalement Pt 229 736 liens de citationdateacutes entre blogs de notre seacutelection ont eacuteteacute extraits dont agrave peine 15 032 sont desliens uniques Dans le cas de la blogosphegravere ameacutericaine le reacuteseau social GS estlimiteacute agrave ce seul reacuteseau de citation Une seacutelection de 79 syntagmes (dont la listeest fournie dans lrsquoannexe A2) a servi agrave indexer les billets de ces blogs et agrave deacutefinirleur profil seacutemantique wt(i) en suivant la mecircme proceacutedure que preacuteceacutedemment Lereacuteseau socio-seacutemantique biparti GSC a eacutegalement eacuteteacute construit dans sa version nonpondeacutereacutee Nous avons repreacutesenteacute figure 26 lrsquoeacutevolution du nombre total de liensdans le reacuteseau social GS et dans le reacuteseau socio-seacutemantique GC (les liens reacutepeacuteteacutes nesont pas comptabiliseacutes ce qui explique la diminution progressive de la croissancede ces courbes)
Nous nous sommes eacutegalement appuyeacute sur une seacutelection de 96 637 URLs pourconstruire la matrice Ut qui deacutefinit lrsquousage de ces ressources par les blogueursEnfin le reacuteseau seacutemantique GC a eacuteteacute construit en suivant la mecircme meacutethodologieque preacuteceacutedemment
Lrsquoensemble de nos eacutetudes touchant agrave la blogosphegravere politique ont ainsi eacuteteacute me-neacutees de paire sur les deux continents agrave la fois en ce qui concerne la morphogenegravese
18 http linkfluencenet19 http presidentialwatch08com
24 Une approche par faces 59
1 2 3 4 5 6 7 8
103
104
105
period
num
ber
of
links
FIGURE 26 Evolution hebdomadaire du nombre de liens dans le reacuteseau social (GS) (enbleu) et dans le reacuteseau socio-seacutemantique (GSC) (en rouge) mdash une peacuteriode correspond agraveune semaine drsquoactiviteacute
(chapitre 3) et la diffusion (chapitre 7) Concernant la morphogenegravese par souci declarteacute la plupart des reacutesultats ne sont preacutesenteacutes que pour le continent ameacutericainsauf lorsqursquoune diffeacuterence qualitative apparaissait entre les deux jeux de donneacuteesou lorsque la richesse descriptive de la blogosphegravere politique franccedilaise permettaitdrsquoapprofondir lrsquoanalyse Concernant lrsquoeacutetude de la diffusion nous avons systeacutema-tiquement preacutesenteacute les reacutesultats sur nos deux jeux de donneacutees drsquoune part pourillustrer la stabiliteacute des pheacutenomegravenes mesureacutes sur deux cas drsquoeacutetude mais aussi pourillustrer le gain en significativiteacute qursquoun jeu de donneacutees plus large nous a permisdrsquoobtenir
24 Une approche par faces
La dualiteacute socioseacutemantique doubleacutee de notre hypothegravese de couplage des ni-veaux micros et macros enrichit le scheacutema conceptuel dans lequel nous forma-lisons les communauteacutes de savoirs Ce scheacutema repreacutesenteacute figure 27 fait appa-raicirctre au premier plan les dynamiques du reacuteseau social inter-individuel GS (quelrsquoon deacutesignera par abus de langage comme la dimension sociale) agrave lrsquoarriegravere planles dynamiques du reacuteseau seacutemantique GC (dimension seacutemantique) On distingueeacutegalement sur le plan infeacuterieur le niveau micro des dynamiques individuelles(mateacuterialiseacutees au niveau social par une flegraveche temporelle transformant lrsquoeacutetat s(t)
du reacuteseau social agrave lrsquoinstant t en son eacutetat au pas de temps suivant s(t + dt) lesdynamiques micros du reacuteseau seacutemantique sont repreacutesenteacutees par la transformationc(t) rarr c(t + dt)) et sur le plan supeacuterieur le niveau macro correspondant (S(t) etC(t) deacutecrivant respectivement les structures eacutemergentes de haut-niveau propresagrave chaque dimension) Les dynamiques du reacuteseau socio-seacutemantique GSC mdash met-tant en relation les agents et les concepts qursquoils mobilisent mdash sont figureacutees par les
60 Chapitre 2 Dynamiques multi-eacutechelles des communauteacutes de savoirs
c(t) c(t+dt)
C(t) C(t+dt)
s(t+dt)s(t)
S(t) S(t+dt)
FIGURE 27 Scheacutema du couplage entre niveau micro et niveau macro figurant la naturesociosemantique de nos communauteacutes de savoirs Les dynamiques sociales guident la dy-namique de s(t) (niveau micro) et S(t) (niveau macro) les dynamiques seacutemantiques c(t)
et C(t) Les flegraveches ascendantes correspondent aux fonctions drsquoeacutemergence du niveau mi-cro vers le niveau macro tandis que les reacutetroaction macromicro sont repreacutesenteacutees parles flegraveches descendantes (par souci de clarteacute toutes les reacutetroactions possibles nrsquoont paseacuteteacute repreacutesenteacutees (ex reacutetroaction des dynamiques seacutemantiques macro (C(t)) sur les dyna-miques sociales individuelles s(t)) Les mises en relation socio-seacutemantiques sont figureacuteespar des flegraveches rouges (s(t)harr c(t) au niveau micro S(t)harr C(t) concernant les structuressocio-seacutemantiques eacutemergentes)
flegraveches rouges agrave double sens (nous nrsquoavons pas nommeacutes ces derniegraveres mais entoute rigueur on peut eacutegalement noteacute sc(t) et SC(t) les eacutetats micros et macros dureacuteseau socio-seacutemantique au temps t)
Enfin le couplage eacutemergenceimmergence entre niveau micro et niveau ma-cro est repreacutesenteacute par des flegraveches ascendantes et descendantes Nous nrsquoavons pasrepreacutesenteacute lrsquoensemble des fonctions drsquoimmergence possibles mais celles-ci doiventa priori toutes ecirctre envisageacutees Ainsi un agent est immergeacute dans des structures so-ciales socio-seacutemantiques et seacutemantiques de haut niveau et sa dynamique microest a priori susceptible drsquoecirctre modifieacutee par lrsquoensemble de ces structures
Dans la suite nous tacirccherons agrave partir de lrsquoobservation in-vivo des dynamiquesde nos communauteacutes de savoirs drsquoeacuteclairer les diffeacuterentes faces de ce paralleacutelo-gramme afin de caracteacuteriser les couplages entre dimensions sociale et seacutemantiqueet entre niveaux micro et macro Nous deacutecouperons notre analyse en deux par-ties (i) morphogenegravese du reacuteseau eacutepisteacutemique (partie II) (ii) eacutetude des processus agravelrsquoœuvre dans le reacuteseau eacutepisteacutemique (partie III)
Lrsquoeacutetude de la morphogenegravese du reacuteseau eacutepisteacutemique des communauteacutes de sa-voirs peut se deacutecouper en une analyse couplant les deux niveaux mdash face supeacute-rieure du paralleacutelogramme mdash mise en eacutevidence de motifs structurels de haut niveaunon triviaux dans les trois reacuteseaux (hieacuterarchie eacutemergence de communauteacutes socio-
24 Une approche par faces 61
seacutemantiques stabiliteacute de structures conceptuelles eacutemergentes etc) mdash face infeacuterieuredu paralleacutelogramme mdash eacutetude des comportements locaux reacuteguliers (homophilie tran-sitiviteacute influence sociale etc) susceptibles de faire eacutemerger ces motifs macrosco-piques
Dans le chapitre 3 nos communauteacutes de blogueurs politiques nous servirontde terrain empirique pour interroger la morphogenegravese des reacuteseaux social socio-seacutemantique et seacutemantique en adoptant une approche partant essentiellement desdynamiques microscopiques mais en restant attentif agrave certains motifs eacutemergentset agrave leur dynamique Nous montrerons eacutegalement la faccedilon dont certains processusguidant les dynamiques micro couplent la dynamique drsquoun reacuteseau agrave lrsquoeacutetat drsquounautre reacuteseau Dans le chapitre 4 nous faisons lrsquoopeacuteration contraire en partantdrsquoune reconstruction des dynamiques scientifiques permettant drsquoobtenir une re-preacutesentation de haut niveau du reacuteseau seacutemantique Une fois ces dynamiques eacutemer-gentes reconstruites (phylogenegravese) nous interrogerons la faccedilon dont ces structuresde haut-niveau reacutetroagissent par immergence sur les dynamiques individuelles(et plus preacuteciseacutement sur les dynamiques micro du reacuteseau socio-seacutemantique)
Enfin nous traiterons seacutepareacutement les motifs eacutemergents de nature dynamiquecomme la diffusion Les processus de diffusion sont en effet interpreacuteteacutes commedes eacutemergence drsquoune autre nature au sens ougrave on ne peut les caracteacuteriser de fa-ccedilon statique (alors qursquoon peut tregraves bien deacutefinir une distribution de degreacute commeune observable de haut niveau calculeacutee en fonction de lrsquoeacutetat du reacuteseau agrave un mo-ment donneacute 20) Un eacutepisode de diffusion constitue une eacutemergence drsquoordre pure-ment dynamique de lrsquoeacutevolution de reacuteseau eacutepisteacutemique (et plus preacuteciseacutement drsquounecertaine eacutevolution du reacuteseau socio-seacutemantique eacutetant donneacutee la structure du reacute-seau social sous-jacent) Crsquoest pourquoi nous traiterons seacutepareacutement le cas de ladiffusion au sein des communauteacutes de savoirs en distinguant entre des approchesplus ou moins agreacutegeacutees et plus ou moins locales (depuis les influences croiseacuteesentre groupes de sources agrave un niveau macro jusqursquoagrave la caracteacuterisation fine de lrsquoin-fluence drsquoun agent en fonction de son environnement relationnel en passant parlrsquoinfluence de la structure topologique du reacuteseau en son entier sur la vitesse drsquounprocessus de diffusion)
Lrsquoensemble des chapitres suivants srsquoappuient sur lrsquoanalyse de donneacutees empi-riques Notre objectif ne consistant naturellement pas agrave reacutealiser une analyse com-parative exhaustive de nos deux types de communauteacutes de savoirs nous noussommes tantocirct appuyeacutes sur des communauteacutes scientifiques 21 (chapitres 4 et 6)tantocirct sur nos blogosphegraveres politiques (chapitres 3 5 et 7) Les critegraveres qui ont preacute-
20 Le caractegravere statique de ces observables nrsquointerdit naturellement pas drsquoen suivre lrsquoeacutevolutiondans le temps cependant cette eacutevolution est reconstruite agrave partir de la seacutequence de motifs eacutemergeantsuccessivement drsquoune seacuterie de reacuteseaux statiques successifs
21 Concernant les communauteacutes scientifiques nous ne nous appuyons pas sur un jeu de donneacuteesgeacuteneacuterique mais sur une seacuterie de bases dont nous deacutecrirons les speacutecificiteacutes et la modeacutelisation au furet agrave mesure
62 Chapitre 2 Dynamiques multi-eacutechelles des communauteacutes de savoirs
sideacute au choix de lrsquoun ou lrsquoautre des types de communauteacute reacutesultent notamment deconsideacuterations pratiques lieacutees agrave la disponibiliteacute et agrave la pertinence des donneacutees vis-agrave-vis des besoins de chaque eacutetude Nous tenterons neacuteanmoins drsquoexpliciter autantque possible les prolongements et perpectives que lrsquoapplication de nos meacutethodesagrave drsquoautres communauteacutes de savoirs appellent
24 Une approche par faces 63
Reacutesumeacute du chapitre
Dans ce chapitre nous avons expliciteacute en premier lieu la perspectivetheacuteorique adopteacutee pour eacutetudier les communauteacutes de savoirs et notamment laneacutecessiteacute de suivre simultaneacutement leurs dynamiques aux niveaux micro etmacro Un des attraits de la modeacutelisation sous forme de reacuteseaux est justementde permettre drsquoappreacutehender dans un mecircme cadre les dynamiques localesau niveau le plus atomique lrsquoindividu ou le concept et les motifs eacutemer-geant de ces dynamiques individuelles qui prennent la forme de structuresmeacutesoscopiques ou macroscopiques du reacuteseau dans son entier
Nous avons eacutegalement souligneacute la neacutecessiteacute drsquoune approche longitudinalepermettant drsquoappreacutecier les eacutevolutions des structures relationnelles agrave tous lesniveaux Un des objectifs de cette approche est la compreacutehension de la mor-phogenegravese des communauteacutes de savoirs qui se deacutecline en deux points reacutegula-riteacutes des dynamiques micros et eacutemergence de structures de haut-niveau donton puisse eacutegalement eacutevaluer la stabiliteacute Lrsquoaccegraves agrave des donneacutees longitudinalesagrave grande eacutechelle offre eacutegalement lrsquoopportuniteacute de suivre les processus de dif-fusion dont le reacuteseau social est le support
Enfin nous avons preacuteciseacute notre ambition eacutepisteacutemologique geacuteneacuterale de re-construction des dynamiques des communauteacutes de savoirs agrave partir des tracesdigitales qursquoelles produisent Lrsquoopeacuteration de modeacutelisation de ces traces tex-tuelles sous la forme drsquoun reacuteseau eacutepisteacutemique a eacuteteacute deacutecrite drsquoabord de faccedilongeacuteneacuterale puis plus pratiquement lors de la deacutefinition de nos jeux de don-neacutees lieacutes aux blogosphegraveres politiques franccedilaise et ameacutericaine Les hypothegravesesaffeacuterentes agrave cette modeacutelisation ont eacuteteacute clairement deacutelimiteacutees et discuteacutees
Deuxiegraveme partie
Morphogenegravese dans les reacuteseaux de
savoirs
DANS cette deuxiegraveme partie nous aborderons les modaliteacutes drsquoapparition et destabilisation de certaines structures caracteacuteristiques des communauteacutes de sa-
voirs Nous souhaitons interroger les dynamiques de nos communauteacutes de savoirsagrave diffeacuterents niveaux ainsi que les couplages existant entre les dimensions sociale etseacutemantique Quels sont les reacutegulariteacute observables dans la dynamique micro des en-titeacutes (agents et concepts) Peut-on deacutecrire les comportements individuels commereacutesultant de paramegravetres endogegravenes au systegraveme lieacutes agrave lrsquoeacutetat de la communauteacute enson entier Nous nous inteacuteressons dans cette partie non seulement agrave ces deacutetermi-nants structurels mais aussi aux proprieacuteteacutes dynamiques de haut niveau aussi biensociales seacutemantiques que socio-seacutemantiques qui caracteacuterisent nos communauteacutesde savoirs La dynamique de ces proprieacuteteacutes eacutemergentes est eacutegalement interrogeacuteeSont-elles stables Comment les repreacutesenter Peut-on mesurer lrsquoinfluence qursquoellesexercent en retour sur les dynamiques individuelles
Lrsquoanalyse de la morphogenegravese dans ces systegravemes socio-seacutemantiques peut doncse deacutecrire agrave deux niveaux diffeacuterents
Au niveau micro caracteacuterisation des dynamiques locales chapitre 3 Il srsquoagit drsquounepart de caracteacuteriser les meacutecanismes individuels agrave lrsquoorigine de la morphogenegraveseLes dynamiques locales seront appreacutehendeacutees aussi bien dans leur dimensionsociale (nouvelles relationsinteractions) socio-seacutemantique (production de nou-veaux contenus par les agents) que seacutemantique (eacutevolution des contextes drsquousagedes concepts) Dans notre cadre lrsquoensemble de ces questions revient agrave eacutetudierle comportement de creacuteation de liens dans les trois reacuteseaux sociaux socio-seacutemantiques et seacutemantiques Drsquoautre part ces dynamiques locales sont intime-ment lieacutees agrave lrsquoeacutemergence de proprieacuteteacutes de plus haut niveau structurant les trois reacute-seaux qui composent notre reacuteseau eacutepisteacutemique certaines de ces proprieacuteteacutes simplescomme la forme de la distributions de degreacute ou le clustering seront mises enregard des reacutegulariteacutes observeacutees dans les dynamiques microscopiques nous tacirc-cherons eacutegalement drsquoeacutevaluer la stabiliteacute relative de ces proprieacuteteacutes de haut niveauOutre le deacuteveloppement drsquoune meacutethodologie de caracteacuterisation des communauteacutesde savoirs ouvrant la voie agrave leur comparaison ou agrave la modeacutelisation de leur mor-phogenegravese (que nous laisserons neacuteanmoins de cocircteacute ici) ces meacutethodes drsquoanalysepermettent drsquoapporter des eacuteclaircissement sur les questions geacuteneacuteralement poseacutees
66
quant agrave leur ldquofonctionnementrdquo ou agrave leur organisation Comment lrsquoautoriteacute de cer-tains agents est-elle construite et stabiliseacutee au cours de la morphogenegravese Peut-oneacutevaluer les risques de balkanisation lieacutes agrave lrsquoagreacutegation des agents en fonction deleur profil seacutemantique Comment quantifier lrsquoinfluence sociale exerceacutee entre voi-sins
Au niveau macro caracteacuterisation des motifs structurels globaux chapitre 4 Noustacirccherons drsquoidentifier un certain nombre de structures eacutemergentes lieacutees agrave lrsquoorga-nisation de nos communauteacutes en conservant agrave nouveau une perspective dualeentre les dimensions sociales et seacutemantiques Nous nous inteacuteresserons particuliegrave-rement aux ensembles meacutesoscopiques que constituent les agreacutegats drsquoentiteacutes so-ciales et seacutemantique doteacutes drsquoune ldquocoheacutesion internerdquo la structure et lrsquoarticulationde ces ensembles reacuteveacutelant lrsquoorganisation de nos communauteacutes de savoirs La dy-namique de ces motifs structurels sera eacutegalement examineacutee (phylogenegravese) Nousnous concentrerons principalement sur la reconstruction multi-eacutechelle des dyna-miques de plusieurs communauteacutes scientifiques en nous focalisant sur le reacuteseauseacutemantique dynamique produit agrave partir drsquoun corpus de publications Est-il pos-sible agrave travers ce reacuteseau de reconstruire la pheacutenomeacutenologie de lrsquoorganisation dessciences sous la forme drsquoune carte des sciences pertinente et intelligible articulantun ensemble de champs eacutepisteacutemiques Dans une perspective dynamique peut-ondeacutecrire lrsquoeacutevolution des sciences au niveau de ces champs eacutepisteacutemiques en retra-ccedilant la phylogeacutenie des champs eacutepisteacutemiques Enfin dans ce mecircme chapitre noustacirccherons de quantifier la faccedilon dont la structure drsquoun paysage conceptuel peutcontraindre les dynamiques individuelles des agents qui srsquoy trouvent immergeacutes
CHAPITRE 3
Dynamiques locales
Sommaire
31 Dynamiques locales dans le reacuteseau social 69
311 Attachements preacutefeacuterentiels 69312 Attachement preacutefeacuterentiel aux degreacutes capital social et capital
seacutemantique 713121 Deacutefinition 713122 Reacutesultats 733123 Degreacute et activiteacute 743124 Proprieacuteteacutes macroscopiques eacutemergentes associeacutees 75
313 Attachement preacutefeacuterentiel agrave la distance sociale et seacutemantique 763131 Deacutefinitions 763132 Reacutesultats 77
314 Motifs coheacutesifs locaux 81315 Capitaux homophilie sociale et seacutemantique deacutecoupler les effets 84
32 Dynamiques locales dans le reacuteseau socio-seacutemantique 86
321 Similariteacute et interaction 86322 Coheacutesion socio-seacutemantique locale 91
33 Dynamiques locales dans le reacuteseau seacutemantique 93
331 Mesures drsquooccurrences 93332 Mesures de co-occurrences 95
Nous tacirccherons dans ce chapitre de deacutecrire les dynamiques au sein des com-munauteacutes de savoirs en nous placcedilant dans le cadre geacuteneacuteral des reacuteseaux socio-seacutemantiques Les acteurs sont donc caracteacuteriseacutes agrave la fois par leur activiteacute ldquosocialerdquode production de relations ou drsquointeractions avec drsquoautres agents et leur activiteacuteldquocognitiverdquo de production de contenus
Lrsquoobjectif est de comprendre comment ces deux dynamiques co-eacutevoluent lrsquouneavec lrsquoautre la production de contenus eacutetant supposeacutee coupleacutee agrave la productiondrsquointeractions inter-individuelles Ce couplage est perceptible au travers de lrsquoin-fluence sociale qursquoun agent peut exercer sur un autre quant agrave son activiteacute de pro-duction Il peut encore se manifester par des processus de seacutelection qui peuventpreacutesider agrave la creacuteation de nouvelles interactions les effets drsquohomophilie entre agentsaugmentant a priori la probabiliteacute que deux agents seacutemantiquement proches inter-agissent lrsquoun avec lrsquoautre Les deux processus qui viennent drsquoecirctre mentionneacutes -
68 Chapitre 3 Dynamiques locales
influence sociale et seacutelection - ont des effets tregraves diffeacuterents sur la forme du sys-tegraveme socio-seacutemantique reacutesultant Lrsquoinfluence sociale tend agrave lrsquoeacutequilibre agrave produireune homogeacuteneacuteiteacute seacutemantique geacuteneacuteraliseacutee sur lrsquoensemble des agents alors que leseffets de seacutelection peuvent provoquer une ldquobalkanisationrdquo progressive des agents seregroupant dans des agreacutegats seacutemantiquement semblables Lrsquoanalyse du couplagede ces deux effets a eacuteteacute lrsquoobjet de nombreux modegraveles analytiques ou simulatoires(Axelrod 1997b Deffuant 2006) Nous nous placcedilons dans une perspective plusdescriptive et empirique et cherchons agrave quantifier ces effets agrave partir de lrsquoanalysede bases de donneacutees longitudinales rendant compte de lrsquoeacutevolution de lrsquoactiviteacute decommunauteacutes de savoirs Nous appliquerons notre eacutetude aux blogosphegraveres poli-tiques ameacutericaine et franccedilaise preacutesenteacutees chapitre 2 Nous nous restreindrons doncagrave un seul type de communauteacute de savoirs et nrsquoaborderons le cas des communauteacutesscientifiques qursquoincidemment en signalant dans la section 31 les convergences etdivergences existantes entre les reacutesultats que nous preacutesentons sur la blogosphegraverepolitique et ceux obtenus par ailleurs sur les communauteacutes scientifiques Si notreambition premiegravere nrsquoest donc pas de faire une analyse comparative exhaustive denos deux cas drsquoeacutetude lrsquoensemble des analyses de ce chapitre forme neacuteanmoinsun grille geacuteneacuterique de caracteacuterisation de la morphogenegravese drsquoune communauteacute desavoirs qui est parfaitement reproductible sur drsquoautres terrains
Ce chapitre srsquoappuie (pour la majeure partie de la section 31) sur un travailreacutealiseacute en collaboration avec Camille Roth (Roth and Cointet 2009) Le jeu de don-neacutees employeacute est neacuteanmoins leacutegegraverement diffeacuterent un leacuteger deacutecalage temporel (delrsquoordre de deux semaines) ayant eacuteteacute rajouteacute
La question du couplage entre les attributs cognitifs des agents et leur profilrelationnel a eacuteteacute relativement neacutegligeacutee dans la modeacutelisation des reacuteseaux sociauxles aspects cognitifs apparaissant geacuteneacuteralement comme le parent pauvre de lrsquoana-lyse traditionnelle des reacuteseaux (voir section 121) Neacuteanmoins de nombreuses re-cherches ont tacirccheacute drsquoeacutetudier les comportements individuels au sein des reacuteseauxsociaux en attribuant aux agents un certain nombre de paramegravetres exogegravenes (entreautres acircge sexe meacutetier ou nationaliteacute) Sans neacutecessairement introduire un cadreco-eacutevolutionnaire ces eacutetudes se sont efforceacutees de mettre en eacutevidence des compor-tements reacuteguliers dans la dynamique du reacuteseau en fonction de paramegravetres struc-turels endogegravenes (propres au reacuteseau) mais aussi en fonction drsquoun certain nombredrsquoattributs qui caracteacuterisent les individus (par exemple dans un contexte dyadiquesimple concernant lrsquoeacutevolution drsquoun reacuteseau drsquoemails (Kossinets and Watts 2006)ou dans un contexte hypergraphique sur la composition drsquoeacutequipe drsquoentrepreneurs(Ruef et al 2004)) Ces eacutetudes considegraverent geacuteneacuteralement ces attributs comme ex-teacuterieurs au reacuteseau social et les integravegrent comme des variables purement exogegraveneset immuables
Dans notre cadre nous soutenons que les dimensions sociale et seacutemantiquesont toutes deux doteacutees drsquoautonomie et co-eacutevoluent lrsquoune avec lrsquoautre si les at-tributs seacutemantiques sont susceptibles drsquoimpacter la structure du reacuteseau social ce
31 Dynamiques locales dans le reacuteseau social 69
dernier est eacutegalement susceptible drsquoinfluencer la distribution des contenus sur lereacuteseau Seules des eacutetudes tregraves reacutecentes relevant plutocirct de la ldquocomputational socio-logyrdquo et srsquointeacuteressant principalement aux communauteacutes en ligne abordent la ques-tion de la co-eacutevolution des meacutecanismes drsquointeractions sociales et la distributiondes connaissances Sans ecirctre exhaustif la caracteacuterisation des processus drsquoinfluenceentre la distribution des contenus sur la structure des relations a notamment eacuteteacuteabordeacutee dans le cadre de la Wikipedia (Crandall et al 2008a) de la blogosphegravere(Adar et al 2004a) dans les ldquotagging systemrdquo (Cattuto 2006) ou encore au sein dela plate-forme communautaire de partage de photos Flickrsquor (Cha et al 2008)
Si lrsquoon se reacutefegravere au chapitre 2 nous nous positionnons au niveau des dyna-miques individuelles (eacutevolution micro plan infeacuterieur du paralleacutelogramme voirfigure 27) Nous eacutetudierons les nouveaux eacuteveacutenements qui animent nos reacuteseaux(production de nouveaux contenus ou de nouvelles interactions entre deux peacute-riodes successives) afin drsquoen saisir les reacutegulariteacutes par rapport agrave lrsquoeacutetat de lrsquoen-semble du reacuteseau eacutepisteacutemique consideacutereacute au pas de temps preacuteceacutedent Ainsi noussouhaitons par exemple pouvoir interroger les comportements individuels decreacuteation de nouveaux liens dans le reacuteseau social en fonction de lrsquoeacutetat du reacuteseausocio-seacutemantique Nous nous contenterons drsquoappreacutehender ces dynamiques indivi-duelles en fonction drsquoobservables locales du reacuteseau eacutepisteacutemique associeacute Ces pro-prieacuteteacutes peuvent aussi bien ecirctre des proprieacuteteacutes dites monadiques relative agrave ego ouagrave alter comme le degreacute des noeuds que des proprieacuteteacutes dyadiques relatives agrave unecouple de nœuds comme la distance entre deux agents Parallegravelement ces dy-namiques locales sont intimement lieacutees agrave lrsquoeacutemergence de proprieacuteteacutes de plus hautniveau structurant les trois reacuteseaux qui composent notre reacuteseau eacutepisteacutemique Cer-taines de ces proprieacuteteacutes simples (distributions de degreacutes clustering etc) serontplaceacutees en regard des reacutegulariteacutes observeacutees dans les dynamiques microscopiquesOn tacircchera enfin drsquoeacutevaluer la stabiliteacute relative de ces proprieacuteteacutes de haut niveau
Comme on lrsquoa deacutejagrave preacuteciseacute dans lrsquointroduction de ce chapitre bien que nousdistinguions clairement les trois types de reacuteseaux servant agrave formaliser nos com-munauteacutes de savoirs nous les traitons de faccedilon seacutepareacutee et envisagerons successi-vement les dynamiques locales de nos trois reacuteseaux reacuteseau social reacuteseau socio-seacutemantique et reacuteseau seacutemantique Nous deacutebutons notre analyse en tentant de ca-racteacuteriser la dynamique microscopique de notre reacuteseau social GS
31 Dynamiques locales dans le reacuteseau social
311 Attachements preacutefeacuterentiels
Diffeacuterentes meacutethodes ont eacuteteacute introduites pour rendre compte des dynamiquesde formation de liens dans les reacuteseaux sociaux Une famille importante de mo-degraveles appeleacutes ldquop modelsrdquo vise agrave travers un modegravele markovien drsquoeacutevolution dureacuteseau agrave estimer la part respective drsquoune grande gamme de pheacutenomegravenes suscep-
70 Chapitre 3 Dynamiques locales
tibles drsquoinfluencer la dynamique de production de liens Cette meacutethode drsquoestima-tion statistique srsquoappuie sur une fonction deacutecrivant la dynamique de formation deliens exprimeacutee comme la somme drsquoeffets supposeacutes importants dans la morphoge-negravese du reacuteseau (rocircle de la reacuteciprociteacute homophilie influence du degreacute transitiviteacuteetc) (Snijders 2001 Wasserman and Pattison 1996) Ces meacutethodes drsquoestimationont lrsquoavantage de permettre de saisir agrave travers un ensemble de coefficients la partrespective drsquoune grande gamme de pheacutenomegravenes agrave lrsquoœuvre dans la dynamique dureacuteseau Une des hypothegraveses liminaires poseacutees par les modegraveles p est que les agentsagissent en maximisant une fonction drsquoutiliteacute qui deacutepend des configurations struc-turelles de leur voisinage Une large gamme de processus sociaux peuvent ecirctreincorporeacutes au sein de cette fonction au moyen drsquoun ensemble de fonctionnellesdont la forme doit ecirctre fixeacutee a priori Degraves lors lrsquoanalyse de donneacutees empiriques per-met drsquoobtenir gracircce agrave diffeacuterentes meacutethodes drsquoestimation de paramegravetres le poidsrespectif de chacun des processus envisageacutes dans la dynamique de formation dureacuteseau
Agrave cette meacutethode drsquoestimation statistique nous preacutefeacuterons une approche moinsholiste puisque nous nrsquoavons pas pour ambition de quantifier la part respectiveprises par chacun des processus susceptibles drsquoinfluencer la dynamique de pro-duction de nouveaux liens Nous chercherons plutocirct agrave caracteacuteriser de faccedilon preacute-cise chacun de ces processus sous la forme drsquoune distribution de la propension decreacuteation drsquoun lien en fonction drsquoune variable explicative Ainsi nous nrsquoavons pasbesoin de postuler une forme fonctionnelle explicative a priori Nous adopteronsdonc une approche fondeacutee sur le calcul drsquoattachements preacutefeacuterentiels (Roth 2005Jeong et al 2003a) qui permet de deacutecrire fidegravelement la pheacutenomeacutenologie de notrecommunauteacute de savoirs
Lrsquoattachement preacutefeacuterentiel mesure simplement la propension drsquoapparitionentre deux moments successifs (t et t+dt) drsquoun lien entre deux nœuds drsquoun reacuteseauen fonction de proprieacuteteacutes monadiques (deacutependant drsquoun seul des nœuds pouvantecirctre ego ou alter) ou dyadiques (deacutependant du couple de nœuds) propres au ldquoreacute-seau eacutepisteacutemiquerdquo en son entier consideacutereacute agrave lrsquoinstant t Notre hypothegravese est quelrsquoeacutetat du reacuteseau agrave un moment donneacute forme un ensemble de ldquocontraintesrdquo pour lesinteractions agrave venir Lrsquoattachement preacutefeacuterentiel ou la propension agrave une proprieacuteteacutem permet de caculer les correacutelations existantes entre les caracteacuteristiques relation-nelles ou cognitives des agents engageacutes dans lrsquointeraction et la probabiliteacute drsquoob-server une telle interaction Plus preacuteciseacutement on cherche agrave estimer la probabiliteacuteconditionnelle qursquoun nœud (respectivement une dyade soit un couple de nœuds)de proprieacuteteacute m reccediloive un lien P (L|m) Pratiquement on estime la fonction de pro-pension f(m) 1 proportionnelle agrave cette probabiliteacute qui permet de dire drsquoun agent(resp drsquoune dyade) de proprieacuteteacute m qursquoil (resp elle) est f(m) fois plus attractif (at-tractive) que ne le serait un nœud (resp une dyade) quelconque si la distribution
1 Dans la litteacuterature la propension drsquointeraction au degreacute est freacutequemment noteacutee Π
31 Dynamiques locales dans le reacuteseau social 71
des nouveaux liens eacutetait aleacuteatoire par rapport au paramegravetre m On peut eacutegalementdire qursquoun agent (resp une dyade) de type m sera plus attractif toutes choseseacutegales par ailleurs drsquoun facteur f(m)f(mprime) qursquoun agent (resp qursquoune dyade) detype mprime f(m) est estimeacute en effectuant le quotient de la distribution drsquoune proprieacuteteacutem sur lrsquoensemble des nouveaux liens creacuteeacutes diviseacutee par la distribution de m sur lrsquoen-semble des couples de nœuds du reacuteseau La propension drsquointeraction f peut-doncecirctre estimeacutee en calculant f tel que
f(m) =ν(m)
N(m)
N
ν
ougrave ν(m) est le nombre de nouveaux liens pointant vers un agent de type m (resple nombre de dyades de type m creacuteeacutees) pendant un intervalle de temps donneacute etN(m) mesure le nombre drsquoagents (resp de dyades) de type m (ν et N deacutesignentle nombre total de nouveaux liens creacuteeacutes sur la peacuteriode consideacutereacutee et le nombre denœuds (resp de couples de nœuds) possibles)
Concregravetement nous estimons f(m) en calculant sur une seacuterie de peacuteriodes dis-cregravetes [t + 1 t + T ] la propension par rapport agrave une proprieacuteteacute m observeacutee agrave t decreacuteation drsquoun nouveau lien dans le reacuteseau pendant cet intervalle Nous avons fixeacute
8 peacuteriodes drsquoobservation deacutefinies de la faccedilon suivante
[tk +1 tk +T ] tel que tk =
60 + (kminus 1)T T = 7
kisin18 Chaque nouvelle peacuteriode drsquoune semaine permet de
calculer un vecteur de propension pour les diffeacuterentes valeurs possibles de la pro-prieacuteteacute m eacutetudieacutee Une peacuteriode drsquoinitialisation du reacuteseau de 60 jours a eacuteteacute respecteacuteeavant toute mesure de propension la premiegravere mesure de propension se rapportedonc agrave une semaine drsquoactiviteacute du systegraveme mesureacutee par rapport agrave un reacuteseau anciende 2 mois Dans son eacutetat final le reacuteseau agregravege lrsquoensemble des interactions col-lecteacutees pendant approximativement 4 mois Les 8 mesures reacutealiseacutees sont ensuitemoyenneacutees pour fournir un profil sur lrsquoensemble des deux derniers mois drsquoactiviteacuteNous appliquerons un protocole similaire lorsque nous preacutesenterons des donneacuteeslieacutees agrave la blogosphegravere politique franccedilaise Seul le deacutecoupage temporel diffegravere ladureacutee des peacuteriodes temporelles est fixeacutee agrave 2 semaines et le calcul des propensionssrsquoeacutetend sur 4 mois
312 Attachement preacutefeacuterentiel aux degreacutes capital social et capital seacute-
mantique
3121 Deacutefinition
Une premiegravere forme drsquoattachement preacutefeacuterentiel est lrsquoattachement preacutefeacuterentielau degreacute Ce type de caracteacuterisation a eacuteteacute populariseacutee par le modegravele de morpho-genegravese de Barabaacutesi and Albert (1999) (dans ce modegravele un nouveau nœud entrantdans le reacuteseau a une probabiliteacute de se lier agrave un nœud de degreacute k proportionnelle agrave
72 Chapitre 3 Dynamiques locales
k Π(k) prop k) mecircme si de Solla Price (1976) avait deacutejagrave montreacute que ce type de pro-cessus (dit drsquoavantage cumuleacute) pouvait expliquer les distributions de degreacute en loide puissance observeacutees dans les reacuteseaux de citation scientifiques (pour un eacuteclair-cissement historique sur les origines de la notion voir (Keller 2005)) La tregraves forteattractiviteacute des nœuds de fort degreacute souvent reacutesumeacutee agrave lrsquoadage ldquorich get richerrdquo etplus preacuteciseacutement la deacutependance (sub ou supra)-lineacuteaire entre la propension drsquoatta-chement agrave un nœud et son degreacute observeacutee dans une large gamme de reacuteseaux reacuteelsa eacuteteacute largement commenteacutee dans la litteacuterature (Jeong et al 2003a Eisenberg andLevanon 2003) Cette proprieacuteteacute a eacutegalement alimenteacute nombre de modegraveles de mor-phogenegravese de reacuteseaux (Barabaacutesi et al 1999 Almaas and Barabaacutesi 2005) lrsquoattache-ment preacutefeacuterentiel au degreacute eacutetant comme on lrsquoa vu consideacutereacute comme une explicationplausible de la forme de la distribution de degreacute en loi de puissance des reacuteseauxreacuteels
Dans le cadre qui nous occupe ici celui des communauteacutes de savoirs nous deacute-finissons le degreacute drsquoun agent de deux faccedilons Le degreacute peut drsquoabord deacutesigner laconnectiviteacute (Freeman 1979) dans le reacuteseau social ie le nombre de voisins drsquounnoeud i donneacute ou plus preacuteciseacutement dans le cas orienteacute le nombre de liens en-trants 2 drsquoun nœud i Il peut aussi deacutesigner la connectiviteacute dans le reacuteseau socio-seacutemantique soit le nombre de concepts mentionneacutes par un agent i
Plus formellement dans le reacuteseau social GS qui est par deacutefinition croissant ondeacutefinit le voisinage drsquoun agent i comme Vt(i) = j | existtprime le t (j i tprime) isin RS le de-greacute social de i que lrsquoon note k(i t) vaut |Vt(i)| Le degreacute social est donc simplementun deacutecompte du nombre total drsquoagents ayant pointeacute vers i jusqursquoagrave t Cette deacutefini-tion de la connectiviteacute drsquoun agent peut ecirctre rapprocheacutee drsquoune mesure de positionldquodominanterdquo dans le reacuteseau correspondant agrave un capital cumuleacute En tant que tellela connectiviteacute peut ecirctre interpreacuteteacutee comme une mesure ldquodrsquoautoriteacuterdquo (Coleman1988) 3 Concernant notre cas drsquoeacutetude reacuteduire lrsquoautoriteacute drsquoun blog agrave son degreacute en-trant est drsquoautant plus justifieacute que la quasi-totaliteacute des moteurs de recherche actuelssrsquoappuient sur un ldquorankingrdquo des sites essentiellement construit agrave partir du nombrede liens pointant vers un site donneacute Compte tenu de lrsquoimportance des moteurs derecherche dans ces espaces virtuels agrave geacuteographie variable le degreacute entrant srsquoavegravereecirctre une mesure approcheacutee satisfaisante de la visibiliteacute drsquoun site
De faccedilon eacutequivalente on deacutefinit dans le reacuteseau socio-seacutemantique GSC le de-greacute socio-seacutemantique drsquoun nœud i ou son ldquocapital seacutemantiquerdquo agrave un instant tcomme le nombre de concepts mobiliseacutes par i agrave t (le reacuteseau socio-seacutemantique eacutetanteacutegalement consideacutereacute comme croissant il srsquoagit ici encore drsquoune mesure cumuleacuteesur lrsquoensemble de la peacuteriode drsquoobservation jusqursquoagrave t) On le deacutefinit formellement
2 Le nombre de liens sortants semble plus naturellement lieacute agrave lrsquoactiviteacute de lrsquoagent i qursquoagrave unenotion drsquoun capital agreacutegeacute nous reviendrons plus tard sur cette notion drsquoactiviteacute
3 Cette deacutefinition du capital social mecircme en supposant une approche purement structurale estune notion largement deacutebattue dans la litteacuterature sur les reacuteseaux sociaux (Burt 1997 2004) Nousaurons lrsquooccasion de revenir sur cette deacutefinition plus longuement dans la partie III
31 Dynamiques locales dans le reacuteseau social 73
0 50 100 150 200
100
101
k
f(k
)
0 10 20 30 40 50 60 70 80
10minus1
100
101
kC
f(k
C)
FIGURE 31 Agrave gauche propension drsquointeraction f au degreacute social k Agrave droite propen-sion drsquointeraction fC au degreacute seacutemantique kC Moyenne sur 8 peacuteriodes Afin de pallier lemanque de donneacutees celles-ci ont eacuteteacute regroupeacutees dans des ldquobinsrdquo et tronqueacutees dans le casde lrsquoattachement preacutefeacuterentiel au capital social(k lt 200)
ainsi kC(i t) = |VCt (i)| = c | existtprime le t (i c tprime) isin RC
3122 Reacutesultats
En utilisant la meacutethode et le protocole empirique preacutesenteacutes au paragraphe preacute-ceacutedent (section 311) nous estimons les propensions drsquointeraction f et fC sur notrereacuteseau de blogs politiques ameacutericains par rapport aux capitaux sociaux et seacuteman-tiques k et kC respectivement Les fonctions de propension obtenues sont repreacute-senteacutees figure 31 4 Nous observons que lrsquoattachement preacutefeacuterentiel au degreacute estbien croissant avec le degreacute crsquoest agrave dire que les nouvelles interactions pointentpreacutefeacuterentiellement vers des agents ayant de plus grand capitaux aussi bien sociauxque seacutemantiques La croissance de la probabiliteacute drsquoattachement avec le capital so-cial est coheacuterente avec les reacutesultats classiques obtenus sur des reacuteseaux de colla-boration scientifique et illustre un comportement partageacute par un grand nombredrsquoautres reacuteseaux (reacuteseaux physiques de lrsquointernet reacuteseaux de citation scientifiquereacuteseau de co-appartenance agrave lrsquoeacutequipe drsquoun film pour ne citer que les principauxexemples traiteacutes dans (Jeong et al 2003b)) Cette proprieacuteteacute est censeacutee illustrer unprocessus drsquoaccumulation du capital social dans la dynamique de la communauteacuteIl faut neacuteanmoins noter que la propension drsquointeraction f observeacutee semble plafon-ner apregraves une premiegravere phase de croissance exponentielle Ainsi sur notre reacuteseaude blogs lrsquoattractiviteacute exerceacutee par les agents de forts degreacutes semble ecirctre limiteacuteepar un pheacutenomegravene de saturation qui permet de ldquoredistribuer les liensrdquo de faccedilonmoins heacuteteacuterogegravene sur lrsquoensemble des blogs Notre analyse montre donc qursquoen plusdrsquoune correacutelation entre la creacuteation de nouvelles interactions et le capital social dublog citeacute on observe eacutegalement une correacutelation liant la probabiliteacute drsquoattachementau capital seacutemantique des blogs citeacutes Cette deacutependance du comportement de cita-tion au capital seacutemantique des agents a eacutegalement eacuteteacute observeacute dans la dynamiquedrsquoune communauteacute scientifique (Roth and Cointet 2009)
4 Lrsquoensemble des intervalles de confiance est calculeacute pour une probabiliteacute de 095
74 Chapitre 3 Dynamiques locales
3123 Degreacute et activiteacute
0 10 20 30 40 50 60
100
101
activity a
f(a
)
FIGURE 32 Attachement preacutefeacuterentiel en fonction de lrsquoactiviteacute a mesureacutee en nombremoyen de liens sortants creacuteeacutes hebdomadairement
Cette mesure de propension par rapport au capital social et seacutemantique doitecirctre mise en regard de la propension drsquoun acteur agrave attirer des liens en fonction deson activiteacute dans le reacuteseau Dans le cas des reacutesaux symeacutetriques comme les reacuteseauxde collaboration scientifique le degreacute drsquoun nœud est de faccedilon meacutecanique tregravesfortement correacuteleacute agrave son activiteacute (estimeacutee par exemple par le nombre drsquoarticles pu-blieacutes) Ainsi la mesure de propension au degreacute pourrait ecirctre la conseacutequence drsquouneheacuteteacuterogeacuteneacuteiteacute dans lrsquoengagement des acteurs au sein de la communauteacute Si on me-sure lrsquoattachement preacutefeacuterentiel agrave un nœud drsquoactiviteacute a estimeacute par exemple agrave traversla freacutequence de production de liens sortants (lrsquoactiviteacute est donc proportionnelle audegreacute sortant) on observe agrave nouveau (figure 32) un attachement preacutefeacuterentiel crois-sant avec ce mecircme effet de saturation Les blogs les plus actifs dans la communauteacutesont donc eacutegalement ceux qui reccediloivent le plus de liens (agrave titre drsquoillustration unblog dont lrsquoactiviteacute deacutepasse 30 liens hebdomadaires produits aura tendance a at-tirer 10 fois plus de liens que la moyenne) Lrsquoheacuteteacuterogeacuteneacuteiteacute des distributions dedegreacute que nous observons dans ces reacuteseaux sociaux pourraient donc simplementecirctre la conseacutequence drsquoune heacuteteacuterogeacuteneacuteiteacute dans lrsquoimplication de ses membres
Cette croissance de lrsquoattractiviteacute drsquoun blog en fonction de lrsquoactiviteacute du blogueurau sein de la communauteacute est en fait tregraves lieacutee agrave la pratique mecircme de constructiondrsquoune audience propre aux territoires virtuels Comme lrsquoanalysait deacutejagrave Licoppeand Beaudoin (2002) agrave propos de sites personnels amateurs la construction et lamaintenance drsquoun site neacutecessitent ldquoun investissement et un effort continuelrdquo (autravers de mises agrave jour reacuteguliegraveres et drsquoune activiteacute de ldquogestionrdquo des emails des visi-teurs) Cardon and Delaunay-Teterel (2006) ont meneacute une seacuterie drsquoentretiens aupregravesde blogueurs et insistent sur les ldquotactiquesrdquo drsquooccupation de lrsquoespace (par le biaisde commentaires laisseacutes sur des sites tiers notamment) mises en œuvre par les blo-gueurs pour attirer des commentateurs sur leur site et augmenter lrsquoaudience de
31 Dynamiques locales dans le reacuteseau social 75
100
101
102
10minus3
10minus2
10minus1
k
p(k
)
1 2 3 4 5 6 7 80
2
4
micro
period1 2 3 4 5 6 7 8
σ
100
101
102
10minus3
10minus2
10minus1
k
p(k
)
1 2 3 4 5 6 7 80
2
4
micro
period1 2 3 4 5 6 7 8
σ
100
101
102
10minus3
10minus2
10minus1
kc
p(k
c)
1 2 3 4 5 6 7 80
2
4
6
micro
period1 2 3 4 5 6 7 8
σ
100
101
102
10minus3
10minus2
10minus1
kc
p(k
c)
1 2 3 4 5 6 7 80
2
4
6
micro
period1 2 3 4 5 6 7 8
σ
FIGURE 33 Agrave gauche distribution du ldquo capital socialrdquo ie degreacute sortant dans le reacuteseausocial agrave droite distribution du ldquocapital semantiquerdquo ie nombre de concepts mobiliseacutesdans le reacuteseau socio-seacutemantique Croix rouges p(k) (respectivement p(kC) proportion deblogs de degreacute k (resp de degreacute kC) distribution calculeacutees lors du dernier jour drsquoobserva-tion ligne continue meilleur fit log-normal encart eacutevolution des paramegravetres du meilleurfit log-normal micro (triangles bleus) et de σ (points rouges) sur lrsquoensemble des 8 peacuteriodes
leur blog
3124 Proprieacuteteacutes macroscopiques eacutemergentes associeacutees
Ces reacutesultats sur les dynamiques microscopiques peuvent ecirctre mis en relationavec les distributions macroscopiques de capitaux agrave travers le reacuteseau et leur eacutevo-lution Drsquoun point de vue macroscopique la distribution du capital social nousrenseigne ainsi sur la configuration du capital social des acteurs dans le reacuteseau etla preacutesence eacuteventuelle drsquoune structure ldquohieacuterarchiquerdquo qursquoune heacuteteacuterogeacuteneacuteiteacute de ladistribution du capital social illustrerait
Nous calculons pour notre reacuteseau de blogs la distribution de connectiviteacute dansle reacuteseau social (k) et dans le reacuteseau socio-seacutemantique (kC) Ce type de distributionou du moins les queues de ces distributions sont geacuteneacuteralement approcheacutees par uneloi puissance Dans notre cas le caractegravere relativement plat de la distribution pourles degreacutes faibles nous pousse agrave privileacutegier une approximation de ces distributionsagrave lrsquoaide drsquoune distribution de type log-normal 5
Ces distributions se caracteacuterisent drsquoabord par leur heacuteteacuterogeacuteneacuteiteacute les valeurssont distribueacutees sur plusieurs ordres de grandeur et illustrent une tregraves forte asy-meacutetrie entre agents Un nombre faible mais non-neacutegligeable drsquoagents reccediloivent unnombre tregraves conseacutequent de liens alors que pregraves de la moitieacute des agents ont un
5 la forme analytique drsquoune densiteacute log-normal est la suivant p(x) = eminus
(ln xminusmicro)2
2σ2
xσradic
2π(micro et σ2 eacutetant
respectivement la moyenne et la variance de la distribution normale sous-jacente) ou sous une autre
forme p(x) = λxminus ln x+2(microminusσ2)
2σ2 σ est donc le paramegravetre preacutepondeacuterant pour les x grands crsquoest agrave direpour appreacutecier la vitesse de deacutecroissance de la queue de la distribution
76 Chapitre 3 Dynamiques locales
capital social ou seacutemantique infeacuterieur agrave 10 Cette heacuteteacuterogeacuteneacuteiteacute reflegravete les hieacuterar-chies inheacuterentes agrave cette communauteacute de blogueurs que lrsquoon retrouve dans drsquoautrestravaux sur les communauteacutes de blogueurs (Adamic and Glance 2005a Shi et al2007) ou de faccedilon plus geacuteneacuterale sur le web (Hindman et al 2003)
Drsquoun point de vue dynamique (encart figure 33) on constate que les distribu-tions sont relativement stables pour le capital seacutemantique et pour le capital socialσ le paramegravetre principal caracteacuterisant la vitesse de deacutecroissance de la queue dela distribution est extrecircmement stable pour lrsquoensemble des 8 peacuteriodes temporellesenvisageacutees Cette stabiliteacute dynamique peut srsquoexpliquer en partie par la forme crois-sante des propensions au capital social traceacutees preacuteceacutedemment
313 Attachement preacutefeacuterentiel agrave la distance sociale et seacutemantique
3131 Deacutefinitions
Nous nous inteacuteressons maintenant agrave la faccedilon dont les dynamiques locales deformation de nouveaux liens deacutependent de proprieacuteteacutes dyadiques du reacuteseau Nousnous concentrerons principalement sur une proprieacuteteacute simple la distance entredeux nœuds Agrave nouveau nous pouvons deacutecliner la deacutefinition de cette distance surles deux reacuteseaux faisant intervenir des agents le reacuteseau social et le reacuteseau socio-seacutemantique Lrsquoattachement preacutefeacuterentiel agrave la distance sociale permet drsquoappreacutecierles pheacutenomegravenes transitifs au sein de notre communauteacute de savoirs tandis que lapropension agrave la distance seacutemantique doit nous permettre de quantifier le caractegraverehomophile ou heacuteteacuterophile des interactions entre blogs
La distance sociale entre deux nœuds i et j est noteacutee d(i j) elle deacutesigne la lon-gueur du plus court chemin reliant ces deux nœuds dans le reacuteseau social Si aucunchemin ne permet de relier i agrave j (srsquoils nrsquoappartiennent pas agrave la mecircme composanteconnexe) on consideacuterera alors qursquoils sont agrave distance infinie lrsquoun de lrsquoautre
La distance seacutemantique entre deux nœuds neacutecessite de faire appel aux profilsseacutemantiques des blogs que lrsquoon a deacutefini dans le chapitre 2 Nous adoptons doncune distance standard de type cosinus pour comparer les profils seacutemantiques 6 dedeux agents baseacutee sur le traitement classique drsquoun corpus par le tfidf (Salton et al1975)
Une fois les profils w des agents calculeacutes la distance seacutemantique entre les
agents i et j srsquoeacutecrit alors simplement δ(i j) = 1minuswi middot wj
wiwj Cette distance com-
prise entre 0 et 1 permet de rendre compte des divergences ldquocognitivesrdquo existantentre agents Dans le cas de notre reacuteseau de blogs cette distance permet de me-
6 Pour rappel le profil drsquoun agent wi srsquoexprime donc sous la forme wic = tfic middot idfc =wic
P|C|c=1 wic
middot logB
dc
ougrave wic deacutesigne le nombre drsquooccurrences drsquoun concept c dans lrsquoensemble des
contenus produits par i B est le nombre total drsquoagents et dc correspond au nombre drsquoagents men-tionnant le terme c
31 Dynamiques locales dans le reacuteseau social 77
1 2 3 4 gt410
minus2
10minus1
100
101
102
d
ˆf(d
)
FIGURE 34 Propension f(d) de creacuteation drsquoun lien par rapport agrave la distance sociale d (lesvaleurs de propension pour des distances supeacuterieures agrave 4 ont eacuteteacute agreacutegeacutees en un seul point)
surer agrave quel point deux blogs traitent de sujets distincts (δ proche de 1) ou simi-laires (δ proche de 0) Par contre elle ne permet en rien de signaler des lignesdrsquoaccord ou de deacutesaccord entre agents deux blogs speacutecialiseacutes sur les questions depolitique eacutetrangegravere se retrouveront sans doute agrave proximiteacute lrsquoun de lrsquoautre vis-agrave-visdes theacutematiques abordeacutees (et auront donc un δ faible) mais peuvent tregraves bien ecirctreen deacutesaccord lrsquoun avec lrsquoautre
3132 Reacutesultats
La fonction drsquoattachement preacutefeacuterentiel f(d) agrave la distance sociale d (figure 34)reacutevegravele une propension tregraves forte agrave reacutepeacuteter les interactions avec ses propres voisinsAinsi la propension normaliseacutee f(d) est tregraves proche de 100 pour une distance eacutegaleagrave 1 tandis qursquoelle est infeacuterieure agrave 0 1 pour deux agents agrave distance d gt 3 Celasignifie toutes choses eacutegales par ailleurs qursquoun voisin auquel un blog est deacutejagravelieacute sera preacutefeacutereacute agrave un agent agrave distance 4 dans plus de 999 cas sur 1000 On peuteacutegalement dire qursquoil y a 100 fois plus de chances qursquoun agent interagisse agrave nouveauavec un de ses voisins que ne le preacutedirait un modegravele aleacuteatoire de creacuteation de liensCette courbe permet eacutegalement de rendre compte du pheacutenomegravene de creacuteation detransitiviteacute dans le reacuteseau chaque fois qursquoun lien est produit entre deux nœuds agravedistance 2 un triangle est formeacute La formation drsquoun lien agrave distance 2 reste bien plusprobable toutes choses eacutegales par ailleurs que la creacuteation drsquoune lien agrave une distanceplus grande (la deacutecroissance est quasi-exponentielle jusqursquoagrave d = 4) indiquant uneforte influence de lrsquoenvironnement proche des blogueurs pour ldquoseacutelectionnerrdquo sesfuturs voisins
On peut srsquointerroger leacutegitimement sur la significativiteacute de ces courbes de pro-pensions par rapport agrave la distance sociale entre agents sachant que notre baseconstitue un eacutechantillon (tregraves reacuteduit) du web Ainsi certains sites manquants pour-raient fausser nos mesures leur absence entraicircnant une augmentation artificielledes distances entre blogs Il y a deux reacuteponses possibles agrave cette objection
78 Chapitre 3 Dynamiques locales
1 2 3 4 gt410
minus2
10minus1
100
101
102
d
ˆf(d
)
FIGURE 35 Propension f(d) par rapport agrave la distance sociale d calculeacutee sur un eacutechantillonde 500 blogs choisis aleacuteatoirement agrave partir de notre base de donneacutees originale
En premier lieu notre seacutelection de sites a eacuteteacute reacutealiseacutee agrave partir de critegraveres drsquoap-partenance agrave la communauteacute des blogueurs politiques ainsi certains sites se si-tuant agrave proximiteacute (au sens ougrave une courte seacutequence drsquohyperliens permettrait denaviguer de lrsquoun agrave lrsquoautre) des blogs seacutelectionneacutes ont eacuteteacute exclus volontairement delrsquoeacutechantillon Si nous les avions inclus nous aurions mesureacute non pas une distancesociale dans un espace theacutematique et communautaire coheacuterent mais une distancedans le graphe du web qui serait moins pertinente compte tenu de notre objectifde caracteacuterisation des communauteacutes de savoirs 7
En second lieu nous avons effectueacute une mesure de controcircle de cette mecircme pro-pension agrave srsquoattacher agrave une distance sociale d donneacutee sur une sous-seacutelection de notreeacutechantillon de blogs de deacutepart afin de controcircler la robustesse de nos reacutesultats auprocessus de collecte (qui peut malgreacute tout ecirctre incomplet ou comporter des er-reurs) En calculant cette propension sur une seacutelection aleacuteatoire de 500 blogs (soitenviron la moitieacute de notre eacutechantillon de deacutepart nous restreignons donc le reacuteseausocial et le calcul des distances affeacuterentes aux seuls liens entre ces 500 blogs) nousobservons figure 35 un profil quasiment identique agrave celui obtenu sur la totaliteacutedes blogs Cette stabiliteacute srsquoexplique en partie par le protocole de mesure employeacute(un attachement preacutefeacuterentiel est un ratio entre ce que laisse apparaicirctre un compor-tement reacuteel observeacute vs un modegravele de comportement aleacuteatoire En limitant notrejeu de donneacutees agrave 500 blogs lrsquoensemble des distances entre blogs peut avoir eacuteteacutemodifieacutee sans que ne soit bouleverseacute le rapport existant entre la distribution desdistances entre blogs entrant en interaction et la distribution de distances entrelrsquoensemble des couples de blogs)
Ce reacutesultat nous conforte donc sur lrsquoexistence drsquoun processus ldquodrsquohomophiliestructurellerdquo au sein de notre communauteacute On a observeacute la mecircme tendance au
7 Ainsi pour prendre un exemple extrecircme nous ne souhaitons pas que la preacutesence de sites telsqursquoadobe acrobat (extrecircmement freacutequent sur le web) dans le voisinage de nos blogs rentre en comptedans les mesures que nous souhaitons deacutevelopper au niveau de la communauteacute des blogueurs poli-tiques ameacutericains
31 Dynamiques locales dans le reacuteseau social 79
1 2 3 4 gt410
minus2
10minus1
100
101
102
d
ˆf(d
)
1 2 3 4 gt410
minus2
10minus1
100
101
102
d
ˆf(d
)
FIGURE 36 Propension f(d) par rapport agrave la distance sociale d (les valeurs de propensionpour des distances supeacuterieures agrave 4 ont eacuteteacute agreacutegeacutees en un seul point) dans le reacuteseau decitations (agrave gauche) et dans le reacuteseau de commentaires (agrave droite)
sein de la communauteacute de blogs politiques franccedilais dont les courbes de propen-sion pour les reacuteseaux de citations et de commentaires sont repreacutesenteacutes figure 36Les dynamiques des reacuteseaux de citation et de commentaire se caracteacuterisent par despropension agrave la distance sociale tregraves ressemblantes On note neacuteanmoins que la ten-dance agrave la reacutepeacutetition des interactions est moins marqueacutee dans ce jeu de donneacuteesEnfin le mecircme type de comportement a eacuteteacute observeacute sur un reacuteseau de collabora-tion scientifique les chercheurs ayant naturellement tendance agrave co-publier avecdrsquoanciens collaborateurs ou avec des chercheurs agrave faible distance dans leur reacuteseausocial Roth (2006)
La figure 37 repreacutesente la propension de creacuteation drsquoun lien agrave une distance seacute-mantique donneacutee Cette courbe montre une tregraves forte tendance des blogueurs agravelrsquohomophilie (Lazarsfeld and Merton 1954 McPherson and Smith-Lovin 2001 Ruefet al 2004) Les blogs dont les profils seacutemantiques sont eacuteloigneacutes ont une propen-sion systeacutematiquement plus faible agrave se citer que des blogs dont les bagages seacuteman-tiques sont proches Notre objectif eacutetant drsquoeacuteclairer les effets de seacutelection qui preacute-sident agrave la creacuteation de nouvelles interactions cette courbe est calculeacutee en excluantles interactions reacutepeacuteteacutees Seuls sont consideacutereacutes les couples de blogs nrsquoeacutetant jamaisentreacutes en contact preacutealablement dans le reacuteseau de citation ainsi nous eacuteliminonsle biais eacuteventuellement induit par des interactions entre blogs deacutejagrave voisins suscep-tibles drsquoavoir une distance seacutemantique moindre agrave cause drsquoeffets ducircs agrave lrsquoinfluencesociale que les blogs voisins exerceraient lrsquoun sur lrsquoautre
Il est inteacuteressant de comparer ce reacutesultat agrave drsquoautres mesures drsquoattachement preacute-feacuterentiel agrave la distance seacutemantique obtenues sur drsquoautres types de reacuteseaux AinsiRoth (2008a) a constateacute dans un reacuteseau de collaboration scientifique une forte ten-dance agrave lrsquohomophilie comme on lrsquoobserve dans notre cas mais doubleacutee drsquouneleacutegegravere heacuteteacuterophilie vis-agrave-vis des distances faibles ce qui semble indiquer que leschercheurs tendent naturellement agrave collaborer avec des chercheurs seacutemantique-ment proches mais pas parfaitement identiques Ainsi la propension drsquointeraction
80 Chapitre 3 Dynamiques locales
[01] ]12] ]23] ]34] ]45] ]56] ]67] ]78] ]89] ]91]10
minus1
100
101
102
δ
ˆg(
δ)
FIGURE 37 Propension g(δ) de creacuteation drsquoun lien par rapport agrave la distance seacutemantique δ
est maximale pour une distance seacutemantique faible mais non nulle avant de chuterbrutalement pour des δ plus importants
Un effet similaire a eacutegalement eacuteteacute observeacute sur notre reacuteseau de blogs politiquesfranccedilais Si nous traccedilons lrsquoattachement preacutefeacuterentiel agrave la distance seacutemantique dansles reacuteseaux de citation (liens de post) et drsquointeraction (liens de commentaires) figure 38 nous observons que le comportement de creacuteation de commentaires(courbe rouge) est nettement plus heacuteteacuterophile que celui de creacuteation de liens decitation (courbe verte) Cet effet illustre combien ces mesures de comportementslocaux varient selon le type de processus sociaux repreacutesenteacute par le reacuteseau unlien de citation implique geacuteneacuteralement une forme de continuiteacute entre les centresdrsquointerecircts de deux blogs qui ont donc au moins partiellement des theacutematiques re-couvrantes le commentaire peut avoir comme fonction de servir de lieu de deacutebatougrave srsquoexpriment les diffeacuterences entre blogueurs Drsquoapregraves les courbes de propensionlrsquoactiviteacute associeacutee au fait de commenter le billet drsquoun autre blog semble encouragerla formation de liens entre des couples de blogs relativement distants seacutemantique-ment contrairement au comportement de citation qui a tendance agrave encourager lamise en rapport de blogs semblables et donc agrave creacuteer des agreacutegats sociaux tregraves fo-caliseacutes seacutemantiquement Lrsquoactiviteacute de commentaire semble donc induire une plusgrande heacuteteacuterophilie que le comportement de citation qui tend vers une uniformi-sation des groupes (Davis 1963) Ces comportements homophiles microscopiquespeuvent notamment expliquer la division structurelle tregraves marqueacutee entre reacutepubli-cains et deacutemocrates observeacutee au sein de la blogosphegravere politique ameacutericaine par(Adamic and Glance 2005b)
En suivant lrsquohypothegravese drsquoune coeacutevolution des contenus et des relations entreles agents (Crandall et al 2008b Roth 2005) nous pouvons eacutegalement nous inter-roger cette fois-ci de faccedilon statique sur la faccedilon dont la distance seacutemantique estdistribueacutee sur lrsquoensemble des agents voisins dans le reacuteseau de citation vs sur lrsquoen-semble des dyades possibles Les distributions qui ont eacuteteacute repreacutesenteacutees figure 39reacutevegravelent une relative homogeacuteneacuteiteacute de la distribution des distances seacutemantiques
31 Dynamiques locales dans le reacuteseau social 81
[01] ]12] ]23] ]34] ]45] ]56] ]67] ]78] ]89] ]91]
01
1
10
δ
g(δ)
FIGURE 38 Propensions g de creacuteation drsquoun lien de citation (en vert)) et de creacuteation drsquounlien de commentaire (en rouge) par rapport agrave la distance seacutemantique δ dans la blogosphegraverepolitique franccedilaise
entre les couples drsquoagents lieacutes alors qursquoen moyenne la distribution sur lrsquoensembledes dyades potentielles est fortement porteacutee sur les valeurs de δ importantes Ainsipregraves de 30 des couples drsquoagents dans le reacuteseau de citation sont agrave une distanceseacutemantique infeacuterieure agrave 03 ceux-ci repreacutesentent pourtant moins de 4 de lrsquoen-semble des dyades possibles Cette derniegravere courbe est coheacuterente avec les observa-tions preacuteceacutedentes sur lrsquohomophilie accrue des dyades eacutetant deacutejagrave entreacutees en contactles unes avec les autres Nous reviendrons ulteacuterieurement (section 321) sur la ca-racteacuterisation preacutecise de lrsquoinfluence sociale entre deux blogs entrant en interaction
0 110
3
102
101
100
prop
ortion
ofdy
ads
semantic distance δ
FIGURE 39 Distributions des distances seacutemantiques dans la derniegravere peacuteriode dans le reacute-seau de citation en bleu (croix) et sur lrsquoensemble des dyades possibles en rouge (triangles)
314 Motifs coheacutesifs locaux
Nous tacircchons maintenant de caracteacuteriser les comportements des agents encompleacutetant notre analyse des dynamiques de creacuteation de liens par la caracteacuteri-
82 Chapitre 3 Dynamiques locales
sation drsquoagreacutegats locaux limiteacutes agrave trois nœuds Cette caracteacuterisation tregraves simpleconsiste agrave faire le deacutecompte des motifs triadiques observeacutes dans nos reacuteseaux
La coheacutesion sociale locale peut en effet ecirctre appreacutehendeacutee en eacutenumeacuterant lestriades existantes dans le reacuteseau social (Snijders and Stokman 1987 Holland andLeinhardt 1976 Milo et al 2004) 16 configuration de sous-graphes de taille 3
distinctes peuvent ecirctre deacutenombreacutees dans le cas orienteacute Cette approche deacutemogra-phique permet drsquoeacutevaluer en cas de sur-repeacuteresentation ou de sous-repreacutesentationde certaines triades la validiteacute de certaines hypothegraveses quant aux processus struc-turels sous-tendant la formation drsquoun reacuteseau (Davis and Leinhardt 1972)
Par exemple lrsquoanalyse de reacuteseaux sociaux srsquoest largement pencheacutee sur la carac-teacuterisation au travers des triades des processus sociaux transitifs ou de reacuteciprociteacute(Davis 1963) Dans notre cas nous souhaitons interroger la coheacutesion locale soit latendance pour les voisins drsquoun agent drsquoecirctre eacutegalement voisins les uns des autres 8On peut quantifier la coheacutesion locale en nous concentrant sur deux types drsquoobser-vation
ndash le coefficient de clustering c3(i) drsquoun agent i qui srsquoexprime en calculant laproportion de liens existants entre lrsquoensemble des couples de voisins de i
c3(i) =|(j jprime) sub V(i) tel que jprime isin V(j)|
k(i) (k(i)minus 1)ndash le coefficient de transitiviteacute t3 drsquoun agent i deacutefini comme la proportion parmi
les couples drsquoagents (jprime i) relieacutes par un chemin de longueurs 2 pointant versi (ie parmi les agents dont i est un voisin de voisin) de liens directs de jprime
vers i
t3(i) =|(j jprime) sub V(i) tel que jprime isin V(j)|
|(j jprime) tel que j isin V(i) et jprime isin V(j)|Ces deux quantiteacutes mesurent lrsquoimportance de deux processus distincts respecti-vement la tendance qursquoont deux voisins drsquoun mecircme nœud agrave entrer en contact etla tendance drsquoego agrave ecirctre citeacute par des blogs appartenant au voisinage de ses voisinsPour plus de clarteacute ces motifs ont eacuteteacute scheacutematiseacutes figure 310 (haut) Dans notre en-treprise geacuteneacuterale drsquoappreacutehension des caracteacuteristiques structurelles de notre reacuteseaudans ses dimensions sociales et seacutemantiques nous nous inteacuteressons eacutegalement agravela correacutelation existant entre le capital social et seacutemantique drsquoun nœud et la pro-babiliteacute qursquoil a de participer agrave une triade donneacutee Neacutenamoins contrairement auxmesures de formation de dyades la distribution de ces motifs ne semble pas ecirctreaffecteacutee par le capital seacutemantique et nous avons donc seulement repreacutesenter lacourbe drsquoeacutevolution de nos deux coefficients par rapport au capital social k Lrsquoeacutevo-lution de leur valeur moyenne (c3 = 〈c3(i)〉 t3 = 〈t3(i)〉) dans le temps figureeacutegalement en encart
Nous avons eacutegalement veacuterifieacute en simulant une seacuterie de reacuteseaux aleacuteatoires uni-formes (Erdoumls and Reacutenyi 1959) que les valeurs moyennes de clustering et de tran-sitiviteacute mesureacutees sont supeacuterieures drsquoun ordre de grandeur au cas aleacuteatoire Cette
8 Pour rappel j isin V(i) signifie qursquoil existe un lien pointant de j vers i
31 Dynamiques locales dans le reacuteseau social 83
(deacutefinitions)
clustering c3 transitivity t3
$amp
())
$amp
())
0 5 10 15 20 2510
minus2
10minus1
100
c 3(k
)
k0 5 10 15 20 25
10minus2
10minus1
100
t 3(k
)
1 2 3 4 5 6 7 80
01
02
03
period
c3
2 4 6 80
01
02
03
t 3FIGURE 310 Coefficients de clustering c3 ( triangles bleus) et transitiviteacute t3 (carreacutes verts)enfonction du capital social k (encart eacutevolution des valeurs moyennes sur les 8 peacuteriodes)
sur-repreacutesentation de motifs triangulaires est exemplaire des reacuteseaux de terrain eta fortiori des reacuteseaux sociaux (Newman and Park 2003a) et a donneacute lieu agrave de nom-breux modegraveles de reconstruction de reacuteseaux (Watts and Strogatz 1998 Pattisonet al 2000)
Le coefficient de clustering c3 qui mesure la densiteacute dans le voisinage immeacute-diat drsquoego est deacutecroissant avec le capital social ce qui indique que le voisinage desagents les plus connecteacutes a tendance agrave ecirctre moins clusteriseacute Cette tendance estcorroboreacutee par des eacutetudes anteacuterieures deacutecrivant la deacutecroissance du clustering avecle degreacute drsquoun nœud mais cette deacutecroissance est difficile agrave intepreacuteter plus preacuteci-seacutement car elle reacutesulte en partie drsquoun biais systeacutematique dans toute mesure duclustering local (voir (Soffer and Vaacutezquez 2005)) Le coefficient de transitiviteacute t3a un comportement contraire il est croissant 9 avec k Les agents doteacutes drsquoun fortcapital social semblent attirer une proportion plus importante de liens provenantde leur voisins de voisins que des agents de capital social moindre De plus cettetendance ne semble pas ecirctre geacuteneacuterique agrave lrsquoensemble des reacuteseaux on ne lrsquoobservenotamment pas dans le cas drsquoun reacuteseau de collaboration scientifique (Roth andCointet 2009) Dans le cas des blogosphegraveres politiques toutes choses eacutegales parailleurs le capital social drsquoun agent agit comme une proprieacuteteacute particuliegraverementfavorable pour creacuteer de la transitiviteacute ie se faire citer par des agents agrave distance 2
Ces deux types de mesure c3 et t3 bien que caracteacuterisant des comportementsa priori distincts sont relativement stables dans le temps (cf encart figure 310 quimesure lrsquoeacutevolution des valeurs moyennes des deux coefficients sur les 8 peacuteriodes
9 t3 ne souffre a priori pas du mecircme biais de mesure que c3
84 Chapitre 3 Dynamiques locales
eacutetudieacutees) Cette stabiliteacute est drsquoautant plus remarquable que le reacuteseau se densifie lar-gement durant cet intervalle comme lrsquoattestent les courbes drsquoeacutevolution du nombrede liens figure 26
315 Capitaux homophilie sociale et seacutemantique deacutecoupler les effets
Nous avons rendu compte drsquoun certain nombre de reacutegulariteacutes dans les compor-tements de creacuteation de liens au sein du reacuteseau social Ainsi un agent de capital so-cial important situeacute agrave une distance sociale et seacutemantique proche semble constituerun candidat ideacuteal pour former une nouveau lien Il est moins eacutevident compte tenudes correacutelations tregraves fortes qursquoentretiennent les observables les unes avec les autres(distances sociales et distances seacutemantiques sont notamment clairement correacuteleacuteesdes agents agrave distance 1 par exemple sont nettement plus proches seacutemantiquementque la moyenne (cf figure 39)) drsquoappreacutecier drsquoune part lrsquoimportance respectivedes effets les uns par rapport aux autres drsquoautre part la faccedilon dont ces proprieacuteteacutespeuvent interfeacuterer constructivement ou destructivement les unes avec les autresNotre objectif est donc dans une perspective plus holiste drsquoillustrer ces couplages
Pour ce faire nous restons dans le cadre de lrsquoestimation de fonctions drsquoattache-ment preacutefeacuterentiel mais en lrsquoeacutetendant agrave des proprieacuteteacutes mixtes Beaucoup de com-binaisons entre proprieacuteteacutes sont envisageables mais nous nous concentrerons surla faccedilon dont la propension par rapport agrave la distance sociale d est coupleacutee agrave uneautre proprieacuteteacute m Autrement dit eacutetant donneacute un agent i nous souhaitons estimerla propension que cet agent se lie agrave un autre agent j connaissant la distance d(i j)
qui les seacutepare dans le reacuteseau social et une autre proprieacuteteacute m lieacutee agrave lrsquoun des nœudsou agrave la dyade (i j) P (L|d m) Nous limitons notre eacutetude agrave lrsquoexamen de deux pro-prieacuteteacutes m le capital social kj et la distance seacutemantique δ(i j) nous noterons p(d k)
et p(d δ) les deux fonctions de propensions associeacutees
12
3gt3 0
50100
10minus2
10minus1
100
101
102
social capital ksocial distance d
pro
pen
sion
p(d
k)
12
3gt3 [002[ [0204[[0406[[0608[[081]
10minus2
10minus1
100
101
102
semantic distance δsocial distance d
pro
pen
sion
p(d
δ)
FIGURE 311 Propensions drsquointeraction par rapport agrave la distance sociale coupleacutee au capitalsocial p(d k) (gauche) et agrave la distance seacutemantique p(d δ) (droite)
Les courbes de propension calculeacutees qui prennent la forme de surfaces tridi-
31 Dynamiques locales dans le reacuteseau social 85
mensionnelles (figure 311) illustrent une forme de preacuteeacuteminence de la distance so-ciale sur le capital social et la distance seacutemantique Dans les deux cas le paramegravetrequi semble influencer le plus fortement les valeurs drsquoattachement preacutefeacuterentiel estbien d soit la distance sociale Le capital social k a un effet mineur sur les inter-actions reacutepeacuteteacutees et nrsquoinduit des inflexions de la courbe de propension que pourles couples de blogs agrave distance eacuteleveacutee lrsquoun de lrsquoautre Il en va de mecircme de la dis-tance seacutemantique δ dont les effets sur la propension drsquointeraction nrsquoapparaissentque pour une distance sociale suffisante On note drsquoailleurs que pour les blogs agravedistance 1 la propension drsquointeraction est deacutecroissante puis croissante en fonctionde la distance seacutemantique ce qui traduit une tendance agrave reacutepeacuteter des interactionsavec des blogs soit tregraves semblables soit tregraves diffeacuterents 10
Inversement le rocircle de d sur la propension est drsquoautant plus discriminant quele capital social est faible et que la distance seacutemantique est importante Ces ob-servations tendent agrave montrer qursquoau sein de ces communauteacutes la proximiteacute dansle reacuteseau social est deacuteterminante pour le choix des nouvelles interactions Hors delrsquohorizon des proches voisins drsquoautres critegraveres de choix ont droit de citeacute tels que lasimilariteacute seacutemantique ou la populariteacute drsquoune source Ces courbes pourraient reacutesul-ter drsquoun compromis entre deux modes de navigation au sein de ces communauteacutesen ligne Dans un voisinage proche les liens hypertextes entre blogueurs peuventencore guider lrsquoexploration Au delagrave les moteurs de recherche prennent le relaisde cette exploration locale et induisent une plus grande deacutependance au degreacute etagrave la similariteacute seacutemantique Cet effet est peut-ecirctre amplifieacute par la navigation surinternet fortement guideacutee par les moteurs de recherche ces derniers privileacutegiantdes critegraveres de populariteacute (mesureacutes au travers du nombre des liens entrants) et depertinence par rapport agrave une requecircte (on peut imaginer qursquoun blogueur fera desrecherches sur des theacutematiques proches de celles dont il alimente son blog)
Nous avons mis en eacutevidence un certain nombre de reacutegulariteacutes dans la dyna-mique du reacuteseau social semblant fortement deacutependre de la structure du reacuteseaueacutepisteacutemique deacutecrivant les dynamiques agreacutegeacutees de creacuteation de liens dans la blo-gosphegravere politique ameacutericaine Lrsquoespace virtuel deacutecrit par ces blogs est loin drsquoecirctrehomogegravene et ne semble pas pouvoir ecirctre simplement reacuteduit agrave un modegravele hieacuterar-chique La structure du reacuteseau social importe pour deacuteterminer les interactions fu-tures de mecircme que la distribution des contenus dans cet espace
10 les profils drsquoattachement preacutefeacuterentiel agrave d = 1 sont bien diffeacuterents de ceux calculeacutes figure 34en effet nous calculons dans le cas preacutesent la propension agrave creacuteer un lien agrave une distance seacutemantiquedonneacutee δ0 et agrave reacutepeacuteter une interaction qui est proportionnelle agrave P (L|d = 1 δ = δ0) = ν(d=1δ=δ0)
N(d=1δ=δ0)
preacuteceacutedemment nous mesurions simplement pour le sous-ensemble des interactions non reacutepeacuteteacutees lapropension pour un blog de se connecter agrave un autre blog agrave une distance seacutemantique δ0 proportion-nelle agrave P (L d gt 1|δ = δ0) = ν(dgt1δ=δ0)
N(dgt1δ=δ0) La propension repreacutesenteacutee figure 34 correspond donc agrave
une agreacutegation de lrsquoensemble des valeurs observeacutees pour d gt 1
86 Chapitre 3 Dynamiques locales
32 Dynamiques locales dans le reacuteseau socio-seacutemantique
Nous souhaitons maintenant appreacutehender les dynamiques agrave lrsquoœuvre dans lereacutesau socio-seacutemantique liant les acteurs aux concepts qursquoils emploient Nous cher-chons toujours agrave illustrer et caracteacuteriser au niveau des comportements individuelsla co-eacutevolution entre les dynamiques de production de contenus et les dynamiquessociales Pour tenter drsquoeacutevaluer lrsquoinfluence potentielle du contexte social sur lrsquoeacutevo-lution de ldquolrsquo eacutetat cognitifrdquo drsquoun acteur nous tenterons agrave travers une approche pu-rement dyadique de quantifier lrsquoeacutevolution de la similariteacute seacutemantique entre deuxagents ameneacutes agrave interagir en amont et en aval du moment de lrsquointeraction
Dans un second temps nous nous inteacuteresserons agrave un niveau plus meacutesosco-pique agrave la preacutesence de motifs socio-seacutemantiques caracteacuteristiques de la tendanceqursquoont certains concepts agrave ecirctre de faccedilon plus ou moins systeacutematique conjointementemployeacutes par des agents
321 Similariteacute et interaction
Nous nous inteacuteressons agrave nouveau agrave la co-eacutevolution entre les attributs cogni-tifs des agents et la topologie du reacuteseau social support des interactions entre cesagents en tacircchant cette fois ci non pas drsquoappreacutecier des effets de ldquoseacutelectionrdquo (agrave sa-voir la faccedilon dont de nouvelles interactions sont produites dans le reacuteseau socialen fonction de proprieacuteteacutes dyadiques ou monadiques du reacuteseau social et du reacuteseausocio-seacutemantique) mais de caracteacuteriser lrsquoinfluence exerceacutee sur un agent par sonvoisinage en terme de modification de son profil seacutemantique La tregraves forte proxi-miteacute seacutemantique des couples drsquoagents voisins dans notre reacuteseau de citation (voirfigure 39) peut en effet avoir deux causes (i) lrsquohomophilie seacutemantique mise en eacutevi-dence figure 34 a tendance agrave creacuteer des effets de seacutelection qui connectent preacutefeacuteren-tiellement des agents seacutemantiquement semblables (ii) lrsquoinfluence sociale exerceacuteeentre les voisins dans le reacuteseau social est susceptible drsquoencourager certains acteursagrave adopter des comportements similaires agrave ceux de leurs voisins La question du deacute-couplage des effets de seacutelection et drsquoinfluence sociale a reacutecemment beacuteneacuteficieacute drsquouncertain nombre drsquoavanceacutees meacutethodologiques srsquoappuyant sur lrsquoanalyse de donneacuteesrelationnelles longitudinales (Burk et al 2008 Steglich et al 2004)
Nous nous placcedilons dans un cas simplifieacute et ne tacirccherons de mettre en eacutevidenceque des influences de type dyadique la question que nous poserons est donc lasuivante comment les proprieacuteteacutes cognitives drsquoun couple drsquoagents et plus preacuteci-seacutement leur distance seacutemantique est modifieacutee en amont et en aval drsquoun premiereacuteveacutenement drsquointeraction
Contrairement agrave notre cas drsquoeacutetude dans lequel les contenus publieacutes par les blo-gueurs deacutefinissent leur profil cognitif Crandall et al (2008a) deacutecrivent lrsquoactiviteacutedes agents agrave partir des pages qursquoils eacuteditent dans la Wikipedia la meacutethode de ca-racteacuterisation des processus drsquoinfluence agrave laquelle nous nous livrons est neacuteanmoins
32 Dynamiques locales dans le reacuteseau socio-seacutemantique 87
1 2 3 4 5 6 7 8 9 1006
061
062
063
064
065
066
067
068
069
07
time
sem
anti
cdis
tance
δ
FIGURE 312 Evolution moyenne de la distance seacutemantique entre deux blogs semaines 1 agrave10 (T = 7)
tregraves semblable agrave la leurLe protocole de mesure employeacute est le suivant pour chaque couple drsquoagents
(i j) et pour une peacuteriodiciteacute T donneacutee (dans la suite nous utilisons une granulariteacutetemporelle drsquoun jour ou drsquoune semaine) nous calculons le vecteur δij = (δij(tk))k
qui prend comme valeurs la distance seacutemantique entre les agents i et j aux tempstkk tel que tk = 46 + (k minus 1)T 11 δij deacutecrit lrsquoeacutevolution temporelle de la distanceseacutemantique entre i et j Doteacute de ces vecteurs notre objectif est de comprendrecomment δij est modifieacute lorsque les deux agents i et j entrent en interaction agrave uninstant t
Si lrsquoon calcule lrsquoeacutevolution de la distance seacutemantique moyenne entre lrsquoensembledes couples de blogs au sein de notre systegraveme au cours du temps on constateque cette distance est leacutegegraverement deacutecroissante (voir figure 312) Cette deacutecroissancepourrait signaler une polarisation drsquoensemble de la communauteacute de blogueursmais nous souhaitons bien ici examiner les effets locaux induits par les influencesentre voisins deux agrave deux Aussi pour pouvoir comparer de faccedilon non biaiseacuteeles profils drsquoeacutevolution de la distance seacutemantique entre couples de blogs nousavons preacutefeacutereacute normaliser lrsquoensemble des δijij mesureacutes par rapport aux valeurs
moyennes prises au cours du temps par la distance seacutemantique δ0 =P
i6=j δijP
i6=j 1
Lrsquoensemble des vecteurs δijij correspond donc agrave lrsquoeacutevolution temporelle drsquountaux de dissimilariteacute seacutemantique par rapport agrave une eacutevolution moyenne calculeacuteesur lrsquoensemble des couples drsquoagents Une valeur de δij(t) de 08 signifiera doncque les contenus produits par un couple drsquoagents consideacutereacute (i j) sont moins dis-semblables de 20 en moyenne au moment t qursquoun couple drsquoagents choisi aleacuteatoi-rement sur lrsquoensemble des dyades possibles
Nous seacutelectionnons maintenant pour une seacuterie de temps drsquoobservation tkkge1
11 Nous avons eacutetendu la peacuteriode temporelle drsquoobservation de deux semaines afin drsquoecirctre agrave mecircmede deacutecrire des eacutevolutions de distance seacutemantique sur une peacuteriode plus longue les reacutesultats de lasection preacuteceacutedente sont naturellement robustes agrave ce changement de reacutefeacuterentiel
88 Chapitre 3 Dynamiques locales
les couples drsquoagents entrant en relation lrsquoun avec lrsquoautre (quel que soit le sens dulien 12) pour la premiegravere et unique fois au temps tk
13 Nous calculons alors la moyennedes vecteurs de dissimilariteacute sur lrsquoensemble de ces couples 14 Pour chaque peacuteriodetk et pour lrsquoensemble des dyades associeacutees agrave une premiegravere interaction agrave cette dateon obtient ainsi un profil drsquoeacutevolution moyen de la distance seacutemantique sur toute
la peacuteriode drsquoobservation noteacute δtk
Ces profils drsquoeacutevolution ont eacuteteacute traceacutes figure 313 pour quatre valeurs de tkavec une peacuteriodiciteacute drsquoune semaine (T = 7) Cette figure appelle plusieurs com-mentaires Drsquoune part on constate que pour lrsquoensemble des temps drsquointeractiontk1gekge4 et pour lrsquoensemble des moments de mesure de la distance seacutemantiquenormaliseacutee celle-ci est largement infeacuterieure agrave 08 Mecircme tregraves en amont de leurpremiegravere interaction deux blogs ameneacutes agrave interagir lrsquoun avec lrsquoautre dans un fu-tur proche (ici de 1 agrave 4 semaines) ont deacutejagrave une distance seacutemantique sensiblementinfeacuterieure agrave la moyenne Drsquoautre part on constate qursquoen moyenne la distance seacute-mantique normaliseacutee deacutecroicirct brusquement au moment de lrsquointeraction (le momentde lrsquointeraction a eacuteteacute mateacuterialiseacute par des cercles rouges) ainsi qursquoen amont et enaval de lrsquointeraction La porteacutee de lrsquointeraction sur le comportement de produc-tion de contenus des deux blogs ne semble donc pas se limiter au seul momentde creacuteation du lien Naturellement la creacuteation du lien nrsquoexerce pas de causaliteacute reacute-trospective sur lrsquoactiviteacute des blogueurs cette deacutecroissance doit plutocirct ecirctre interpreacute-teacutee comme une similariteacute seacutemantique minimale agrave franchir avant que ne srsquoeacutetablisseune relation (dans le cadre des paramegravetres fixeacutes figure 313 la distance seacutemantiquenormaliseacutee est infeacuterieure agrave 07 au moment de lrsquointeraction (il faut noter que cesprofils drsquoeacutevolution agregravegent chacun plusieurs milliers de dyades et crsquoest bien uncomportement moyen qui est caracteacuteriseacute ici)) La creacuteation effective drsquoun lien entredeux blogs pourrait ecirctre lrsquoaboutissement drsquoune phase drsquoapprentissage des deuxblogs eacuteventuellement meacutediatiseacutee par la lecture drsquoun blog tiers ce qui expliqueraitla preacutesence drsquoune influence anteacuterieure au moment de lrsquointeraction
Afin de mieux saisir lrsquoinfluence de lrsquoeacuteveacutenement drsquointeraction sur la similariteacutede deux blogueurs en amont et en aval de celui-ci nous avons reacutealiseacute le mecircme
calcul en deacutecalant lrsquoensemble des seacuteries temporelles δtk correspondant agrave chaque tk
de faccedilon agrave ce que le moment de lrsquointeraction tk de chaque seacuterie coiumlncide en unemecircme origine temporelle t0 Nous faisons lrsquohypothegravese compte tenu de la longue
12 en pratique plus de 90 de ces nouvelles interactions sont en reacutealiteacute symeacutetriques pour T = 713 Ne consideacuterer que les blogs ayant interagi pendant une seule peacuteriode permet a priori de deacutefinir
de faccedilon univoque le moment de lrsquointeraction Neacuteanmoins affaiblir la contrainte et envisager lesautres couples de blogs interagissant sur plusieurs peacuteriodes en choisissant la peacuteriode de premiegravereinteraction comme origine temporelle fournit des reacutesultats qualitativement similaires Rappelonseacutegalement qursquoun mois drsquoactiviteacute en amont a permis de controcircler que les blogs qui interagissent pourla premiegravere fois le jour 1 ou le jour 20 nrsquoont pas interagi durant le mois et demi qui avait preacuteceacutedeacute
14 Plus formellement pour chaque temps tk on calcule δtk
=X
(ij)isinM(tk)
δij
|M(tk)|ougrave lrsquoensemble
des dyades M(tk) consideacutereacutees sont deacutefinies telles que M(tk) = (i j)Pinfin(i j) = Ptk(i j) gt 0
32 Dynamiques locales dans le reacuteseau socio-seacutemantique 89
2
3
4
5
1
2
3
4
5
6
7
8
9
10
064
068
072
076
08
time
interaction time tk
δ
066
067
068
069
07
071
072
073
074
075
076
FIGURE 313 Evolution moyenne sur les 10 semaines de la distance seacutemantique normaliseacutee
δtk
entre deux blogs ayant interagi pour la premiegravere fois au temps tk Les temps drsquointerac-tion sont mateacuterialiseacutes par un point rouge pour chaque seacuterie Agrave chaque temps de premiegravere
interaction tk (tkk=[25] tel que tk = 46+ (kminus 1)7) on associe le vecteur drsquoeacutevolution δtk
qui correspond donc agrave un nouvel ensemble de dyades
peacuteriode drsquoobservation du reacuteseau qui preacutecegravede la mesure (un mois et demi) que leprofil drsquoeacutevolution de deux blogs ameneacutes agrave interagir le 10eme jour diffegravere peu decelui drsquoun couple interagissant le 1er jour moyennant notre changement drsquooriginetemporelle Comme Crandall et al (2008a) nous mesurons donc la moyenne desprofils drsquoeacutevolution de la distance seacutemantique normaliseacutee en prenant comme ori-gine des temps le jour de lrsquointeraction tk Ce changement de reacutefeacuterentiel permetde repreacutesenter en une seule courbe lrsquoensemble des profils drsquoeacutevolution crsquoest ce gaindrsquoinformation qui permet eacutegalement de reacuteduire le grain drsquoobservation agrave 1 jour touten garantissant une significativiteacute satisfaisante des reacutesultats On a repreacutesenteacute figure314 lrsquoeacutevolution du vecteur drsquoeacutevolution de la distance seacutemantique normaliseacutee pourlrsquoensemble des dyades rentrant en interaction entre le jour 1 et le jour 13 en opeacuterant
ce changement de reacutefeacuterentiel (δtk
(t) rarr δtk
(t minus tk)) Cette courbe est deacutecroissantedegraves t0 minus 8 et continue agrave deacutecroicirctre bien apregraves lrsquointeraction au moins jusqursquoagrave t0 + 8Agrave nouveau on observe au temps t0 de la creacuteation du lien une chute conseacutequentede la distance seacutemantique entre les deux blogs En dehors des quelques jours quiencerclent le moment de lrsquointeraction les profils seacutemantiques semblent stables
Nous avons reproduit le mecircme protocole en choisissant une granulariteacute delrsquoordre de la semaine Les deux profils drsquoeacutevolution moyens sont repreacutesenteacutes figure314 Cette derniegravere courbe confirme bien la stabiliteacute de la distance seacutemantique au
90 Chapitre 3 Dynamiques locales
delagrave de deux semaines avant ou apregraves le moment de lrsquointeraction
minus11 minus9 minus7 minus5 minus3 minus1 1 3 5 7 9 11062
064
066
068
07
072
074
076
days beforeafter interaction
δ
minus5 minus3 minus1 1 3 5062
064
066
068
07
072
074
076
weeks beforeafter interaction
δ
FIGURE 314 Evolution de la distance seacutemantique moyenne entre les couples de blogsayant interagi au temps tkk agreacutegeacutes par le changement de reacutefeacuterentiel trarr tminus tk en haut granulariteacute un jour ensemble des blogs ayant interagi pour la premiegravere fois durant les 13premiers jours (tkk=[113] tel que tk = 46 + (k minus 1)) en bas granulariteacute une semaineensemble des blogs ayant interagi pour la premiegravere fois durant les 7 premiegraveres semaines(tkk=[17] tel que tk = 46 + (k minus 1)7)
Crandall et al (2008a) ont observeacute des effets qualitativement similaires sur lesdynamiques drsquoeacutedition de contenus et drsquointeractions sur Wikipedia Ils interpregravetentla diminution de la distance seacutemantique en amont de lrsquointeraction entre deuxcontributeurs comme une forme de seacutelection et la deacutecroissance observeacutee apregraveslrsquointeraction comme une conseacutequence de lrsquoinfluence sociale exerceacutee entre les reacute-dacteurs Il semble neacuteanmoins difficile drsquoecirctre aussi cateacutegorique sur lrsquointerpreacutetationde nos courbes Drsquoune part lrsquoinfluence sociale pourrait ecirctre un facteur explicatifpour lrsquoensemble de la courbe y compris en amont de lrsquointeraction au moins souslrsquoeffet drsquoune influence indirecte En effet nous avons vu combien la transitiviteacute estun processus freacutequent dans notre reacuteseau ainsi sans avoir agrave entrer en interactiondirecte avec alter ego peut tregraves bien ecirctre deacutejagrave lieacute agrave un blog tiers qui vient de se lier agravealter Une influence sociale indirecte transitant via un blog tiers (ou des blogs tiers)peut donc deacutejagrave ecirctre agrave lrsquoœuvre en amont de lrsquointeraction entre alter et ego Drsquoautrepart ego peut ecirctre familier en tant que simple lecteur (et donc potentiellement sousinfluence) de lrsquoactiviteacute drsquoalter sans jamais lrsquoavoir citeacute explicitement Le deacutebut de la
32 Dynamiques locales dans le reacuteseau socio-seacutemantique 91
deacutecroissance de nos profils de distances seacutemantiques signalerait alors un tempscaracteacuteristique entre la deacutecouverte drsquoun nouveau blog et la citation effective
Pour reacutesumer ces courbes reacutevegravelent un sceacutenario moyen autour de lrsquoeacuteveacutenementdrsquointeraction Premiegraverement la production drsquoun lien de citation entre deux blogsa tendance agrave rapprocher leur profil seacutemantique et ceci aussi bien au moment delrsquointeraction en amont de lrsquointeraction et en aval de celle-ci On peut deacutecrire ceprocessus comme la succession de trois phases
1 une premiegravere phase de rapprochement en amont de lrsquointeraction qui semblesuggeacuterer un processus dynamique drsquoapprentissage des blogs vis-agrave-vis deleur environnement
2 un climax au moment de la reacutealisation effective du lien qui fait deacutecroicirctrebrutalement le taux de dissimilariteacute seacutemantique entre les deux blogs
3 une phase ulteacuterieure de mise sous influence plus directe qui aligne encore unpeu plus les profils seacutemantiques des blogueurs
322 Coheacutesion socio-seacutemantique locale
Nous avons mis en eacutevidence la preacutesence drsquoune structuration coheacutesive localedans le reacuteseau social au travers des coefficients de clustering nous cherchonsmaintenant agrave identifier des motifs eacutequivalents dans le reacuteseau socio-seacutemantiqueLe reacuteseau socio-seacutemantique eacutetant formaliseacute par un reacuteseau biparti la structure co-heacutesive minimale est un cycle de longueur 4 mettant en jeu deux concepts relieacutesagrave une mecircme paire drsquoagents Le coefficient de clustering biparti c4 permet de me-surer la tendance drsquoun agent partageant deacutejagrave un concept avec un autre agent agravepartager eacutegalement un second concept Le coefficient c4 peut eacutegalement ecirctre deacute-fini comme la proportion de motifs cycliques de longueur 4 autour drsquoun agent (cequi est eacutequivalent au calcul de la probabiliteacute qursquoune paire de concepts dans le voi-sinage drsquoun agent appartienne eacutegalement au voisinage drsquoun autre agent) dans lereacuteseau socio-seacutemantique biparti (Robins and Alexander 2004) Formellement laformule de calcul du clustering drsquoordre 4 est la suivante dans le cas biparti 15
c4(i) =
sum
ccprimesubeVC(i)
[κ(c cprime)minus 1]
sum
ccprimesubeVC(i)
[kC(c) + kC(cprime)minus κ(c cprime)minus 1]
15 Des deacutefinitions alternatives du clustering biparti ont eacuteteacute proposeacutees (Robins and Alexander2004 Lind et al 2005) et peuvent diverger quantitativement de notre mesure car elles deacutecrivent leratio des cycles fermeacutes de longueur 4 sur tous les cycles ouverts de longueur 4 (Zhang et al 2008) etcalculent ce ratio directement sur lrsquoensemble du reacuteseau Nous avons controcircleacute que nos reacutesultats sontrobustes agrave ces changements de deacutefinition nos conclusions restent donc qualitativement identiquesquelle que soit la formule employeacutee
92 Chapitre 3 Dynamiques locales
$amp()+-(amp
$amp
(
)1 2 3 4 5 6 7 8
10minus2
10minus1
period
c 4
FIGURE 315 Clustering socio-seacutemantique c4 en bleu (triangles) eacutevolution du coefficientsur les 8 peacuteriodes en rouge (carreacutes) valeurs obtenues pour un reacuteseau biparti aleacuteatoirerespectant le modegravele configurationnel
ougrave kC(p) est le degreacute du concept p isin C i isin S p isin VSC(i) hArr existt l = (i p t) isin
RSC κ(c cprime) deacutesigne le nombre drsquoagents lieacutes agrave la mecircme paire de concepts (c cprime)ie κ(c cprime) = |j isin S telle que c cprime sube VC(j)|
Le reacuteseau socio-seacutemantique eacutetant tregraves dense (certains agents sont quasimentlieacutes agrave lrsquoensemble des concepts et ceux-ci produisant meacutecaniquement des cycles detaille 4 avec lrsquoensemble des autres agents) nous appliquons drsquoabord une proceacute-dure de seuillage sur lrsquoensemble des liens bipartis Nous partons des profils seacute-mantiques des agents et calculons pour chacun des concepts la valeur moyennedu tfidf observeacute sur lrsquoensemble des blogs pendant toute la peacuteriode drsquoobservationNous ne conservons par la suite que les liens bipartis agent vers concept corres-pondant agrave des valeurs de tfidf supeacuterieures agrave 10 fois cette valeur moyenne Cetteproceacutedure permet de reacuteduire le degreacute moyen kC en conservant a priori lrsquoessentielde la structure socio-seacutemantique du reacuteseau Cette proceacutedure agit donc comme unfiltre sur le reacuteseau biparti initial seuls les liens agents-concepts drsquoune ldquointensiteacuterdquosuffisante sont conserveacutes Afin de pouvoir appreacutecier les valeurs obtenues nous lescomparons agrave celles obtenues pour une seacuterie de reacuteseaux aleacuteatoires respectant lesdistributions de degreacute des agents et des concepts (distribution parfois appeleacuteesagrave gauche et agrave droite) du reacuteseau biparti preacutealablement seuilleacute Dans notre modegravelealeacuteatoire les concepts restent donc employeacutes par le mecircme nombre drsquoagents etle nombre de concepts utiliseacutes par les agents suit la mecircme distribution que dansle cas reacuteel Les valeurs obtenues pour ces reacuteseaux aleacuteatoires sont repreacutesenteacutees fi-gure 315 Les coefficients de clustering socio-seacutemantiques mesureacutes sont au moins3 fois plus importants dans le cas reacuteel que dans le cas aleacuteatoire Cette diffeacuterenceindique que les paires de concept ne sont pas choisies aleacuteatoirement Certainsconcepts ont donc tendance agrave apparaicirctre conjointement plus freacutequemment dansles profils seacutemantiques des agents qursquoun modegravele aleacuteatoire ne le preacutedirait 16
16 Symeacutetriquement on peut eacutegalement interpreacuteter la sur-repreacutesentation de ces motifs comme la
33 Dynamiques locales dans le reacuteseau seacutemantique 93
Les valeurs de clustering ont eacuteteacute calculeacutees sur lrsquoensemble de la peacuteriode drsquoobser-vation (voir figure 315) et malgreacute les dynamiques coupleacutees de production de nou-veaux contenus et de modification du reacuteseau social le clustering socio-seacutemantiquereste stable dans le temps (courbe bleue) et significativement plus important quele cas aleacuteatoire sur toute la peacuteriode drsquoobservation (courbe rouge) Une mecircme sta-biliteacute du taux de clustering socio-seacutemantique dans le temps a eacuteteacute mise en eacutevidencedans une communauteacute scientifique (Roth and Cointet 2009) Lagrave encore le cluste-ring drsquoordre 4 obtenu est largement supeacuterieur agrave celui attendu drsquoun reacuteseau socio-seacutemantique aleacuteatoire
33 Dynamiques locales dans le reacuteseau seacutemantique
331 Mesures drsquooccurrences
jan 6 jan 13 jan 20 jan 27 feb 3 feb 10 feb 1706
07
08
09
1
11
12
13
14
15x 10
4
time
num
ber
of
new
soci
o-s
emanti
cli
nks
feb 4 feb 18 mar 4 mar 18 avr 1 avr 15 J avr 290
200
400
600
800
1000
1200
1400
1600
time
num
ber
of
new
soci
o-s
emanti
cli
nks
FIGURE 316 Evolution temporelle du nombre de concepts mobiliseacutes quotidiennement agravegauche au sein de la blogosphegravere ameacutericaine agrave droite au sein de la blogosphegravere franccedilaiseles dates figurant en abscisse correspondent agrave des dimanches (agrave un ryhtme hebdomadairepour la blogosphegravere politique ameacutericaine toutes les deux semaines pour la blogosphegraverefranccedilaise)
Nous nous inteacuteressons dans un premier temps agrave une caracteacuterisation de lrsquoac-tiviteacute de mobilisation de concepts par les blogueurs dans nos deux jeux de don-neacutees blogosphegravere politique franccedilaise et ameacutericaine Lrsquoanalyse de flux informa-tionnel dans les media sociaux ouvre des perspectives ineacutedites autant drsquoun pointde vue theacuteorique pour la fouille de donneacutees qursquoen termes applicatifs comme labo-ratoire drsquoobservation des sources de concernenement agrave travers la planegravete pour les
tendance pour un couple drsquoagents agrave ecirctre associeacutes aux mecircmes concepts cette interpreacutetation dans ladimension sociale est une forme drsquoillustration de la preacutesence drsquoagreacutegats socio-seacutemantiques consti-tueacutes drsquoagents lieacutes denseacutement lieacutes les uns aux autres et mobilisant des concepts identiques (de faccedilonsimilaire (Uchida et al 2007) ou (Chi et al 2007) et toujours Adamic and Glance (2005b) ont mis eneacutevidence la forte polarisation seacutemantiques de territoires localement denses dans la blogosphegravere)
94 Chapitre 3 Dynamiques locales
Jan 1 Michigan Primary Super Tuesday feb 170
001
002
003
004
005
006
time
freq
uen
cyof
term
s
super tuesdaymichigancaliforniahuckabee
feb 1 mar 1 avr 1 1er tour0
0005
001
0015
002
0025
003
0035
004
0045
005
time
freq
uen
cyof
term
s
banlieuevote utilechocircmageidentiteacute nationale
FIGURE 317 Evolution de la freacutequence de 4 concepts agrave gauche au sein de la blogosphegravereameacutericaine agrave droite au sein de la blogosphegravere franccedilaise
sciences sociales drsquoaucuns voyant dans la deacutetection automatique de ldquotendancesrdquodans les blogs une opportuniteacute pour sonder la ldquoconscience collectiverdquo des inter-nautes (Shalizi 2007)
Au niveau global si nous observons lrsquoactiviteacute de la blogosphegravere dans son en-semble sans nous soucier des contenus qui y circulent agrave travers une statistiqueregroupant le nombre total drsquooccurrences de concepts publieacutes chaque jour nouspouvons observer des variations volumeacutetriques caracteacuteristiques de lrsquoactiviteacute hu-maine sous-jacente La figure 316 illustre cette statistique dans nos deux jeux dedonneacutees Mecircme si le signal est bruiteacute dans le cas de la blogosphegravere franccedilaise agravecause de sa taille nous observons une peacuteriodiciteacute typique de lrsquoordre de la semainedans ces seacuteries temporelles les blogueurs eacutetant surtout actifs durant la semaine etsemblant moins productifs durant les week-ends De nombreux travaux baseacutes surlrsquoanalyse de grands flux de donneacutees textuelles sur internet (entre autres (Leskovecet al 2009 Balog et al 2006 Thelwall 2006 Lloyd et al 2006)) ont deacutejagrave illustreacute ceseffets et mis en eacutevidence diffeacuterents types de freacutequence caracteacuteristiques de lrsquoactiviteacutedes blogueurs Certains jours particuliers tels que le 1er janvier et le 31 deacutecembredans le cas de la blogosphegravere ameacutericaine ou le 1er mai dans le cas franccedilais preacute-sentent des profils typiques drsquoune journeacutee de week-end tandis que les jours quiont suivi le dimanche du 1er tour des eacutelections preacutesidentielles franccedilaises (signaleacutepar un J sur la courbe) sont caracteacuteriseacutes par une recrudescence drsquoactiviteacute Globale-ment le niveau drsquoactiviteacute est drsquoailleurs accru dans le dernier mois preacuteceacutedent le votedans le cas franccedilais tandis que lrsquoactiviteacute est leacutegegraverement deacuteclinante dans le cas dela blogosphegravere ameacutericaine quelques jours apregraves le pic drsquoactiviteacute associeacute au ldquoSuperTuesdayrdquo (5 feacutevrier 2008)
Mais cette activiteacute agreacutegeacutee mesureacutee sur lrsquoensemble des contenus (ou du moinslrsquoensemble des termes qui nous a permis de deacutefinir les bagages conceptuels desagents) cache en reacutealiteacute une grande variabiliteacute quant aux thegravemes qui alimententles discussion agrave un moment donneacute dans la blogosphegravere Ainsi si on trace lrsquoeacutevolu-
33 Dynamiques locales dans le reacuteseau seacutemantique 95
Jan 1 Michigan Primary Super Tuesday feb 170
001
002
003
004
005
006
time
freq
uen
cyof
term
s
huckabeebarack obamajohn mccainhillary clinton
feb 1 mar 1 avr 1 1er tour002
004
006
008
01
012
014
016
018
02
022
time
freq
uen
cyof
term
s
RoyalSarkozyBayrou
FIGURE 318 Evolution de la freacutequence drsquoapparition de candidats aux eacutelections preacutesiden-tielles agrave gauche au sein de la blogosphegravere ameacutericaine agrave droite au sein de la blogosphegraverefranccedilaise
tion de la freacutequence drsquoapparition de quatre concepts cleacutes dans le temps figure 317on observe drsquoune part des peacuteriodes drsquoaugmentation brutale dans lrsquousage de cer-tains concepts lieacutes agrave lrsquoactualiteacute politique (primaires du Michigan ou Super Tuesdaydans le cas ameacutericain pics drsquoactiviteacute autour de lrsquoutilisation du concept banlieueou Identiteacute nationale lors de lrsquoirruption de la theacutematique au cours de la campagnepreacutesidentielle franccedilaise) Ces variations drsquoactiviteacute qui se caracteacuterisent par une aug-mentation rapide de la freacutequence drsquousage drsquoun concept suivie drsquoune deacutecroissanceplus ou moins brutale constituent des bursts drsquoactiviteacute (Kleinberg 2003 Barabaacutesi2005 Kleinberg 2005 Bentley and Ormerod 2009) Ces bursts montrent agrave quelpoint la nature de ce qui est discuteacute dans le systegraveme en son entier est soumise agravedes eacutevolutions tregraves rapides
Agrave titre drsquoanecdote ces mesures simples de freacutequence drsquooccurrences de conceptspeuvent permettre de sonder en temps reacuteel les sujets drsquointeacuterecirct ou les personnaliteacutespolitiques qui attirent lrsquoattention des blogueurs (voir figure 318) Sans avoir va-leur de ldquosondages drsquoopinionrdquo ces mesures permettent de signaler les sujets qui(preacute)occupent le plus la blogosphegravere Des meacutethodes de traitement linguistiqueplus fines telles qursquoelles sont deacuteveloppeacutees actuellement notamment sous lrsquoimpul-sion de la recherche en marketing reacuteunies sous la cateacutegorie de sentiment analysistentent de qualifier la faccedilon (positive neacutegative eacutemotive etc) dont sont mobili-seacutes les concepts (Pang and Lee 2008 Mishne and de Rijke 2006) afin drsquoaffiner cesmeacutethodes de fouille de donneacutees
332 Mesures de co-occurrences
Les profils drsquoeacutevolution temporels du nombre drsquooccurrences calculeacutes au sein denos deux blogosphegraveres sont donc extrecircmement irreacuteguliers ils se caracteacuterisent parune peacuteriodiciteacute hebdomadaire une forte reacutesonance aux eacuteveacutenements du ldquomondereacuteelrdquo qui provoquent des ldquoburstsrdquo autour de certaines theacutematiques
96 Chapitre 3 Dynamiques locales
janvier feacutevrier mars avril 1er tour2nd tour juin10
1
102
s
bouclier fiscalbudget de l Etatdette publiquedialogue sociald epense publiquefinances publiquespr e l evements obligatoiresrecettes fiscalesr e forme des retraitesr egimes de retraiter egimes speciauxservice minimumvieillissementporte-avionsdialogue social
FIGURE 319 Evolution du log des similariteacutes entre le concept ldquobaisse des preacuteleacutevementsrdquo etses 15 plus proches voisins sur les 6 premiers mois de 2007
Malgreacute cette forte variabiliteacute la structure du reacuteseau seacutemantique semble doteacuteedrsquoune certaine forme de stabiliteacute Partant des statistiques fournissant pour chaquepaire de concept et agrave chaque temps t le nombre de ses co-occurrences nt
ij (ie lenombre de billets publieacutes au temps t et mentionnant conjointement les concepts i
et j) dans lrsquoensemble de la communauteacute de savoirs on peut construire une mesurede similariteacute entre termes inspireacutee des meacutethodes employeacutees en scientomeacutetrie (onrediscutera longuement de ces meacutethodes dans le chapitre 4) st(i j) = nt
ijNtnt
intj
ougrave nti deacutesigne le nombre total de billets mentionnant le concept i au temps t et
N t deacutesigne le nombre total de billets publieacutes au temps t Cette similariteacute mesureen fait la freacutequence agrave laquelle les concepts i et j sont mentionneacutes dans un mecircmebillet nt
ijNt diviseacutee par la probabiliteacute theacuteorique de les retrouver ensembles si
i et j eacutetaient distribueacutes aleacuteatoirement que lrsquoon estime en effectuant le produit desprobabiliteacutes de mentionner chacun des termes ni(t)N(t)timesnj(t)N(t) 17 Les deuxtermes i et j sont donc ldquoindiffeacuterentsrdquo lrsquoun agrave lrsquoautre au temps t si st(i j) est prochede 1 ldquoanti-correacuteleacutesrdquo si st(i j) ≪ 1 et ldquocorreacuteleacutesrdquo si st(i j) ≫ 1 Nous pouvonsdegraves lors construire le reacuteseau seacutemantique dynamique de similariteacute entre conceptsqui relie agrave un moment t lrsquoensemble des couples de concepts dont la similariteacute estsupeacuterieure agrave s0 (pratiquement nous choisirons comme valeur seuil s0 = 10)
Si nous traccedilons maintenant figure 319 lrsquoeacutevolution de la similariteacute drsquoun concept baisse des preacuteleacutevements par rapport aux concepts auquel il est lieacute au cours de la peacute-riode drsquoobservation nous observons drsquoune part que le terme baisse des preacuteleacutevements
17 De nombreuses autres mesures de similariteacute ont eacuteteacute introduites cosinus coefficient de Jac-card rapport de vraisemblance indice de Dice coefficient de colligation de Yule coefficient de cor-reacutelation produit-moment de Pearson mesure baseacutee sur le test du χ2 ou encore mesure drsquoinformationmutuelle ponctuelle etc
33 Dynamiques locales dans le reacuteseau seacutemantique 97
nrsquoest employeacute que sporadiquement durant les 6 mois drsquoobservation (les disconti-nuiteacutes dans les profils de similariteacute indiquent qursquoau moins un des deux conceptsest absent nous avons veacuterifieacute que les zones vierges de tout concept sont bien asso-cieacutees agrave lrsquoabsence de notre terme cible) La question des baisse des preacuteleacutevements a donceacuteteacute lrsquoobjet de discussions eacutepisodiques De plus chacune des peacuteriodes durant les-quelles le terme a eacuteteacute employeacute sont caracteacuteriseacutees par la co-appartition de conceptsdiffeacuterents
Pour mieux saisir le contenu de ces eacutepisodes et pour faire un premier pas versla caracteacuterisation de structures complexes de haut niveau nous avons eacutegalementcalculeacute sur lrsquoensemble de la peacuteriode drsquoobservation les cliques (soient les sous-graphes complets maximaux) du reacuteseau de similariteacute dans lesquelles le conceptbaisse des preacuteleacutevements apparaicirct Le reacutesultat est repreacutesenteacute tableau 31 Une visuali-sation par cliques permet de saisir des ensembles de concepts qui agregravegent des eacuteleacute-ments qui co-occurrent tous freacutequemment les uns avec les autres fournissant ainsides ensembles de termes doteacutes drsquoune forte contiguiumlteacute seacutemantique On constateainsi que le concept baisse des preacuteleacutevements a successivement eacuteteacute associeacute du 40eme au44eme jour au sein drsquoune mecircme clique aux concepts dialogue social et preacutelegravevementsobligatoires agrave laquelle viennent se rajouter le 45eme jour les concepts bouclier fiscal etporte-avions qui continuent agrave former une clique avec baisse des preacuteleacutevements jusqursquoau52eme jour etc Au delagrave du reacutecit deacutetailleacute du deacuteveloppement des deacutebats autour dece concept la caracteacuteristique la plus importante de la figure 319 tient au fait quesur les 15 concepts apparaissant dans le voisinage du concept baisse des preacuteleacuteve-ments aucun de ceux-ci nrsquoapparaicirct avec une similariteacute infeacuterieure agrave 10 malgreacute unecertaine variabiliteacute dans les mesures de similariteacute On observe donc agrave une certaineeacutechelle temporelle (de lrsquoordre de plusieurs jours et donc largement supeacuterieure agravecelle caracteacuteristique de lrsquoactiviteacute micro qui anime lrsquoensemble des blogueurs) unestabiliteacute remarquable des motifs dyadiques et n-adiques dans le reacuteseau de simila-riteacute seacutemantique
98 Chapitre 3 Dynamiques locales
numeacutero cliques temps
1 dette publique preacuteleacutevements obligatoires 25rarr 31
2 budget de lrsquoEtat dette publique preacutelegravevements obligatoires 32rarr 38
2 budget de lrsquoEtat dette publique dialogue social preacutelegraveve-ments obligatoires dialogue social
39
3 dialogue social preacutelegravevements obligatoires 40rarr 44
4 bouclier fiscal dialogue social preacutelegravevements obligatoires porte-avions
45
4 bouclier fiscal porte-avions 46rarr 52
5 budget de lrsquoEtat dette publique deacutepense publique preacutelegrave-vements obligatoires recettes fiscales
55rarr 58
6 budget de lrsquoEtat dette publique deacutepense publique fi-nances publiques preacutelegravevements obligatoires recettes fis-cales vieillissement
59rarr 62
7 deacutepense publique finances publiques vieillissement 63rarr 66
8 preacutelegravevements obligatoires reacuteforme des retraites reacutegimesde retraite reacutegimes speacuteciaux service minimum
96rarr 104
9 bouclier fiscal dialogue social preacutelegravevements obligatoires reacutegimes speacuteciaux dialogue social
115rarr 122
10 depense publique 140rarr 146
11 bouclier fiscal dette publique recettes fiscales 147rarr 154
TABLE 31 Ensemble des cliques successives auxquelles le concept baisse des preacuteleacutevementsest associeacute dans le reacuteseau de similariteacute
33 Dynamiques locales dans le reacuteseau seacutemantique 99
Reacutesumeacute du chapitre
Dans ce premier chapitre de notre seconde partie consacreacutee agrave la mor-phogenegravese nous avons interrogeacute un certain nombre drsquohypothegraveses deldquofonctionnementrdquo de nos communauteacutes de savoirs en nous concentrantparticuliegraverement sur les blogs politiques en en deacutecoupant notre analyse entredynamiques au sein du reacuteseau social du reacuteseau biparti socio-seacutemantique etdu reacuteseau seacutemantique Un certain nombre de reacutegulariteacutes ont eacuteteacute observeacuteesdans lrsquoensemble des reacuteseaux notamment gracircce au calcul de fonctions drsquoat-tachement preacutefeacuterentiel qui permettent de rendre compte de comportementssysteacutematiques des agents dans un environnement donneacute On a eacutegalementmis en eacutevidence des correacutelations tregraves fortes entre les dimensions sociales etseacutemantiques accreacuteditant lrsquohypothegravese drsquoune co-eacutevolution entre tissu relationnelinter-individuel et production de contenus
Nos principaux reacutesultats sont les suivants ndash importance du capital social et seacutemantique mais eacutegalement de lrsquoactiviteacute
des agents dans leur attractiviteacute vis-agrave-vis de la creacuteation de nouveauxliens de citations
ndash homophilie seacutemantique tregraves forte au sein de nos communauteacutes de sa-voirs renforccedilant lrsquohomogeacuteneacuteiteacute des agreacutegats socio-seacutemantiques
ndash preacutepondeacuterance des aspects sociaux vis-agrave-vis des aspects seacutemantiquesdans le choix de nouvelles interactions le reacuteseau social deacutefinit une to-pologie qui contraint largement les interactions futures
ndash mise en eacutevidence drsquoune influence sociale entre agents voisins apregraves leurpremiegravere interaction mais eacutegalement en amont de celle-ci
ndash mise en eacutevidence drsquoune forme de stabiliteacute dynamique de certains mo-tifs macroscopiques simples au sein des communauteacutes de savoirs en deacute-pit de la richesse des dynamiques individuelles (hieacuterarchisation du reacute-seau social stabiliteacute de la coheacutesion socio-seacutemantique ou des motifs deco-occurrences de termes)
CHAPITRE 4
Structures eacutemergentes
Sommaire
41 Communauteacutes theacutematiques et communauteacutes structurelles 104
411 Une portion du web social franccedilais 104
412 Deacutetection des communauteacutes structurelles 105
413 Heacuteteacuterogeacuteneacuteiteacute des topologies 107
414 Conclusion 107
42 De lrsquoanalyse de lrsquoactiviteacute scientifique agrave la cartographie des sciences 108
421 Les mutations contemporaines de lrsquoactiviteacute scientifique 108
422 Les bases de donneacutees de publications scientifiques une op-portuniteacute pour la cartographie des sciences 110
423 Un modegravele de lrsquoactiviteacute scientifique 110
424 un modegravele multi-eacutechelle de la connaissance 112
425 Meacutethodes scientomeacutetriques de cartographie des sciences 113
43 Cartographier les sciences 114
431 Jeux de donneacutees 114
432 Une mesure asymeacutetrique de proximiteacute entre termes 116
433 Construction du reacuteseau lexical 122
434 Echelle microscopique voisinages locaux 122
44 Echelle meacutesoscopique la notion de champ eacutepisteacutemique 123
441 Deacutefinitions 123
442 Identifier les champs eacutepisteacutemiques 125
443 Plongement des clusters dans un espace bi-dimensionnel 127
444 Qualifier les clusters 129
445 Repreacutesentation macroscopique 130
446 Reconstruction multi-eacutechelle 132
447 Proceacutedures de validation 136
45 Meacutethode de reconstruction dynamique 137
451 Dynamiques de voisinage 138
452 Dynamique drsquoun champ eacutepisteacutemique 138
453 Vers les dynamiques macroscopiques 141
454 Reconstruction de la phylogeacutenie des sciences 144
4541 Meacutethode de reconstruction des lignages entrechamps eacutepisteacutemiques 145
4542 Exemples de phylogeacutenies 147
102 Chapitre 4 Structures eacutemergentes
4543 Motifs phylogeacuteneacutetiques 14846 Trajectoires des individus au sein des paysages seacutemantiques 153
461 Opeacuterateur de projection 153462 Reacutetroaction macro-micro 156463 Se deacuteplacer dans un espace mouvant 160
Un ensemble de structures de haut-niveau non triviales reacutesultant des interac-tions individuelles entre agents a eacuteteacute mis en eacutevidence dans une grande varieacuteteacute dereacuteseaux sociaux reacuteels reacuteseaux de collaboration scientifique (Newman 2001 2004bGaras and Argyrakis 2008) drsquoamitieacute (Adamic and Adar 2005) drsquoemail (Kossinetsand Watts 2006 Zhou et al 2005) de contact teacuteleacutephonique Onnela et al (2007) decontact sexuel (Bearman et al 2004) drsquointeraction dans des communauteacutes en ligne(Holme et al 2004 Viegas et al 2007a) etc On rencontre eacutegalement des structuresde haut niveau similaires ou diffeacuterentes (Newman and Park 2003a) dans drsquoautrestypes de reacuteseaux drsquointeraction (Strogatz 2001 Girvan and Newman 2002 Barratet al 2004) tels que les reacuteseaux biologiques (reacuteseaux meacutetabolique trophique neu-ronal ou reacuteseau de reacutegulation) les reacuteseaux drsquoinfrastructure (comme Internet ou unreacuteseau eacutelectrique) mais aussi les reacuteseaux seacutemantiques (Steyvers and Tenenbaum2005)
Parmi ces structures on peut signaler des motifs classiques deacutejagrave traiteacutes dans lechapitre 3 tels que les distributions de degreacute heacuteteacuterogegravenes ou la preacutesence drsquoune fortedensiteacute locale ou plus geacuteneacuteralement la sur- ou la la sous-repreacutesentation de cer-tains motifs triadiques (Newman 2001 Milo et al 2004) mais aussi lrsquoorganisationdu reacuteseau en petit-monde (Milgram 1967 Watts and Strogatz 1998) ou encore lastructure dite modulaire des reacuteseaux sociaux faite drsquoagreacutegats meacutesoscopiques dontles nœuds sont fortement connecteacutes entre eux et peu lieacutes vers lrsquoexteacuterieur (Girvanand Newman 2002 Newman and Park 2003a)
Ces proprieacuteteacutes structurelles sont remarquables au sens ougrave elles sont caracteacute-ristiques des ldquoreacuteseaux de terrainrdquo et complegravetement absentes du reacuteseau aleacuteatoireprototypique que constitue le graphe aleacuteatoire de Erdos-Reacutenyi (Erdoumls and Reacutenyi1959) G(n p) formeacute de n nœuds connecteacutes deux agrave deux avec une probabiliteacutep 1 Comme nous lrsquoavons deacutejagrave illustreacute pour certaines drsquoentre elles dans le chapitrepreacuteceacutedent bien qursquoeacutemergeant drsquoun grand nombre drsquointeractions locales ces pro-prieacuteteacutes structurelles se caracteacuterisent par une grande stabiliteacute
Au delagrave de la mise en eacutevidence de ces motifs la litteacuterature reacutecente sur lesgrands reacuteseaux drsquointeraction srsquoest orienteacutee notamment sous lrsquoimpulsion des ap-proches physiciennes vers le deacuteveloppement de modegraveles de morphogenegravese de
1 Ces reacuteseaux aleacuteatoires se diffeacuterencient des reacuteseaux reacuteels vis-agrave-vis de lrsquoensemble des caracteacuteris-tiques structurelles que nous venons de mentionner leur distribution de degreacute est homogegravene (ellesuit une loi de Poisson) leur clustering est faible ils se caracteacuterisent eacutegalement par lrsquoabsence drsquounestructure modulaire ou hieacuterarchique par contre tout comme les reacuteseaux reacuteels leur diamegravetre (plusgrande distance entre deux nœuds du reacuteseau) est relativement faible (de lrsquoordre de log(n))
103
reacuteseaux agrave mecircme de reconstruire ces proprieacuteteacutes lrsquoambition eacutetant de reproduire leplus grand nombre de ces faits styliseacutes de haut niveau agrave partir de modegraveles aussiparcimonieux que possible (Watts and Strogatz 1998 Barabaacutesi and Albert 1999Holme and Kim 2002 Klemm and Eguiluz 2001)
Ces proprieacuteteacutes de haut-niveau ont eacutegalement une influence deacuteterminante surles proprieacuteteacutes dynamiques de ces reacuteseaux Une distribution de degreacute en loi de puis-sance garantit une certaine robustesse du reacuteseau et une toleacuterance aux attaques noncibleacutees (Albert et al 2000 Callaway et al 2000) Elle induit eacutegalement nombrede conseacutequences vis-agrave-vis des processus de diffusion(Watts 2002 Cowan and Jo-nard 2004a) 2 et de synchronisabiliteacute (Motter et al 2005 Dorogovtsev et al 2007)La correacutelation entre les structures locales (lieacutees au clustering du graphe) et lesconnections agrave longue distance (proprieacuteteacute de petit-monde) peuvent produire desproprieacuteteacutes remarquables vis-agrave-vis de la naviguabiliteacute dans ces reacuteseaux (capaciteacutedes agents agrave ldquorouterrdquo efficacement une information vers un autre agent agrave partirdrsquoinformations purement locales) (Kleinberg 2000 Watts et al 2002)
Malgreacute la varieacuteteacute des motifs de haut niveau possibles nous nous inteacuteresseronsparticuliegraverement dans ce chapitre aux agreacutegats meacutesoscopiques drsquoentiteacutes formantdes sous-ensembles coheacutesifs qui structurent nos communauteacutes de savoirs Comptetenu de lrsquoapproche duale entre les dimensions sociale et seacutemantique que nousadoptons il srsquoagit drsquointerroger la preacutesence de ces agreacutegats dans les communau-teacutes de savoirs en distinguant entre ceux rassemblant soit des individus (on parleraalors de groupes ou plus preacuteciseacutement de sous-communauteacutes) soit des concepts (onparlera de champs et plus preacuteciseacutement de champs eacutepisteacutemiques dans le cas de laScience) soit les deux Ces agreacutegats apparaissent comme des structures eacutemergentesde nos trois reacuteseaux composant notre reacuteseau eacutepisteacutemique Nous discuterons eacutega-lement des couplages eacuteventuels que ces structures entretiennent les unes avec lesautres
Dans ce chapitre nous resterons succincts sur la dimension sociale en propo-sant une approche simple visant agrave saisir lrsquoarticulation entre communauteacutes structu-relles et communauteacutes theacutematiques agrave travers une eacutetude sur les communauteacutes affini-taires au sein de la blogosphegravere franccedilaise Nous ne deacutetaillerons pas non plus lesmotifs drsquoordre socio-seacutemantique qui peuvent structurer les communauteacutes de sa-voirs On peut renvoyer agrave ce sujet agrave lrsquoensemble du champ de lrsquoanalyse formelle deconcepts qui permet notamment au travers du formalisme des treillis de Gallois decartographier dans un treillis de ldquoconceptsrdquo des ensembles drsquoentiteacutes relieacutees agrave desattributs (Wille 1992) Concernant les communauteacutes de savoirs cette approche aeacuteteacute notamment employeacutee pour repeacuterer les ldquocommunauteacutes eacutepisteacutemiquesrdquo au seindrsquoun ensemble drsquoembryologistes (Roth and Bourgine 2006) Lrsquoessentiel de nos ef-forts se sont concentreacutes sur la dimension seacutemantique agrave travers la mise en eacutevidence
2 Nous aurons lrsquooccasion dans la partie III de revenir sur drsquoautres proprieacuteteacutes des reacuteseaux reacuteelssusceptibles de modifier la dynamique de diffusion
104 Chapitre 4 Structures eacutemergentes
et la cartographie de structures caracteacuteristiques des reacuteseaux lexicaux construits agravepartir de statistiques drsquooccurrences et de cooccurrences extraites de publicationsscientifiques Cet exercice de cartographie des dynamiques scientifiques nous per-mettra eacutegalement de mettre en eacutevidence la reacutetroaction de structures de haut-niveausur la dynamique des theacutematiques de recherche des scientifiques
41 Communauteacutes theacutematiques et communauteacutes structu-
relles
Nous commenccedilons notre exploration des agreacutegats drsquoentiteacutes structurant noscommunauteacutes de savoirs en nous concentrant en premier lieu sur lrsquoanalyse de laldquostructure de communauteacutesrdquo drsquoun reacuteseau social construit agrave partir drsquoune partie duWeb social franccedilais que suit RTGI Ce travail a eacuteteacute reacutealiseacute en collaboration avecCamille Roth Guilhem Fouetillou Nils Grunwald et Camille Maussang
411 Une portion du web social franccedilais
De nombreux travaux sur lrsquoeacutevolution du web postulent depuis le travail seacutemi-nal de Kleinberg (1999) que les sites theacutematiquement proches les uns des autresont tendance agrave ecirctre lieacutes les uns aux autres formant ainsi des structures socio-seacutemantiques coheacuterentes Comme nous lrsquoavons illustreacute dans le chapitre preacuteceacutedentles individus se connectent preacutefeacuterentiellement les uns aux autres lorsqursquoils sontproches seacutemantiquement
Le travail de RTGI srsquoappuie sur ce postulat pour deacutefinir les bases drsquoune geacuteo-graphie des communauteacutes du web social baseacutee sur lrsquoexploration semi-automatiseacuteedu web par des documentalistes qui identifient eacutetiquettent et deacutelimitent des ter-ritoires du web theacutematiquement coheacuterents Ce travail a permis de classer 12 000
sites actifs au sein de la blogosphegravere franccedilaise dans plusieurs dizaines de commu-nauteacutes theacutematiques diffeacuterentes (agrave chaque ensemble de blogs nrsquoest assigneacute qursquouneldquoeacutetiquetterdquo un blog ne peut donc pas appartenir agrave deux communauteacutes diffeacuterenteset les frontiegraveres entre communauteacutes theacutematiques sont univoques)
Dans cette eacutetude nous nous sommes concentreacutes sur 18 de ces communauteacutestheacutematiques seacutelectionneacutees aleacuteatoirement Cet ensemble couvre 4 980 sites web Laliste de ces communauteacutes est donneacutee dans la premiegravere colonne du tableau 41Ces communauteacutes couvrent des theacutematiques tregraves varieacutees deacutecoration drsquointeacuterieurloisirs ou encore politique En plus de beacuteneacuteficier du travail de cateacutegorisation deRTGI nous avons eacutegalement accegraves agrave la structure hypertextuelle qui relie lrsquoen-semble de ces sites - soit au reacuteseau des sites Dans ce reacuteseau tous les liens sontincorporeacutes indeacutependamment de leur nature (liens de citation de commentaireetc) gracircce agrave un crawl en profondeur qui extrait lrsquoensemble des liens hypertextesdes sites
41 Communauteacutes theacutematiques et communauteacutes structurelles 105
Nom TailleComm structurelles Degreacute Clustering ratio de liens
Taille Similariteacute() moyen (c3) Entrant Sortant
deco design 111 57 39 327 019 042 029
cuisine 744 753 95 2803 006 007 004
tech revolution 259 628 37 448 012 04 023
foyer 597 544 61 1652 009 023 026
deco brico 227 227 57 1233 015 033 036
freemen 123 157 74 2696 005 007 016
carnet bd 267 249 86 698 012 022 013
gauche 563 377 59 454 022 02 02
musique 129 130 0 212 021 034 026
jardinage 130 79 59 356 016 043 06
droite 197 67 0 309 022 029 024
automobile 366 124 35 238 021 013 007
beaute 128 142 62 773 018 038 033
centre 160 160 78 568 027 022 04
cinema 248 95 37 388 02 015 008
mode lifestyle 451 363 64 749 011 043 043
liberaux 85 82 81 515 023 014 022
actu opinion 195 43 4 276 021 067 064
TABLE 41 Communauteacutes theacutematiques meilleur appariement possible avec les commu-nauteacutes structurelles deacutetecteacutees et proprieacuteteacutes topologiques
412 Deacutetection des communauteacutes structurelles
Notre objectif est de comparer la cateacutegorisation valideacutee par des documenta-listes agrave partir de critegraveres essentiellement theacutematiques avec une cateacutegorisation auto-matique obtenue sur la base drsquohypothegraveses purement structurelles On applique unalgorithme de deacutetection de communauteacute au reacuteseau des liens hypertextes liant lrsquoen-semble de ces sites web pour calculer cette cateacutegorisation structurelle La notion decommunauteacute structurelle a donneacute lieu agrave une litteacuterature pleacutethorique en physique eten informatique mecircme si en sociologie lrsquoanalyse des reacuteseaux sociaux avait deacutejagraveproposeacute de nombreuses meacutethodes pour deacutetecter des ensembles localement densesNous avons utiliseacute lrsquoalgorithme de Blondel et al (2008) qui propose une meacutethodeinnovante pour optimiser la modulariteacute drsquoun reacuteseau 3
3 La modulariteacute drsquoun reacuteseau geacuteneacuteralement noteacutee Q a eacuteteacute introduite par Newman and Girvan(2004) et mesure pour une partition des nœuds drsquoun reacuteseau en communauteacutes donneacutee la fractiondes liens du reacuteseau qui relient des nœuds appartenant agrave la mecircme communauteacute moins la valeur decette fraction si on la calculait agrave partir drsquoune distribution aleacuteatoire des liens appliqueacutee agrave cette mecircmepartition
106 Chapitre 4 Structures eacutemergentes
freemen
beauty
web comics
FIGURE 41 Portion de notre jeu de donneacutees On a seacutelectionneacute aleacuteatoirement 10 desnœuds issus de trois communauteacutes theacutematiques - carnet bd freemen beauteacute - ainsi que lrsquoen-semble des liens entre eux Nous avons mateacuterialiseacute en noir les nœuds que lrsquoalgorithmede deacutetection de communauteacutes avait ldquocorrectementrdquo cateacutegoriseacute les autres en blanc Cetterepreacutesentation illustre eacutegalement les diffeacuterences de topologies entre les diffeacuterentes com-munauteacutes
Agrave partir du reacuteseau hypertexte symeacutetriseacute constitueacute de 4 980 nœuds nous avonsobtenu 148 communauteacutes structurelles distinctes la plupart eacutetant de taille tregraves reacute-duite (moins de 10 nœuds) Pour simplifier notre proceacutedure de comparaison entrecommunauteacutes structurelles (issues de lrsquoalgorithme de deacutetection de communauteacutes)et theacutematiques (issues du travail drsquoexpert sur les sites) nous nrsquoavons retenu que les18 communauteacutes issues de notre cateacutegorisation automatique qui couvrent 4 222
blogs (soit 848 de lrsquoensemble) Nous avons ensuite effectueacute un appariement op-timal entre nos 18 communauteacutes structurelles et les 18 communauteacutes theacutematiquesoriginales qui maximise le nombre de nœuds ldquocorrectementrdquo identifieacutes
Plus de 80 des sites inclus dans les 18 plus grandes communauteacutes structu-relles ont eacuteteacute correctement cateacutegoriseacutes au sens ougrave ils ont eacuteteacute associeacutes au mecircmeensemble de sites qursquoattendu par la cateacutegorisation theacutematique Neacuteanmoins les reacute-sultats sont extrecircmement variables en fonction des communauteacutes - voir tableau41 Ainsi si lrsquoon calcule pour chaque communauteacute un taux de similariteacute (calculeacutepar une simple distance de Jaccard) entre communauteacute structurelle et theacutematiqueles reacutesultats sont tregraves contrasteacutes Certaines communauteacutes structurelles sont tregravessemblables agrave leur alter-ego theacutematique comme la communauteacute ldquocuisinerdquo ou ldquocar-net bdrdquo dont le taux de similariteacute avoisine 90 4 Drsquoautres sont beaucoup moins
4 Il faut rappeler que plus de 15 des sites ont eacuteteacute cateacutegoriseacutes par lrsquoalgorithme dans des commu-
41 Communauteacutes theacutematiques et communauteacutes structurelles 107
bien reconstruites comme les communauteacutes ldquoactu-opinionrdquo ldquomusiquerdquo ou ldquodroi-terdquo dont les similariteacutes sont nulles ou neacutegligeables Dans ces cas lagrave lrsquoalgorithme asans doute opeacutereacute des partitions a un grain trop fin par rapport agrave la division theacutema-tique choisie par les documentalistes les sites de ces communauteacutes theacutematiquessont donc eacuteparpilleacutes au sein des communauteacutes structurelles de petites tailles
413 Heacuteteacuterogeacuteneacuteiteacute des topologies
Le tableau 41 nous informe eacutegalement sur la tregraves forte variabiliteacute topologiquedes communauteacutes theacutematiques Nous avons simplement mesureacute pour chaquecommunauteacute theacutematique le degreacute moyen des sites qui la composent leur clus-tering et le ratio de liens entrants ou sortants de la communauteacute Lrsquoensemble deces mesures montre une tregraves forte diversiteacute des topologies rencontreacutees Tandis quecertaines communauteacutes comme ldquocuisinerdquo ou ldquonews-opinionrdquo semblent ecirctre tregravesextraverties (ie fort ratio de liens sortants de la communauteacute) drsquoautres commeldquocuisinerdquo semblent nettement plus introverties Drsquoautres paramegravetres comme leclustering ou le degreacute moyen sont soumis agrave une forte variabiliteacute qui laisse agrave pen-ser que la structure topologique des territoires theacutematiques peut ecirctre extrecircmementdiffeacuterente en fonction des processus de reacutegulation ou drsquoorganisation qui les reacute-gissent (voir tableau 41 et figure 41 pour un aperccedilu visuel) Il semble donc quecertaines communauteacutes se construisent sur la base drsquoune structuration interne tregravesforte (faible ratio de liens entrants ou sortants) ce qui les rend facilement deacutetec-table par les algorithmes de deacutetection de communauteacutes fonctionnant sur des basespurement structurelles Drsquoautres communauteacutes par nature plus ouvertes sur leurenvironnement sont moins facilement deacutetectables par ces meacutethodes Agrave ce titre lafigure 41 semble indiquer que les nœuds les moins connecteacutes sont eacutegalement lesmoins bien cateacutegoriseacutes
La variabiliteacute topologique que nous observons illustre le caractegravere mosaiumlquede la blogosphegravere pourtant souvent traiteacutee comme un seul bloc indiffeacuterencieacute Cespremiers reacutesultats appellent agrave un prolongement vers une analyse ethnographiquesysteacutematique des territoires virtuels (Thelwall et al 2005) qui explicite les compor-tements agrave un niveau mesoscopique mdash celui de la communauteacute mdash en insistant surles diffeacuterentes pratiques eacuteditoriales et relationnelles au sein et entre ces diffeacuterentescommunauteacutes
414 Conclusion
Pour reacutesumer nous avons montreacute que la structure relationnelle du jeu de don-neacutees analyseacute se caracteacuterise par la preacutesence de communauteacutes au sens structureldont les frontiegraveres sont relativement proches des frontiegraveres theacutematiques dessineacutees
nauteacutes de petites tailles qui ont eacuteteacute eacutelimineacutees les similariteacutes mesureacutees ne peuvent donc naturellementpas toutes avoisiner les 100
108 Chapitre 4 Structures eacutemergentes
par des experts Certaines communauteacutes theacutematiques ne semblent pas ecirctre suffi-samment ldquostructureacuteesrdquo pour ecirctre reconstruites agrave partir drsquoune simple analyse dela structure relationnelle Aussi leur deacutetection automatique pourrait neacutecessiter defaire appel agrave drsquoautres critegraveres srsquoattachant plus aux contenus qui y sont mobiliseacutesNeacuteanmoins chaque communauteacute theacutematique semble se caracteacuteriser par des mo-tifs topologiques speacutecifiques ouvrant la voie agrave une exploration comparative desmodes drsquoorganisation des communauteacutes en ligne
42 De lrsquoanalyse de lrsquoactiviteacute scientifique agrave la cartographie
des sciences
Dans la suite de ce chapitre nous nous concentrerons sur la reconstruction desdynamiques scientifiques en nous focalisant sur la dimension seacutemantique de notrescheacutema geacuteneacuteral 27 (plan arriegravere de notre paralleacutelogramme) Nous souhaitons (i)mettre en eacutevidence et cartographier les structures conceptuelles qui organisentnotre reacuteseau seacutemantique (ii) deacutecrire leur dynamique et les repreacutesenter Ces meacute-thodes de reconstruction ont eacuteteacute conccedilues et deacuteveloppeacutees avec David Chavalarias etont donneacute lieu aux publications suivantes (Chavalarias and Cointet 2008 Cointetand Chavalarias 2008 Chavalarias and Cointet 2009 Cointet 2008) Enfin noustacirccherons en coheacuterence avec notre programme de description des dynamiquesmulti-eacutechelles des communauteacutes de savoirs (iii) drsquoeacutevaluer les reacutetroactions que cesstructures de haut-niveau exercent sur la dynamique des profils seacutemantiques deschercheurs (immergence du haut niveau seacutemantique sur les dynamique microsco-piques du reacuteseau socio-seacutemantique)
421 Les mutations contemporaines de lrsquoactiviteacute scientifique
Certains soutiennent qursquoun nouveau reacutegime de production de connaissancesaurait eacutemergeacute conseacutecutivement agrave la transformation de la nature mecircme du proces-sus de recherche Selon Nowotny et al (2001 2003) la Science serait entreacutee dans unnouveau mode de production de connaissance donnant toute sa place agrave une trans-disciplinariteacute deacutefinie comme la circulation drsquooutils de perpectives theacuteoriques et depersonnes Selon ces auteurs les reacuteflexes habituels de classification de la connais-sance suivant des taxonomies bien codifieacutees et clairement deacutelimiteacutees heacuteriteacutees dela structure preacutevalant dans le seul monde acadeacutemique seraient caduques Lrsquoegravere dela trans-disciplinariteacute rend toujours plus floues les frontiegraveres entre communauteacutesscientifiques les assemblages drsquoacteurs et de concepts se multipliant la mobilisationde connaissances techniques ou scientifiques nrsquoest plus circonscrite agrave une seulecommunauteacute scientifique bien clocirctureacutee Les acteurs engageacutes dans la chaicircne mdash oumecircme dans le reacuteseau mdash de production de connaissances proviennent drsquohorizonsdivers ingeacutenieurs chercheurs usagers etc Indeacutependamment des deacutebats que cette
42 De lrsquoanalyse de lrsquoactiviteacute scientifique agrave la cartographie des sciences 109
theacuteorie a susciteacutes la sociologie des sciences et des techniques srsquoaccorde aujour-drsquohui sur le fait que la production scientifique est une activiteacute eacuteminemment socio-technique et que de nouveaux modes de production de la connaissance ont eacutemergeacuteces derniegraveres deacutecennies entraicircnant des changements aussi bien eacutepisteacutemiques or-ganisationnels que politiques Ainsi la notion de ldquomoderniteacute reacuteflexiverdquo introduitepar Beck (1992) illustre la faccedilon dont le public srsquoest eacuteveilleacute aux risques techno-scientifiques durant le XXeme siegravecle transformant de par la mecircme le regard quelrsquoon portait sur les sciences Mais au delagrave de ces theacuteories globales des eacutetudes plusmicros montrent que la construction de poleacutemiques techno-scientifiques se fondeeacutegalement sur des dynamiques socio-cognitives complexes de co-constuction desconcernements des acteurs et des programmes de recherche Les frontiegraveres entrescience et socieacuteteacute sont sans cesse reneacutegocieacutees par des acteurs heacuteteacuterogegravenes plongeacutesdans de nombreuses aregravenes aux reacutegimes de justifications varieacutes (Bonneuil et al2008)
Ces transformations ont eacuteteacute accompagneacutees drsquoune mutation profonde desmodes drsquoeacutechange dans le monde de la recherche Internet a impacteacute agrave plusieurstitres les dynamiques scientifiques (i) la fluidification des eacutechanges entraicircne uneplus grande liberteacute dans la construction des ldquoeacutequipes scientifiquesrdquo qui sont deplus en plus internationales et trans-institutionnelles (Jones et al 2008) (ii) la mul-tiplication des supports de publication ainsi que la mise agrave disposition drsquoarchives enligne de plus en plus souvent gratuites deacutemocratisent en partie lrsquoaccegraves agrave la connais-sance et creacuteent des ponts ineacutedits entre les travaux de diffeacuterentes disciplines (iii) cesbases de donneacutees permettent dans le prolongement des premiers travaux de scien-tomeacutetrie drsquoeffectuer des mesures de lrsquoimpact des publications des chercheurs oumecircme des institutions au sein du paysage de la recherche internationale Cettenouvelle donne nrsquoa pas fini de modifier en profondeur les pratiques de recherche
De faccedilon geacuteneacuterale le transfert des publications scientifiques vers des supportsnumeacuteriques tel que les journaux en ligne ou les bases de donneacutees drsquoarchives scien-tifiques a complegravetement modifieacute la faccedilon dont nous interagissons avec la produc-tion scientifique Nous sommes passeacutes drsquoun reacutegime fortement hieacuterarchiseacute de cir-culation des contenus agrave un reacutegime plus horizontal et plus reacutesiliaire dans lequel lanavigation dans les bases de publications scientifiques est susceptible de mettrecocircte agrave cocircte des productions provenant drsquounivers potentiellement tregraves diffeacuterents 5
5 La principale forme de hieacuterarchie qui preacutevaut encore dans la navigation agrave travers ces espacesest issue drsquoune autoriteacute hypertextuelle directement lieacutee agrave lrsquoideacutee drsquoun ldquorankingrdquo des publications enfonction du nombre de citations reccedilues mais finalement a priori diffeacuterente de la notion plus tradi-tionnelle de reacuteputation drsquoune revue
110 Chapitre 4 Structures eacutemergentes
422 Les bases de donneacutees de publications scientifiques une opportu-
niteacute pour la cartographie des sciences
Lrsquoaccessibiliteacute de ces bases de donneacutees de publications dans un format numeacute-rique nous semble ecirctre une opportuniteacute reacuteelle pour retracer lrsquoeacutevolution de la pro-duction scientifique La contrepartie drsquoune telle meacutethode tient naturellement agrave lamasse et agrave lrsquoheacuteteacuterogeacuteneacuteiteacute de ces bases de donneacutees Lrsquoideacutee de srsquoappuyer sur les mar-queurs textuels de lrsquoactiviteacute scientifique pour en retracer la dynamique nrsquoest cer-tainement pas neuve lrsquohistoire de la scientomeacutetrie est drsquoailleurs eacutetroitement lieacutee agravecelle du deacuteveloppement des bases de donneacutees massives et des outils de traitementde ces bases Un auteur aussi crucial dans le champ de la scientomeacutetrie et de la bi-bliomeacutetrie qursquoEugene Garfield creacuteateur de lrsquoISI 6 teacutemoigne bien de la faccedilon dontla scientomeacutetrie srsquoest deacuteveloppeacutee de concert avec ces innovations technologiques
Interroger lrsquoorganisation des sciences agrave travers ces bases de donneacutees mdash la faccedilondont disciplines et sous-disciplines se deacuteploient et srsquohybrident ou cartographierces articulations mdash constitue naturellement un enjeu crucial pour les chercheursqui doivent srsquoinformer continucircment sur les travaux plus ou moins connexes agrave leurspeacutecialiteacute Crsquoest eacutegalement un besoin strateacutegique pour les gestionnaires de la re-cherche telle ou telle institution devant comprendre lrsquoorganisation et la directionprise par les communauteacutes scientifiques existantes afin de deacutefinir de faccedilon opti-male leur politique scientifique Crsquoest enfin une opportuniteacute pour la sociologie oulrsquohistoire des sciences drsquoecirctre agrave mecircme de voir se deacuteployer les dynamiques de pro-duction de connaissance agrave partir drsquoune observation in-vivo afin drsquoeacutetayer les hypo-thegraveses et modegraveles que conccediloivent les chercheurs
423 Un modegravele de lrsquoactiviteacute scientifique
Lrsquoactiviteacute scientifique reacutesulte de la combinaison de processus complexes (Hull1988) porteacutes par de multiples reacuteseaux drsquointeractions heacuteteacuterogegravenes mecirclant cher-cheurs ingeacutenieurs objets drsquoexpeacuterimentation outils journaux institutions (etc)(Morris and Yen 2004) Les voies de communication et drsquointeraction au sein de cesystegraveme sont multiples que ces liens soient formels (dynamiques de constructiondrsquoeacutequipes de coauteurs pour publier un article citations etc) ou informels (cor-respondance par mail entre chercheurs ou rencontres dans les congregraves) (Mullins1972)
La publication scientifique dont la validiteacute est attesteacutee agrave lrsquoissue drsquoun processusdrsquoeacutevaluation par les pairs est geacuteneacuteralement consideacutereacutee comme lrsquoun des principauxproduits de ces interactions multiples Les centres drsquointeacuterecirct objets concepts drsquoune
6 ISI Institute of Science Information degraves 1961 cet institut creacutea le ldquoGenetics Citation Indexrdquo surla demande du National Institute of Health avant de lrsquoeacutetendre en 1963 agrave drsquoautres disciplines agrave traversle Science Citation Index (SCI) Ces indices mesurent le nombre de citations reccedilues par des articlespublieacutes dans des revues acadeacutemiques
42 De lrsquoanalyse de lrsquoactiviteacute scientifique agrave la cartographie des sciences 111
communauteacute scientifique sont ainsi cristalliseacutes au sein des publications qursquoelle pro-duit Nous ferons donc lrsquohypothegravese que les dynamiques eacutepisteacutemiques drsquoun do-maine peuvent ecirctre appreacutehendeacutees au travers des publications scientifiques qui ysont produites Srsquointeacuteresser exclusivement aux publications scientifiques pour deacute-crire lrsquoactiviteacute sceintifique peut paraicirctre reacuteducteur Lrsquoimportance de cette ldquoinscrip-tion litteacuterairerdquo dans lrsquoactiviteacute de recherche (Latour and Woolgar 1986) nous encou-rage neacuteanmoins agrave faire cette hypothegravese Les publications scientifiques sont en effetomnipreacutesentes dans la communication entre chercheurs de faccedilon directe (projetdrsquoeacutecriture drsquoun article par exemple confeacuterences) ou indirecte (comme eacuteleacutement dereacutefeacuterence privileacutegieacute au cours des discussions entre chercheurs)
P1
A1A2
C1C2C3
P2
A1A2
C2C3
P2P3
P3
A3A4A5
C3C4
A1
A2
A3
A4
A5
C1
C2
C3
C4
Ensemble des
publications P
Ensemble des
auteurs A
Ensemble des
concepts C
FIGURE 42 Les chercheurs interagissent au sein drsquoun reacuteseau de collaborations scienti-fiques lieacutes par un reacuteseau de citation tandis que la distribution des connaissances est iciformaliseacutee par un reacuteseau de co-apparition de concepts au sein de ces publications
La figure 42 repreacutesente de faccedilon scheacutematique le processus de base de lrsquoacti-viteacute scientifique Des auteurs (A) produisent des publications (P ) qui mettent enrelation des concepts (C) Ce scheacutema fait apparaicirctre le reacuteseau de co-publication(liens noirs entre auteurs) le reacuteseau de citations (liens dirigeacutes noirs entre publi-cations) ainsi que le reacuteseau de co-preacutesence des concepts au sein des publications(liens rouges pondeacutereacutes entre concepts) Il est extrecircmement reacuteducteur comparative-ment agrave la richesse des reacuteseaux animant lrsquoactiviteacute scientifique Certains auteurs ontpris le parti drsquoune deacutemarche exhaustive vis-agrave-vis de lrsquoensemble des entiteacutes (publi-cations journaux auteurs reacutefeacuterences termes etc) ldquomises en reacuteseaurdquo au sein delrsquoactiviteacute scientifique (Chen 2006 Morris and Yen 2004) Nous prenons une direc-tion diffeacuterente en privileacutegiant une orientation cognitive srsquoattachant agrave reconstruireles dynamiques des communauteacutes scientifiques uniquement au travers des agen-cements conceptuels produits au sein des publications Nous nous concentrons
112 Chapitre 4 Structures eacutemergentes
donc sur la reconstruction de la dynamique des ldquochamps eacutepisteacutemiquesrdquo entenduscomme lrsquoensemble des termes (qursquoils se rapportent agrave des outils des objets desmeacutethodologies des theacuteories etc) qui sont freacutequemment employeacutes conjointementdans les corps des publications
Notre objectif va donc consister agrave reacuteveacuteler les structures remarquables drsquoun reacute-seau seacutemantique de proximiteacute entre concepts (parfois eacutegalement appeleacute reacuteseau seacute-mantique lexical) construit agrave partir des statistiques sur les occurrences et cooccur-rences de termes au sein des articles afin de cartographier le paysage conceptuelconstruit par et dans lequel se deacuteploie lrsquoactiviteacute scientifique
424 un modegravele multi-eacutechelle de la connaissance
Une autre contrainte de notre travail de reconstruction est de rendre comptedu caractegravere naturellement multi-eacutechelle de la structure de la connaissance scienti-fique Par exemple les universiteacutes opegraverent classiquement une division des sciencesen grands deacutepartements qui correspondent agrave autant de disciplines comme la biolo-gie lrsquoeacuteconomie lrsquoinformatique la physique etc Chacune de ces disciplines peutpar la suite ecirctre elle-mecircme morceleacutee en sous-champs biologie veacutegeacutetale animalemoleacuteculaire eacutevolutive (voir figure 43 pour une illustration) On peut certaine-ment critiquer la pertinence de certaines de ces divisions Certaines frontiegraveres an-ciennes peuvent ecirctre rendues caduques par lrsquoeacutevolution des sciences ou semblerrelever de critegraveres non eacutepisteacutemiques Ces frontiegraveres peuvent ecirctre de diffeacuterentes na-tures et ne suivent pas neacutecessairement les mecircme lignes de deacutemarcation selon quelrsquoon tacircche de diffeacuterencier un objet drsquoeacutetude (biologie animaleveacutegeacutetale) ou un typedrsquoapproche (micro-biologiephysiologieeacutecologiedeacuteveloppement) par exempleDans la plupart des cas un ldquosous-champrdquo est speacutecifique drsquoun seul champ qui lrsquoen-globe mais dans certains cas un sous-champ est preacuteciseacutement deacutefini comme lrsquoin-tersection de plusieurs champs (la bio-physique par exemple) Les frontiegraveres entrechamps ne sont pas parfaitement hermeacutetiques et nombre de ces ensembles se re-couvrent
Neacuteanmoins on ne peut nier que la division en disciplines champs sous-champs (etc) constituent une taxonomie efficace pour se donner une repreacutesen-tation mentale intuitive de lrsquoorganisation des sciences Neacuteanmoins la structuregeacuteneacuterale que nous aimerions pouvoir mettre en eacutevidence nrsquoest certainement pascelle drsquoune structure hieacuterarchique stricto sensu prenant la forme drsquoun arbre maisplutocirct celle drsquoun treillis qui autorise des formes de ramifications plus varieacutees entreentiteacutes Le premier objectif que nous nous fixons sera donc de reconstruire cetteldquohieacuterarchierdquo propre agrave lrsquoorganisation des sciences en respectant la complexiteacute desldquomotifs drsquoinclusionrdquo et leurs articulations et donc en autorisant un certain degreacutedrsquoheacuteterarchie Cette reconstruction sera reacutealiseacutee agrave lrsquoaide drsquooutils drsquoanalyse quanti-tative de nature scientomeacutetrique srsquoappuyant exclusivement sur la connaissance destatistiques de base sur les occurrences et cooccurrences drsquoun ensemble de termes
42 De lrsquoanalyse de lrsquoactiviteacute scientifique agrave la cartographie des sciences 113
micro-biologiebiologie eacutevolutive
biologie moleacuteculaire
biologie
FIGURE 43 Exemple scheacutematique de lrsquoorganisation drsquoun champ Les trois sous-champsrepreacutesenteacutes relegravevent tous de la biologie mais leur intersection est non vide
extraits drsquoun corpus de publications scientifiques
425 Meacutethodes scientomeacutetriques de cartographie des sciences
La scientomeacutetrie est une science reacutecente qui prit son envol agrave la fin des anneacutees70 gracircce au deacuteveloppement combineacute des outils de traitement automatiseacute de largesbases de donneacutees et la mise agrave disposition de ces bases dans des formats numeacute-riques Elle deacutesigne de faccedilon geacuteneacuterique lrsquoapplication de meacutethodes statistiques agravedes donneacutees quantitatives dans le but de caracteacuteriser un certain eacutetat de la science
La cartographie des sciences est un des objectifs premiers de la scientomeacutetrieet figurait parmi les ambitions des pionniers de la discipline (de Solla Price 1965)Les cartes des sciences sont geacuteneacuteralement construites agrave partir de donneacutees de cooc-currences en suivant lrsquohypothegravese qursquoun couple drsquoentiteacutes qui apparaissent conjoin-tement ldquofreacutequemmentrdquo (ou en tout cas plus freacutequemment que ne le preacutedirait unedistribution aleacuteatoire) entretiennent lrsquoune avec lrsquoautre une certaine ldquoproximiteacuterdquoCes mesures de proximiteacute permettent par la suite de construire des reacuteseaux desimilariteacute entre ces entiteacutes
Ces donneacutees de co-occurrences peuvent aussi bien srsquoappliquer agrave des auteursco-signant le mecircme article (reacuteseaux de co-publication ou de collaboration (New-man 2004a Palla et al 2005a)) agrave des reacutefeacuterences eacutetant citeacutees dans un mecircme article(reacuteseaux de co-citation (Small 1973)) ou agrave des termes figurant dans le mecircme titre- abstract - ou texte drsquoun article (reacuteseaux dits de ldquomots associeacutesrdquo (ou co-word) Cal-lon et al (1983)) Dans cette derniegravere cateacutegorie des structures de haut niveau sontdeacuteduites des textes en analysant les motifs reacutecurrents qui y figurent (Callon et al1986) Le lien entre deux termes est pondeacutereacute par une intensiteacute qui correspond agraveleur similariteacute supposeacutee Ces mesures de similariteacute permettent de construire desclusters de termes puis des cartes des sciences censeacutees refleacuteter les domaines drsquoac-
114 Chapitre 4 Structures eacutemergentes
tiviteacute qui organisent le domaine scientifique eacutetudieacuteReacuteseaux de citation et de mots associeacutes constituent les deux meacutethodes privileacute-
gieacutes pour cartographier les sciences Les deux techniques ont leurs inconveacutenientsrespectifs (Noyons 2001) et ont donneacute lieu agrave un certain nombre de critiques (voirnotamment la critique de Leydesdorff (1997) sur la pertinence de lrsquoanalyse lexico-graphique) Les eacutetudes fondeacutees sur les co-citations peuvent srsquoaveacuterer biaiseacutees parlrsquoabsence de certains papiers pertinents ou au contraire par lrsquoinclusion de publi-cations non pertinentes Le deacutecalage temporel entre lrsquoeacutemergence de nouvelles speacute-cialiteacutes scientifiques et leur deacutetection sur une carte des sciences peut eacutegalementsrsquoaveacuterer probleacutematique Les techniques agrave base de mots associeacutes peuvent eacutegale-ment souffrir drsquoun choix inapproprieacute de lrsquoensemble initial de termes agrave cartogra-phier Mais lrsquoobjection principale qui est adresseacutee agrave ce type drsquoanalyse est que lesmots peuvent ecirctre ambigus ou porteurs de plusieurs sens
Dans la suite nous introduirons une meacutethode de reconstruction des dyna-miques scientifiques agrave partir drsquoune analyse de mots associeacutes Nous proposons uncertain nombre de meacutethodes permettant de deacutepasser les limites classiques de lacartographie des sciences Ces meacutethodes sont introduites agrave diffeacuterents niveaux dutravail de reconstruction (i) introduction drsquoune mesure de proximiteacute asymeacutetriqueentre termes qui tienne compte de lrsquoheacuteteacuterogeacuteneacuteiteacute de leur distribution (section 43)(ii) utilisation drsquoune meacutethode de clusterisation des termes qui autorise les clus-ters recouvrants - et en corrollaire la polyseacutemie de certains termes (section 44)(iii)deacutefinition drsquoune veacuteritable repreacutesentation multi-eacutechelle articulant champs et sous-champs dans une structure de treillis (et qui ne se limite donc pas agrave un arbre hieacute-rarchique) (iv) reconstruction du reacuteseau phylogeacuteneacutetique des champs scientifiques(section 45)
43 Cartographier les sciences
Nous allons deacutecrire dans cette section la meacutethodologie que nous avons deacuteve-loppeacutee pour cartographier les sciences en nous contentant pour le moment drsquoune re-construction statique de lrsquoorganisation drsquoun ensembles de termesL pertinents struc-turant un domaine drsquoeacutetude donneacute Nous preacutesenterons les trois jeux de donneacutees quiserviront agrave illustrer notre meacutethodologie La construction de ces cartes se deacuterouleen trois eacutetapes Une fois le travail drsquoindexation reacutealiseacute sur un corpus de textes da-teacutes il srsquoagit dans un premier temps de deacutefinir un reacuteseau de proximiteacute entre nostermes Nous proposons drsquointroduire une mesure asymeacutetrique de proximiteacute entredeux termes qui rendent compte des relations ldquodrsquoinclusionrdquo entre termes
431 Jeux de donneacutees
Nous deacutecrivons dans cette partie les trois cas drsquoeacutetude qui serviront agrave illustrernotre meacutethode par la suite Chaque domaine drsquoeacutetude est constitueacute drsquoun premier
43 Cartographier les sciences 115
corpus de termes ou drsquoexpressions noteacute L que lrsquoon cherche agrave cartographier et drsquounsecond corpus de publications agrave partir duquel sont calculeacutees les statistiques drsquooc-currences et de cooccurrences de notre corpus de termes Lrsquoanalyse de mots asso-cieacutes peut deacutependre de faccedilon critique du corpus initial de termes Le risque est debiaiser cet ensemble (on parle de lrsquoldquoindexer effectrdquo (Whittaker (1989) Callon et al(1986) He (1999)) en omettant des termes capitaux ou en seacutelectionnant des termestrop geacuteneacuteraux Dans notre cas nous tacircchons drsquoeacuteviter ces biais en proposant drsquounepart une meacutethode semi-automatique de seacutelection des mots-cleacutes et drsquoautre part endeacuteveloppant des outils drsquoanalyse robustes par rapport au bruit preacutesent dans labase de termes initiale
Le premier cas drsquoeacutetude a trait au champ des systegravemes complexes il est constitueacutedrsquoun corpus de pregraves de 450 termes (la liste des termes est disponible dans lrsquoan-nexe B1 Ce corpus de termes a eacuteteacute construit agrave partir drsquoune liste de mots-cleacutes drsquounappel agrave projet deacutedieacute agrave la science des systegravemes complexes de lrsquoUnion Europeacuteennedans le cadre du 6eme programme cadre On a par la suite extrait le nombre decooccurrences (dans le texte inteacutegral des articles) observeacutees dans la base de don-neacutees Scirus de 1975 agrave 2005 La base originale est composeacutee de plus de 20 millionsde publications couvrant un large eacuteventail de plate-forme de publications scienti-fiques 7
La seconde base de donneacutees traite de la biologie contemporaine exposeacutee auxeacutevolutions paradigmatiques introduites par lrsquointroduction de la ldquomeacutetaphore reacute-seaurdquo Nous avons utiliseacute Pubmed-Medline comme source de publications Cetteplateforme couvre la plupart des publications en biologie (plus de 17M de reacutefeacute-rences) dont les titres et les abstracts sont publiquement accessibles Nous avonsconstruit une premiegravere requecircte reacuteunissant un certain nombre de termes caracteacute-ristiques de la penseacutee reacuteseau en biologie (ldquonetwork evolvable evolvability hubfeedbackrdquo) afin de seacutelectionner dans notre corpus de publications les articles men-tionnant au moins lrsquoun de ces termes dans leur titre ou leur abstract Cette requecirctenous a permis de collecter pregraves de 2 4 millions drsquoarticles srsquoeacutetalant sur plus de 50
anneacutees La seacutelection du corpus de termes a eacuteteacute reacutealiseacutee en deux eacutetapes Dans unpremier temps un ensemble de publications comportant le terme ldquonetworkrdquo dansleur titre a eacuteteacute seacutelectionneacute gracircce agrave une requecircte sur lrsquoISI Web of Knowledge limiteacutee agraveun ensemble de journaux de premier rang 8 Cette premiegravere extraction a permis de
7 ScienceDirect Society for Ind amp App Mathematics BioMed Central Crystallography JournalsOnline Institute of Physics Publishing MEDLINEPubMed Project Euclid Scitation and PubmedCentral
8 la requecircte preacutecise est la suivante (TS=Network)AND (SO=(Science OR Nature OR Pro-ceeding of the National Academy of Science OR Nature Genetics OR Annual Review of GeneticsOR Annual Review of Biochemistry OR Annual Review of Cell and Developmental Biology ORAnnual Review of Genomics and Human Genetics OR Journal of Theoretical Biology OR Bio-chimica et Biophysica Acta OR Nucleic Acids Research OR Journal of Molecular Biology ORGenetics OR Current Biology OR Genome Research OR Genome Biology OR BioinformaticsOR Biosystems OR BMC Systems Biology))
116 Chapitre 4 Structures eacutemergentes
construire une liste de termes caracteacuteristiques extraits des abstracts de cette col-lection drsquoarticles Un ensemble de plus de 800 termes (liste en annexe B2) a ainsieacuteteacute seacutelectionneacute en privileacutegiant les termes les plus freacutequents (apregraves avoir eacutelimineacute lesldquostop-wordsrdquo) Une matrice de cooccurrences des termes a eacuteteacute construite agrave partirde notre corpus de publications de Pubmed
Notre dernier domaine drsquoeacutetude concerne le champ du deacuteveloppement durableLe corpus de publications a eacuteteacute construit par Marc Barbier et Andrei Mogoutovagrave partir de la base de donneacutees de publications CAB 9 Cette plate-forme regroupepregraves de 5 millions de publications scientifiques de sciences naturelles appliqueacuteescouvrant les disciplines suivantes sciences de lrsquoagriculture sciences de lrsquoenviron-nement alimentation amp santeacute humaine microbiologie et parasitologie sciencesdes plantes Une requecircte speacutecifique que nous avons reproduit en annexe C a eacuteteacuteconstruite afin drsquoextraire de faccedilon aussi preacutecise que possible lrsquoensemble des publi-cations rattacheacutees au domaine drsquoeacutetude le deacuteveloppement durable (Barbier et al2008) Ce sont finalement environ 70 000 publications apparenteacutees agrave la theacutematiquequi ont eacuteteacute rassembleacutees Nous avons par la suite extrait des mots-cleacutes de ces pu-blications (en nous reacutefeacuterant aux mots-cleacutes choisis par les revues) afin drsquoen extraireles quelques 650 termes qui apparaissent plus de 80 fois dans le corpus (cf lrsquoan-nexe B3)
432 Une mesure asymeacutetrique de proximiteacute entre termes
Notre premier objectif est de deacutefinir une mesure de proximiteacute entre termes ennous appuyant exclusivement sur les statistiques brutes du nombre drsquooccurrenceset de cooccurrences calculeacutees sur un ensemble de termes L Ainsi eacutetant donneacutesdeux termes i et j lrsquoindexation du corpus de publications permet drsquoextraire lesvaleurs ni nj et nij qui correspondent respectivement au nombre drsquoarticles danslesquelles apparaissent i j ou les deux termes i et j Nos statistiques sont en reacutealiteacuteeacutequivalentes au nombre de pages renvoyeacutees par un moteur de recherche auquel onadresse une requecircte de type ldquoirdquo ldquojrdquo ou ldquoi AND jrdquo Ces statistiques brutes sontde plus dynamiques On peut les calculer chaque anneacutee afin drsquoobtenir leur profildrsquoeacutevolution temporel comme lrsquoillustre la figure 44 sur une seacutelection de termes
De nombreuses mesures du degreacute de similariteacute ou de proximiteacute entre deuxtermes agrave partir de leurs occurrences et co-occurrences ont eacuteteacute utiliseacutees en sciento-meacutetrie (voir He (1999) pour une revue) Nous pouvons citer entre autres lrsquoindice
drsquoinclusion qui srsquoexprime sous la forme nij
min(ninj)lrsquoindice drsquoeacutequivalence
n2ij
ninj
(Michelet 1988 Callon et al 1986) lrsquoindice de Jaccard nij
ni+njminusnij(qui mesure un
taux de recouvrement de i vis-agrave-vis de j) ou encore lrsquoindice de proximiteacute nijNninj
Drsquoautres mesures ont eacuteteacute introduites par la suite Neacuteanmoins la plupart syntheacute-tisent la relation entre deux termes sous la forme drsquoun simple scalaire Or une
9 http wwwcabiorgdatapageasp iDocID=228
43 Cartographier les sciences 117
FIGURE 44 Dynamiques compareacutees des freacutequences drsquooccurrence et de cooccurrence destermes Public Goods Game Theory et Experimental Economics extraites de notre base de don-neacutees Systegravemes complexes
mesure de proximiteacute symeacutetrique ne permet pas a priori de rendre compte de lrsquoheacute-teacuterogeacuteneacuteiteacute des freacutequences drsquousage des termes Ces mesures ne permettent paseacutetant donneacutes deux termes dont les freacutequences sont tregraves diffeacuterentes de distinguerentre le terme le plus ldquogeacuteneacuteriquerdquo et le plus ldquospeacutecifiquerdquo
Or la structure hieacuterarchique theacuteorique des champs scientifiques que nous met-tions en exergue dans la section preacuteceacutedente nous paraicirct capitale pour la bonnecompreacutehension de lrsquoorganisation des champs scientifiques Et cette hieacuterarchisa-tion se retrouve naturellement dans la distribution du nombre drsquooccurrences destermes apparaissant dans nos corpus qui se caracteacuterise par une forte heacuteteacuterogeacute-neacuteiteacute On peut deacutecrire ces distribution par une loi de Zipf comme il est classiquede lrsquoobserver sur les freacutequences drsquooccurrences de termes tireacutes de corpus de lan-gage naturel (voir (Steyvers and Tenenbaum 2005) mecircme si cette proprieacuteteacute nrsquoestpas systeacutematique (Lieberman et al 2007)) Nous avons repreacutesenteacute pour lrsquoun denos jeux de donneacutees la distribution de ces freacutequences drsquooccurrences figure 45
Cette heacuteteacuterogeacuteneacuteiteacute naturelle de la distribution des freacutequences des conceptsdrsquoun corpus de texte peut avoir une conseacutequence primordiale sur les mesures deproximiteacute que lrsquoon reacutealise Agrave titre drsquoexemple sur la figure 44 les occurrences etco-occurrences du terme Public Goods (noteacute PG par la suite) avec Game theory (GT )et Experimental economics (EE) ont eacuteteacute traceacutees A priori Game theory et Experimen-tal economics sont deux termes pertinents par rapport aux eacutetudes lieacutees aux PublicGoods Neacuteanmoins le terme experimental economics est par nature plus speacutecifique etpar conseacutequent moins freacutequent que game theory dans la litteacuterature (ce dernier est
118 Chapitre 4 Structures eacutemergentes
104
105
106
100
101
102
103
number of occurrences n
num
ber
of
term
sw
ith
noccurrences
FIGURE 45 Distribution des occurrences des termes extraits de notre base de donneacuteesbiologie amp reacuteseau
au moins 5 fois plus freacutequent que le premier)Les probabiliteacutes conditionnelles P (GT |PG) et P (EE|PG) qursquoun article in-
cluant deacutejagrave Public Goods mentionne eacutegalement Game theory ou Experimental eco-nomics sont comparables Par contre les probabiliteacutes conditionnelles inverses P (PG|GT ) et P (PG|EE) sont tregraves diffeacuterentes la derniegravere eacutetant beaucoup plusimportante que la premiegravere Cela est directement imputable aux diffeacuterences defreacutequences entre les termes 10 Le terme Public Goods est donc tregraves largement uti-liseacute dans les eacutetudes invoquant lrsquoeacuteconomie expeacuterimentale alors que les eacutetudes srsquoap-puyant sur la theacuteorie des jeux ne relegravevent pas neacutecessairement de la question desPublic Goods
Les mesures de proximiteacute utiliseacutees classiquement ne permettent pas de repeacutererdes relations proches de lrsquoinclusion lorsque les deux termes ont des freacutequencestregraves diffeacuterentes (crsquoest le cas de lrsquoindice drsquoeacutequivalence (drsquoailleurs eacutegalement appeleacutecoeffcient drsquoinclusion mutuelle (Turner et al 1988)) lrsquoindice de Jaccard ou encorede lrsquoindice de proximiteacute) ni de distinguer entre un terme geacuteneacuterique et un termespeacutecifique agrave partir de la simple observation de leur proximiteacute (lrsquoindice drsquoinclusioneacutetant symeacutetrique mecircme cette mesure ne permet en rien drsquoindiquer lequel des deuxtermes ldquoest inclusrdquo dans lrsquoautre)
Nous pouvons en compleacutement de la figure 46 qui en donne une repreacutesentationensembliste reacutesumer les diffeacuterentes configurations possibles lorsqursquoon entreprendde mesurer la proximiteacute entre deux termes i et j
1 p(i|j) haut p(j|i) haut i et j appartiennent au mecircme champ et ont des freacute-quences similaires
2 p(i|j) bas p(j|i) haut j est geacuteneacuterique relativement au terme i (eg i = PublicGoods et j = Experimental economics)
3 p(i|j) haut p(j|i) bas j appartient agrave un sous-domaine speacutecifique de i (eg i=
10 Rappelons la formule de Bayes eacutetant donneacute deux eacuteveacutenements A et B P (A|B) = P (B|A) P (A)P (B)
43 Cartographier les sciences 119
Experimental economics et j = Public Goods)
4 p(i|j) bas p(j|i) bas i et j sont peu connecteacutes lrsquoun avec lrsquoautre indeacutependam-ment de leur freacutequence respective
Seule la combinaison des indices drsquoeacutequivalence et de lrsquoindice drsquoinclusion per-mettrait a priori de couvrir lrsquoensemble des configurations possibles (recouvrementmutuel de termes de freacutequences semblables pour le premier et configuration drsquoin-clusion hieacuterarchique (direction exclue) pour le second) Afin de pouvoir discrimi-ner ces configurations nous proposons une nouvelle mesure de proximiteacute S quenous appellerons eacutegalement mesure de similariteacute S est conccedilue comme une me-sure asymeacutetrique de faccedilon agrave rendre compte de la directionnaliteacute des relations drsquoin-clusion entre termes (i speacutecifiquegeacuteneacuterique relativement agrave un terme j plus geacuteneacute-riquespeacutecifique)
Notre mesure de proximiteacute S doit remplir les conditions suivantes
1 S(i j) = f(nij ni nj) ge 0 on souhaite exprimer la similariteacute entre deuxtermes i et j agrave partir des seules statistiques sur leurs nombres drsquooccurrenceset de cooccurrences cette mesure est toujours positive
2 S(i j) = 0 ssi nij = 0 deux termes agrave recouvrement nul (aucun article ne lesmentionne simultaneacutement) ont une proximiteacute nulle
3 S(i i) = 1 la proximiteacute maximale vaut 1 elle est obtenue ssi lorsque les en-sembles drsquoarticles mentionnant chaque terme sont parfaitement identiques
4 S(i j) croissant avec nij un plus large recouvrement entre deux termes tra-duit une plus grande proximiteacute entre termes partf
partnijgt 0 agrave nombres drsquooccur-
rences (ni et nj) constants
5 S(i j) est deacutecroissant par rapport agrave ni et nj toutes choses eacutegales par ailleurslrsquoaugmentation de la freacutequence du terme j lrsquoeacuteloigne de i vis agrave vis de S f(nij ni nj) est donc une fonction croissante vis agrave vis de sa premiegravere co-ordonneacutee et deacutecroissante vis agrave vis des deux autres toutes choses eacutegales parailleurs
6 La similariteacute doit ecirctre indeacutependante de la taille de lrsquoeacutechantillon drsquoarticles surlesquels sont calculeacutees les statistiques ainsi la fonction f doit ecirctre homo-gegravene ie f(λx λy λz) = f(x y z) Nous en deacuteduisons que f peut srsquoexprimercomme une fonction de deux paramegravetres S(i j) = f(1 nijni nijnj) Onreacuteeacutecrit donc S(i j) = f(nijni nijnj) qui srsquoexprime donc comme une fonc-tion de deux variables nijni et nijnj vis agrave vis desquelles elle est croissante
7 La fonction f doit ecirctre continue en (0 0) avec f(0 0) = 0 drsquoapregraves 2
Si nous eacutecrivons maintenant le deacuteveloppement de Taylor de S en 0 nousavons f(x y) = micro0 + micro10x + micro01y + micro20x
2 + micro02y2 + micro11xy + micro30x
3 + micro30y3 +
micro12xy2 + Drsquoapregraves les conditions (2) et (7) on peut deacuteduire que micro0 = 0 micro10 =
120 Chapitre 4 Structures eacutemergentes
micro01 = micro20 = 0 etc Ainsi f peut ecirctre eacutecrit comme la somme des produits croiseacutes
f(nij
ninij
nj) =
infinsum
k=1
iminus1sum
l=1
microklminusk(nijni)k(nijnj)
lminusk
Les fonctions de type Cobb-Douglas fαβ(x y) = xαyβ constituent la classe de
fonctions la plus simple reacutepondant agrave lrsquoensemble de ces contraintes f eacutetant unefonction croissante en nij
ni et nij
nj α gt 0 et β gt 0 Afin de reacuteduire la gamme desparamegravetres et garantir certaines conditions de navigabiliteacute nous optons pour lamesure suivante
Sα(i j) =(
(nijni)α(nijnj)
1α
)min(α 1α
)
Nous appellerons focus le paramegravetre α Cette mesure reacutepond agrave toutes lescontraintes listeacutees et possegravede une proprieacuteteacute suppleacutementaire dont nous discuteronsles conseacutequences dans la section suivante Sα(i j) = S
1α (j i)
Notre proximiteacute permet de deacutefinir le voisinage drsquoun terme cible i eacutetant donneacuteun seuil s et un focus α comme
Vsα(i) = j|Sα(i j) gt s
Elle peut srsquointerpreacuteter geacuteomeacutetriquement comme une mesure de pseudo-inclusion (pour un focus suffisant) Asymptotiquement on obtient une mesuredrsquoinclusion pure si α rarr 0 Sα(i j) gt 0 lArrrArr nij = nj et si α rarr infinSα(i j) gt 0 lArrrArr nij = ni De plus si on choisit α = 1 notre proximiteacute re-devient symeacutetrique et on retrouve lrsquoindice drsquoeacutequivalence e (Callon et al 1991) e
aura tendance agrave rapprocher les couples de termes (i j) dont la partie recouvrante(nij) est importante vis agrave vis des occurrences de chacun des termes (ni et nj) ie ily a inclusion mutuelle Cette mesure est symeacutetrique et privileacutegie agrave recouvrementeacutegal les termes de freacutequences semblables La mesure drsquoinclusion pure (α = 0) ins-crira dans le voisinage immeacutediat drsquoun terme i lrsquoensemble des termes co-occurrantsysteacutematiquement avec i indeacutependamment des valeurs respectives de ni ou de nj
La mesure que nous adoptons se situe entre ces deux extrecircmes (indice drsquoeacutequi-valence et inclusion pure) crsquoest pourquoi nous lrsquoappelons eacutegalement mesure depseudo-inclusion Dans ce cas notre mesure de proximiteacute permet vis-agrave-vis drsquounterme i donneacute de favoriser dans son voisinage les termes j qui sont fortementrecouvrants avec i en peacutenalisant ceux dont le ratio nijni = p(j|i) est faible (siα gt 1) ou dont le ratio nijnj = p(i|j) est faible (si α lt 1) Ainsi notre mesure Sα
parameacutetreacutee par un focus α gt 1 aura tendance agrave privileacutegier (au sens ougrave (Sα(i j) estimportant et toujours agrave recouvrement eacutegal) vis-agrave-vis drsquoun terme cible i des termesj qui sont des bons contextes vis agrave vis de i Inversement si α lt 1 les voisins lesplus proches de i seront plutocirct bien contextualiseacutes par i
Pour reacutesumer eacutetant donneacute un terme i et cherchant ses plus proches voisinsvis-agrave-vis de S
43 Cartographier les sciences 121
p(j|i)
p(i|j)0
0
S(ij) important
S(ji) important
S(ij) tregraveS faible
S(ji) tregraveS faible
S(ij) faible
S(ji) important
S(ij) important
S(ji) faible
FIGURE 46 Repreacutesentation scheacutematique des effets de la mesure de similariteacute S en fonctionde diffeacuterents agencement possibles entre deux termes plus ou moins freacutequents et plus oumoins recouvrants (α = 01)
ndash pour un focus α lt 1 notre mesure S sera importante vis-agrave-vis de termes quisont plutocirct speacutecifiques dans le contexte de i
ndash pour α gt 1 S sera importante pour des termes j qui constituent des bonscontextes pour i
Dans la suite le paramegravetre de focus est fixeacute et vaut α = 01 11 La figure 46 permetde se repreacutesenter les valeurs respectives prises par S
110 (i j) en fonction des diffeacute-
rentes configurations attendues Dans notre exemple le terme i est proche de j (ausens ougrave S(i j) est important) lorsque i constitue un bon contexte pour j ou lorsquei et j ont des freacutequences similaires tout en ayant un grand nombre de cooccur-rences mais pas lorsque j est un bon contexte pour i Lrsquoidentiteacute Sα(i j) = S1α(j i)
est illustreacutee dans la mecircme figure par la symeacutetrie que lrsquoon observe en comparantles configurations mettant en jeu des termes de freacutequences diffeacuterentes (au haut agravegauche et en bas agrave droite) Intervertir i et j dans la formule revient alors agrave inverserla valeur de α ce qui a pour conseacutequence de rapprocher du terme cible les termesqui constituent un bon contexte agrave son eacutegard Comme nous le preacuteciserons dans la
11 NB la valeur de α retenue est relativement petite et nous sommes en reacutealiteacute dans une situationquasi eacutequivalente agrave une expression de la proximiteacute beaucoup plus simple de la forme S(i j) =
nijni neacuteanmoins notre expression eacutetendue permet qualitativement de privileacutegier des couples determes dont les termes se situent dans une gamme de freacutequences ldquoraisonnablerdquo Dans la pratiqueles opeacuterations de cartographie agrave venir sont relativement peu affecteacutees par la valeur de α
122 Chapitre 4 Structures eacutemergentes
section suivante le paramegravetre de focus permet ldquodrsquoorienterrdquo la recherche de termesvoisins soit vers des termes de mecircme importance (α = 1) soit vers des termes plusspeacutecifiques que le terme cible original (α lt 1) soit vers des termes plus geacuteneacuteriques(α gt 1)
433 Construction du reacuteseau lexical
Etant donneacute un ensemble L de termes et un corpus de textes dont on peutextraire les statistiques brutes drsquooccurrences et de cooccurrences des termes de LOn deacutefinit alors Gs = (L Es) le reacuteseau lexical dirigeacute dont lrsquoensemble des liens Es
correspond agrave la matrice drsquoadjacence Ss telle que Ss(i j) = Hs(Sα(i j)) ougrave Hs(x)
est une fonction seuil valant 1 si x ge s 0 sinon Plus simplement on peut deacutefinirGs comme le reacuteseau dont les liens relient les termes i aux termes dans le voisinagede i Vsα(i)
Naturellement lrsquoensemble des mesures et notations que nous avons introduitjusque-lagrave deacutepend drsquoun jeu de donneacutees couvrant une peacuteriode bien deacutefinie Ainsimecircme si nous nrsquoabordons pas les aspects dynamiques pour le moment et ne preacute-cisons pas cette deacutependance dans les notations notre mesure de distance entretermes le voisinage drsquoun terme ainsi que le reacuteseau lexcial Gs qui en deacutecoule deacute-pendent naturellement de la peacuteriode drsquoobservation retenue et sont susceptiblesdrsquoeacutevoluer lorsqursquoon les applique agrave un corpus dynamique Nous ne preacuteciseronscette deacutependance dans nos notations que lorsqursquoil y a ambiguiumlteacute Nous simplifie-rons eacutegalement Sα en S lorsque le focus prendra sa valeur de reacutefeacuterence 01
434 Echelle microscopique voisinages locaux
Le paramegravetre de focus α offre un moyen eacuteleacutegant de naviguer avec un point devue local agrave travers notre corpus gracircce agrave la notion de voisinage Etant donneacute unterme cible nous cherchons agrave identifier ses plus proches voisins Le paramegravetre α
permet drsquoacceacuteder agrave deux types de voisinage Pour de faibles valeurs de α (α lt 1)les plus proches voisins ont tendance agrave avoir un caractegravere plus geacuteneacuterique que leterme cible Si le paramegravetre α est plus important (α gt 1) on retrouvera preacutefeacuteren-tiellement des termes plus speacutecifiques que i La figure 47 extraite de notre casdrsquoeacutetude sur un corpus de termes portant sur les systegravemes complexes illustre cetteproprieacuteteacute Nous avons traceacute le voisinage Vsα du terme knowledge discovery pourα = 01 et α = 10 et une valeur de seuil s fixeacutee Pour α = 01 les termes les plusproches de Public Goods le speacutecifient via les termes utiliseacutes dans les sous-speacutecialiteacutesdu domaine (dans lrsquoexemple figure 47 ldquocollective actionrdquo ldquoconsumer sovereign-tyrdquo etc) A contrario un paramegravetre de focalisation supeacuterieur agrave 1 ici α = 10 atendance agrave assigner au voisinage du terme cible lrsquoensemble de ses contextes (dansnotre exemple ldquopolicyrdquo ldquodevelopmentrdquo ldquoenvironmentrdquo etc)
44 Echelle meacutesoscopique la notion de champ eacutepisteacutemique 123
experimental economics
social dilemma
Ultimatum Game
collective action
prisonerrsquos dilemma
behavioral economics
consumer sovereignty
public services
altruism
procedural invariance
analysis
policy
social
individual
development
control
context
environment
structure
management
Public Goods
=01
=10
FIGURE 47 Voisinages en speacutecificiteacute et en geacuteneacutericiteacute du terme Public Goods Selon la va-leur de α on obtient parmi les plus proches voisins de notre terme cible lrsquoensemble destermes qui ont tendance agrave le speacutecifier (α = 1
10 en vert) ou lrsquoensemble des termes qui lecontextualisent (α = 10 en jaune)
44 Echelle meacutesoscopique la notion de champ eacutepisteacute-
mique
Dans cette section nous abordons la seconde partie de notre travail de recons-truction en proposant une meacutethode de deacutetection et de repreacutesentation des agreacutegatsde termes qui structurent notre reacuteseau lexical Gs Nous proposons une meacutethodepour deacutetecter ces ensembles de termes fortement interconnecteacutes les uns aux autresappeleacutes champs eacutepisteacutemiques En nous appuyant sur la mesure de proximiteacute asymeacute-trique S nous introduisons eacutegalement une repreacutesentation bi-dimensionnelle ducontenu de ces champs ainsi que deux indices permettant de quantifier la struc-turation de ces champs Enfin nous deacutefinirons un carte conceptuelle agrave partir delrsquoarticulation entre ces champs et tenterons drsquoen fournir une repreacutesentation intelli-gible
441 Deacutefinitions
Lrsquoopeacuteration de cartographie neacutecessite souvent eu eacutegard au grand nombre drsquoen-titeacutes agrave repreacutesenter une premiegravere eacutetape de reacuteduction du reacuteseau lexical agrave traversdes meacutethodes de cateacutegorisation qui reacuteunissent au sein de clusters des ensemblesde termes denseacutement interconnecteacutes Mais cette opeacuteration nrsquoest pas uniquementguideacutee par des besoins techniques elle vise eacutegalement agrave identifier des domainesde speacutecialiteacute (ldquoresearch specialitiesrdquo) pour reprendre le terme employeacute par Chubin(1976) Morris and der Veer Martens (2008) deacutefinissent de la faccedilon suivante cesassemblages hybrides de textes et de chercheurs
ldquothe research specialty is the largest homogenous unit in the self-organizing systems of science in that each specialty tends to have its
124 Chapitre 4 Structures eacutemergentes
own set of problems a cohesive core of researchers shared knowledgevocabulary and archival literaturerdquo 12
Cette deacutefinition peut ecirctre directement rapprocheacutee de la (ou de lrsquoune des) deacutefi-nition(s) que Kuhn (1970b) donne drsquoun paradigme
ldquoa paradigm is what the members of a scientific community shareand conversely a scientific community consists of men who share aparadigm
Mecircme si lrsquoessentiel des eacutetudes sur ces ldquo speacutecialiteacutes de rechercherdquo srsquoest concentreacuteeen sociologie des sciences sur la structure sociale qui les anime (espaces de com-munication systegraveme drsquoeacutevaluation processus drsquoaccumulation de ressources et decapital diffusion de connaissances au sein de collegraveges invisible (Crane 1972) etc)ces champs sont eacutegalement deacutetermineacutes et peuvent ecirctre deacutetecteacutes gracircce aux proprieacute-teacutes cognitives qui les structurent (Chubin 1976 Chen et al 2002) Dans notre ana-lyse nous nous concentrerons sur la seule dimension cognitive de la productionscientifique traceacutee agrave travers le recueil des publications Cela ne signifie pas que lesstructures que nous cherchons agrave mettre en eacutevidence sont des constructions exclu-sivement cognitives mais que nous en cherchons des traces dans le seul reacuteseaulexical Gs
La notion de ldquospeacutecialiteacute de rechercherdquo a eacuteteacute largement discuteacutee dans la litteacute-rature Knorr-Cetina (1982) notamment critique seacutevegraverement le concept ldquoquasi-eacuteconomiquerdquo et fonctionnaliste de speacutecialiteacute scientifique comme uniteacute drsquoeacutetude per-tinente pour comprendre lrsquoorganisation technique et sociale de la science Elle luideacutenie toute forme opeacuteratoire vis-agrave-vis de lrsquoactiviteacute scientifique dans les laboratoiresou mecircme vis-agrave-vis des repreacutesentations mentales des chercheurs Elle lui oppose lanotion drsquoaregravenes de recherche trans-eacutepisteacutemiques qui mecirclent probleacutematiques tech-niques et non-techniques speacutecialiseacutees et non-speacutecialiseacutees La critique avanceacutee viseplutocirct agrave deacutenoncer le caractegravere fermeacute et la croyance en une dynamique endogegravenedes processus de production de connaissance au sein de ces espaces
ldquoThe point here is that if we cannot assume that the rsquocognitiversquo orrsquotechnicalrsquo selections of scientific work are exclusively determined bya scientistrsquos specialty membership groups it makes no sense to searchfor a rsquospecialty communityrsquo as the relevant setting for knowledge pro-ductionrdquo
Lrsquoapproche ldquomicrordquo suivant lrsquoactiviteacute quotidienne du chercheur deacuteveloppeacutee parKnorr-Cetina (1982) montre bien la multipliciteacute des ldquotransactionsrdquo neacutegocieacutees entrespeacutecialistes et non-speacutecialistes dans le processus drsquoeacutelaboration de la connaissance
12 ldquola speacutecialiteacute de recherche est la plus grande uniteacute homogegravene dans le systegraveme auto-organiseacuteque forme la science au sens ougrave chaque speacutecialiteacute de recherche tend agrave avoir ses propres probleacutema-tiques un cœur cohesif de chercheurs une connaissance partageacutee un vocabulaire speacutecifique et unensemble de reacutefeacuterences communesrdquo
44 Echelle meacutesoscopique la notion de champ eacutepisteacutemique 125
Neacuteanmoins ces eacuteleacutements drsquoanalyse nrsquointerdisent pas selon nous lrsquoexistencede ldquochamps eacutepisteacutemiquesrdquo qui malgreacute lrsquoheacuteteacuterogeacuteneacuteiteacute intrinsegraveque de leur consti-tuants (qursquoon parle ici drsquoeacuteleacutements purement cognitifs de tout ordre (des outils derecherche comme un programme informatique agrave un animal modegravele en passantpar des artefacts argumentatifs mobiliseacutes dans un article) ou drsquointervenants hu-mains (du chercheur au manager de la science en passant par le technicien)) neforment pas moins des ensembles coheacuterents et signifiants pour lrsquoensemble des ac-teurs engageacutes Il ne srsquoagit certes pas drsquoassigner agrave un ensemble de scientifiques et deconcepts une speacutecialiteacute et drsquoen fermer la porte agrave double tour mais de repeacuterer desstructures eacutemergentes signalant agrave un moment donneacute ldquola cristallisationrdquo (commelrsquoappelle Chubin) drsquoune singulariteacute remarquable au sein du reacuteseau drsquointeractioncomplexe mettant en jeu un ensemble drsquoacteurs et drsquoartefacts cognitifs Ces struc-tures ne sont pas des constructions sociales fantasmeacutees leurs formes institution-nelles dont on ne peut nier le caractegravere performatif en teacutemoignent (confeacuterencesorganisation par deacutepartements des organismes de recherche organisation theacutema-tique des appels agrave projet etc) Elles ne sont pas non plus des structures ldquoen vaseclosrdquo lrsquoactiviteacute drsquoun chercheur nrsquoest pas neacutecessairement restreinte aux limites drsquounseul champ La circulation des personnes et des concepts est sans doute fonda-mentale agrave la viabiliteacute drsquoun champ et la caracteacuterisation des champs eacutepisteacutemiquesest indissociable de lrsquoidentification des ponts qui les relient La notion de multipli-citeacute des appartenances est ici fondamentale Et cette multipliciteacute se joue agrave nouveauaussi bien du point de vue des acteurs qui animent ces communauteacutes que desconcepts qui y circulent
Crsquoest pourquoi un champ eacutepisteacutemique ne saurait ecirctre deacutefini de faccedilon univoquecomme la monade au sein de laquelle un certain type de connaissance est pro-duite par un certain nombre de personnes bien identifieacutees mais comme un lieutemporaire (mais suffisamment peacuterenne pour ecirctre observable) de cristallisation decertaines questions et de certains enjeux travailleacutes par un certain nombre drsquoindivi-dus potentiellement engageacutes en parallegravele dans drsquoautres activiteacutes
442 Identifier les champs eacutepisteacutemiques
Plusieurs meacutethodes de clusterisation ont eacuteteacute proposeacutees et testeacutees dans la litteacute-rature en scientomeacutetrie on peut citer par exemple la meacutethode des ldquok-meansrdquo (Zittand Bassecoulard 2006 Boyack et al 2005) les Self-Organized Maps (Skupin 2004)ou une meacutethode reacutecente baseacutee sur les flux drsquoinformation deacuteveloppeacutee par Rosvalland Bergstrom (2008a) etc Malgreacute la diversiteacute de ces meacutethodes la majoriteacute drsquoentreelles opegravere en guise de clusterisation une partition du reacuteseau (quelle que soit lanature du reacuteseau citations co-publications ou mots associeacutes) qui cantonne pardeacutefinition un nœud agrave un seul et unique cluster
Or dans la cas qui nous occupe celui de la cateacutegorisation drsquoun ensemblede termes saisis au travers du reacuteseau de proximiteacute Gs on conccediloit aiseacutement que
126 Chapitre 4 Structures eacutemergentes
certains termes puissent ecirctre mobiliseacutes dans diffeacuterents champs ou mecircme qursquoilspossegravedent diffeacuterentes significations ou que leur sens soit modifieacute selon les com-munauteacutes dans lesquelles il est employeacute Crsquoest drsquoailleurs la critique principaleqursquoadresse Leydesdorff (1997) agrave lrsquoanalyse des mots associeacutes
ldquoThe subsumption of phenomenologically similar words or othertextual signals under keywords or other concept symbols assumes sta-bility in the meanings of the indicated conceptsrdquo
Nous affirmons au contraire que crsquoest preacuteciseacutement lrsquoinstabiliteacute et la volatiliteacute dessens qui nous inteacuteressent ici car elles permettent de deacutefinir nos champs commedes agencements plastiques susceptibles drsquoautoriser des appartenances multiplesNotre objectif est donc drsquointeacutegrer cette variabiliteacute intrinsegraveque agrave notre entreprisede modeacutelisation mais cette exigence implique de faire appel agrave des meacutethodes decateacutegorisation permettant la deacutetection de clusters recouvrants
Pour deacutetecter les clusters au sein de notre reacuteseau dirigeacute de proximiteacute entretermes nous faisons appel agrave lrsquoalgorithme de deacutetection de percolation de cliquesdeacuteveloppeacute par Palla et al (2005b) Cet algorithme fait partie de la famille reacutecentedes meacutethodes de deacutetection de clusters recouvrants (comprenant entre autres les ap-proches de Zhang et al (2008) ou de Lancichinetti et al (2009)) Ainsi les meacutethodesde deacutetection de communauteacutes classiques (Danon et al 2005) visent agrave trouver lameilleure partition drsquoun graphe possible (comme le font les meacutethodes classiquesdrsquooptimisation de la modulariteacute (Girvan and Newman 2002 Blondel et al 2008)ou drsquoautres meacutethodes fondeacutees sur la construction de partitions agrave partir de lrsquoanalysespectrale des graphes (Capocci et al 2005 Newman 2006) ou agrave partir de la dyna-mique de marches aleacuteatoires (Latapy et al 2008 Rosvall and Bergstrom 2008b))
La meacutethode que nous employons ici a contrario de ces derniegraveres meacutethodesalgorithmiques est une meacutethode purement algeacutebrique et deacuteterministe Elle sedeacuteroule en deux eacutetapes En premier lieu lrsquoensemble des cliques (dirigeacutees dansle cas drsquoun graphe orienteacute (Palla et al 2007b)) du graphe consideacutereacute sont deacutetec-teacutees Puis lrsquoalgorithme construit les communauteacutes de k-cliques pour toutes lestailles de cliques k possibles en opeacuterant une percolation de k-cliques Plus preacuteciseacute-ment une communauteacute de k-cliques est deacutefinie comme un ensemble de k-cliques(sous-graphes de taille k) qui partagent la proprieacuteteacute suivante il est possible de-puis nrsquoimporte quelle k-clique drsquoune communauteacute de k-clique donneacutee drsquoatteindrenrsquoimporte quelle autre k-clique de cette communauteacute en suivant une seacuterie de k-cliques adjacentes (deux k-cliques eacutetant adjacentes si elles partagent kminus 1 nœuds)La meacutethode employeacutee permet de reacuteunir en une mecircme ldquocommunauteacuterdquo un ensemblede termes fortement inter-connecteacutes les uns aux autres ce qui nous semble ecirctre uncritegravere pertinent pour repeacuterer les structures cognitives reacuteguliegraveres dans lrsquoactiviteacutescientifique refleacutetant lrsquousage drsquoun vocabulaire drsquooutils techniques ou conceptuelscommuns agrave un champ eacutepisteacutemique donneacute
44 Echelle meacutesoscopique la notion de champ eacutepisteacutemique 127
Nous appliquons cet algorithme dans sa version orienteacutee 13 (Palla et al 2007b)agrave notre reacuteseau lexical Gs
14 Lrsquoalgorithme 15 permet de deacutetecter un ensemble declusters C = CiiisinI que nous appellerons champs eacutepisteacutemiques 16 Un champ Ci sub L
correspond donc agrave lrsquoensemble des termes appartenant agrave la mecircme communauteacute dek-cliques
Le choix drsquoun seuil s pertinent en-deccedila duquel les liens sont consideacutereacutes commeneacutegligeables est directement lieacute agrave lrsquoalgorithme de percolation de cliques Si lrsquoon seconcentre sur lrsquoensemble des communauteacutes de k-cliques obtenues pour diffeacuterentesvaleurs de seuil s on constate pour un seuil s0(k) donneacute un pheacutenomegravene de per-colation qui produit une ldquocommunauteacute geacuteanterdquo agreacutegeant une grande partie desnœuds du reacuteseau En diminuant le seuil s leacutegegraverement en-dessous de s0(k) la struc-ture de communauteacutes obtenue est la plus informative possible Plutocirct que de nouscantonner agrave une taille de clique k fixeacutee pour deacutefinir nos champs eacutepisteacutemiquesnous faisons lrsquoinventaire de lrsquoensemble des communauteacutes de k-cliques pour k ge 3en choisissant un seuil s1 proche mais infeacuterieur agrave s0(3) Lrsquoindice k drsquoune commu-nauteacute de k-clique Ci donneacutee fournit alors un premier indice de coheacutesion de la ditecommunauteacute Dans la suite on consideacuterera ce seuil comme fixeacute et on notera notrereacuteseau lexical G = Gs1
Nous avons repreacutesenteacute figure 48 un exemple de cateacutegorisation obtenue en ap-pliquant lrsquoalgorithme de percolation de cliques qui illustre la possibiliteacute de multi-appartenance drsquoun terme agrave un champ eacutepisteacutemique Nous avons repreacutesenteacute deuxchamps auxquels le terme ldquoPublic Goodsrdquo appartient dans la base de donneacutees surles systegravemes complexes un premier cluster est orienteacute theacuteorie des jeux le secondest plus proche des sciences politiques
443 Plongement des clusters dans un espace bi-dimensionnel
Une fois lrsquoensemble des champs eacutepisteacutemiques C construit nous proposonsde plonger chacun des champs dans un espace bidimensionnel Etant donneacute unchamp C et un terme w on deacutefinit lrsquoindice de geacuteneacutericiteacute Ig et lrsquoindice de speacutecificiteacuteIs comme suit
indice de speacutecificiteacute Il fournit une mesure du positionnement du terme w dans
13 Les ameacuteliorations les plus reacutecentes de cet algorithme de percolation de cliques (Farkas et al2007) permettent theacuteoriquement drsquoeacutetendre la proceacutedure agrave des reacuteseaux dirigeacutes et pondeacutereacutes Cela nouspermettrait de travailler directement sur la matrice de proximiteacute entre termes et donc sur un reacuteseaulexical pondeacutereacute sans avoir agrave deacutefinir un seuil s Neacuteanmoins la version simplement dirigeacutee fournitdrsquoores et deacutejagrave des reacutesultats convaincants
14 Nous avons donc effectueacute une opeacuteration de reacuteduction sur notre graphe lexical Gs en retirantles poids porteacutes par lrsquoensemble de ses liens
15 dont lrsquoimpleacutementation des auteurs librement accessible a eacuteteacute utiliseacutee http wwwcfinderorg
16 Il faut noter que lrsquoalgorithme ne cateacutegorise pas neacutecessairement lrsquoensemble des termes L cer-tains pouvant se trouver trop distants de lrsquoensemble de leurs voisins pour figurer dans quelqueclique que ce soit
128 Chapitre 4 Structures eacutemergentes
FIGURE 48 Deux clusters comprenant le terme Public Goods en vert agrave gauche un premierchamp orienteacute sciences politiques en mauve agrave droite un champ orienteacute theacuteorie des jeux Lesdeux termes (Public Goods et Finance) partageacutes par les deux champs eacutepisteacutemiques sont enrouge (image extraite du logiciel CFinder)
un de ses champs drsquoappartenance C en tant que contexte vis-agrave vis de lrsquoen-semble des termes du champ Il est deacutefini comme la somme des distancesentrantes des termes de C vers w
Iαs (w) =
1
card(C)
sum
wprimeisinC
Smax(α 1α
)(w wprime)
indice de geacuteneacutericiteacute Il deacutefinit dans quelle mesure les eacuteleacutements du champ C sontbien contextualiseacutes par le terme w On le deacutefinit comme la moyenne des dis-tances sortantes de w agrave lrsquoensemble de ses voisins dans C
Iαg (w) =
1
card(C)
sum
wprimeisinC
Smin(α 1α
)(w wprime)
Ces deux indices permettent de repreacutesenter de faccedilon intuitive les champsdans un espace agrave deux dimensions Agrave chaque terme on attribue une coordonneacutee(Iα
s (w) Iαg (w)) et une taille proportionnelle agrave son importance dans le champ (cal-
culeacutee comme la somme du nombre de ses co-occurrences avec les autres termesdu champ) La couleur de chaque terme traduit le taux de croissance de son im-portance dans le champ entre deux peacuteriodes conseacutecutives (du bleu pour les crois-sances neacutegatives au rouge fonceacute pour les croissances supeacuterieures agrave 50 en passantpar le blanc signalant une croissance nulle)
Pour lrsquoillustrer nous preacutesentons figure 49 deux domaines qui partagent lestermes ldquoknowledge discoveryrdquo Tout comme le terme Public Goods ce terme peutrelever de plusieurs domaines distincts un premier orienteacute systegravemes drsquoapprentis-sage automatique le second plus focaliseacute sur les enjeux propres agrave la cateacutegorisation(cf figure 49) La repreacutesentation dans le reacutefeacuterentiel des indices de speacutecificiteacute et
44 Echelle meacutesoscopique la notion de champ eacutepisteacutemique 129
de geacuteneacutericiteacute permet drsquoorganiser lrsquoensemble des eacuteleacutements drsquoun champ selon unehieacuterarchie intuitive Ce plongement dans un espace bi-dimensionnel correspondagrave une mesure au niveau meacutesoscopique tenant compte de lrsquoensemble des relationsentre termes du champ Elle est donc compleacutementaire mais diffeacuterente de la repreacute-sentation figure 47 qui offrait un point de vue purement local sur les voisinagesde termes
FIGURE 49 Deux champs eacutepisteacutemiques mentionnant le terme Knowledge Discovery sur lapeacuteriode 2002-2005 dans la base de donneacutees portant sur les systegravemes complexes KnowledgeDiscovery appartient agrave deux sphegraveres de production de connaissance distinctes agrave gaucheun champ orienteacute vers le machine learning agrave droite lrsquoaccent est mis sur les questions deldquocategorisationrdquo Dans cette repreacutesentation Is croicirct de droite agrave gauche et Ig croicirct de bas enhaut
444 Qualifier les clusters
On peut associer un certain nombre de mesures pour qualifier les clusters ob-tenus On srsquoorientera vers un type de caracteacuterisation ou un autre en fonction de lafaccedilon dont on souhaite interroger ces cartes quels sont les grands champs struc-turant un domaine scientifique quels sont les champs qui eacutemergent agrave un momentdonneacute quels sont les clusters interdisciplinaires etc
Nous introduisons deux types drsquoindices permettant de caracteacuteriser les champseacutepisteacutemiques deacutetecteacutes la densiteacute et lrsquoindice de pseudo-inclusion La densiteacute a eacuteteacute in-troduite par Callon et al (1991)
ldquoIt characterizes the strength of the links that tie the words makingup the cluster together The stronger these links are the more the re-search problems corresponding to the cluster constitute a coherent andintegrated whole It could be said that density provides a good repre-sentation of the clusterrsquos capacity to maintain itself and to develop overthe course of time in the field under consideration
Formellement la densiteacute drsquoun champ C noteacutee D(C) srsquoeacutecrit avec nos nota-tions D(C) = 1
Card(C)
sum
(wwprime)isinC2w 6=wprime S1(w wprime) Drsquoautre part on deacutefinit un autreindice de la coheacutesion drsquoun cluster notre objectif eacutetant de deacutetecter des clusters dont
130 Chapitre 4 Structures eacutemergentes
les termes satisfassent soit la contrainte drsquoecirctre de bons contextes pour leurs voisinssoit la contrainte de bien speacutecifier leurs voisins On deacutefinit donc lrsquoindice de pseudo-
inclusion drsquoun cluster Iαsub(C) = min
wisinC
1
2
(
Iαs (w) + Iα
g (w))
Cet quantiteacute indique le
degreacute de structuration de C Les clusters avec un index de pseudo-inclusion peueacuteleveacute ont au moins un terme qui nrsquoest ni bien contextualiseacute ni un bon contextepour lrsquoensemble des autres termes (il nrsquoest ni speacutecifique ni geacuteneacuterique par rapportaux autres)
445 Repreacutesentation macroscopique
Nous avons deacutefini les champs eacutepisteacutemiques comme des ensembles de termesqui cooccurrent preacutefeacuterentiellement les uns avec les autres ces termes pouvant ap-partenir agrave plusieurs champs eacutepisteacutemiques diffeacuterents Lrsquoeacutetape suivante consiste agravedonner un aperccedilu de lrsquoarticulation des diffeacuterents champs eacutepisteacutemiques les uns avecles autres afin de fournir une vision globale et structureacutee du paysage scientifiqueformeacute par notre ensemble de termes au sein du corpus de publications Cette re-preacutesentation macroscopique de lrsquoactiviteacute scientifique prend la forme drsquoune carte(Buter and Noyons 2002 Shaikevich 2005) qui reflegravete le paysage conceptuel
Une proceacutedure possible pour repreacutesenter la faccedilon dont ces champs srsquoarticulentles uns avec les autres est de deacutefinir un reacuteseau dont chaque nœud correspond agrave unchamp et dont les liens sont pondeacutereacutes par les valeurs de proximiteacute entre champsAfin de deacutefinir une mesure de similariteacute au niveau des champs eacutepisteacutemiques nouseacutetendons donc notre mesure de pseudo-inclusion entre deux termes en calculantcette fois la moyenne des similariteacutes entre les termes respectifs de chaque clusterOn exprime ainsi la proximiteacute S entre deux champs Ca et Cb sous la forme sui-vante
S(Ca Cb) =1
| Ca |
sum
iisinCa
(1
| Cb |
sum
jisinCb
S(i j))
Cette mesure permet de deacutefinir le reacuteseau orienteacute entre champs eacutepisteacutemiquesGs = (C Es) dont lrsquoensemble des liens Es pondeacutereacutes correspond agrave la matrice drsquoad-jacence pondeacutereacutee Ss telle que Ss(i j) = Sα(i j)Hs(S
α(i j)) ougrave Hs(x) deacutesigne agravenouveau une fonction seuil valant 1 si x ge s 0 sinon Agrave nouveau le seuil s = s2 estchoisi de faccedilon agrave obtenir la structure la plus informative possible (en choisissant s2
de faccedilon agrave obtenir un reacuteseau ni trop dense ni trop deacuteconnecteacute) 17) Dans la suite onconsideacuterera ce seuil s2 comme fixeacute et on notera le reacuteseau des champs eacutepisteacutemiquesG = Gs2
Mais la deacutefinition du reacuteseau des champs eacutepisteacutemiques G ne suffit pas neacuteces-sairement agrave fournir une description satisfaisante de lrsquoactiviteacute scientifique drsquoun
17 NB lorsqursquoil srsquoagit de comparer deux cartes calculeacutees agrave deux moments distincts par exempleil faut naturellement veiller agrave ce que les seuils retenus pour la construction des cartes soient iden-tiques
44 Echelle meacutesoscopique la notion de champ eacutepisteacutemique 131
FIGURE 410 Carte macroscopique du champ des systegravemes complexes La taille des champscorrespondent agrave lrsquoactiviteacute des champs (eacutechelle logarithmique) la couleur du jaune le plusclair au rouge le plus fonceacute repreacutesente le taux de croissance de cette activiteacute entre la peacuteriodecourante (anneacutees 2002-2005) et la peacuteriode preacuteceacutedente (1998-2001) Chaque champ peut ecirctredeacutecomposeacute en lrsquoensemble des termes qui le constitue et repreacutesenteacute dans notre reacutefeacuterentielbidimensionnel (voir encart lrsquoaxe Ig a eacuteteacute inverseacute par rapport agrave la figure preacuteceacutedente)
domaine En effet les champs eacutepisteacutemiques peuvent ecirctre composeacutes drsquoun grandnombre de termes et les opeacuterations preacuteceacutedentes paraicirctraient superflues srsquoil srsquoagis-sait in-fine de faire figurer sur nos cartes lrsquoensemble des termes en guise de leacute-gendes des champs deacutetecteacutes aussi ingeacutenieux leur agencement spatial soit-il Poursimplifier notre repreacutesentation il nous faut donc eacutetiqueter de la maniegravere la pluspertinente et eacuteconomique possible chaque champ
Plusieurs strateacutegies sont envisageables pour donner agrave chaque champ la leacutegendequi le repreacutesente le plus fidegravelement Une premiegravere possibiliteacute est drsquoemployer unemeacutethode baseacutee sur lrsquoanalyse des freacutequences des termes au sein de lrsquoensemble deschamps afin drsquoextraire les termes les plus prototypiques de chaque champ Nousexposerons preacuteciseacutement cette meacutethode ulteacuterieurement dans un contexte plus fa-vorable qui est celui des repreacutesentations de plus haut niveau mettant en jeu desclusters de champs eacutepisteacutemiques (cf section 446) Agrave ce stade nous nous appuie-rons directement sur la deacutecomposition des champs dans notre espace drsquoindicesde speacutecificiteacutegeacuteneacutericiteacute pour reacutealiser notre opeacuteration de labellisation En fonctionde ce qui paraicirctra le plus pertinent au destinataire de la carte on peut privileacutegierdiffeacuterentes strateacutegies pour repreacutesenter le contenu drsquoun champ
132 Chapitre 4 Structures eacutemergentes
ndash seacutelectionner les termes les plus speacutecifiques vis-agrave-vis du champ ie ceux dontles indices de speacutecificiteacute Is sont les plus importants
ndash seacutelectionner les termes les plus geacuteneacuterique vis-agrave-vis du champ ie ceux dontles indices de geacuteneacutericiteacute Ig sont les plus importants
ndash seacutelectionner les termes ldquomeacutediansrdquo qui sont les plus centraux vis-agrave-vis de ladimension dont la variance est la plus grande
ndash ou encore adopter des solutions mixtes entre ces trois premiegraveres meacutethodesNous avons repreacutesenteacute une carte du domaine des systegravemes complexes pour la
peacuteriode 2002-2005 figure 410 La repreacutesentation de cette carte (ainsi que les sui-vantes) a eacuteteacute reacutealiseacutee gracircce au logiciel drsquoanalyse et de repreacutesentation de graphesPajek (Batagelj and Mrvar 1998) qui srsquoappuie sur des algorithmes classiques despacialisation (FruchtermanndashReingold ou Kamada-Kawai) Les champs ont eacuteteacute eacuteti-queteacutes par leurs deux termes les plus geacuteneacuteriques La description des champs estalors suffisamment condenseacutee pour fournir une repreacutesentation macroscopique dudomaine permettant de repeacuterer tregraves facilement les grands sous-domaines qui lecompose (ceux-ci ont eacuteteacute rajouteacutes agrave la main sur la carte (IT AI Physique statis-tique etc)) La taille drsquoun nœud est proportionnelle agrave lrsquoactiviteacute a du champ deacutefinie
comme la moyenne des occurrences normaliseacutees (pTi ) =
nTi
P
jisinL nTj
) des termes ex-
primeacutes au sein drsquoun champ (lrsquoactiviteacute drsquoun champ C agrave une peacuteriode T srsquoexprimedonc sous la forme aT
C = 1card(C)
sum
iisinC pTi ) Nous pouvons eacutegalement visuali-
ser sur cette carte la croissance ATC de lrsquoactiviteacute de chaque champ C agrave T sim-
plement deacutefinie comme la croissance moyenne des occurrences normaliseacutees destermes drsquoun champ donneacute entre la peacuteriode preacuteceacutedente Tminus et la peacuteriode actuelle T
ATC = 1
card(C)
sum
iisinCpT
i
pTminusi
446 Reconstruction multi-eacutechelle
Pour illustrer cette partie nous nous appuyons sur une base de donneacutees depublications deacutecrivant les activiteacutes de recherche autour du thegraveme du deacuteveloppementdurable (voir description du jeu de donneacutees section 431) Nous avons appliqueacute nosmeacutethodes de reconstruction statique sur ce jeu de donneacutees en nous concentrant surles 10 derniegraveres anneacutees du corpus soit tous les articles parus publieacutes entre 1998 et2007 La carte correspondante est preacutesenteacutee figure 411
Le reacuteseau G articulant les champs scientifiques les uns avec les autres a eacuteteacuteconstruit gracircce agrave la distance inter-cluster S preacuteceacutedemment deacutefinie Notre objectifest maintenant de soumettre G agrave une nouvelle opeacuteration de reacuteduction en cateacutego-risant les champs eacutepisteacutemiques au sein de classes de champs Nous appliquons agravenouveau la meacutethode de deacutetection de communauteacutes de cliques afin de construireles ensembles de communauteacutes de champs eacutepisteacutemiques Cii que nous appelleronspar la suite meta-communauteacutes (nous utilisons la mecircme notation que les champseacutepisteacutemiques mais en gras) qui sont formeacutes drsquoensembles de champs Ci sub C
44 Echelle meacutesoscopique la notion de champ eacutepisteacutemique 133
9agricultural researchagricultural development
11food securityfood production17development policyeconomic development
18floodplainsnatural disasters
20innovation adoptiondiffusion of information
24deforestationtrees
25international agreementsinternational cooperation
28drainagereclamation
29pest controlweeds
32land managementlandscape conservation
33temperatureeconomic impact
37grazinggrassland management
38technical progressinnovation adoption
40private ownershipproperty rights
41transition economiesagricultural situation
42forest economicsvaluation
43efficiencyfarm inputs
44drainage systemswater table
46soil fertilitysoil conservation
47fishingfishery policy
48mapsremote sensing49land policypublic domain
50population growthpopulation pressure
52urbanizationagricultural land
53capsubsidies
55renewable resourcesfuel crops
56precipitationclimate
57community forestrysocial participation
58intellectual property rightsindigenous knowledge
59floodsflooding
60social impacteconomic impact
63refusewaste water treatment
66bioenergygreenhouse gases
67biotechnologygenetic engineering
68catchment hydrologyrunoff
69productionexports
70water use efficiencytrickle irrigation
71sedimentsoil conservation
72runoffgroundwater
73nitratespollution control
74groundwaterirrigation water
75fishery resourcesfishing
76mappingmaps
77subsidiessupport measures
78trade liberalizationregulations
79fuelsfuel crops
81tourism impactdestinations
82pasturesrange management
83wild animalswildlife
84refusewaste treatment
86land ownershipland policy
87carbon sequestrationcarbon dioxide
88grasslandsbotanical composition
89indigenous knowledgeplant genetic resources
90outdoor recreationvisitors91weed controlagricultural entomology
92regulationsexports
94low input agriculturemaize
95irrigation systemswater use efficiency
96forest policyprivate forestry
97satellite imageryremote sensing
98wildlife managementwild animals
99tenure systemsland reform
100polluted waterpollutants
101bioremediationrisk assessment
102polluted waterleaching
103natural resource economicsresources
104waste managementwaste water
105water allocationirrigation water
106carbon dioxidecarbon sequestration
107species richnessbotanical composition
108forest policyforest resources
109tourist industrydestinations
110tenure systemsland ownership
111biologyagricultural entomology
112controlplant pests
113soyabeanslow input agriculture
114forest policyforest economics
115economic theoryresource allocation
116agricultural tradeworld trade organization
119waste utilizationrefuse
120world trade organizationtrade liberalization
121water policyirrigation water
122utilizationarid zones
FIGURE 411 Carte du ldquodomaine deacuteveloppement durablerdquo sur la peacuteriode 1998-2007 Le deacute-tail de la constitution du champ 58 (intellectual property rights amp indigeneous knowledge) estrepreacutesenteacute en encart Cette fois-ci nous avons repreacutesenteacute la taille des champs en fonctionde leur densiteacute tandis que leur couleur traduit la diffeacuterentiel de densiteacute par rapport agrave la peacute-riode preacuteceacutedente (ce taux de croissance augmente des couleurs froides (bleu) aux couleurschaudes (rouge)) Les champs ont eacuteteacute labelliseacutes par les deux termes les plus ldquomeacutediansrdquo
(pour rappel C = Cjj deacutesigne lrsquoensemble des champs eacutepisteacutemiques deacutetecteacutes)Une repreacutesentation de lrsquoensemble des communauteacutes obtenues par une percolationde k-cliques (k ge 5) est repreacutesenteacutee figure 412 Elle preacutesente agrave nouveau un forttaux de recouvrement entre les communauteacutes de champs deacutetecteacutees et nrsquoest pasdirectement intelligible en lrsquoeacutetat Au niveau preacuteceacutedent nous avions adopteacute unestrateacutegie de labellisation des champs en fonction des indices de speacutecificiteacute et degeacuteneacutericiteacute des termes preacutesents dans chaque champ Dans le cas des agreacutegats dechamps une telle meacutethode nrsquoest pas envisageable car elle consisterait agrave labelliserles communauteacutes de champs avec des eacutetiquettes deacutejagrave complexes et eacuteventuellementvariables (car deacutependantes de la strateacutegie de labellisation retenue pour deacutefinir leschamps eacutepisteacutemiques au premier niveau) Nous preacutefeacuterons employer une meacutethodeplus classique qui permet de reconstruire les eacutetiquettes de haut-niveau agrave partir de
134 Chapitre 4 Structures eacutemergentes
la distribution des termes se retrouvant dans la mecircme meta-communauteacuteChaque meacuteta-communauteacute peut ecirctre deacutecrite par lrsquoensemble des termes qui
composent les champs eacutepisteacutemiques qursquoelle recouvre Certains termes pouvantecirctre communs agrave plusieurs champs on associe donc agrave chaque communauteacute dechamps Ci un vecteur drsquooccurrences WCi
qui deacutenombre pour chaque terme j lenombre de champs eacutepisteacutemiques dans Ci comprenant le terme j Ainsi pour unterme j la coordonneacutee WCi
(j) vaut |Ck isin Ci tel que j isin Ck|
Ces vecteurs ldquodrsquooccurrencesrdquo de termes dans les communauteacutes de champs per-mettent drsquoappliquer une proceacutedure de type tfidf afin drsquoextraire pour chacune lestermes les plus significatifs agrave mecircme de qualifier de faccedilon pertinente leur contenuOn choisit ainsi drsquoeacutetiqueter chaque communauteacute par les cinq termes dont les tfidfsont les plus importants 18
FIGURE 412 Meacuteta-communauteacutes du champs ldquodeacuteveloppement durablerdquo sur la peacuteriode1998-2007 Les communauteacutes de champs eacutepisteacutemiques sont repreacutesenteacutees par des en-sembles coloreacutes Les nœuds du reacuteseau sont des champs eacutepisteacutemiques
Une fois deacutefinies les eacutetiquettes de chaque communauteacute de champs on peutrepreacutesenter le reacuteseau de proximiteacute entre les meacuteta-communauteacutes Les liens entremeacuteta-communauteacutes sont construits comme une agreacutegation des liens entre champsau niveau infeacuterieur Nous appliquons la mecircme proceacutedure de passage au niveausupeacuterieur que celle employeacutee preacuteceacutedemment 19 La figure 413 repreacutesente une
18 Pour rappel et dans notre contexte le tfidf drsquoun terme j pour une meta-communauteacute i vaut
tfidfi(j) =WCi
(j)Pn
k=1 WCi(k)
log
|Ckk|
|Ck tel que WCi(k) ge 1k|
19 Plus preacuteciseacutement on deacutefinit la distance entre deux meacuteta-communateacutes Ca et Cb sous la forme
suivante ˆS(CaCb) =
1
| Ca |
X
iisinCa
(1
| Cb |
X
jisinCb
S(i j))
44 Echelle meacutesoscopique la notion de champ eacutepisteacutemique 135
irrigation waterirrigationwater usewater allocationgroundwater
climatic changegreenhouse gasesemissioncarbonair pollution
forestsforest policyforest managementcarbongreenhouse gases
agricultural entomologyplant pestsinsect pestscontrolplant diseases
remote sensinglandsatgeographical information systemsmapseconomic
forestsforest policyforest economicsforest managementcommunity forestry
grazingpasturesrange managementrangelandspublic domain
economic impacttourism impactenvironmental impactdroughtflooding
biodiversityconservationindigenous knowledgeplant genetic resourcesintellectual property rights
land ownershipland managementland policycadastresland reform
international tradeagricultural tradetrade relationsenvironmental protectionworld trade organization
FIGURE 413 Meacuteta-communauteacutes du champs ldquodeacuteveloppement durablerdquo sur la peacuteriode1998-2007 Les communauteacutes de champs eacutepisteacutemiques sont eacutetiqueteacutees par leurs cinqtermes les plus cararcteacuteristiques (plus haut tfidf) La taille correspond agrave la somme desfreacutequence des mots-cleacutes la couleur agrave la diffeacuterence par rapport agrave la peacuteriode preacuteceacutedenteLes nœuds du reacuteseau sont des communauteacutes de champs eacutepisteacutemiques
carte de haut niveau du champ du deacuteveloppement durable tel qursquoil se structuredans notre jeu de donneacutees 11 communauteacutes de champs distinctes ont eacuteteacute iden-tifieacutees leurs leacutegendes forment des ensembles semblant conceptuellement perti-nents Ainsi de haut en bas et de droite agrave gauche on reconnaicirct les sous-domainessuivants
ndash eacuteconomie de lrsquoenvironnement et catastrophes naturellesndash changement climatique (activiteacute faible mais croissance tregraves rapide)ndash gestion forestiegravere et deacuteveloppement durablendash commerce international (tregraves forte activiteacute croissance moyenne)ndash biodiversiteacute et proprieacuteteacute intellectuelle indigegravenendash gestion forestiegravere (aspects eacuteconomiques)ndash gestion de lrsquoeaundash gestion des zones agricolesndash agronomie et nuisiblesndash ameacutenagement du territoire et occupation des solsndash SIG
136 Chapitre 4 Structures eacutemergentes
447 Proceacutedures de validation
Nous deacutefinissons lrsquoindice de qualiteacute empirique sur les clusters noteacute Qe pournous donner un critegravere de validation des champs reconstruits La validation em-pirique est lieacutee agrave lrsquoadeacutequation des champs scientifiques reconstruits avec lrsquoactiviteacutede publication agrave proprement parler Pour repreacutesenter lrsquoactiviteacute des communauteacutesscientifiques les champs scientifiques que nous mettons en exergue se doiventde rendre compte drsquoune litteacuterature correspondant aux assembleacutees de termes re-peacutereacutees Le principe de validation empirique que nous proposons est donc le sui-vant pour chaque champ nous controcirclons simplement agrave lrsquoaide drsquoune requecirctedans notre base de donneacutees de publications qursquoun nombre significatif drsquoarticlesreacuteunit lrsquoensemble des mots-cleacutes Compte tenu de lrsquoheacuteteacuterogeacuteneacuteiteacute des freacutequencesdrsquousage des concepts nous proposons drsquoutiliser la notion de self-information (Shan-non and Weaver 2002) qui permet de mesurer la quantiteacute drsquoinformation associeacuteeagrave un tirage drsquoune variable aleacuteatoire X dont les probabiliteacutes drsquoapparition valent piAgrave lrsquoobservation drsquoun eacuteveacutenement Xi on peut alors associer I(X = Xi) = minuslog2(pi)
qui est une mesure en bits de la quantiteacute drsquoinformation La quantiteacute drsquoinformationcorrespond donc agrave une mesure du degreacute de ldquosurpriserdquo associeacute agrave un eacuteveacutenementplus ou moins improbable
Nous souhaitons eacutevaluer la quantiteacute drsquoinformation associeacutee agrave la preacutesence drsquounnombre k drsquoarticles mentionnant lrsquoensemble des termes drsquoun champ C Nouspouvons mesurer agrave lrsquoaide drsquoune requecircte dans notre base de donneacutees le nombrereacuteel drsquoarticles contenant lrsquoensemble des termes de C on note nC ce nombrePour calculer la quantiteacute drsquoinformation associeacutee agrave cet eacuteveacutenement (nC articlesregroupent lrsquoensemble des termes de C) on fait lrsquohypothegravese drsquoun modegravele nuldans lequel les probabiliteacutes drsquooccurrence des termes sont indeacutependantes les unesdes autres 20 Ainsi la probabiliteacute theacuteorique qursquoun des N articles emploie lrsquoen-semble des termes vaut
prod
iisinC pi On en deacuteduit que la probabiliteacute theacuteorique drsquoob-server lrsquoensemble des termes de C conjointement mobiliseacutes dans k articles vaut(
Nk
)
(prod
iisinC pi)k(1 minus
prod
iisinC pi)Nminusk Lrsquoindice de qualiteacute empirique drsquoun cluster C est
donc deacutefini comme la quantiteacute drsquoinformation noteacutee Qe(C) associeacutee agrave lrsquoeacuteveacutenementldquonC articles regroupent lrsquoensemble des termes de Crdquo soit
Qe(C) = minuslog2
[
(
N
nC
)
(prod
iisinC
pi)nC (1minus
prod
iisinC
pi)NminusnC
]
20 les probabiliteacutes drsquooccurrences de nos termes ne sont en reacutealiteacute naturellement pas indeacutepen-dantes les unes des autres nous nous servons neacuteanmoins de la formule de la quantiteacute drsquoinformationen traitant les freacutequences drsquousages des termes ldquocomme sirdquo elles correspondaient agrave des variables in-deacutependantes dans le but de fournir une hypothegravese nulle simplifieacutee par rapport agrave laquelle appreacuteciercombien ces agencements de termes sont non aleacuteatoires
45 Meacutethode de reconstruction dynamique 137
45 Meacutethode de reconstruction dynamique
Nous avons essayeacute de montrer dans la section preacuteceacutedente la maniegravere dont lacartographie des sciences pouvait beacuteneacuteficier drsquoune mesure asymeacutetrique de proxi-miteacute entre termes qui associeacutee agrave une meacutethode de cateacutegorisation avec recouvre-ment nous a permis de reconstruire une structure multi-eacutechelle ldquohieacuterarchiseacuteerdquo dessciences robuste agrave la polyseacutemie des termes et aux enchacircssements complexes descommunauteacutes scientifiques Ces meacutethodes de reconstruction ouvrent la voie agrave denouveaux modes de navigation et drsquointerrogation des corpus de publications agrave tra-vers des interfaces proposant de parcourir des paysages conceptuels multi-eacutechellesqui pourraient srsquoaveacuterer utiles pour les chercheurs les theacuteoriciens des sciences ouencore les gestionnaires
Mais lrsquoanalyse statique de la structure des champs paradigmatiques nrsquoestqursquoune premiegravere eacutetape vers la caracteacuterisation et la repreacutesentation de lrsquoactiviteacute scien-tifique Nous poursuivons notre eacutetude par la reconstruction des dynamiques deschamps eacutepisteacutemiques Lrsquoensemble des meacutethodes deacutecrites dans la section preacuteceacute-dente permet de reconstruire la structure multi-eacutechelle drsquoun domaine scientifiqueagrave nrsquoimporte quelle peacuteriode On peut ainsi aiseacutement imaginer rajouter une dimen-sion temporelle agrave notre analyse visant agrave la caracteacuterisation des dynamiques scienti-fiques
La reconstruction des dynamiques des communauteacutes scientifiques preacutesentedes enjeux theacuteoriques forts Appreacutehender lrsquoeacutevolution des sciences agrave partir de don-neacutees reacuteelles preacutesente un inteacuterecirct particulier en eacutepisteacutemologie ou en histoire dessciences Lrsquoobjectif est double drsquoune part caracteacuteriser finement les eacutevolutions deschamps eacutepisteacutemiques drsquoautre part agrave une eacutechelle de temps plus grande observerles mutations opeacutereacutees dans la dynamique drsquoeacutevolution des sciences afin de carac-teacuteriser des transitions des reacutegime de reacutegulation des communauteacutes scientifiqueselles-mecircmes Est-il possible de repeacuterer une tendance agrave la balkanisation des sciencesassocieacutee agrave une speacutecialisation croissante des communauteacutes Peut-on mesurer lrsquoim-pact des nouveaux outils de communication introduits par Internet sur lrsquoorga-nisation des communauteacutes Est-il possible de reconstruire lrsquoeacutevolution des chan-gements paradigmatiques majeurs peut-on identifier de faccedilon automatique leschamps eacutemergents Peut-on eacutegalement retracer les grandes mutations dans les reacute-gimes de reacutegulation et drsquoorganisation des communauteacutes scientifiques Sans avoirpreacutetention agrave reacutepondre agrave toutes ces questions des outils de suivi des dynamiquesscientifiques observeacutees in-vivo pourraient nous informer sur les conseacutequences deces mutations
La question de la dynamique des sciences a largement animeacute le champ de lascientomeacutetrie On peut se reacutefeacuterer en ce qui concerne lrsquoanalyse par reacuteseau de co-citation aux historiographes de (Garfield 2004) ou agrave lrsquoanalyse de la continuiteacutedes ldquobases intellectuellesrdquo propres agrave une speacutecialiteacute (Braam et al 1991) Lrsquoanalysede mots associeacutes a eacutegalement eacuteteacute employeacutee pour cartographier le deacuteveloppement
138 Chapitre 4 Structures eacutemergentes
drsquoun champ sur une longue peacuteriode Cambrosio et al (1993) ou pour eacutetudier les re-lations au cours du temps (influence circulation) qursquoentretiennent recherche aca-deacutemiques et recherche appliqueacutee autour drsquoun mecircme domaine (Callon et al 1991)Des approches mixtes ont proposeacute de repreacutesenter les tendances eacutemergentes et lesmotifs transitoires dans la litteacuterature scientifique en srsquoappuyant aussi bien sur lesldquofronts de rechercherdquo (analyse lexicale) que sur les ldquobases intellectuellesrdquo des speacute-cialiteacutes (Chen 2004 2006) Enfin on peut mentionner les reacuteseaux de citation ani-meacutes entre journaux de Leydesdorff and Schank (2008b) qui illustrent les dyna-miques eacutemergentes de domaines inter-disciplinaires
Naturellement les processus drsquoeacutevolution des sciences ont eacutegalement eacuteteacute inter-rogeacutes par drsquoautres disciplines (Boumlrner and Scharnhost 2009) telles que la philo-sophie des sciences qui a fourni nombre de descriptions et drsquoexplications plus oumoins compatibles les unes avec les autres sur les dynamiques de changementset de reacutevisions scientifiques (Kuhn 1970a Mulkay 1976) lrsquoethnographie agrave traversdes eacutetudes reacutealiseacutees in-situ dans lrsquoespace du laboratoire (Knorr-Cetina 1995 La-tour and Woolgar 1988) les sciences de gestion (Bonaccorsi 2008) ouet par la so-ciologie des sciences qui a vu dans lrsquoanalyse des ldquopoleacutemiques rdquo une meacutethodologieprivileacutegieacutee pour comprendre les dynamiques socio-techniques complexes qui sedeacuteploient dans les communauteacutes scientifiques exposeacutees agrave un changement (Pestre2007)
Nous deacutecoupons notre analyse des dynamiques scientifiques selon les diffeacute-rents niveaux microscopique meacutesoscopique et macroscopique auxquels nous ap-preacutehendons nos donneacutees
451 Dynamiques de voisinage
Au niveau local on peut srsquointerroger sur lrsquoeacutevolution des voisinages associeacutes agraveun terme Etant donneacute un seuil s fixeacute et un terme i on peut repreacutesenter lrsquoensembledes termes qui appartiennent au voisinage de i agrave diffeacuterentes peacuteriodes Cette repreacute-sentation offre un premier mode drsquoobservation du glissement de sens drsquoun termeau cours du temps comme illustreacute figure 414 On observe sur cet exemple queles eacutetudes sur les biens publics ont eacuteteacute appreacutehendeacutees reacutecemment agrave travers des ap-proches de type theacuteorie des jeux Parmi les termes eacutemergeant dans le voisinagede ldquoPublic Goodrdquo on trouve notamment ldquoheterogeneous agentsrdquo ou ldquoproceduralrationalityrdquo Cette dynamique correspond bien aux transformations actuelles dudomaine
452 Dynamique drsquoun champ eacutepisteacutemique
Nous interrogeons maintenant la dynamique drsquoun champ eacutepisteacutemique en leconsideacuterant en isolation complegravete du reste du reacuteseau Etant donneacute un ensemble determes participant agrave un champ eacutepisteacutemique agrave une peacuteriode donneacutee nous souhai-
45 Meacutethode de reconstruction dynamique 139
FIGURE 414 Repreacutesentation dynamique de lrsquoeacutevolution du voisinage du terme ldquoPublicGoodrdquo de 1987 agrave 2005 pour un focus α = 1 (base de donneacutees systegravemes complexes) Une zonenoire signifie que le terme associeacute nrsquoest pas dans le voisinage de ldquoPublic Goodrdquo durantlrsquoanneacutee consideacutereacutee Les cases les plus claires correspondent par contre aux voisins les plusproches
tons retracer les conditions drsquoeacutemergence de ce champ en visualisant lrsquoeacutevolution dela structure de ses termes dans la repreacutesentation bidimensionnelle que nous avonsintroduite preacuteceacutedemment (section 443) 21 Un exemple drsquoune telle repreacutesentationest donneacute figure 415 Il repreacutesente un de nos champs eacutepisteacutemiques deacutetecteacutes dansnotre base de donneacutees deacutedieacutee agrave la meacutetaphore reacuteseau en biologie sur la peacuteriode2003-2007 Ce champ est lieacute agrave la morphogenegravese et au rocircle des reacuteseaux de reacutegula-tion au cours de lrsquoembryogenegravese
Cette eacutevolution qui se repreacutesente plus naturellement comme un film permetdrsquoappreacutecier la structuration progressive du champ avec lrsquoaide des mesures drsquoimpor-tance et de croissance de lrsquoimportance 22 associeacutees agrave chaque terme dans le clustercoupleacutees agrave la ldquoformerdquo prise par les termes de notre champ dans notre reacutefeacuteren-tiel En effet un champ bien structureacute se caracteacuterise par une certaine lineacuteariteacute destermes dans cet espace un terme bien ancreacute au sein de son champ eacutetant vis-agrave-vis de ses voisins soit bien contextualiseacute par certains soit un bon contexte pourles autres La combinaison de ces deux voisinages garantit que la somme de sesindices de speacutecificiteacute et de geacuteneacutericiteacute est eacuteleveacutee De plus cette somme est relati-vement stable en fonction des termes Empiriquement on a ainsi observeacute que lesclusters deacutetecteacutes prenaient une forme caracteacuteristique celle de termes aligneacutes le
21 Il est eacutegalement possible de srsquointeacuteresser au devenir drsquoun champ si lrsquoon souhaite tenter drsquoap-preacutecier ses transformations ulteacuterieures
22 Lrsquoimportance mesure la somme des cooccurrences qursquoun terme a avec les autres termes duchamp sa croissance correspond simplement au taux drsquoaccroissement de cette quantiteacute
140 Chapitre 4 Structures eacutemergentes
FIGURE 415 Evolution de la strucutre drsquoun champ eacutepisteacutemique deacutetecteacute durant la peacuteriode2003-2007 Les anneacutees croient de de gauche agrave droite et de haut en bas (depuis la peacuteriode1970-1974) par fenecircres glissante se deacutecalant de 3 ans agrave chaque repreacutesentation Lrsquoindice despeacutecificiteacute Is est en abscisse lrsquoindice de geacuteneacutericiteacute en ordonneacutees Ig La taille drsquoun termecorrespond agrave son importance dans le champ la couleur repreacutesente son taux de croissance
long drsquoune diagonale qui rend constant la somme des indices de speacutecificiteacute et degeacuteneacutericiteacute crsquoest drsquoailleurs cette proprieacuteteacute de bon alignement que tente de traduirenotre indice de pseudo-inclusion Nous observons donc figure 415 que lrsquoensemble
45 Meacutethode de reconstruction dynamique 141
des termes srsquoaligne progressivement alors que lrsquoimportance de chaque terme ausein du champ croicirct dans les peacuteriodes qui preacutecegravedent la deacutetection effective du clus-ter par nos algorithmes
Cette repreacutesentation dynamique permet eacutegalement drsquoobserver la dynamiquede termes au sein de cet espace Par exemple le terme ldquosegmentationrdquo paraicirct tregravesdistant de lrsquoensemble des autres termes (Is et Ig faibles) durant les premiegraveres peacute-riodes il a de plus une tregraves petite taille et donc une importance mineure dansla structure du champ On peut observer son deacuteplacement progressif et la crois-sance de son importance dans le cluster au fil des ans Nous en restons au stadedrsquoune simple observation mais il semble possible de deacutevelopper une cineacutematiquedes termes au sein de ces espaces qui permette eacuteventuellement drsquoextraire un cer-tain nombre de reacutegulariteacutes voire de preacutediction vis-agrave-vis de lrsquoeacutevolution drsquoun termeOn observe la mecircme dynamique ldquodrsquoalignementrdquo avec le reste du cluster pour lestermes ldquogene networkrdquo et ldquoregulatory relationshipsrdquo Le terme ldquopatternrdquo quant agravelui bien que relativement bien situeacute au sein du cluster degraves les premiegraveres peacuteriodesvoit son importance et sa geacuteneacutericiteacute augmenter durant les anneacutees 60 et 70 ce quitraduit un usage accru du terme en biologie du deacuteveloppement durant cette peacute-riode
453 Vers les dynamiques macroscopiques
Une premiegravere approche ldquonaiumlverdquo du suivi des dynamiques scientifiques consis-terait agrave mettre bout agrave bout lrsquoensemble des cartes macroscopiques obtenues agrave despeacuteriodes successives Une analyse de ce type (scheacutematiseacutee figure 416) nrsquoest infor-mative que du point de vue de la structuration globale du domaine Observe-t-onune augmentation ou une diminution du nombre total de champs Est-ce que lacoheacutesion de lrsquoensemble des champs a tendance agrave augmenter ou agrave diminuer Lacomparaison des cartes obtenues agrave diffeacuterentes peacuteriodes neacutecessite donc un travaildrsquointerpreacutetation de la part de ldquolrsquoutilisateurrdquo Dans le cas preacutesent ces cartes ont eacuteteacuteannoteacutees et interpreacuteteacutees par deux sociologues et historiens des sciences (Jean-PaulGaudilliegravere et Christophe Bonneuil) sous la forme drsquoensembles de champs eacutepis-teacutemiques regroupeacutes au sein de domaines plus larges se reacutepeacutetant ou non drsquounepeacuteriode agrave lrsquoautre La deacutelimitation et la labellisation de ces domaines est le reacutesultatdrsquoune analyse plus fine et ldquomanuellerdquo des champs eacutepisteacutemiques qui les consti-tuent
Lrsquoanalyse des cartes reacutealiseacutees sur 4 peacuteriodes courant de 1976 agrave 2007 agrave ainsi per-mis de reacuteveacuteler les traits saillants suivants dans lrsquoeacutevolution des travaux autour dela notion de reacuteseau et de complexiteacute en biologie On voit notamment eacutemerger defaccedilon tregraves nette agrave compter de la peacuteriode 1999-2003 la confirmation drsquoun discours reacute-seau centreacute sur les aspects instrumentaux de la geacutenomique qui se traduit par lrsquoap-parition de clusters autour des termes micro-array amp expression ou protein-proteininteractions amp data bank Ces clusters remplacent les champs caracteacuteristiques de lrsquoegravere
142 Chapitre 4 Structures eacutemergentes
preacute-geacutenomique dont les rapports aux reacuteseaux sont plus incidents Avant cette peacute-riode on constate eacutegalement une forme de continuiteacute du vocabulaire reacuteseau sansreacuteelle inteacutegration des approches contemporaines de lrsquoanalyse des grands reacuteseauxdrsquointeraction dans les clusters lieacutes agrave lrsquoimmunologie ou aux reacuteseaux neuronaux etdes inteacutegrations mais avec changement de sens dans les clusters lieacutes agrave expressionregulation feedback ou kinase amp phosphorylation
La perceacutee des approches reacuteseau en biologie semble donc reposer fondamen-talement sur des bases mateacuterielles (expeacuterimentale et bio-informatique) issues no-tamment de la biologie agrave haut deacutebit Ces cartes reacutevegravelent eacutegalement que les aspectsplus theacuteoriques lieacutes aux reacuteseaux en terme drsquoarchitecture du vivant ne commencentagrave se constituer en un champ de recherche agrave part entiegravere que plus tardivement es-sentiellement apregraves 2002 (vocabulaire autour de lrsquoarchitecture la modeacutelisation lesproprieacuteteacutes de connectiviteacute ou de robustesse des reacuteseaux) - agrave la suite de la multipli-cation des eacutetudes sur les grands reacuteseaux drsquointeraction en physique (popularisationdes notions de ldquoscale-freerdquo ldquosmall-worldrdquo etc agrave partir de 1999-2000) Le discoursreacuteseau se geacuteneacuteralisant et srsquoaffirmant autour de 2000 on assiste maintenant agrave sadiffusion vers drsquoautres champs de la biologie auxquels il nrsquoeacutetait pas traditionnelle-ment lieacute Par exemple un effet de disseacutemination est visible lorsqursquoon examine lrsquoamasde clusters portant sur le cancer apparaissant sur la peacuteriode 2004-2007 qui est for-tement lieacute aux approches reacuteseaux drsquointeraction et donneacutees drsquoexpression geacuteneacutetiqueagrave haut deacutebit
Cette meacutethode drsquoanalyse requiegravere neacuteanmoins un investissement coucircteux puis-qursquoil est neacutecessaire drsquoexplorer en profondeur le contenu deacutetailleacute des champs deacute-tecteacutes agrave chaque peacuteriode Les nœuds figurant les champs dans chaque carte sont apriori diffeacuterents entre deux peacuteriodes successives et il semble deacutelicat de juger dela transformation de la structure globale drsquoun reacuteseau dont les nœuds sont eux-mecircmes modifieacutes agrave chaque pas de temps Notre objectif est donc drsquoaccompagner letravail drsquointerpreacutetation des cartes en fournissant une proceacutedure de deacuteterminationdes dynamiques scientifiques au niveau meacutesoscopique crsquoest agrave dire directementlieacutees aux mutations subies par les champs eacutepisteacutemiques Lrsquoobservation des chan-gements dans les associations de mots-cleacutes qui modifient la nature de nos champseacutepisteacutemiques constitue sans doute un niveau drsquoanalyse pertinent pour observer lesdynamiques de lrsquoactiviteacute scientifique Lrsquoeacutevolution de ces ensembles de termes per-mettent en effet de retracer les processus parfois discontinus (Kuhn 1970a Mul-kay 1976) de fertilisation croiseacutee entre champs la circulation de concepts agrave tra-vers les domaines ou encore les augmentations et diminutions drsquoactiviteacute propresagrave un champ Nous appelons meacuteso-dynamiques les transformations qui affectent leschamps eacutepisteacutemiques La reconstruction de ces meacuteso-dynamiques revient en fait agravespeacutecifier la fonction deacuteterminant les ldquorelations de parenteacute intellectuellerdquo entre leschamps eacutepisteacutemiques obtenus entre deux peacuteriodes successives
Callon (1994) oppose deux dynamiques extrecircmes des dynamiques des collec-tifs ldquolocauxrdquo qui animent lrsquoeacutevolution des sciences Il distingue drsquoun cocircteacute des dy-
45 Meacutethode de reconstruction dynamique 143
immunologie
geacutenomique amp reacuteseaux
catalyse
1976-1990 1991-1998
expression des gegravenes amp reacuteseaux
interactions proteacuteineproteacuteine amp
reacuteseaux
interactions proteacuteineproteacuteine amp
reacuteseaux
expression des gegravenes amp reacuteseaux
canceramp reacuteseaux
1999-2003 2004-2007
FIGURE 416 Evolution de la structuration des champs de notre jeu de donneacutees biologie ampreacuteseaux sur quatre peacuteriodes 1976-1990 1991-1998 1999-2002 2003-2007 (la couleur deschamps correspond agrave leur croissance drsquoactiviteacute leur taille agrave leur activiteacute (eacutechelle logarith-mique))
namiques conservatives qui ldquoconsolidentrdquo un eacutetat des chosesrdquo formeacutees par ldquodescollectifs locaux qui opegraverent des reconfigurations mineures sans bouleverser lesconnections existantesrdquo 23 agrave des dynamiques de ldquoprolifeacuteration de nouveaux eacutetatsdu monderdquo qui se caracteacuterisent par lrsquoeacutemergence de ldquocollectifs locaux agrave mecircme deproposer des reconfigurations tregraves originales et innovantes de reacuteseaux non connec-teacutes jusqursquoagrave lorsrdquo 24
Dans notre perspective nous nrsquoenvisageons les dynamiques des champsque comme la transformation des ensembles de ldquoconceptsrdquo censeacutes refleacuteter lesldquoconnaissances de basesrdquo (Morris and der Veer Martens 2008) partageacutees par les
23 ldquoThe local collective does some minor reconfiguration work but this will not shake up existingconnectionsrdquo (Callon 1994)
24 ldquothe local collective is in a position to propose some very original innovative reconfigurationslinking together networks that had been separate This leads to the proliferation of new states of theworld rdquo ibid p 415
144 Chapitre 4 Structures eacutemergentes
participants drsquoun champ eacutepisteacutemique Nous nrsquointeacutegrons pas dans notre analyse lamecircme richesse descriptive que celle que (Callon 1994) accorde aux collectifs lo-caux nous pouvons neacuteanmoins nous en inspirer pour tacirccher de retracer les conseacute-quences de ces transformations en termes de dynamiques de nos champs
La composition drsquoun champ scientifique peut en effet ecirctre soumise agrave un certainnombre de transformations qui en modifieront les frontiegraveres et la forme Le reacuteper-toire de ces dynamiques comprend les eacuteveacutenements potentiels suivants Un champpeut croicirctre en acqueacuterant de nouveau concepts ou bien deacutecroicirctre srsquoil en perd Lesdeux versions extrecircmes de ces cas de figure correspondent agrave une naissance ex-nihiloou agrave la disparition du champ Un champ peut eacutegalement fusionner avec drsquoautrechamps pour former un un nouveau champ eacutepisteacutemique ou encore se diviser enplusieurs champs
454 Reconstruction de la phylogeacutenie des sciences
En nous adonnant agrave la meacutetaphore biologique nous pouvons faire un paral-legravele entre la dynamique des champs eacutepisteacutemiques et lrsquoeacutevolution des espegraveces Enbiologie un arbre phylogeacuteneacutetique repreacutesente lrsquohistoire eacutevolutive des espegraveces etdes organismes Une large gamme de meacutethodes est utiliseacutee pour reconstruire lesrelations phylogeacuteneacutetiques entre entiteacutes (Nei 1996) ces meacutethodes srsquoappuient geacute-neacuteralement sur la comparaison de seacutequences geacuteneacutetiques Une meacutethode classiqueconsiste agrave faire appel agrave des algorithmes de clustering baseacutes sur des mesures dedistances geacuteneacutetiques entre espegraveces (Fitch-Margoliash par exemple) Drsquoautres meacute-thodes comme le maximum de vraisemblance ou lrsquoinfeacuterence bayeacutesienne srsquoappuient surdes hypothegraveses eacutevolutives speacutecifiques (principe de parcimonie par exemple) afindrsquoinfeacuterer lrsquoarbre le plus vraisemblable (Huelsenbeck and Rannala 1997)
Ces meacutethodes de reconstruction drsquoarbres ont eacuteteacute critiqueacutees comme limiteacuteesvoire inadapteacutees lorsqursquoon souhaite inteacutegrer la possibiliteacute de dynamiques plus reacute-ticuleacutees comme des recombinaisons geacuteneacutetiques ou des transferts de gegravenes hori-zontaux Confronteacute agrave ces eacutepisodes drsquohybridation il est neacutecessaire de passer drsquounemodeacutelisation des liens de parenteacute par des arbres phylogeacuteneacutetiques agrave une modeacutelisationpar des reacuteseaux phylogeacuteneacutetiques
Contrairement aux biologistes qui peuvent avoir accegraves agrave un certain nombre deconnaissances sur les meacutecanismes microscopiques qui sous-tendent le processuseacutevolutif (taux de mutation de certains gegravenes mesures de pression de seacutelectionetc) nous devons adopter une perspective agnostique et ignorer les meacutecanismessusceptibles de guider lrsquoeacutevolution des sciences 25 Nous pouvons neacuteanmoins sup-poser que lrsquoeacutevolution des sciences est animeacutee ldquodrsquoeacuteveacutenements drsquohybridationrdquo Leslignages conceptuels ne progressent sans doute pas lineacuteairement la fertilisation
25 Mecircme si certains auteurs ont soutenu que les changements conceptuels en science pouvaientecirctre guideacutes par des principes similaires agrave ceux qui srsquoexercent sur les systegravemes biologiques (Hull2001)
45 Meacutethode de reconstruction dynamique 145
croiseacutees de champs parfois distants est freacutequente et il serait naiumlf de supposer quelrsquoeacutevolution des sciences puisse ecirctre repreacutesenteacutee comme un arbre dont les branchessrsquoeacutetendraient infiniment sans jamais se croiser
En lrsquoabsence drsquoun principe de parcimonie qui permettrait par exemple de four-nir un critegravere global agrave minimiser (tel que le nombre de mutations neacutecessaires) pourreconstruire les relations de parenteacute nous adopterons une approche purement lo-cale La reconstruction du reacuteseau phylogeacuteneacutetique des sciences revient alors agrave reacute-pondre agrave la question suivante eacutetant donneacute agrave un moment t un champ eacutepisteacutemiqueCt de quels champs agrave la peacuteriode preacuteceacutedente Ct heacuterite-t-il conceptuellement
4541 Meacutethode de reconstruction des lignages entre champs eacutepisteacutemiques
Pour reacuteussir cet appariement inter-temporel entre champs nous devons trou-ver pour chaque champ Ct agrave t le ou les champs dont il heacuterite Nous faisons lrsquohy-pothegravese que lrsquoeacutechelle de temps de transformation des champs est suffisammentlente pour nous permettre drsquoen suivre la dynamique agrave lrsquoaide drsquoune simple mesurede similariteacute entre champs calculeacutee entre deux peacuteriodes successives (lrsquoeacutechelle detemps eacutetant lrsquoanneacutee) Nous nous appuyons donc sur un principe de continuiteacute dela composition des champs qui nrsquoest pas sans rappeler celui proposeacute par Simmel(1898) pour suivre la ldquopersistencerdquo des groupes sociaux Nous cherchons ainsi agraveidentifier le champ ou la combinaison de champs agrave t minus 1 (puisque nous souhai-tons inteacutegrer la possibiliteacute drsquoeacuteveacutenements de fusion) qui sont les plus semblables etdonc le plus probablement parents de Ct Plus formellement eacutetant donneacute Ct
i isin Ct
nous creacuteons un lien de parenteacute dans le reacuteseau phylogeacuteneacutetique entre Cti et le sous-
ensemble des champs de la peacuteriode preacuteceacutedente Φt(Cti ) isin P(Ctminus1) (pour rappel
Ctminus1 = Ctminus1k kisinKtminus1 ougrave Ktminus1 deacutesigne lrsquoindex de lrsquoensemble des champs agrave t minus 1)
veacuterifiant
Φt(Cti ) =
Ctminus1j
jisin κti
κti = arg min
κsubKtminus1
d(
Cti
⋃
kisinκ
Ctminus1k
)
si d(
Cti
⋃
kisinκti
Ctminus1k
)
lt d0
empty sinon
Il semblerait abusif de faire se correspondre deux ensembles de champs tropdistants lrsquoun de lrsquoautre mecircme en lrsquoabsence drsquoun meilleur appariement Nous deacute-finissons donc un seuil d0 de distance entre clusters inter-temporels au-dessousduquel nous consideacutererons lrsquoappariement comme satisfaisant Comme nous le ver-rons il existe un large intervalle de valeurs pour lesquelles ce seuil ne modifie pasde faccedilon critique les motifs apparaissant au sein du lignage
Une faccedilon simple de choisir une distance d est drsquoopter pour la distance de Jac-card qui mesure le ratio nombre de termes non-recouvrants entre deux champsdiviseacute par le cardinal de lrsquounion des champs Cette mesure est eacutegalement lrsquoinverse
146 Chapitre 4 Structures eacutemergentes
de ldquolrsquoindice de transformationrdquo introduit par Callon et al (1991) dans une pers-pective identique Palla et al (2007a) ont proposeacute une meacutethode de reconstructionde lrsquoeacutevolution des groupes sociaux (baseacutee sur lrsquoanalyse drsquoun reacuteseau de contact teacute-leacutephonique) en srsquoappuyant sur une mecircme mesure de distance entre clusters inter-temporels neacuteanmoins leur meacutethode est distincte de la nocirctre au sens ougrave les lignagesqursquoelle construit sont limiteacutes agrave des chaicircnes purement lineacuteaires (ie le degreacute entrantet sortant drsquoun cluster agrave un moment donneacute vaut au plus 1) Notre meacutethode en au-torisant une plus grande varieacuteteacute de dynamiques (et notamment un degreacute sortantet entrant dans le reacuteseau phylogeacuteneacutetique non limiteacute) permet la construction destructures plus riches Drsquoautres auteurs ont proposeacute des indices de stabiliteacute des do-maines de speacutecialiteacute obtenus avec des analyse de type co-citation en srsquoappuyantsur une mesure de similariteacute entre clusters de type cosinus (Braam et al 1991) ousur drsquoautres types de mesure similaires (Hopcroft et al 2004a) Dans le cadre de lareconstruction des filiations entre champs eacutepisteacutemiques nous consideacuterons que lastabiliteacute des ensembles de termes reacuteguliegraverement apparieacutes constitue un bon critegraverede continuiteacute entre champs Avec une telle mesure on obtient alors la deacutefinitionsuivante (en posant δ0 = 1minus d0)
Φt(Cti ) =
Ctminus1j
jisin κti
κti = argmax
κsubKtminus1
∣
∣Cti
⋂(
⋃
kisinκ
Ctminus1k
)
|
∣
∣Cti
⋃(
⋃
kisinκ
Ctminus1k
)∣
∣
si
∣
∣Cti
⋂(
⋃
kisinκti
Ctminus1k
)
|
∣
∣Cti
⋃(
⋃
kisinκti
Ctminus1k
)∣
∣
gt δ0
empty sinon
La proceacutedure drsquoidentification est illustreacutee figure 417 Etant donneacutes deuxchamps A et B agrave une peacuteriode t on deacutetecte agrave un moment ulteacuterieur t + 1 deuxautres champs C et D (qui partagent un terme en commun) La question est doncde savoir de quels champs descendent le plus vraisemblablement les champs C etD
FIGURE 417 Exemple drsquoeacutevolution de deux champs entre deux pas de temps successifsbaseacute sur (Palla et al 2007a) On distingue agrave la peacuteriode t les champs A (en bleu) et B (enorange) puis agrave la peacuteriode suivante les champs C (en vert) et D (en rouge)
Compte tenu de notre contrainte de continuiteacute on voit immeacutediatement que la
45 Meacutethode de reconstruction dynamique 147
communauteacute C descend directement de la communauteacute A mecircme si deux noeudsont disparu tandis qursquoun autre a eacuteteacute ajouteacute la distance entre les champs A et C
vaut d(A C) = 1minus 25 et constitue la meilleure correspondance possible En ce qui
concerne D lrsquoappariement optimal est un peu moins eacutevident Si nous calculonspour chacun des cas possibles (le champ D peut descendre de A B ou de AcupB) lesratios correspondants d(A D) = 1minus 2
8 d(B D) = 1minus 36 et enfin d(AcupB D) = 1minus 5
7 on constate que la meilleure correspondance possible pour le champ D est doncofferte par A cupB Si d0 gt 5
7 (ou de faccedilon eacutequivalente si δ0 lt 1minus 57 ) on consideacuterera
alors que D est un produit de la la fusion des champs A et B
4542 Exemples de phylogeacutenies
Pour reconstruire la phylogeacutenie drsquoun domaine nous calculons pour lrsquoensembledes champs eacutepisteacutemiques agrave une peacuteriode donneacutee lrsquoensemble de leurs anteacuteceacutedentsgracircce agrave la formule deacutecrite ci-dessus Lrsquoensemble des relations de filiation peut ecirctrereacuteuni au sein drsquoun graphe dirigeacute acyclique formant ce que nous appelons la phy-logeacutenie du domaine Ce graphe peut alors ecirctre repreacutesenteacute agrave lrsquoaide drsquoun logiciel derepreacutesentation de reacuteseau (nous avons choisi Graphviz 26 logiciel speacutecialiseacute dansla repreacutesentation drsquoarbre qui minimise le nombre de croisements entre branches)La figure 418 fournit un exemple de phylogeacutenie calculeacutee sur notre base de don-neacutees biologie amp reacuteseau retraccedilant la dynamique des champs entre 1994 et 2007 Ilnous a eacuteteacute impossible de repreacutesenter lrsquoensemble de la phylogeacutenie tout en rendantson contenu lisible on peut neacuteanmoins observer sur cette repreacutesentation la diver-siteacute des motifs de parenteacute existants Certaines branches paraissent tregraves lineacuteairesdrsquoautres donnent lieu agrave un certain foisonnement avec de nombreux eacuteveacutenementsdrsquohybridation (un champ eacutepisteacutemique descendant de plusieurs communauteacutes) etde diversification (une branche est agrave lrsquoorigine de plusieurs sous-branches)
Afin drsquoavoir une repreacutesentation plus resserreacutee nous avons traceacute une autre par-tie de la phylogeacutenie sur une peacuteriode de temps plus reacuteduite (2001-2007) et en choi-sissant une fenecirctre temporelle limiteacutee agrave une anneacutee On a ensuite seacutelectionneacute uni-quement le sous-reacuteseau constitueacute par les champs mentionnant les termes ldquocancerrdquoou ldquotumorrdquo Le reacutesultat de cette extraction est preacutesenteacute figure 419 Sur ce deacutetail dela phylogeacutenie on a annoteacute les ldquobranchesrdquo en fonction de trois grandes familles decontextes dans lesquelles les probleacutematiques lieacutees au cancer sont eacutetudieacutees
On observe clairement 3 ensembles distincts dans cette phylogeacutenie Deux en-sembles donnent lieu agrave des dynamiques complexes entre champs et traitent drsquounepart des relations entre le cancer et lrsquo ADN drsquoautre part des probleacutematiques lieacuteesaux termes cancer tumor et proliferation Ces sous-domaines semblent avoir multi-plieacute leur interactions ces derniegraveres anneacutees autour des concepts apoptosis suppressoret cell cycle Le troisiegraveme ensemble qui se distingue par un lignage conceptuel tregraveslineacuteaire se rapporte aux relations entre tumor et immune system Ces deux cateacutego-
26 http wwwgraphvizorg
148 Chapitre 4 Structures eacutemergentes
1994-1995
1995-1996
2approximation
gaussianmodel
gaussian
3checkpoint
dna _damagedna _repair
repairstrand
dna repair
19
dna damagedna repair
-checkpoint
-strand
4drosophila
drosoph_melanogmelanogaster
drosophila
8
melanogasterdrosophila
5dehydrogenase
enzymephosphate
enzyme
9
phosphateenzyme
8gaussian
populationvariancegaussian
9climate
responsestressclimate
10adhesion
cell _motilitintercellularmoleculesurface
intercellular
69
moleculeadhesion
-cell _motilit
-surface
+gene_expr_data
11biologi_systemshierarc_cluster
systemhierarchical clustering
4
biological systemssignaling network
+signali_network
-hierarc_cluster
12brain
cellula_networkcentral_nervous
genomeintegrativenervoussystem
universeintegrative
18
plasticityhybridization
+cortex
+hippocampus
+hybridization
+interneurons
+layer
+mrna
+plasticity
+synapti_plastic
+visual _cortex
-cellula_network
-genome
-integrative
-universe
13brain
cognitiveinforma_process
information processing
80
hippocampushybridization
+cortex
+hippocampus
+hybridization
+interneurons
-cognitive
-informa_process
14conservation
nematodarrna
speciesrrna
11
expression profilingspecies
-conservation
-nematoda
-rrna
+express_profili
+profiling
12
rrnatime series
-conservation
-nematoda
+time _series
15
conservationbiodiversity
-nematoda
-rrna
+biodiversity
15chromatincytoplasm
nuclearnucleus
subcell_localizchromatin
26correlation
oxygenpositive
presenceuniverse
vegetationcorrelation
47
correlationexpression profiling
-oxygen
-presence
-universe
-vegetation
+express_profili
39chip
hybridizationoligonucleotid
chip
+brain
+central_nervous
+cortex
+hippocampus
+interneurons
+layer
+mrna
+nervous
+plasticity
+synapti_plastic
+system
+visual _cortex
-chip
-oligonucleotid
73
messengerhybridization
+expression
+express_profili
+messenger
+messeng_rna
+mrna
-chip
-oligonucleotid
+brain
+cortex
+hippocampus
+interneurons
-chip
-oligonucleotid
54candidate
chromosomefuzzy
genome _widelinkagelocus
long _rangemappingmarker
quantit_traittraittrait
75
mappingtrait
-candidate
-fuzzy
-long _range
+bayesian
59express_profili
levelmrna
steady _statemrna
-level
-mrna
-steady _state
+profiling
+species
-level
-mrna
-steady _state
+correlation
+positive
+expression
+hybridization
+messenger
+messeng_rna
-level
-steady _state
98
mrnamessenger rna
+expression
+messenger
+messeng_rna
-level
-steady _state
60predict_methodsprotein_structu
seconda_structustructure
structu_predictstructure prediction
77
structure predictionsecondary structure
-protein_structu
62amplification
chaindetectexon
express_profilifunctio_modulesgene_expr_profoligonucleotidpolymerase
reactionsequencing
universedetect
60
oligonucleotideexpression profiling
+gene_expr_leve
+nematoda
+petri
+vegetation
-exon
-functio_modules
-universe
69biology
computa_methodmachine_learnin
molecularmolecul_biology
physicsmolecular biology
62
molecular biologygene expression data
-computa_method
-machine_learnin
-physics
+gene_expr_data
1996-199757
interaction networkpattern
+interac_data
+interac_network
+pattern
+pattern_formati
-drosoph_melanog
7
phosphateenzyme
5
dna damagedna repair
24actinalpha
myosinalpha
31
actinalpha
79
helixstructure prediction
+helix
+predict_methods
+structu_predict
-actin
-myosin
43
expression profilingcorrelation
+predict_accurac
49detect
positivepredict_accurac
prediction accuracy
+correlation
+express_profili
-detect
50differe_equatio
patternpattern_formati
pattern formation
+drosophila
+interac_data
+interac_network
+melanogaster
-differe_equatio
59membrane
predict_accuractopology
transmembranetransmembrane
11
transmembranetopology
-predict_accurac
54
detectsequencing
-nematoda
-petri
-vegetation
103
polymerasesequencing
-amplification
-detect
-gene_expr_leve
-gene_expr_prof
-nematoda
-oligonucleotid
-petri
-vegetation
18
molecular biologyontology
+ontology
-gene_expr_data
32
moleculeadhesion
+alpha
-gene_expr_data
63
hybridizationmessenger
+level
91
messengerhybridization
68
mappingtrait
96
locuslinkage
-bayesian
-genome _wide
-mapping
64
structure predictionprediction accuracy
+predict_accurac
+alpha
+helix
-seconda_structu
-structure
60
hippocampuscortex
+mrna
90dna _microar
genomegenome _wide
mappingmicroarraymapping
87
genome widemicroarray
-mapping
1997-19988
dna damagedna repair
10
phosphateenzyme
26
transmembranetopology
28
molecular levelmolecular basis
+dna _microar
+level
+molecul_basis
+molecul_level
+molecul_network
57
dna microarrayontology
+dna _microar
32
actinalpha
1
adhesionmolecule
-alpha
38gene _regulat
molecul_networkregulation
molecular networks
+biology
+dna _microar
+level
+molecular
+molecul_basis
+molecul_biology
+molecul_level
+ontology
-gene _regulat
-regulation
47
gene regulationmolecular networks
55
sequencingdetect
-express_profili
-gene_expr_leve
-gene_expr_prof
+network_archite
48
drosophila melanogasterevolvability
-interac_data
-interac_network
-pattern
-pattern_formati
+drosoph_melanog
+evolvability
69
interaction networkpattern
85
interaction networkhybrid
-drosophila
-melanogaster
-pattern
-pattern_formati
+hybrid
+interaction
65
hippocampushybridization
-brain
-interneurons
+visual _cortex
80
structure predictionprediction accuracy
58
candidatetrait
+candidate
+dna _microar
+microarray
-bayesian
106
mappingchromosome
-bayesian
-linkage
-quantit_trait
-trait
+dna _microar
+candidate
+chromosome
+linkage
+locus
+mapping
+marker
+quantit_trait
+trait
-genome
49
messengermrna
-express_profili
-hybridization
100
locuslinkage
1998-199916
adhesionmolecule
4brain
imagingmagneti_resonan
brain
83
hippocampuscortex
+cellula_network
+cortex
+hippocampus
-imaging
-magneti_resonan
49
stranddna repair
+interac_map
+strand
71
dna repairinteraction map
+interac_map
9
phosphateenzyme
13
transmembranetopology
38
molecular levelmolecular networks
-biology
-dna _microar
-molecul_basis
-molecul_biology
-ontology
44
actinalpha
41
regulatemolecular networks
+regulate
-gene _regulat
65
drosophila melanogasterevolvability
63
sequencingpolymerase
-network_archite
-oligonucleotid
21
molecular biologymodelling
+differe_equatio
+modelling
-dna _microar
61
molecular biologyontology
-dna _microar
74
genome widelocus
-dna _microar
-microarray
-hybridization
-mrna
-visual _cortex
+brain
+cellula_network
84
hybridizationcortex
-visual _cortex
110
genome widelocus
+genome _wide
1999-2000
4chip
high_thro_dataoligonucleotid
high throughput data
36
alphahigh throughput data
+alpha
+seconda_structu
-chip
-oligonucleotid
8
phosphateenzyme
11ligand
ligand _bindingreceptor
ligand binding
29
receptorligand binding
33
cell surfacemolecular networks
+cell _surface
+molecul_network
+surface
-ligand
-ligand _binding
25
transmembranetranscription networks
+transcr_network
15network_topolog
populationstatistics
network topology
61
genetic variationevolvability
+evolvability
+genetic_variati
+variation
-network_topolog
-statistics
12
adhesionmolecule
20bind
binding_proteinrna _binding
binding protein
15
rna bindingbinding protein
+cell _surface
+receptor
+surface
-regulate
-regulation
28
actinalpha
+high_thro_data
+seconda_structu
-actin
-myosin
45algorithm
graphsubgraphsalgorithm
30
high throughput datagraph
+high_thro_data
44
high throughput databiology
+high_thro_data
-ontology
79
ontologybiology
+gene _ontolog
-molecul_biology
46
detectamplification
+gene_expr_leve
+messeng_rna
+molecul_network
-sequencing
6
melanogasterdrosophila
-evolvability
+genetic_variati
+population
+variation
-drosophila
-drosoph_melanog
-melanogaster
17
repairdna damage
+cancer
-interac_map
65
genome widelocus
86
locuslinkage
-genome _wide
2000-20016
melanogasterdrosophila
7
phosphateenzyme
42
metabolic pathwaysubgraphs
+metabol_pathway
+pathway
+subgraphs
-dehydrogenase
-phosphate
1
adhesionmolecule
17
affinityligand binding
+affinity
+ligand _binding
-binding_protein
-rna _binding
20
rna bindingbinding protein
25
repaircancer
+food _web
13
transcription networkstransmembrane
-topology
36
actinalpha
+affinity
+bind
-ligand
-receptor
32
receptorligand binding
+enzyme
+metabol_pathway
+pathway
-algorithm
-graph
-high_thro_data
51
high throughput databioinformatics
+bioinformatics
+high_thro_data
+information
-cell _surface
-receptor
-surface
+bioinformatics
+information
+molecul_network
-alpha
-seconda_structu
37base
dynamic_simulatmolecular
molecul_dynamicsimulationstructure
simulation
19
basesimulation
60
high throughput databiology
57
amplificationdetect
+microar_dataset
+nematoda
+quantitative
-molecul_network
34
variancegenetic variation
+natural_selecti
+variance
76
genome widemapping
-candidate
88
locuslinkage
2001-20022
adhesionmolecule
12
melanogasterdrosophila
35
genetic interactionsregulatory interactions
+genetic_interac
+gene_regu_netw
+regulat_interac
-drosoph_melanog
-melanogaster
17
transmembranetopology
+topology
-transcr_network
89
functional annotationtranscription networks
+annotation
+functio_annotat
+genome
-membrane
-transmembrane
22
affinityligand binding
46
basestructure
-simulation
26
rna bindingbinding protein
66
repairdna damage
-food _web
39
receptorligand binding
86
genome widechromosome
+chromosome
+genome _wide
+linkage
+locus
+mapping
+marker
+quantitative
+quantit_trait
+region
+trait
-evolvability
-genetic_variati
-natural_selecti
43
actinalpha
39complex
gene_regu_netwprotein_complexprotein complex
+drosophila
+genetic_interac
+regulat_interac
-complex
-protein_complex
54
molecular networksgenetic regulatory network
+molecul_network
49
metabolic pathwaysubgraphs
47ecologyevolution
natural_selectispecies
evolution
57
evolutionspecies
-ecology
50bioinformatics
genomesystems_biologysystems biology
+annotation
+functio_annotat
+transcr_network
-bioinformatics
-systems_biology
31
detectamplification
+bond _network
+messenger
+mrna
-microar_dataset
-nematoda
-quantitative
70
detectamplification
-microar_dataset
-nematoda
-quantitative
+messenger
+population
+quantitative
+region
+variance
+variation
111
mappinglocus
-genome _wide
2002-20033
adhesionmolecule
1
polymerizationfilament
+actin
+arp2
+cytoskeleton
+filament
+nucleation
+polymerization
-cellula_functio
-network_motifs
37
subgraphsreaction networks
+reactio_network
+subgraphs
-network_motifs
16
melanogasterdrosophila
24
transmembranetopology
4
affinityligand binding
23algorithm
graphsubgraphsalgorithm
28
graphalgorithm
+cellular
+cellula_functio
+reactio_network
-algorithm
-graph
70
detectreaction
+chain
+detect
+reaction
-algorithm
-graph
32
rna bindingbinding protein
38
detectamplification
-bond _network
-gene_expr_leve
+subgraphs
48
receptorligand binding
51
actinalpha
31
baseconformation
+conformation
52
natural selectiondynamical systems
+atom
+dynamic_systems
+evolution
+gene _duplica
+global _network
+natural_selecti
+oxygen
+selection
+species
+time
+time _scales
-metabol_pathway
-pathway
+atom
+dynamic_systems
+enzyme
+gene _duplica
+global _network
+oxygen
+selection
+subgraphs
+time
+time _scales
65
repairdna damage
-amplification
-gene_expr_leve
-messenger
-messeng_rna
-polymerase
+subgraphs
73annotationdatabase
gene _ontologinformation
ontologyontology
57
annotationdatabase
+functio_annotat
+genome
+process
+prot_inte_netw
+sequence
80
ontologyannotation
-information
87
genome widelocus
-quantitative
-variance
-variation
+database
+gene _ontolog
+information
+ontology
+process
+prot_inte_netw
+sequence
-transcr_network
106
locusmapping
+region
113
mappinglocus
2003-20041
filamentpolymerization
+alpha
+myosin
-cellular
-nucleation
39
nucleationmicrotubule
-actin
-cellular
-cytoskeleton
-filament
-polymerization
+complex
+microtubule
2
adhesionmolecule
3
affinityligand binding
17
melanogasterdrosophila
49
graphalgorithm
55
structuresite
-base
-conformation
+site
31
rna bindingbinding protein
44genome
genome _scalemetabol_network
scalegenome
44
annotationscale
+annotation
+database
+functio_annotat
+gene
+gene _ontolog
+high_thro_data
+information
+ontology
+process
-metabol_network
25
receptorligand binding
+arp2
+cytoskeleton
+filament
+polymerization
+gene
+genome _scale
+high_thro_data
+scale
-prot_inte_netw
-sequence
62
repairdna damage
82
ontologyannotation
88
genome widelocus
105
locusmapping
111
mappinglocus
2004-20051
actinpolymerization
-alpha
-cytoskeleton
-filament
-myosin
+complex
+mechanism
+nucleation
50
actinalpha
-arp2
-cytoskeleton
-filament
-polymerization
2
adhesionmolecule
15
melanogasterdrosophila
23
receptorligand binding
30
rna bindingbinding protein
+actin
+mechanism
+polymerization
-microtubule
41
genome scalehigh throughput data
-annotation
-database
-functio_annotat
-gene
-gene _ontolog
-information
-ontology
-process
58
databaseannotation
-genome _scale
-high_thro_data
-scale
+galaxy
+sequence
3
graphalgorithm
36
simulationstructure
+conformation
+simulation
65
repairdna damage
82
ontologyannotation
78
genome widelocus
+variance
+variation
101
locusmapping
114
mappinglocus
2005-2006
1actinarp2
nucleationpolymerizationpolymerization
-complex
-mechanism
59bind
complexcrystal_structu
mechanismsite
structu_basisstructure
mechanism
+bind
+crystal_structu
+site
+structu_basis
+structure
-actin
-arp2
-nucleation
-polymerization
2adhesion
intercellularmoleculemolecule
3algorithm
graphsubgraphsalgorithm
82annotation
functio_annotatinformationsubgraphssubgraphs
+annotation
+functio_annotat
+information
-algorithm
-graph
13drosophila
drosoph_melanogmelanogaster
drosophila
28bind
ligandligand _binding
receptorligand
+bind
27bind
binding_proteinrna _binding
binding protein
53dynamic_simulat
molecularmolecul_dynamic
simulationsitesite
-conformation
-structure
+bind
+complex
+crystal_structu
+mechanism
+structu_basis
-conformation
-dynamic_simulat
-molecular
-molecul_dynamic
-simulation
40genome
genome _scalemetabol_network
scalegenome
+metabol_network
-high_thro_data
47actinalpha
myosinalpha
15annotationdatabase
functio_annotatfunctio_genomic
galaxygene
gene _ontologgenome
informationmicroarrayontologyprocess
sequencesubgraphsdatabase
+functio_genomic
+microarray
+subgraphs
-database
-galaxy
-gene
-gene _ontolog
-genome
-ontology
-process
-sequence
+subgraphs
63cancer
checkpointdna _damagedna _repair
repairrepair
+checkpoint
77chromosome
genome _widelinkagelocus
mappingmarker
populationquantit_trait
regiontrait
variationchromosome
-variance
87annotationdatabase
gene _ontologontology
subgraphsgene ontology
+subgraphs
101chromosome
linkagelocus
mappingmarker
quantit_traitregion
traitmapping
110chromosome
linkagelocus
mappingmarker
quantit_traittrait
locus
FIGURE 418 Extrait de la phylogeacutenie des champs eacutepisteacutemiques lieacutes aux approches biologieamp reacuteseau de 1994 agrave 2007 Nous avons uniquement seacutelectionneacute les champs constitueacutes dequatre termes ou plus Chaque ligne de la phylogeacutenie correspond aux champs deacutetecteacuteessur une fenecirctre de deux ans On fait ensuite glisser cette fenecirctre drsquoanneacutee en anneacutee (de ligneen ligne) pour remonter la phylogeacutenie vers le passeacute (de bas en haut) Cette phylogeacutenie esttronqueacutee pour des raisons de preacutesentation Les liens de parenteacute entre champs sont coloreacutessoit en rouge en cas de croissance (gain net de concepts) soit en bleu en cas de deacutecroissance(perte nette de concepts) en noir sinon La taille (nombre de rectangles concentriques) deschamps repreacutesente leur densiteacute (D) leur couleur leur croissance drsquoactiviteacute
ries de dynamiques ont eacutegalement des indices de structuration (indice de pseudo-inclusion et densiteacute non repreacutesenteacutes ici) tregraves diffeacuterents et qui semblent correacuteleacuteesaux configurations locales prises par le lignage conceptuel de la phylogeacutenie
4543 Motifs phylogeacuteneacutetiques
Afin drsquoeacutetudier les couplages eacuteventuels entre les indices de structuration deschamps et les motifs de la phylogeacutenie nous proposons dans une premiegravere ap-proche exploratoire drsquoeacutetablir certaines statistiques correacutelant la densiteacute et lrsquoindicede pseudo-inclusion aux ldquoformesrdquo prises par la phylogeacutenie
45 Meacutethode de reconstruction dynamique 149
3380cancernode
progressiontumornode
(2943)
3364
tumorcancernode
(3261)
5096cancer
cell _growthhuman
suppressortumor
suppressor(3250)
3168
humancancer
epidermal growth(2310)
-suppressor-tumor
+epiderm_growth
5294
tumorhuman
suppressor(3791)
6516
tumorproliferation
cell cycle(1487)
+apoptosis+cell _cycle
+cyclin+proliferation
-cancer-human
-suppressor
5356cell _cycle
cyclinprogressionsuppressor
tumorsuppressor
(2210)
+apoptosis+cell _growth+proliferation-progression-suppressor
6062alpha
cytokinekappa _bnf _kappa
nf _kapp_btumor
cytokine(2045)
5404
kappa btumor
nf kappa(3173)
-alpha-cytokine
+apoptosis
6353
alphatumor
cytokine(2666)
5223
humancancer
cell growth(1979)
+tumor
3137
tumorcancernode
(3874)
7186
tumorcancer
progression(1275)
+cell _cycle+cell _growth
+cyclin+suppressor
-node
+epiderm_growth-suppressor
5224
tumorhuman
suppressor(4223)
5330
kappa btumor
nf kappa(3581)
5436cancer
cell _cycledna _damagedna _repair
repaircell cycle
(2038)
5383
cancerdna damage
cell cycle(2347)
6417
alphatumor
cytokine(2883)
6549
tumorproliferation
cell cycle(1748)
6550
tumorapoptosis
suppressor(1406)
+suppressor-proliferation
+cancer+progression+suppressor-apoptosis
-proliferation
2994
tumorcancernode
(4260)
4923
humancancer
cell growth(2065)
4925
tumorhuman
suppressor(4330)
7083
tumorcancer
cell cycle(1382)
+apoptosis+cell _cycle
+cyclin-human
5019
kappa btumor
nf kappa(3641)
5091
cancerapoptosis
suppressor(2146)
+apoptosis+suppressor-dna _repair
-repair
5092
cancerdna damage
cell cycle(2596)
6193
alphatumor
cytokine(2741)
6366
tumorproliferation
cell cycle(1859)
-cell _growth-cyclin-tumor+cancer
+dna _damage
+cancer
7081
tumorcancer
progression(1311)
2892
tumorcancernode
(4879)
4762
humancancer
cell growth(2318)
4763
humantumor
cell growth(2044)
+proliferation-cancer
6193
tumorhuman
apoptosis(3448)
+apoptosis
5084
kappa btumor
nf kappa(3590)
4929
cancerapoptosis
suppressor(2278)
4933
cancerdna damage
cell cycle(2879)
6104
alphatumor
cytokine(2570)
4764
humantumor
apoptosis(6944)
-cell _cycle-cyclin
+human
6413
tumorproliferation
cell cycle(2089)
7081
tumorcancer
progression(1404)
7082
tumorcancer
cell cycle(1500)
2711
tumorcancernode
(5745)
4683
tumorcancer
suppressor(1997)
+instability+suppressor
-node
7046
cancertumor
cell cycle(2086)
+cell _cycle+cell _growth
+cyclin+proliferation
-node
6986
humancancer
apoptosis(4317)
+cancer+cell _cycle
4685
cancerapoptosis
suppressor(2584)
4686
cancercell cycledna repair
(1702)
+dna _repair-apoptosis
6985
humantumor
apoptosis(2782)
+cell _growth+human+tumor
-dna _damage
+cell _growth+human
+proliferation+tumor
-dna _damage-suppressor
+suppressor-repair
4687
cancerinstabilitydna repair
(1951)
+instability-cell _cycle
4688
cancerdna damage
cell cycle(3377)
4900
kappa btumor
nf kappa(3538)
6009
alphatumor
cytokine(2389)
+cell _cycle+cancer
+progression-apoptosis
7047
cancertumor
apoptosis(2269)
+cancer
7043
tumorcancer
progression(1544)
7044
tumorcancer
cell cycle(1656)
+proliferation-suppressor
2707cancernode
progressiontumornode
(6322)
6165cancer
cell _cyclecheckpoint
dna _damagedna _repair
repairrepair(1806)
+checkpoint
4910apoptosiskappa _bnf _kappa
nf _kapp_btumor
nf kappa(3579)
5951alpha
cytokinekappa _bnf _kappanf _kapp_b
tumorcytokine(2306)
7132apoptosis
cancercell _cycle
cell _growthhuman
suppressortumor
apoptosis(2841)
6049cancer
cell _growthepiderm_growth
humanproliferation
tumorproliferation
(2281)
-apoptosis-cell _cycle
+epiderm_growth
7133apoptosis
cancercell _cycle
cell _growthhuman
proliferationtumor
apoptosis(4471)
7193apoptosis
cancercell _cycle
cell _growthcyclin
suppressortumor
cell cycle(1678)
7797cancer
cell _cyclecell _growth
cyclinprogressionproliferation
transformationtumor
cell cycle(1198)
+transformation
7194apoptosis
cancercell _cycle
cell _growthcyclin
proliferationtumor
apoptosis(2361)
2001
2002
2003
2004
2005
2006
2007
TUMOR amp CANCERcell cycle cell growth
apoptosis cyclin suppressor
CANCER amp DNADNA damagerepaircheckpoint cell cycle
TUMOR amp IMMUNE SYSTEM
apoptosis kappa cykotine
FIGURE 419 Deacutetail du sous-reacuteseau phylogeacuteneacutetique lieacute aux eacutetudes sur le cancer Les cou-leurs des cercles figurent la croissance de lrsquoindice de pseudo inclusion Isub (de faible agrave fortedu bleu au rouge) Les champs sont eacutetiqueteacutes avec leurs termes les plus geacuteneacuteriques (agravepart les deacutebuts et les fins de branches dont le contenu inteacutegral des champs est rappeleacute)Les flecircches reliant les champs sont annoteacutes des termes gagneacutes ou perdus par un champentre deux deux peacuteriodes successives Dans chaque cluster on fait eacutegalement figurer entreparenthegraveses le nombre drsquoarticles mentionnant tous les termes du cluster
Nous avons calculeacute une phylogeacutenie 27 sur la mecircme base de donneacutees (reacuteseaux ampbiologie) entre 1990 et 2007 en choisissant une fenecirctre temporelle drsquoune anneacutee Laqualiteacute empirique (cf section 447) de lrsquoensemble des champs a eacuteteacute calculeacutee et nousnrsquoavons seacutelectionneacute que les champs dont la qualiteacute empirique eacutetait satisfaisanteLe reacuteseau phylogeacuteneacutetique ainsi obtenu est composeacute de 7 758 nœuds distribueacutessur les 18 anneacutees Cette repreacutesentation permet de retracer finement lrsquohistoire deschamps en identifiant les influences croiseacutees entre sous-domaines et les peacuteriodescharniegraveres drsquoeacutemergence ou de disparition de champs par exemple Une portion decette phylogeacutenie est repreacutesenteacutee figure 420
Une premiegravere faccedilon drsquoappreacutecier les motifs phylogeacuteneacutetiques consiste simple-ment agrave faire le deacutecompte pour chaque champ du nombre de ldquofilsrdquo (ou nombredrsquoenfants) qui en descendent Le nombre de fils correspond dans notre reacuteseauphylogeacuteneacutetique au degreacute sortant drsquoun champ Alors que la plupart des champs
27 Sur cette carte nous avons directement deacutefini les champs eacutepisteacutemiques comme des k-cliquesde G sans utiliser lrsquoopeacuteration de percolation de cliques cette meacutethode simplifieacutee garantit toujoursla possibiliteacute de clusters recouvrants Elle consiste en reacutealiteacute agrave reconstruire les noyaux ou les cœursdes champs eacutepisteacutemiques Crsquoest la raison pour laquelle nous avons obtenu un tregraves grand nombre dechamps
150
Ch
ap
itre
4
Str
uct
ure
seacutem
erg
en
tes
1987-1990
1988-1991
3633crystal_structu
diffractionform
lattice
(1751)
4430
x ray
(2343)
+x _ray-form
3738equation
linearphysics
relationship
(3563)
3090
absorption
(1797)
+absorption+quantum
-linear-relationship
4352
simulation
(2199)
+parameter+simulation
-linear-relationship
4596
diffusion
(1562)
+diffusion+lattice-linear
-relationship
4597
simulation
(1408)
+diffusion+simulation
-linear-relationship
5113
linear
(916)
+nonlinear+simulation-relationship
4068carbondioxidenitrogenoxygen
(2054)
4097
carbon
(1924)
4099
oxygen
(2331)
+atom-dioxide
4423approximation
diffusionequationnonlinear
(1182)
+lattice+physics
-approximation-nonlinear
+physics+simulation
-approximation-nonlinear
4500energy
excitationlaser
quantum
(2368)
3521
energy
(2591)
+transfer-laser
4282
coupling
(1084)
+coupling+spectroscopy
-energy-laser
4790
laser
(1239)
+absorption+physics-energy
4548carbon
carbon _dioxidedioxideoxygen
(6357)
4360
carbon
(3180)
+energy-oxygen
4450
carbon
(5936)
4555approximation
equationformalism
perturbation
(1116)
5625antibodiesantibodyantigen
cell _surfacelymphocytes
surfacet _cell
(1331)
4817
antibody
(3323)
-lymphocytes-t _cell
1989-1992
3702
energy
(1493)
+approximation+energy-equation-physics
4545
energy
(4378)
+approximation+energy
-absorption-physics
4836
quantum
(1795)
+decay-absorption
3297algorithm
complexitycomputationcomputing
(1057)
3688
energy
(2133)
+absorption+approximation
-excitation-transfer
3703
energy
(2209)
+absorption-transfer
+approximation+equation-excitation-transfer
4297
carbon
(1560)
4593
parameter
(1922)
+approximation+nonlinear
-physics-simulation
4402
x ray
(2148)
4443
carbon
(5260)
3989
diffusion
(1893)
+velocity-lattice
4663
diffusion
(1361)
4789absorptionexcitationquantum
spectroscopyspectrum
(1218)
4918
spectrum
(987)
4798
quantum
(1657)
-absorption-laser
+decay
3340
antigen
(1683)
-antibodies-surface
+lymphocytes
4942
antibody
(2752)
-linear-physics
-simulation+approximation
+parameter
1990-1993
3668coli
escheri_colifusion
recombinant
(2403)
4954
coli
(2706)
+escherichia
3313
energy
(1729)
4391
energy
(3345)
+physics-transfer
3842
energy
(1811)
3844
x ray
(3009)
+absorption+atom
-crystal_structu-lattice
5191
x ray
(1172)
+atom+energy-decay
3144
spectrum
(1354)
-excitation
3147
spectrum
(1442)
-spectroscopy
3183
antibody
(5090)
-cell _surface-surface+positive
4786
antibody
(2031)
1991-1994
3036
spectrum
(2712)
+physics-absorption
3093
positive
(2774)
+infection-antibodies
4928
energy
(1348)
+absorption
4930
energy
(1766)
+physics+transfer+spectrum
-energy
3999
laser
(1976)
+laser-energy
4585
quantum
(1777)
+decay-energy
+transfer
3094
antigen
(1605)
-antibodies-surface
+lymphocytes
4960
coli
(3518)
5373
x ray
(1426)
1992-1995
5505
spectrum
(756)
+gaussian
3585
antibody
(8296)
+antibodies-infection
3586
antibody
(3177)
+antibodies-lymphocytes
3589
antigen
(1842)
+t _cell-lymphocytes
3591
antigen
(2101)
+t _cell-antibody
3612
average
(2181)
4298
energy
(3665)
-transfer
4783
energy
(3058)
-absorption-transfer
+coupling
4894
energy
(1661)
-excitation-transfer
+monte _carlo
5701
energy
(2213)
5730
coli
(4274)
6133
x ray
(1679)
1993-1996 3327
antibody
(10341)
3330
positive
(4887)
+infection-antibodies
3879
antigen
(1707)
+adhesion-antibody
5290
antigen
(1927)
+t _cell
6418
immune
(1225)
+immune+immune _respons
+immunity+t _cell
-cell _surface
+antibodies
+antibodies+immune
+immune _respons+immunity
-cell _surface
3885
antigen
(2499)
3703hiv
infectionreplication
virus
(2203)
3651
virus
(2783)
3276
spectrum
(1622)
+gaussian+spectroscopy
+spectrum-energy
-excitation-quantum
3278
spectrum
(3816)
+spectrum-energy
5262
spectrum
(1196)
+atom+spectroscopy
+spectrum-energy
-excitation
4225
energy
(3877)
4781
laser
(1355)
+laser+noise-energy
-monte _carlo
-excitation-physics
-quantum+absorption
+spectroscopy
3280
spectrum
(2862)
-excitation-gaussian
+atom
3284
noise
(1164)
-excitation-quantum
+noise
3285
spectrum
(1530)
-excitation-gaussian
+noise
+absorption+atom
+spectroscopy-excitation-gaussian-physics
3565
energy
(4001)
-physics
5485
coli
(4920)
5872
x ray
(2023)
1994-1997
3417
spectrum
(1693)
+excitation-spectroscopy
3418
spectrum
(2186)
4243
absorption
(1161)
+atom+coordination
+edge-gaussian
-spectroscopy-spectrum
3416
spectrum
(4943)
+gaussian-quantum
3420
spectrum
(1203)
+noise-absorption
4246
absorption
(3012)
+decay-spectrum
3419
spectrum
(3614)
4939
energy
(2569)
+energy+monte _carlo
-atom-spectrum
5028
oxygen
(1946)
+chemistry+oxygen-physics
-spectrum
3423
noise
(1519)
+excitation-physics
3427
spectrum
(2071)
3940
positive
(1883)
+node-antibodies
5461
antibody
(1901)
+adhesion+cell _surface
-positive
5462
antibody
(2971)
+adhesion+surface-positive
+monte _carlo+physics
-excitation-transfer
4940
energy
(1585)
+approximation+monte _carlo
-excitation-transfer
3776
virus
(3711)
3777
virus
(3640)
+transmission-replication
5564
virus
(2292)
+immune+t _cell
-replication
3657bond
diffractionform
spectroscopy
(3052)
5614
molecule
(2556)
+atom+crystal_structu
+molecule-form
-spectroscopy
3775homology
nucleot_sequencputativeregion
(1922)
4885
homology
(1730)
+bank+genbank-putative-region
+antibody+antibody+surface
-cell _surface
3941
antigen
(2819)
+antibody-t _cell
4193
immune
(2001)
+hiv+immune-antigen
-cell _surface
4381
imaging
(1353)
+image+imaging-physics-quantum
4734
matrix
(2458)
+mass _spectro+matrix
+spectrometry-noise
-physics-quantum
4794
laser
(1109)
+excitation-physics
4798
laser
(1866)
4872chemistry
mass _spectrophysics
spectrometry
(1593)
+laser+matrix
-chemistry-physics
+atom+oxygen
+quantum-mass _spectro
-physics-spectrometry
5435
spectrum
(1610)
5282amplification
chaindetect
polymerasereaction
(3151)
5454
chain
(4232)
5456
chain
(5151)
+sequencing-detect
5283amplification
chainoligonucleotidpolymerase
reaction
(3284)
5455
chain
(4001)
-antibodies-t _cell
+lymphocytes
5296antigenclass
immuneimmune _respons
t _cell
(2011)
3481
antigen
(3219)
-immune
-antigen-class
-immune _respons+hiv
+lymphocytes
+hiv+infection
+virus-antigen
-class-immune _respons
6290
immune
(1531)
+immunity+infection
+virus-antigen
-class
6310
immune
(1760)
+antibody+immunity+infection-antigen
-class
5471
coli
(5599)
5649algorithmcomputercomputing
graphprogram
(854)
4214
algorithm
(1790)
-computer-program+linear
5843
algorithm
(1109)
5844
program
(874)
+software-algorithm
5657algorithm
computationcomputercomputing
graph
(1033)
5849
algorithm
(1341)
6138
algorithm
(1024)
+implementation+optimization
-computer-graph
6178
algorithm
(840)
+implementation-computer
+bond+molecule
-lattice-x _ray
5936atombond
coordinationdiffraction
spectroscopy
(1172)
3575
spectroscopy
(1110)
-bond-diffraction
+center
-bond-diffraction
-spectroscopy+absorption
+edge
6066antibodyantigenimmune
immune _responsimmunityinfection
(1627)
5544
response
(2418)
-antibody-antigen
-infection+cytokine+response
+t _cell+virus
-antibody-antigen
+t _cell-antigen
5463
antibody
(1565)
-antigen-immune-t _cell
+recombinant
6240
immune
(2820)
-t _cell
6361
immune
(1460)
-antibodies-antibody-antigen
+cytokine+mice
1995-1998
3229
spectrum
(6051)
3230
spectrum
(1554)
3782
noise
(1130)
+threshold-spectrum
3270
antigen
(3629)
5697
immune
(1674)
+immune+tolerance
-class
6474
immune
(1887)
+immune+immunity
+virus-class
3553apoptosis
cellcycle
proliferation
(2723)
3353
cell
(3727)
3354
cell
(6263)
+cell _differe+differentiatio
-apoptosis-cycle
3391
spectroscopy
(1846)
+quantum-coordination
3640approximation
discreteequationgaussian
(1840)
4003
concentration
(1657)
+concentration+diffusion
-approximation-discrete
4611
dependence
(4233)
+dependence-discrete
3656approximation
distributiongaussian
monte _carlo
(1304)
4909
energy
(1563)
+energy-distribution
6119
parameter
(1075)
+equation+parameter-distribution
3687receptor
signal _transdusignallingtyrosine
(2357)
3535
receptor
(2619)
4133
virus
(4124)
3922
virus
(4029)
3831
antibody
(14278)
+antibodies-node
3841
positive
(2080)
5695
antigen
(2234)
+t _cell
4171activat_proteinphosphorylatioprotein_kinase
serine
(1725)
4479
protein kinase
(1965)
4210equation
graphlinear
nonlinear
(1855)
4146
linear
(2101)
4868
parameter
(1323)
+parameter-linear
5019
laser
(1431)
5023
laser
(2393)
3730
region
(2612)
+putative+region-bank
-genbank
3823
nucleotide
(1826)
+nucleotide+open-bank
-nucleot_sequenc
4909approximation
equationgraph
parameter
(1837)
4866
parameter
(1203)
+computation-approximation
4867
parameter
(2081)
+nonlinear-approximation
+gaussian+monte _carlo
-graph
4910
energy
(2269)
+gaussian-quantum
+gaussian-quantum
4942energy
equationmonte _carlo
physics
(3615)
5826
linear
(1166)
+formalism+gaussian
+linear-energy
-monte _carlo
5829
linear
(1016)
+gaussian+linear-energy
4748
oxygen
(4730)
+carbon+nitrogen-chemistry-quantum
5083equationmodelling
monte _carlosimulation
(1239)
3987
simulation
(1188)
+computation+computer-equation
-modelling
5460
spectrum
(2055)
4158
reaction
(5847)
-amplification-chain
+positive
5482
chain
(4673)
5483
chain
(4181)
4220
reaction
(3934)
-amplification-chain
+strand
5484
chain
(5673)
3832
antibody
(5562)
-adhesion
3836
antibody
(3064)
-antigen
3833
antibody
(13077)
-adhesion
3837
antibody
(4974)
-antigen
5691
antibody
(1735)
5700
coli
(5694)
5591
response
(3021)
5842
molecule
(1102)
+hydroge_bonding-bond
5747approximation
equationgaussian
linearmonte _carlo
(815)
+formalism+physics
-approximation-monte _carlo
5828
linear
(1072)
+physics-approximation
5894
algorithm
(850)
+computation-computer
3998
software
(1138)
-computing-program
+computation
-algorithm-computing
-graph+monte _carlo
+simulation
-algorithm-computing+software
5756
algorithm
(1467)
+program-computer
6037approximation
equationmonte _carlo
parametersimulation
(1584)
6068
simulation
(1114)
+diffusion-parameter
6336
simulation
(858)
+statistics-parameter
5190
computing
(1126)
-algorithm
6471
immune
(3101)
+antigen-infection
6529
immune
(1750)
6473
immune
(1999)
6387carbon
carbon _dioxidedioxide
methanenitrogenoxygen
(1155)
-carbon _dioxide-dioxide-methane
+atom
6058
carbon
(4010)
-methane
1996-1999
4924
spectrum
(4766)
+spectroscopy
2876
spectrum
(1915)
3352
antigen
(4002)
3353
antigen
(3199)
+cell _surface-immune _respons
6029
immune
(2955)
+antibody+immune
+immunity-class
3755
apoptosis
(2406)
+cell _cycle+flow-cell
-proliferation
2985
cell
(2363)
+cell _divisio-differentiatio
3529ligand
ligand _bindingreceptor
transmembrane
(2357)
3128
receptor
(2571)
+hormone-transmembrane
3129
receptor
(2597)
3532cell _surface
ligandreceptor
transmembrane
(2332)
3131
receptor
(2714)
3134
receptor
(2914)
3621cell _cycle
cyclingrowth
proliferation
(1869)
+apoptosis+cycle+flow-cyclin-growth
-proliferation
5313
tumor
(1457)
+progression+suppressor
+tumor-growth
-proliferation
3645cancer
cell _growthhumantumor
(5679)
3212
human
(6654)
3213
tumor
(10110)
+suppressor-cell _growth
3717polymerase
positivepresencereaction
(11074)
5129
reaction
(4509)
+detect
3200
open
(1841)
+homologous+open
-putative-region
3806codonexon
mutationsequencing
(1878)
3337
nucleotide
(2044)
+nucleotide-mutation
3339
nucleotide
(1627)
+base+nucleotide-mutation
-sequencing
3818amino _acidhomologynucleotide
open
(5036)
+homologous+nucleot_sequenc
-amino _acid-nucleotide
5314
amino acid
(3319)
+nucleot_sequenc
5316
nucleotide
(1658)
+nucleot_sequenc
3346
antibody
(14840)
5164
antibody
(5932)
+surface +cell _surface
5166
surface
(3384)
+surface +cell _surface
2913
t cell
(1636)
+lymphocytes+t _cell
-antibody-positive
3347
positive
(2096)
3349
antigen
(1667)
+t _cell-positive
3895cancernode
progressiontumor
(2149)
3439
tumor
(2353)
+cell _cycle+cyclin
+suppressor-cancer-node
3588
virus
(4009)
6090
virus
(1452)
+immune+immune _respons
+t _cell-transmission
3390
simulation
(1393)
3637
virus
(4508)
+presence
5318
reaction
(1538)
+conformation
5289
kinase
(2485)
+kinase
5936
kinase
(1393)
+activity+kinase
+phosphatase-serine
3728
dependence
(6815)
+strength-gaussian
3732
approximation
(2437)
+strength-dependence
3872
dependence
(3068)
+monte _carlo-gaussian
3270
presence
(6159)
+presence-oxygen
4224
carbon
(2242)
+biomass+nutrient
-atom-oxygen
4225
oxygen
(5262)
4758diffractiondiffusion
latticex _ray
(4793)
4244
x ray
(5411)
3910
correlation
(2460)
+correlation+formalism
-computation-graph
4329
parameter
(1519)
+monte _carlo-graph
+dependence+equation-energy
-gaussian
4345
energy
(975)
+neutron-gaussian
4349
energy
(5904)
+formalism+quantum-gaussian
-monte _carlo
3699
perturbation
(2340)
+formalism+perturbation
-laser-noise
3907
correlation
(2115)
+correlation+equation
+formalism-laser-noise
-physics
4212
imaging
(1153)
+imaging-laser
+energy+formalism
-laser-noise
5767
algorithm
(976)
+algorithm
4921
spectrum
(2596)
4923
spectrum
(928)
+perturbation-spectroscopy
+excitation-atom
2907
chain
(2542)
-amplification-detect
+rearrangement
2909
chain
(8049)
-amplification-detect
+quantitative
4964
chain
(5080)
4965
chain
(4511)
4966
chain
(6373)
4972
chain
(2085)
+conformation-amplification
5117
response
(3559)
6419
immune
(1070)
+effector+mice
+t _cell-response
5680amino _acidhomologynucleotidesequence
sequenc_data
(5491)
5943
sequence
(2899)
+nucleot_sequenc-antibody
-cell _surface+node
2914
antigen
(3723)
-antibody
3348
antigen
(3827)
-lymphocytes
5173
coli
(6018)
3397
computer
(1970)
-algorithm+implementation
-computer
-gaussian-linear
-physics+correlation+quantum
3330
molecule
(1517)
-atom-hydroge_bonding
+lattice
5554
carbon
(4101)
2926
simulation
(3366)
-diffusion-equation+average
5577
simulation
(1363)
2923
average
(1502)
-equation-simulation+average
+t _cell-antibodies
6031
immune
(2274)
+hiv-immunity
6111
immune
(2016)
1997-2000
3165
energy
(7938)
+energy+transfer
-noise-spectrum
4358
laser
(4570)
+decay+laser-noise
-spectrum
2896
chain
(2656)
2897
chain
(4567)
+messeng_rna-rearrangement
2898
chain
(9298)
2905
t cell
(1824)
6682
immune
(1023)
+cytokine+effector+immune
+immune _respons+immunity
-node
5000
cell
(1693)
+cell _cycle+cell _growth
+cyclin-cell _differe-cell _divisio
3075correlationequation
regressionrelationship
(5440)
3080
relationship
(8958)
+parameter-regression
3081
relationship
(1210)
+gaussian+variance
-correlation-regression
3082
relationship
(3228)
+gaussian+parameter-correlation-regression
5048
relationship
(2017)
+variance
5050
relationship
(1702)
+linear+nonlinear-correlation
3091detect
monitoringsensitivesensitivity
(3806)
3119
sensitive
(4293)
3120algorithm
computationefficient
optimization
(2250)
3821
algorithm
(2199)
+program+software-efficient
-optimization
5560
algorithm
(765)
+computing+graph
-efficient
3179
receptor
(2749)
3181
receptor
(2728)
+cell _surface-transmembrane
+ligand _binding-transmembrane
6830
kinase
(879)
+activat_protein+kinase
+phosphorylatio+protein_kinase
+signaling+transduction
+transdu_pathway-receptor
-signalling
3150cyclin
inhibitorkinase
phosphorylatio
(2243)
3412
kinase
(2947)
3413
inhibitor
(1857)
+cell _cycle+cell _growth
-kinase-phosphorylatio
3181collagenmatrixtissue
vessels
(1621)
2955
tissue
(1805)
5111
homology
(1199)
+genbank
3263
human
(7969)
3516
cancer
(1861)
+cyclin-human
5356
tumor
(1836)
+apoptosis+cell _cycle
+proliferation-cancer-human
3264
tumor
(11859)
5233
tumor
(1690)
+cyclin+progression
-human
2886
mutation
(1704)
+allele+mutation-nucleotide-sequencing
2889
nucleotide
(2333)
5191
antibody
(2346)
+immune _respons+immunity
+recombinant-antigen-positive
6482
immune
(2776)
+immune+immune _respons
+immunity+t _cell-positive
2902
antigen
(4429)
5943
immune
(2564)
+immune+immunity
+virus-class
+algorithm+optimization
-computer
2911
virus
(4171)
3603exchange
mass _spectrospectrometryspectroscopy
(1828)
3189
spectrometry
(2048)
4466
bond
(1537)
+atom+bond
-exchange-spectrometry
2909
virus
(4801)
3665approximation
randomselectionsimulation
(1526)
3956
selection
(1709)
3530
dependence
(2254)
+formalism-approximation
3993
linear
(2835)
+entropy+linear
-dependence-strength
5239
dependence
(890)
+entropy
5505
dependence
(723)
+entropy+gaussian-strength
4228
parameter
(6864)
+parameter-strength
4314
diffusion
(2705)
+diffusion-strength
4315
simulation
(1762)
+diffusion+simulation
-equation-strength
4831
variance
(1966)
+variance-strength
+dependence+entropy-strength
+cell _growth+proliferation
+tumor-cycle-flow
5360
apoptosis
(2392)
+cell _growth+proliferation
-flow
3909correlationequation
regressionvariance
(2926)
+gaussian+relationship-correlation-regression
3325
correlation
(3394)
+significance-equation
4708
regression
(1084)
+approximation-correlation
+relationship+relationship-formalism
+gaussian+relationship-correlation-formalism
4230
parameter
(1930)
+gaussian-correlation
4238
nonlinear
(2282)
+nonlinear-correlation
4274
imaging
(2117)
+image+laser
-physics-quantum
3816
carbon
(2430)
3817
oxygen
(5897)
3107
x ray
(11914)
+density-diffusion
4311
x ray
(5972)
4504
x ray
(2775)
+atom+neutron-diffusion
-lattice
3084
relationship
(5699)
+relationship-monte _carlo
4234
parameter
(1279)
+mathema_model-monte _carlo
4237
parameter
(3452)
+differe_equatio-monte _carlo
+formalism-monte _carlo
4347dynamic_simulat
energymolecul_dynamic
quantum
(1096)
+excitation+transfer
-dynamic_simulat-molecul_dynamic
4488
molecular dynamic
(1627)
+approximation-quantum
4560biomasscarbon
ecosystemnutrient
(1179)
4503
carbon
(1322)
4947
spectrum
(1209)
+spectrometry-quantum
3163
transfer
(5260)
-spectroscopy-spectrum+transfer
4946
spectrum
(5627)
4976
chain
(5567)
2894
reaction
(5398)
-chain
4977
chain
(7109)
4979
chain
(2203)
3156
immune
(3516)
-cytokine-response+effective
3351
produce
(1876)
-immune-response+produce
5120
response
(4199)
5138
reaction
(5139)
5190
antibody
(6262)
5192
surface
(3685)
6010
kinase
(1938)
+tyrosine
+signal _transdu+signaling
+transduction+transdu_pathway
+tyrosine-serine
+cell+cell _growth+proliferation-progression-suppressor
-tumor
+cancer-cell _cycle
5352
tumor
(1871)
6032
amino acid
(1801)
+genbank+homologous
-nucleotide+amino _acid
6033
sequence
(2465)
+amino _acid+sequence
-open
5188
reaction
(1631)
5454absorption
atomcoordination
hydroge_bondingx _ray
(963)
4320
x ray
(1420)
-coordination-hydroge_bonding
+neutron
3353
produce
(3210)
-carbon-nitrogen+produce
5390
carbon
(4184)
-equation-monte _carlo
+gaussian
4319
simulation
(1978)
-equation
5940
kinase
(1727)
+genbank-sequenc_data
-antigen-immune-t _cell
+antibodies+recombinant
6046
immune
(1339)
+tolerance-antibody
+antibodies
6483
immune
(2171)
+antibodies
6421
infection
(1124)
+immunity
2914
virus
(2322)
-immune-infection
-t _cell+recombinant
+antigen-infection
5947
infection
(2139)
+host-t _cell
+hiv
6515
immune
(1310)
+antigen+lymphocytes
-mice
1998-2001
2794
mutation
(1914)
2800
mutation
(2016)
+position-allele
2796
nucleotide
(2585)
2797
nucleotide
(2260)
+position-sequencing
2798
nucleotide
(1855)
+base-sequencing
2892alpha
cytokinekappa _b
tumor
(1634)
5358
kappa b
(2340)
+apoptosis+nf _kappa
+nf _kapp_b-alpha
-cytokine
6062
alpha
(2045)
+nf _kappa+nf _kapp_b
5158
reaction
(4205)
+detect+positive
-oligonucleotid
2811
chain
(2749)
2812
chain
(4793)
3660
reaction
(5163)
+messenger-chain
2819
antigen
(4312)
3313
positive
(2174)
+antibody+positive
-lymphocytes-t _cell
5168
antigen
(1278)
+antibody
6928
immune
(2217)
+antibodies+antibody+immune
+immune _respons+immunity
-node
2987
virus
(4892)
3516
virus
(4198)
5169
virus
(1949)
+antibody
3169
tissue
(1949)
2980cell
cell _cyclecell _deathcell _growth
(2141)
2867
cell
(2597)
3669
apoptosis
(1780)
+apoptosis+dna _damage
-cell-cell _growth
5343
inhibitor
(1473)
+apoptosis+inhibitor
-cell
3763
linear
(3298)
+formalism+linear
-parameter-relationship
2998
sensitive
(4693)
3029
immune
(3837)
3042
energy
(8539)
3043
energy
(2502)
+formalism-excitation
3055
receptor
(2957)
3060
receptor
(2885)
3072
spectrometry
(2149)
4920
spectrum
(1927)
+atom+spectrum-exchange
5096
tumor
(3250)
+suppressor +cell _growth
5208
tumor
(1442)
+cell _growth+cyclin-human
3274activat_proteinindependent
pathwayprotein_kinase
(3379)
5099
pathway
(1728)
+signali_pathway
5100
pathway
(1458)
+transdu_pathway
3203
correlation
(3682)
2982
produce
(3165)
3362chromosome
linkagemappingregion
(4330)
5119
region
(2143)
+candidate
3637
kinase
(3540)
5341
inhibitor
(1494)
+apoptosis
5357
tumor
(1453)
+suppressor+tumor
-inhibitor
6300
tumor
(1197)
+apoptosis+proliferation
+tumor-inhibitor
3415apoptosiscascade
cell _deathinhibitor
(1874)
3638
inhibitor
(2495)
+cell _cycle+dna _damage
-cascade-inhibitor
+cell _cycle+cell _growth
-cascade+suppressor
3750
nonlinear
(2249)
+nonlinear-strength
3589concentration
equationmathema_model
velocity
(1225)
3463
concentration
(4407)
+dependence+nonlinear
-mathema_model-velocity
3908
carbon
(2500)
3907
oxygen
(6395)
4385
software
(991)
+computing+graph
-algorithm-program
5243
program
(1828)
+computer+computing-algorithm
3825
simulation
(1626)
+computation+monte _carlo-approximation
-selection
+correlation+linear
-gaussian-parameter
3803
representation
(1751)
+physics+representation
-equation-parameter
4165
parameter
(2418)
+physics-equation
+concentration+dependence
-mathema_model-parameter
+dependence-parameter
3458
simulation
(1636)
+computation+computer
-approximation-diffusion
+computation+random
-approximation-diffusion
2766
spectrum
(1066)
+spectrum-x _ray
4412
x ray
(1476)
4377
molecular dynamics
(1548)
+quantum-approximation
4378
molecular dynamics
(1948)
4477
carbon
(1417)
4416
x ray
(2819)
2767
spectrum
(1495)
-absorption-excitation
+magneti_resonan
4918
spectrum
(6101)
+mass _spectro-absorption
4948
chain
(5787)
4950
chain
(7526)
4952
chain
(2297)
2872
cell
(2109)
-cell _cycle-cyclin
+cell _differe
4980
cell
(2111)
4982
cell
(1714)
+cell _divisio-cell _growth
5010cell _cycle
cell _growthcyclingrowth
proliferation
(1693)
4988
growth
(2111)
5018
relationship
(2155)
5019
relationship
(1772)
5088
homology
(1211)
5097
response
(4564)
5111
reaction
(5644)
+amplification-presence
5361
reaction
(1689)
3316
surface
(5983)
-antibodies-antibody+molecule
5165
antigen
(3128)
+lymphocytes-surface
5166
antibody
(6205)
+virus-antibodies
3314
surface
(4988)
-antibodies
3380
tumor
(2943)
-cyclin-suppressor
+node
5207
tumor
(2020)
3723
dependence
(1017)
-entropy-equation
+time _scales
3724
dependence
(1218)
-equation
5356
tumor
(2210)
+cell _growth-progression
+cyclin
6301
proliferation
(1443)
+cyclin
5477
carbon
(4082)
5478cell _cycle
cell _growthcyclecyclin
proliferation
(1693)
5382
cycle
(1577)
+suppressor-proliferation
+apoptosis
3740
dependence
(1024)
-equation-algorithm
-optimization+software
5043
algorithm
(1587)
+efficient-graph
6058
kinase
(1998)
5941alpha
cytokinekappa
kappa _bnf _kappanf _kapp_b
(1825)
5131
kappa b
(2284)
-alpha-cytokine
+degradation
-alpha-cytokine
-kappa+apoptosis
+tumor
6061
kappa b
(2558)
+tumor-kappa
6929
immune
(1823)
+antibody+infection
5308
infection
(1285)
-immune-virus
+pathogen
6255
infection
(2307)
5063
kinase
(3848)
-activat_protein
4944
amino acid
(2668)
-homology
4945
sequence
(3991)
-homology
5148
sequence
(2525)
-nucleotide
6193
immune
(1482)
6258
immune
(1354)
+mice-antigen
6738
infection
(1167)
5164
positive
(6683)
-immune-immune _respons
-immunity-t _cell
+infection+positive
6927
immune
(2084)
+infection+lymphocytes
-immune-immune _respons
-immunity-t _cell
+antigen+positive
+antigen+antigen+virus
-antibodies
6739
immune
(1462)
6930
immune
(1215)
1999-2002
2783
spectrum
(1098)
2784
spectrum
(1493)
2802
mutation
(2044)
2803
nucleotide
(2821)
5111
nucleotide
(1430)
+base+position
2806
mutation
(2211)
2821
chain
(2875)
5123
chain
(4991)
+messenger
2829
antigen
(3669)
+cell _surface-immune _respons
5132
antigen
(3401)
+immunity
2880
cell
(3161)
2882
cell
(2374)
3256
reduction
(1750)
+methane+reduction
-oxygen-produce
3257
oxygen
(4461)
+reduction-produce
3529
virus
(5030)
3530
virus
(5593)
+host-hiv
2967
sensitive
(5160)
3016
immune
(4484)
3033
energy
(8768)
3034
energy
(1438)
+transit_state-excitation
4443
energy
(16195)
+physics-transfer
4567
quantum
(6596)
+decay+physics-energy-transfer
4444
energy
(7866)
+physics-transfer
4445
energy
(1879)
+monte _carlo+physics-quantum-transfer
3060
receptor
(3128)
3061
receptor
(3097)
3062
receptor
(1558)
+endocytosis-ligand _binding
3071
spectrometry
(2330)
3967
matrix
(5757)
+laser+matrix
-exchange-spectroscopy
5147
tissue
(1515)
+vascular
3688
surface
(5330)
+antibodies-antibody
3364
tumor
(3261)
3483
simulation
(1665)
3494
algorithm
(1332)
+algorithm-simulation
3496
computer
(1007)
+computing-simulation
3501
concentration
(1699)
+neutron-nonlinear
3507
concentration
(4497)
3556
virus
(4067)
3381
inhibitor
(3032)
3382
inhibitor
(1627)
+kappa _b-cascade
3383
apoptosis
(3040)
+cytochrome+mitochondria
-cascade-inhibitor
+chain
3385
apoptosis
(2008)
5436
cancer
(2038)
+cancer+dna _repair
+repair-apoptosis
-cell _death
4496
diffusion
(1774)
+diffusion+equation
+formalism-dependence
-strength-time _scales
2991
distribution
(2102)
+distribution+formalism-dependence
-entropy
4119
random
(1111)
+formalism+random
-dependence-entropy
4212
parameter
(1207)
+formalism+monte _carlo
+parameter-dependence
-entropy-gaussian
4372
probability
(1313)
+formalism+probability-dependence
-entropy
4926
variance
(2189)
+equation+variance
-dependence-entropy
4973
approximation
(873)
+computation+formalism-dependence
-entropy
5644
linear
(1891)
+equation+formalism
+linear-dependence
-entropy
5807
parameter
(1776)
+equation+formalism+parameter-dependence
-entropy
+approximation+distribution
+gaussian-dependence
-equation-nonlinear
3541
dependence
(2606)
+strength-nonlinear
4042
nonlinear
(2276)
+approximation+gaussian+random
-dependence-equation-nonlinear
+approximation+gaussian
+probability-dependence
-equation-nonlinear
+approximation+diffusion
-dependence-nonlinear
+approximation+computation
+gaussian-dependence
-equation-nonlinear
5214
relationship
(1013)
+linear+relationship-dependence
+approximation+gaussian
+parameter-dependence-nonlinear
5955
nonlinear
(886)
+diffusion+physics
-dependence
3865
linear
(2176)
+approximation+neutron
-correlation-formalism
3868
linear
(1079)
+approximation+monte _carlo
-correlation-equation
5207
relationship
(5005)
+regression+relationship-formalism
+approximation+gaussian
-correlation
+energy+monte _carlo
-gaussian-representation
4127
random
(1328)
+approximation+computing-computation-simulation
4172
oxygen
(2293)
+hydroge_bonding-carbon
3922base
dna _repairrepairstrand
(2004)
4020
repair
(2220)
+cancer+cell _cycle
+dna _damage-base
-strand
+approximation+monte _carlo
-gaussian-physics
4398
molecular dynamics
(1438)
+x _ray-quantum
3846
software
(1022)
+approximation+monte _carlo
+random-computation
-graph-software
4547
algorithm
(1510)
+algorithm+implementation
-computing-software
4549
computing
(1286)
+implementation-software
4400diffusion
dynamic_systemsnonlinearphysics
(969)
4913
nonlinear
(1391)
+noise-diffusion
+equation+formalism
-dynamic_systems
5843
x ray
(1237)
+diffraction
4394
x ray
(1307)
+diffusion-atom
5261
form
(1836)
+crystal_structu+form
+hydroge_bonding-neutron-x _ray
+absorption
4641
carbon
(1489)
3465
fluorescent
(1151)
-absorption-spectrum
+fluorescent
5094
spectrum
(2044)
6431
form
(1022)
+bond+form
+hydroge_bonding+intermolecular-mass _spectro-spectrometry
-spectrum
5115
amino acid
(2736)
6362
clone
(1960)
+cdna+clone
+homology-nucleotide
-nucleot_sequenc
6363
amino acid
(1363)
+clone+homology-nucleotide
5116
sequence
(4129)
2815
reaction
(6048)
-chain-detect
+oligonucleotid
5118
chain
(6274)
5119
chain
(8227)
5121
chain
(2339)
6368
cell
(2527)
+cycle
6370
cell
(2020)
+cycle
5168
growth
(2527)
2950
relationship
(10310)
-regression-variance
+parameter
3861
correlation
(3474)
-relationship
4613
regression
(1185)
-correlation-relationship
+approximation
-correlation-regression
-relationship+approximation
+gaussian
+linear-variance
+formalism-regression
3554
efficient
(2083)
-algorithm
-computing-efficient
-optimization+graph
+implementation
5325
kinase
(4221)
5084bond
crystal_structudiffraction
dimerform
(1279)
+atom+hydroge_bonding
-bond-dimer
+atom+hydroge_bonding
+intermolecular+spectroscopy-crystal_structu
-diffraction-dimer
5381
putative
(1577)
+putative-homologous
+amino _acid+cdna+clone
-homologous-nucleot_sequenc
+amino _acid+clone
-homologous
3168
human
(2310)
-suppressor-tumor
+epiderm_growth
5294
tumor
(3791)
3174
response
(1830)
-immune _respons-immunity
+nf _kapp_b
5296
response
(5203)
6448
kinase
(1730)
+kinase
5329
reaction
(6239)
5343
region
(2261)
3102
kappa b
(5269)
-degradation-kappa
+mechanism
5380
kappa b
(3012)
6366
sequence
(1780)
+clone
5126
positive
(7126)
7004
virus
(1726)
+immune _respons+immunity
+recombinant+virus
-infection-positive
6356
antigen
(2745)
+t _cell-antibody-antigen
+adhesion
5127
antibody
(6609)
2826
antigen
(5005)
-lymphocytes-node
+peptide
3379
t cell
(2015)
-antibody+antibodies
+cell _surface-node
+antibodies+antigen
3366
tumor
(1827)
-cancer-progression+inactivation
7058
tumor
(1153)
+cell _cycle+progression
3491
algorithm
(4156)
-computing-software
+algorithm
5448
program
(1861)
3608
infection
(2242)
-immune _respons-immunity+virulence
5486
apoptosis
(1298)
+overexpression-inhibitor
5563
inhibitor
(1846)
5412
inhibitor
(1918)
6638
cycle
(1337)
+cell _growth+cycle-tumor
+cancer+cell _growth
5404
kappa b
(3173)
5564
inhibitor
(2542)
+inhibitor-tumor
5560
reaction
(1721)
+cell+proliferation-suppressor
+progression
6346
kinase
(2342)
6352
kappa b
(3341)
6354
alpha
(1853)
+stimulation-kappa
6444
response
(1831)
+response+stimulation
-alpha-kappa
6353
alpha
(2666)
6523
immune
(1720)
6582
infection
(2632)
6446
immune
(1578)
6516
tumor
(1487)
6626
proliferation
(1812)
6581
immune
(1356)
-infection-virus
+lymphocytes
7091
infection
(1319)
6445
immune
(3217)
-effector
7500
immune
(1632)
+virus
7329
immune
(2646)
+antibodies
3699
t cell
(5213)
-antigen-effector-immune
-immune _respons-immunity
+stimulation
7330
immune
(1511)
2000-2003
2538
spectrum
(1117)
2615
mutation
(2097)
+cause+families
-allele-codon
3128
association
(2094)
+association+polymorphisms
-codon-mutation
3131
mutation
(2123)
3133
nucleotide
(2892)
3135
mutation
(2298)
3146
chain
(2902)
2626
cell
(3862)
3411
cell cycle
(2020)
+overexpression-cell
2634
cell
(2625)
2890activat_protein
growthproliferation
vascular
(1940)
2648
growth
(2257)
2726
sensitive
(5652)
4800
statistics
(2599)
+physics+statistics
-distribution-formalism
4885
approximation
(1404)
+entropy+physics
-distribution-formalism
4907
approximation
(2936)
+physics-distribution
2995approximation
distributionformalism
monte _carlo
(1310)
3495
simulation
(1468)
+simulation+threshold
-distribution-formalism
2755
immune
(5109)
2768
energy
(9009)
2770
energy
(1473)
2787
receptor
(3240)
2789
receptor
(3197)
2788
receptor
(1728)
2826
kappa b
(5710)
6407
activity
(1721)
+activat_protein+activity
+protein_kinase-mechanism
7091
activity
(1224)
+activat_protein+activity+kinase
+phosphorylatio+protein_kinase
-kappa _b-mechanism
3113complexes
formhydroge_bonding
intermolecular
(1872)
2855
form
(2330)
+bond+dimer
-complexes-hydroge_bonding
2857
form
(2079)
5185
form
(1247)
+atom+diffraction-complexes
3139
tumor
(1804)
+proliferation+tumor-cancer-human
5223
human
(1979)
+tumor
5226
response
(2033)
+nf _kappa
3327
concentration
(2174)
+biomass+concentration
-methane-reduction
3137
tumor
(3874)
5325
tumor
(1517)
+instability+suppressor
-node
6550
tumor
(1406)
+apoptosis+cell _cycle
+cell _growth-inactivation
3160
t cell
(2173)
2573
apoptosis
(1977)
+cytochrome-inhibitor
3163
inhibitor
(3566)
3164
inhibitor
(1906)
2572
apoptosis
(3766)
+cascade-mitochondria
3463fluorescent
imagelaser
microscopy
(2055)
5372
fluorescent
(1386)
+imaging
3470fluorescent
imageimaging
laser
(1541)
3225
fluorescent
(1370)
+excitation-image
3227
imaging
(2562)
+noise-fluorescent
+microscopy
3473bond
hydroge_bondingintermolecular
trans
(2428)
+dimer+form
-hydroge_bonding-trans
2694
simulation
(1715)
+approximation+threshold
-computation-computer
6209
algorithm
(733)
+approximation+computing-computer
3329
concentration
(4611)
3401
virus
(5211)
5458
algorithm
(1955)
+algorithm
5809
algorithm
(1561)
+algorithm+approximation
-efficient
5810
algorithm
(873)
+algorithm+graph
-efficient
3388
virus
(4227)
2631
cell
(1914)
+cell+cell _migrati
-antibodies-surface
3525
surface
(5636)
3520
cytokine
(1521)
+effector+recruitment-stimulation
-t _cell
4051
t cell
(5724)
3753blood _flowcognitiveimaging
magneti_resonan
(1233)
3224
brain
(5606)
+brain-blood _flow
3777
linear
(2223)
3814
matrix
(6531)
4075
repair
(2444)
3774
linear
(6808)
+gaussian+linear
-dependence-formalism
3775
linear
(1376)
+gaussian+linear
-dependence-equation
4801
statistics
(1591)
+physics+statistics
-monte _carlo-random
5893
probability
(749)
+probability+statistics-random
+algorithm+computation
-random
3831
oxygen
(2512)
4126
parameter
(1235)
+approximation+gaussian+statistics-energy
-formalism-quantum
+approximation+entropy+gaussian-energy
-formalism-quantum
+approximation+computing+statistics-energy
-formalism-monte _carlo
+computing+optimization
-implementation
6567
plant
(719)
+ecology+plant
+vegetation-carbon
4116
parameter
(1168)
+parameter+quantify
-dynamic_systems-noise
4313
nonlinear
(1045)
+diffusion-noise
2878
simulation
(999)
+homogeneous+simulation+statistics
-approximation-equation-variance
4762
variance
(2394)
5010
spectrum
(2057)
5318
nucleotide
(1392)
5313
amino acid
(2176)
+codon-open
5408
sequence
(2171)
+sequenc_alignme-genbank
5409
sequence
(4037)
6552
chain
(4334)
+positive
3142
polymerase
(4647)
-chain-reaction+genbank
5331
chain
(8513)
3147
chain
(2398)
-reaction
5332
chain
(5193)
6419
virus
(4784)
+virus
5026
antibody
(6819)
2571
antigen
(5103)
-immunity
5244
tissue
(1698)
5077
growth
(2897)
5184
form
(2055)
+intermolecular-crystal_structu
+epiderm_growth-suppressor
5224
tumor
(4223)
5225
response
(5890)
3220
phosphorylation
(1622)
-kinase-protein_kinase
-serine+insulin
+phosphatase
3517
kinase
(4584)
-protein_kinase-serine
-tyrosine+cyclin
+inhibitor
5260
kinase
(4590)
+activat_protein-tyrosine
5261
kinase
(2693)
+activat_protein-protein_kinase
5263
reaction
(6864)
+amplification+chain
-presence
3015
region
(4614)
-candidate
5296
kappa b
(3237)
5330
kappa b
(3581)
5344
inhibitor
(2398)
5415average
monte _carlosimulationstatisticsvariance
(1004)
-average-monte _carlo
-variance+gaussian
+homogeneous
3193
average
(5337)
-monte _carlo-variance
+probability
5383
cancer
(2347)
5114
program
(1970)
3405
cell cycle
(2030)
-apoptosis+suppressor
+tumor-overexpression
6559
cycle
(1504)
+cycle+suppressor
-overexpression
3528
reaction
(5454)
-conformation
3531
polymerase
(1830)
-reaction
-apoptosis-cell _cycle
-cell _growth+kinase
+phosphorylatio
5345
inhibitor
(2138)
5346
inhibitor
(2912)
3773
linear
(8842)
-formalism-approximation
-formalism+nonlinear
-approximation-equation
+nonlinear
4325
x ray
(1532)
-diffraction
-activat_protein-activity-kinase
-protein_kinase+insulin+tyrosine
+kappa _b+nf _kappa
+nf _kapp_b-kinase
-phosphatase-phosphorylatio
6408
kinase
(2572)
+nf _kappa+nf _kapp_b-phosphatase
6416
kappa b
(3615)
6417
alpha
(2883)
6418
alpha
(2030)
5027
antigen
(3673)
-t _cell
6403
clone
(1824)
6402
amino acid
(1222)
6436
sequence
(1600)
6438
cell
(2897)
2629
cell
(4668)
-cell _cycle-cycle
-proliferation+division
6439
cell
(2258)
5183
form
(3074)
-spectroscopy
6493
response
(2040)
6638
immune
(3583)
6639
immune
(1773)
5231
pathway
(2502)
-kinase-transdu_pathway+signali_pathway
-apoptosis-cell _cycle
-cyclin+epiderm_growth
6549
tumor
(1748)
6557
immune
(1945)
7546
infection
(1251)
+infection+virus
5483
immune
(2286)
-infection-virus
+effector
6558
proliferation
(2150)
+apoptosis-progression
6686
cycle
(1470)
6421
virus
(2568)
-immune _respons
7186
tumor
(1275)
+lymphocytes
7777
immune
(1506)
+infection+virus
7537
immune
(1807)
+lymphocytes
2001-2004
4740
spectrum
(6063)
+excitation+quantum
+spectroscopy-atom
-neutron
3012
antigen
(8168)
+lymphocytes-immune _respons
2460
apoptosis
(4116)
2502
mutation
(2234)
2462
cell
(3875)
6211
cell
(3953)
+cell _cycle+cycle
2508
cell
(2093)
2505
cell
(2703)
+t _cell-cell _growth
2509
cell
(2680)
2511
cell
(3538)
+cell _divisio-cell _growth
2519
proliferation
(2680)
+differentiatio-cell
2763
proliferation
(2031)
+in _vitro-cell
2976
proliferation
(2512)
+cell _migrati+migration
-activat_protein-growth
3136
simulation
(1968)
2639
immune
(5512)
2647
transfer
(4169)
+atom+spectroscopy
-energy-excitation
4077
energy
(16907)
+physics-transfer
+absorption+spectroscopy
+spectrum-energy-transfer
4861
fluorescent
(1146)
+fluorescent
2648
transfer
(1174)
+atom-energy
2649
energy
(1504)
3412
chemistry
(1699)
+atom+chemistry
-energy-transfer
2664
receptor
(3272)
2665
receptor
(1823)
2666
receptor
(3132)
4890
form
(1084)
+crystal_structu
5055
probability
(1351)
+average+monte _carlo+probability
-homogeneous-simulation
5149
distribution
(1305)
+approximation+distribution
+monte _carlo-homogeneous
-simulation
4963
locus
(3300)
+locus
7077
association
(1388)
+frequencies+genotype+linkage
+population-exon
2984
mutation
(2190)
2988
mutation
(2944)
+sequencing-allele
2989
mutation
(1588)
+splice-allele
2982
nucleotide
(3128)
+nucleot_sequenc-exon
2986
nucleotide
(2901)
+mutation-nucleotide
2990
mutation
(2392)
2994
tumor
(4260)
4924
human
(1810)
+human
3348
polymerase
(5004)
3349
sequencing
(2891)
+nucleot_sequenc-polymerase
2996
chain
(2780)
2997
chain
(2314)
+class-node
3013
t cell
(2180)
2458
inhibitor
(1873)
+gaussian+monte _carlo
-simulation
5056
average
(821)
+gaussian+monte _carlo
+variance-probability-simulation
5059
simulation
(2569)
+monte _carlo
5060
simulation
(1338)
+monte _carlo+variance
-probability
6574
kinase
(1998)
+activat_protein+kinase
+protein_kinase-insulin
3078
brain
(6493)
3079
brain
(1208)
+informa_process-magneti_resonan
2573
concentration
(2332)
2858
oxygen
(5134)
+oxygen+reduction-biomass
-concentration
3020
plant
(1226)
+nitrogen+plant
-concentration-dioxide
2575
concentration
(1690)
+neutron-nonlinear
2576
concentration
(4735)
3689
nonlinear
(2521)
+formalism-concentration
3218
virus
(4311)
6299
infection
(3054)
+host+immune
+immune _respons+immunity
-hiv-transmission
5097
apoptosis
(1582)
+apoptosis
4756
apoptosis
(1840)
+apoptosis
+distribution+gaussian+statistics
-simulation-threshold
2428
inhibitor
(3466)
+addition-kinase
3574
kinase
(4711)
6187
kinase
(5801)
+activat_protein+activity
+protein_kinase-cyclin
3016
cytokine
(1607)
3335
surface
(5743)
3353
reaction
(5461)
3354
polymerase
(1775)
3039
relationship
(14784)
+correlation+relationship
-approximation-gaussian
4236
equation
(845)
+formalism+physics+polymer
-approximation-gaussian
-linear
5498
linear
(2192)
+formalism
5493
linear
(1282)
+formalism +equation+approximation
+equation-nonlinear
3752
linear
(2356)
3981
oxygen
(1257)
+quantum-nitrogen
3846
t cell
(5894)
4069biodiversitycommunity
managementresource
(1284)
3368
community
(1349)
3614
repair
(2534)
4916
repair
(1776)
+homologous+recombination
-base
3458
parameter
(1986)
+bifurcation-quantify
4226
equation
(978)
+equation-nonlinear
4489
nonlinear
(1014)
+bifurcation-diffusion
2615
x ray
(1627)
+diffraction+high _resolut
-absorption-atom
3035
relationship
(4142)
+regression+relationship
-approximation-gaussian
3038
correlation
(4961)
+correlation+relationship
-approximation-gaussian
4377
variance
(2705)
+average+monte _carlo
+statistics-approximation
-equation
5603
probability
(1115)
+monte _carlo+probability
-physics
4528
computing
(1488)
+computation-approximation
4075
energy
(1578)
+energy+molecul_dynamic
-approximation-gaussian
+equation+polymer
-approximation-gaussian
-mass _spectro-spectrometry
-spectrum+quantum+transfer
2677
spectrometry
(2582)
-atom-spectrum+exchange
4741
spectrum
(2055)
5030
antibody
(6845)
5031
antigen
(3615)
4791
growth
(3009)
6515
cycle
(2210)
+cycle+progression
-growth
6409
algorithm
(1475)
+algorithm
6410
algorithm
(806)
+algorithm+graph
-software
3168
crystal structure
(1235)
-form-hydroge_bonding
+phosphate
6189
molecule
(1068)
+intermolecular+molecule
-form
6235
structure
(2836)
+structure+x _ray-form
6274
form
(979)
+intermolecular+crystal_structu
+molecule-form
+crystal_structu
4923
human
(2065)
+proliferation-cancer
4925
tumor
(4330)
7083
tumor
(1382)
+apoptosis+cell _cycle
+cyclin-human
4928
response
(1957)
7049
kinase
(2323)
+kinase+phosphorylatio
4948
tissue
(1855)
6451
kinase
(1872)
+cascade+phosphatase
+tyrosine-serine
+independent+pathway
+signali_pathway-serine
7108
kinase
(1774)
+inhibitor+tyrosine
+inhibitor+protein_kinase
4989
kappa b
(3199)
2980
amino acid
(3365)
-genbank
2981
nucleotide
(4743)
-genbank-nucleot_sequenc
+position
2987
nucleotide
(2592)
-base
2992
nucleotide
(3316)
-exon
5016
tumor
(1652)
5019
kappa b
(3641)
5022
chain
(8617)
3107
mrna
(4571)
-chain-reaction+mrna
5020
chain
(5133)
5021
chain
(1512)
+quantitative-messenger
4755
inhibitor
(2427)
+overexpression-inhibitor
2429
inhibitor
(2585)
-apoptosis-cell _cycle+addition
+overexpression-inhibitor
5395
inhibitor
(2261)
5396
inhibitor
(2928)
2467
fluorescent
(1873)
-image-imaging
+flow
3081
fluorescent
(3086)
-laser
3391
fluorescent
(2600)
-imaging
5089
cancer
(1371)
+suppressor-repair
5091
cancer
(2146)
+apoptosis+suppressor-dna _repair
-repair
5092
cancer
(2596)
3337
amino acid
(2722)
-nucleot_sequenc-sequence+position
5240
sequence
(2198)
3187
algorithm
(5460)
-optimization
4919
immune
(2456)
+infection+virus
-effector
3774
algorithm
(1403)
-computing+computer+program
-optimization
4480
monte carlo
(894)
-probability-statistics+lattice
+gaussian-computing
4746
clone
(1160)
-amino _acid
4748
clone
(1871)
-amino _acid
+inhibitor-phosphatase
6188
kinase
(2688)
6192
kappa b
(3422)
6193
alpha
(2741)
6194
alpha
(1923)
6335
virus
(5031)
6371
virus
(2567)
6209
cell
(3009)
6210
cell
(2429)
+division-proliferation
6516
cycle
(1379)
+progression-cell
4930
response
(1973)
-kappa _b
6366
tumor
(1859)
-cell _growth-cyclin-tumor+cancer
+dna _damage
+cancer
6334
chain
(4510)
6372
immune
(2077)
6591
proliferation
(2280)
6592
cycle
(1583)
5037
plant
(944)
-ecology
5038
plant
(868)
-biomass-ecology+climate
6304
immune
(3811)
6514
cycle
(1508)
+proliferation-suppressor
7081
tumor
(1311)
7492
immune
(1911)
7507
infection
(1223)
7874
immune
(1655)
2002-2005
2422magneti_resonan
quantumspectroscopy
spectrum
(1524)
2192
spectrum
(1647)
2431addition
cell _growthinhibitor
signali_pathway
(2175)
2197
inhibitor
(2459)
2221
apoptosis
(4117)
4566
cell
(3855)
+apoptosis
2231
fluorescent
(2145)
2300
cell
(2928)
2303
cell
(2218)
3082
model
(5568)
+differe_equatio+model
-concentration-dependence
4676
immune
(1787)
+hiv
2927
spectroscopy
(5593)
+chemistry-transfer
3924
energy
(3452)
+energy+neutron+physics-quantum
-spectroscopy-transfer
2204
receptor
(6340)
+alpha-hormone
2775
receptor
(3280)
2776
receptor
(1903)
2739
extracellular
(1429)
+extracellular+transmembrane
-ligand-receptor
2777
receptor
(3215)
3432
spectrometry
(3283)
+laser-exchange
5647
carbon
(1358)
+atom+carbon+energy-oxygen
-reduction
6571
carbon
(1063)
+biomass+carbon
+nitrogen-reduction
6242
matrix
(1320)
+adhesion+collagen
+extracellular+matrix
-proliferation-vascular
2757
amino acid
(3315)
3141
amino acid
(3930)
+genbank-codon
2609
amino acid
(1587)
+active _site+serine-codon
-nucleotide
2756
nucleotide
(5038)
2768
nucleotide
(3076)
2758
mutation
(2237)
2632
region
(2256)
+linkage+region-codon
-sequencing
2760
nucleotide
(2955)
2761
nucleotide
(2720)
2762
mutation
(2952)
2764
mutation
(1600)
2763
mutation
(2462)
2769
nucleotide
(3661)
2892
tumor
(4879)
2819
t cell
(2183)
5410
carbon
(1358)
+carbon+ecosystem
+nutrient-carbon _dioxide
-plant
6417
plant
(699)
+ecosystem+nutrient
+vegetation-carbon _dioxide
+carbon+dioxide+oxygen
-plant
2755
association
(1878)
+association+genotype-equation-variance
4022
regression
(1615)
+approximation-relationship
4023
regression
(1819)
+approximation+statistics-equation
-relationship
4909
relationship
(2399)
+linear+nonlinear-variance
3781
correlation
(3219)
+gaussian-relationship
2832
relationship
(16423)
3501
correlation
(8529)
+gaussian-relationship
3502
correlation
(2923)
+time _series-relationship
2292
brain
(7483)
2294
brain
(1362)
2290
fluorescent
(3664)
2482
mrna
(1832)
+level+quantitative-messenger-polymerase
2912
mrna
(4604)
2360
simulation
(2278)
2372
algorithm
(1887)
+algorithm-simulation
2373
computer
(1790)
+physics-simulation
3090
model
(2758)
+model+simulating
-computation-computer
5203
algorithm
(3671)
+implementation
5204
algorithm
(2516)
+optimization
3322
virus
(4636)
3230climate
samplingvariabilityvegetation
(1416)
3449
climate
(1095)
+biodiversity+management
-sampling-variability
3820
amino acid
(1290)
+acid _residue+motif
-nucleotide-position
2793
polymerase
(5423)
2795
sequencing
(1604)
+rrna-polymerase
2794
sequencing
(3018)
+climate+vegetation-community
-resource
3399
fluorescent
(3056)
2919
chemistry
(1773)
2920
chemistry
(7844)
+physics-transit_state
+spectroscopy-transit_state
3555
kinase
(4986)
4015
kinase
(1528)
+checkpoint-inhibitor
3168
repair
(2762)
3661coupling
dynamic_simulatmolecul_dynamic
quantum
(982)
2660
state
(1643)
+physics+state
-coupling-molecul_dynamic
3487
molecular dynamics
(1463)
+flexible+simulation-coupling-quantum
3490
molecular dynamics
(1448)
+long _range+physics-coupling-quantum
3626
molecular dynamics
(1087)
6729
molecular dynamics
(1185)
+atom+energy+physics-coupling
3459
dependence
(1080)
+approximation+entropy-equation-nonlinear
+dependence+entropy
+formalism-equation
-linear-neutron
3508
linear
(1111)
+gaussian-equation
+computing+efficient
-graph
2554
response
(7146)
+response-lymphocytes
3152
t cell
(5977)
3569
oxygen
(2862)
+nitrogen-quantum
3571
oxygen
(1380)
+carbon+carbon _dioxide
+dioxide+energy
-hydroge_bonding-oxygen
-quantum
4067diffraction
electro_microsclattice
nucleation
(2856)
3698
electron microscopy
(3211)
4172
diffraction
(1179)
+atom+intermolecular-electro_microsc
-nucleation
+dynamic_simulat+quantum
+state-energy-entropy
-molecul_dynamic
2663
state
(1838)
+formalism+state
-energy-molecul_dynamic
+dynamic_simulat+long _range
-energy-entropy
5655
molecular dynamics
(922)
+dynamic_simulat
+atom+dynamic_simulat
+quantum-entropy
+atom+neutron
-excitation-quantum
2377
concentration
(5475)
+concentration+polymer
-dynamic_systems-physics
4235deformation
equationphysicspolymer
(1559)
+concentration+diffusion
-deformation-physics
+entropy+state
-equation-polymer
+linear+neutron-equation-variance
+correlation-approximation
+regression-gaussian
5289
variance
(2784)
+parameter+simulation
-gaussian
5836
variance
(1799)
+simulation
3288
computing
(979)
+convergence+formalism
-lattice-monte _carlo
3835
probability
(1013)
+markov+probability
-lattice-monte _carlo
4541
spectrum
(6258)
4542
spectrum
(2203)
4565
inhibitor
(2775)
+cell-inhibitor
2222
cell cycle
(2249)
-apoptosis
2307
growth
(2836)
-cell _cycle-cyclin
+epiderm_growth
4602
growth
(3304)
4688
fluorescent
(1318)
4759
repair
(1969)
4564
immune
(2621)
4762
human
(2318)
2544
human
(2385)
-cell _growth-tumor
+epithel_cells
4763
human
(2044)
4764
human
(6944)
+apoptosis-epiderm_growth
6193
tumor
(3448)
+apoptosis
3410
immune
(2086)
-response
2344
tissue
(1483)
-vascular-vessels
+scaffold
4626
tissue
(2018)
+adhesion+cell _migrati+extracellular
+migration-tissue
-vascular-vessels
-chromosome-locus
-mapping+exon
+nucleotide
4809
locus
(3395)
4845
kappa b
(3120)
4927
tumor
(1749)
5084
kappa b
(3590)
4667
reaction
(1918)
+determine-chain
4884
chain
(5116)
-chain-polymerase
-reaction+level+mrna
4885
chain
(1632)
4883
chain
(8822)
2817
antibody
(1553)
-cell _surface-surface+phage
4894
antibody
(6963)
4893
antigen
(3637)
+carbon+nitrogen
-plant-vegetation
6254
environment
(700)
+ecology+environment
-plant+nitrogen
6418
plant
(792)
+ecology
4234
statistics
(1697)
-average-probability
+physics
2252
simulation
(6761)
-statistics
4580
simulation
(2047)
+parameter-statistics
4581
simulation
(1595)
4930
cancer
(1489)
4929
cancer
(2278)
4931
cancer
(1659)
+instability-cell _cycle
4933
cancer
(2879)
2908
cell cycle
(2135)
-apoptosis
2976
distribution
(1245)
-approximation-gaussian
+frequencies
3507
linear
(2815)
-distribution-statistics+linear
-distribution-gaussian
-monte _carlo+regression+variance
5387
inhibitor
(2430)
5386
inhibitor
(2908)
+regression+relationship-formalism-gaussian
5340
linear
(2349)
-gaussian-monte _carlo
-statistics+computing
+markov
5688
protein kinase
(1497)
-activity-inhibitor-kinase
+epiderm_growth+stimulation
6086
kinase
(6087)
6087
kinase
(2831)
-crystal_structu-hydroge_bonding
-molecule+lattice
6102
kappa b
(3199)
6104
alpha
(2570)
6103
alpha
(1775)
6122
cell
(2530)
+apoptosis-cycle
4599
cell
(3830)
-cycle
4660
structure
(3756)
-atom
4680
virus
(1395)
-immune-immune _respons
-immunity+persistence+replication
2408
produce
(3208)
-immune-mice
-t _cell+produce
6196
response
(4929)
+response-mice
6197
immune
(3969)
2612
reaction
(11471)
-amplification-chain
-positive+presence
6214
chain
(4752)
6215
virus
(5374)
6413
tumor
(2089)
7085
tumor
(999)
+progression+transformation
-apoptosis
6281
immune
(2222)
6145
algorithm
(1753)
6446
algorithm
(1383)
+implementation-computer
6244
pathway
(1686)
+pathway+signal _transdu
+signalling-kinase
-phosphorylatio-serine
7051
kinase
(1184)
+phosphatase+tyrosine-cascade
6436
cycle
(1609)
+transformation+tumor-cycle
+serine+cell-cycle
6574
proliferation
(2530)
6523
cycle
(1704)
6201
pathway
(2503)
-kinase
-independent-kinase
-phosphorylatio-signali_pathway
+cascade+signal _transdu
+signalling
-allele-frequencies
-linkage-polymorphisms
-population+regression
+relationship
6263
allele
(1224)
-association-genotype
-population+locus
+susceptibility
6408
allele
(1372)
-association-genotype
-population+locus
+variation
7149
population
(1296)
+variation-association
7515
association
(1262)
+susceptibility
7081
tumor
(1404)
7082
tumor
(1500)
7458
immune
(2035)
7150
immune
(1474)
-infection
7181
infection
(1676)
-lymphocytes
7747
immune
(1965)
-lymphocytes
7748
immune
(1909)
-infection
2003-2006
2106
imaging
(1941)
+diffusion+imaging-quantum-spectrum
3517
spectroscopy
(1221)
+diffusion+x _ray
-quantum-spectrum
5989
bond
(924)
+atom+bond
+hydroge_bonding-magneti_resonan
2022
inhibitor
(2922)
+cyclin-signali_pathway
2052
apoptosis
(4050)
4909
apoptosis
(1239)
+cell _cycle+checkpoint
+dna _damage-cytochrome
-mitochondria
2061
fluorescent
(2512)
4798
fluorescent
(930)
+excitation+quantum
+spectroscopy-flow
-microscopy
3386
probability
(2048)
+formalism+gaussian+physics-average
-monte _carlo-simulation
2108
fluorescent
(4379)
3294
microscopy
(9893)
+electro_microsc+lattice
-fluorescent-imaging
+diffusion+spectroscopy
-brain-cognitive
4335
brain
(1030)
+informa_process +magneti_resonan
2121
cell
(3214)
2023
molecule
(2121)
+intercellular+molecule
-cell-cell _migrati
2126
cell
(2413)
2585
extracellular
(1855)
+extracellular-cell
2136
growth
(2776)
+cell _migrati+vascular
-cell _growth-epiderm_growth
4385
tissue
(1409)
+engineering
2200
simulation
(2670)
4401
algorithm
(1274)
+computing
2401
response
(1677)
+activat_protein+stimulus-cytokine-t _cell
2402
response
(7461)
2972
reaction
(1666)
+quantify-presence
2503
region
(2538)
3492
velocity
(1099)
+lattice+velocity-entropy
-state
3701
energy
(2106)
+energy-state
3980
nonlinear
(1535)
+gaussian+nonlinear-entropy
-state
2589
extracellular
(1474)
2063
association
(2280)
2952
nucleotide
(5530)
2953
amino acid
(3388)
2954
mutation
(2377)
2955
nucleotide
(3075)
3351
nucleotide
(2641)
+genbank-codon
2956
nucleotide
(2881)
2958
mutation
(3130)
2959
mutation
(2643)
2761
mutation
(1699)
2961
nucleotide
(3101)
2962
nucleotide
(4029)
2688
receptor
(3311)
2945
receptor
(2112)
2944
receptor
(3295)
4633
polymerase
(2389)
+nucleot_sequenc
2119
clone
(2089)
+clone-amplification
2181
complete
(2138)
+complete+open
-amplification-sequencing
+polymerase
2627
sequencing
(1915)
2641
t cell
(2342)
2065
relationship
(5764)
+predicting+regression-equation
-linear
3283
regression
(1387)
+cross _validat+regression-equation
-relationship
4306
relationship
(7550)
+regression
4307
relationship
(3737)
+regression+variance
-linear
2711
tumor
(5745)
7046
cancer
(2086)
+cell _cycle+cell _growth
+cyclin+proliferation
-node
3053
chemistry
(1803)
+carbon _dioxide+catalysis+dioxide
-atom-quantum
-transit_state
3049
chemistry
(8355)
6308
bond
(1102)
+bond+hydroge_bonding
2832
distribution
(1463)
4828
model
(2651)
+approximation+formalism
-differe_equatio
4830
model
(1166)
+approximation+formalism+gaussian
-differe_equatio-equation
4966
nonlinear
(2091)
+approximation+dependence+formalism
-differe_equatio-model
2904
model
(3221)
5248
amino acid
(1662)
+sequenc_alignme
6024
sequence
(1222)
+clone+homology+sequence-nucleotide
6145
sequence
(1026)
+homology+sequence
+sequenc_alignme-nucleotide
2640
t cell
(6216)
+equation+model
+nonlinear-computing
-convergence
2985
virus
(5450)
2870
fluorescent
(3616)
2305
spectrometry
(3096)
+exchange-laser
3250
spectrometry
(3618)
2417
environment
(1507)
+environment+influences-biodiversity-management
2605
environment
(1488)
+environment+environ_conditi
-biodiversity-management
2836
distribution
(1344)
+distribution-management
2990
plant
(1075)
+environ_conditi+plant
-biodiversity-management
3254
climate
(1287)
6135
environment
(728)
+ecology+ecosystem
+environment-management
6282
plant
(712)
+ecology+ecosystem
+plant-management
3048
dependence
(1202)
+equation+nonlinear-entropy
3286
correlation
(3391)
3291
linear
(3193)
4286
kinase
(3720)
+addition
7161
kinase
(1396)
+activat_protein+epiderm_growth+protein_kinase
+tyrosine-cyclin
2351
form
(2122)
+diffraction+form
+intermolecular-atom
-nitrogen-oxygen
5150
carbon
(1244)
+carbon+dioxide
-hydroge_bonding
3494
oxygen
(1550)
+bond+spectroscopy
+spectrum-oxygen
+bond+chemistry
+spectroscopy-oxygen
3019
molecular dynamics
(1195)
+image+microscopy-diffraction-nucleation
2244
determine
(8975)
+determine+regression-gaussian-variance
+genbank+homology
+nucleot_sequenc+sequence
-acid _residue-motif
+correlation+determine
-approximation-variance
3758
regression
(1951)
+correlation+relationship
-approximation
3759
regression
(2235)
+form+hydroge_bonding
-atom-lattice
+formalism+probability
-monte _carlo-statistics
+formalism+nonlinear
-monte _carlo-statistics
4277
spectrum
(6729)
+fluorescent+laser
-absorption-spectrum
4278
spectrum
(2348)
7031
immune
(1471)
+antigen+t _cell
+tolerance-host
7080
infection
(1091)
+infection+persistence
+virus-effector
4908
inhibitor
(3005)
4340
cell
(4165)
2083
average
(2628)
-simulation
2084
average
(1364)
-monte _carlo-simulation+pairwise
4345
growth
(3654)
+cancer+progression
+tumor-growth
2172
tissue
(5181)
-vessels
2173
tissue
(3496)
-matrix
2350
form
(3233)
-structure-x _ray+form
4409
structure
(1139)
+structu_informa-hydroge_bonding
2246
reaction
(2007)
-messenger-messeng_rna
+quantify
4426
reaction
(1923)
2272
immune
(6646)
-hiv
2273
immune
(2990)
-immune _respons
+immune+immune _respons
+immunity-replication
4443
fluorescent
(1557)
6986
human
(4317)
+cancer+cell _cycle
4572
locus
(3550)
4293
chain
(9144)
4639
antigen
(3683)
4640
antibody
(7234)
-equation-linear
-nonlinear+correlation+predicting
-equation-nonlinear
-relationship+correlation
+cross _validat
+correlation-nonlinear
4313
relationship
(2779)
4683
tumor
(1997)
4685
cancer
(2584)
+cell _death+checkpoint
-cancer-suppressor
6398
cycle
(1204)
+checkpoint+cycle-cancer
6985
human
(2782)
+cell _growth+human+tumor
-dna _damage
+cell _growth+human
+proliferation+tumor
-dna _damage-suppressor
4686
cancer
(1702)
4687
cancer
(1951)
4688
cancer
(3377)
4900
kappa b
(3538)
5043
algorithm
(4454)
5044
efficient
(1777)
+approximation-algorithm
6344
algorithm
(999)
+graph
3288
linear
(974)
-approximation-gaussian+polymer
+model+nonlinear-equation
-linear
5202
linear
(3038)
+nonlinear-gaussian
5204
linear
(1291)
+nonlinear-equation
5112
inhibitor
(2880)
6913
activity
(976)
+activat_protein+activity+kinase
+phosphorylatio-apoptosis
-nf _kapp_b
5113
inhibitor
(2613)
5147
carbon
(1511)
-atom-carbon-energy
+catalysis+chemistry
+nitrogen+oxygen
-carbon _dioxide-energy
5648carbon
carbon _dioxidedioxideenergy
methane
(3442)
4567
oxygen
(1585)
+oxygen+reduction
-carbon-energy
3697
molecular dynamics
(1051)
-entropy-physics
+time _scales
3699
energy
(1931)
-dynamic_simulat
3293
protein kinase
(3218)
-epiderm_growth-stimulation
+translocation
4518
protein kinase
(1645)
+independent-stimulation
5594
protein kinase
(1573)
+inhibitor+kinase
+tyrosine-stimulation
5994
kinase
(6499)
+kappa _b+nf _kappa
-protein_kinase
5995
kinase
(3027)
6005
kappa b
(2947)
6006
kappa b
(1843)
+activat_protein-cytokine
6007
alpha
(1605)
6009
alpha
(2389)
6026
cell
(2818)
2201
algorithm
(1126)
-computation-computing-software
+machine_learnin
4956
algorithm
(1519)
-computer-software+graph
6052
algorithm
(2139)
+cell _cycle
6093
response
(5315)
6095
immune
(4268)
2412
protein kinase
(7463)
-phosphorylatio-signali_pathway
4292
chain
(7581)
-positive
4556
reaction
(6245)
-chain
4557
positive
(9139)
-virus
4638
virus
(5336)
-infection-positive
+recombinant
2410
in vitro
(2089)
-adhesion-extracellular
-matrix+in _vitro
6131
matrix
(1486)
2090
protein kinase
(1771)
-cascade-pathway
-signal _transdu+insulin
6133
pathway
(1822)
4618
environment
(1216)
-biomass
+biodiversity+climate-biomass-nutrient
6173
composition
(695)
+composition-environment +effector
7047
cancer
(2269)
+cancer
6284
plant
(782)
6280
plant
(868)
+biodiversity+climate-biomass-nutrient
6399
cycle
(1741)
6396
cycle
(1849)
-biomass-carbon
-nitrogen+methane+reduction
6415
carbon
(1200)
6395
proliferation
(2818)
3693
energy
(4785)
-atom-dynamic_simulat
4131
molecular dynamics
(3075)
-dynamic_simulat-energy
6108
kinase
(2058)
-activat_protein
7043
tumor
(1544)
7044
tumor
(1656)
+proliferation-suppressor
6274
tumor
(1245)
-cell _cycle
4643
immune
(2555)
-immune _respons-virus
6276
virus
(2548)
-immune _respons
7551
immune
(2174)
6928
association
(2096)
-frequencies-population
+disease
7852
immune
(2110)
7550
immune
(3265)
-virus
2004-2007
2038addition
cell _growthcyclin
inhibitor
(2874)
5938activat_protein
additioninhibitor
phosphorylatioprotein_kinase
signali_pathway
(2563)
+activat_protein+phosphorylatio+protein_kinase
+signali_pathway-cell _growth
-cyclin
2039adhesion
cell _surfaceintercellular
molecule
(2166)
2074apoptosis
cell _deathcytochromemitochondria
(3765)
2085flow
fluorescentlaser
microscopy
(2790)
4394associationgenotype
polymorphismsregressionrelationship
(1651)
+polymorphisms
2221correlationpredictingregressionrelationship
(6963)
2093averagegaussian
monte _carloparameter
(4219)
+gaussian+parameter-statistics-variance
2094averagegaussian
monte _carloprobability
(3796)
+gaussian+probability
-statistics-variance
2095averagegaussian
monte _carlorandom
(3749)
+gaussian+random-statistics-variance
3082heterogeneity
statisticsvariabilityvariance
(1855)
+heterogeneity+variability
-average-monte _carlo
4033gaussian
monte _carlophysicsstatistics
(2111)
+gaussian+physics-average-variance
4310averagegaussian
monte _carlostatisticsvariance
(1428)
+gaussian
6845approximation
gaussianmonte _carlo
simulationstatisticsvariance
(975)
+approximation+gaussian
+simulation-average
2096averagepairwisestatisticsvariance
(1714)
2104activat_protein
insulinprotein_kinase
signalling
(1967)
4314activat_protein
insulinphosphatase
phosphorylatioprotein_kinase
(1241)
+phosphatase+phosphorylatio
-signalling
2693diffusionimaging
magneti_resonanspectroscopy
(2206)
2695fluorescent
imageimaging
microscopy
(5044)
2124clone
genbanknucleot_sequenc
sequencing
(2042)
2136cell
cell _differeproliferation
t _cell
(3515)
2133adhesion
cellcell _migraticell _motilit
(1549)
+cell _motilit-cell _surface
2134adhesion
cellcell _migraticell _surface
(2558)
2187collagen
fibroblastsmatrixtissue
(5335)
+fibroblasts-vascular
2189collagenmatrixtissue
vascular
(5685)
2190collagen
tissuevascularvessels
(3774)
4372completegenbank
nucleot_sequencopen
sequenc_alignme
(1004)
+sequenc_alignme
5964amino _acid
cdnaclone
genbankhomology
open
(1341)
+amino _acid+cdna+clone
+homology-complete
-nucleot_sequenc
2374approximationcomputation
gaussianperform
(3039)
+approximation+gaussian+perform-computer
-monte _carlo-simulation
2793computation
computermonte _carlo
simulation
(3106)
2985computation
computa_modelparametersimulation
(1528)
+computa_model+parameter-computer
-monte _carlo
5664approximation
equationmonte _carlo
simulationvariance
(1911)
+approximation+equation+variance
-computation-computer
2794algorithmcomputer
machine_learninprogram
(1481)
2256chain
determinefrequenciespolymerase
(3002)
+chain+frequencies
-quantify-reaction
2258determine
polymerasequantifyreaction
(2198)
2296effectiveimmune
immune _responsimmunity
(7197)
2297effective
hivimmuneimmunity
(3225)
2876exchange
mass _spectrospectrometryspectroscopy
(3433)
2358complexes
formhydroge_bonding
intermolecular
(2950)
+complexes-diffraction
2421cytokineresponse
stimulationt _cell
(7725)
4530cell _migrati
collagenin _vitro
migrationproliferation
(1669)
+proliferation
4533activat_proteinindependent
pathwayphosphorylatioprotein_kinase
(5904)
+phosphorylatio
2484exon
linkagenucleotide
region
(2906)
7249allele
associationexon
frequencieslinkage
nucleotidepolymorphisms
(1144)
+allele+association+frequencies
+polymorphisms-region
8056allele
associationfrequencies
genetic_variatigenotypelinkage
nucleotidepolymorphisms
variation
(864)
+allele+association+frequencies
+genetic_variati+genotype
+polymorphisms+variation
-exon-region
2554adhesion
cell _migraticell _surfaceextracellular
(1992)
2153cell _surfaceextracellular
ligand _bindingtransmembrane
(1490)
2592cytoskeleton
signal _transdusignalling
transduction
(2199)
2563cytoskeleton
signal _transdusignalling
transduction
(2390)
7162activat_protein
cascadeprotein_kinasesignal _transdu
signallingtransduction
transdu_pathway
(946)
+activat_protein+cascade
+protein_kinase+transdu_pathway
-cytoskeleton
3085climate
environ_conditivariabilityvegetation
(985)
+variability-environment
2617cell _migrati
migrationproliferation
vascular
(3130)
+collagen+in _vitro-vascular
2455genbank
rrnasequenc_data
species
(1409)
+sequenc_data+species
-amplification-sequencing
2972amplification
genbankrrna
sequencing
(2292)
3365genbank
rrnasequenc_data
sequencing
(1281)
+sequenc_data-amplification
2979cytokine
lymphocytesstimulation
t _cell
(6401)
2621antigen
lymphocytesnodet _cell
(2458)
2597hormone
ligandligand _binding
receptor
(3337)
2707cancernode
progressiontumor
(6322)
2121causeexon
familiesmutation
(2760)
+cause+families
-codon-splice
2250exon
familiesmutationscreening
(2137)
+families+screening
-codon-splice
2585codonexon
mutationsplice
(1871)
2822deformation
physicspolymerstrength
(1666)
2838deformation
physicspolymerstrength
(1803)
2840deformation
molecul_dynamicphysicsstrength
(1021)
+molecul_dynamic-polymer
2841deformation
equationphysicsstrength
(5235)
+equation-polymer
3953equationformalism
monte _carlophysics
(2105)
+equation+formalism
+monte _carlo-deformation
-polymer-strength
2855distributionfrequencies
monte _carlostatistics
(1725)
5031biodiversity
climatediversityvariabilityvegetation
(943)
+diversity+variability-distribution
6233biodiversity
climatedistribution
ecologyecosystemvegetation
(839)
+ecology+ecosystem
2834fluorescent
imagelaser
microscopy
(4055)
4876approximationdiffere_equatio
equationmodel
simulation
(3679)
+approximation+differe_equatio
+equation-monte _carlo
-simulating
6257approximation
equationformalism
modelmonte _carlo
simulation
(1195)
+approximation+equation
+formalism-simulating
2599cell _surface
ligandligand _binding
receptor
(3343)
2598cell _surfaceendocytosis
ligandreceptor
(2172)
2578allelecodonexon
nucleotide
(2132)
+nucleotide-mutation
2579allelecodonexon
mutation
(2519)
2580allelecodon
genotypenucleotide
(1991)
+genotype+nucleotide
-exon-mutation
+allele-sequencing
+allele+genotype
-exon-sequencing
2581codonexon
nucleotidesequencing
(3331)
2582codonexon
nucleotideposition
(3123)
2249exon
mutationscreening
sequencing
(2896)
+screening-codon
2584codonexon
mutationsequencing
(3307)
2586codonexon
mutationposition
(2856)
2590codon
nucleotidenucleot_sequenc
sequencing
(3181)
2591basecodon
nucleotideposition
(4496)
2973detect
polymerasequantifyreaction
(1787)
2622emergence
hivinfection
virus
(2099)
+emergence-transmission
2623hiv
infectiontransmission
virus
(6119)
3110hiv
infectiontransmissiontuberculosis
(1518)
+tuberculosis-virus
3270code
computationcomputingformalism
(867)
+code+computation+computing
-approximation-dependence
-entropy
3514approximation
diffusionformalism
lattice
(1018)
+diffusion+lattice
-dependence-entropy
2722chemistryphysicspolymerquantum
(2538)
+polymer-atom
3122laser
mass _spectrospectrometryspectroscopy
(3898)
5148biodiversity
climateecosystem
managementvegetation
(1025)
+ecosystem
3302correlation
cross _validatlinear
regression
(1797)
+monte _carlo+physics-linear
-polymer
5192approximation
equationformalism
linearmonte _carlo
(1296)
+approximation+monte _carlo
-polymer
+average+parameter
-approximation-linear
+average+random
-approximation-linear
+computation+perform
-linear-monte _carlo
3225gaussianmarkov
monte _carlorandom
(1126)
+markov+random
-approximation-linear
3310approximation
gaussianlinear
monte _carlo
(3528)
3517approximation
diffusiongaussian
lattice
(1518)
+diffusion+lattice-linear
-monte _carlo
3949approximation
gaussianlattice
monte _carlo
(1245)
+lattice-linear
3951approximation
formalismlattice
monte _carlo
(887)
+formalism+lattice
-gaussian-linear
4103gaussian
latticemonte _carlo
physics
(1708)
+lattice+physics
-approximation-linear
4802approximationcomputationconvergence
gaussianoptimization
(1145)
+computation+convergence+optimization
-linear-monte _carlo
+equation+formalism-gaussian
+simulation+statistics+variance
-linear
+independent+pathway
-translocation
+addition+inhibitor
+signali_pathway-translocation
6505activat_protein
kinasephosphatase
phosphorylatioprotein_kinase
tyrosine
(2195)
+kinase+phosphatase
+tyrosine-translocation
2829electro_microsc
imagelattice
microscopy
(11121)
3333activat_protein
cascadedownstream
upstream
(1634)
3449activat_protein
cascadedownstream
upstream
(1711)
6097activat_protein
cascadedownstream
pathwayprotein_kinase
signalling
(1801)
+pathway+protein_kinase
+signalling-upstream
3364exon
genbanknucleotide
sequencing
(2866)
+average+monte _carlo
-formalism-physics
+monte _carlo+statistics-formalism-probability
+approximation+diffusion-physics-velocity
+approximation+monte _carlo
-physics-velocity
4102formalism
latticemonte _carlo
physics
(1066)
+monte _carlo-velocity
+gaussian+monte _carlo
-formalism-velocity
4104entropy
formalismlattice
physics
(851)
+entropy-velocity
3511diffusion
magneti_resonanspectroscopy
x _ray
(1334)
2040molecul_dynamic
moleculephysicsquantum
(2917)
+molecule-energy
3597energyentropy
molecul_dynamicphysics
(1980)
3595energyentropy
formalismphysics
(2293)
3596deformation
energyformalismphysics
(2232)
+deformation-entropy
+lattice-energy
3515approximationdiffere_equatio
diffusionequation
(3228)
+differe_equatio+diffusion-regression-variance
+differe_equatio+model
+simulation-regression-variance
+monte _carlo+simulation-regression
2030mass _spectrospectrometryspectroscopy
spectrum
(6681)
-atom
2037additioncyclin
inhibitorphosphorylatio
(4007)
-kinase
3349cyclin
inhibitorkinase
phosphorylatio
(5547)
-addition
-amplification-detect
-reaction+determine
+frequencies
2969amplification
detectoligonucleotid
reaction
(3602)
-chain-polymerase
+oligonucleotid
4660amplification
chaindetect
polymerasereaction
(7839)
4661amplification
chainpolymerase
reactionsequencing
(9475)
4395correlationequation
linearregressionrelationship
(8656)
4396correlationequation
regressionrelationship
variance
(4425)
4400equation
linearnonlinear
regressionrelationship
(3263)
4300apoptosis
cellcell _cyclecell _deathcell _growth
(4033)
4329cell _cycle
cell _growthcyclingrowth
proliferation
(3713)
6558cell _cycle
cell _growthcyclecyclin
progressionproliferation
(2721)
+cycle+progression
-growth
4366collagen
engineeringmatrix
scaffoldtissue
(1684)
4777algorithm
computationcomputercomputing
monte _carlo
(1531)
4778algorithm
computationcomputercomputing
fuzzy
(1151)
+fuzzy-monte _carlo
4424chain
determinemesseng_rnapolymerase
reaction
(1593)
+chain-messenger
4447energy
excitationfluorescentquantumtransfer
(1828)
4532activat_protein
epiderm_growthindependent
phosphorylatioprotein_kinase
(1701)
4575amplification
detectpolymerase
positivereaction
(6601)
4576antibodiesantibodyantigeninfectionpositive
(9596)
3594carbon
carbon _dioxideenergy
methane
(3915)
-dioxide-oxygen
-reduction+carbon+energy
4590carbon _dioxide
dioxidemethaneoxygen
reduction
(1725)
4593chromosome
linkagelocus
mappingregion
(3856)
2970amplification
nucleot_sequencpolymerasesequencing
(3688)
-genbank
2971amplification
genbanknucleot_sequenc
sequencing
(3313)
-polymerase
4667antibodiesantibodyantigen
recombinantvirus
(5424)
4669antibodiesantibodyantigen
cell _surfacelymphocytes
(3751)
4670antibodiesantibodyantigen
cell _surfacesurface
(7403)
4913hiv
immuneimmunity
lymphocytest _cell
(2708)
6162apoptosis
cancercell _cyclecheckpoint
dna _damagesuppressor
(1216)
+checkpoint
6164apoptosis
cancercell _cyclecheckpoint
dna _damagedna _repair
(1194)
+apoptosis+checkpoint-suppressor
6437apoptosiscell _cyclecheckpoint
cycledna _damagedna _repair
(1308)
+apoptosis+checkpoint
+cycle-cancer
-suppressor
6165cancer
cell _cyclecheckpoint
dna _damagedna _repair
repair
(1806)
+checkpoint
4840excitation
fluorescentlaser
quantumspectroscopy
(1078)
3513approximation
diffusionequationformalism
(2254)
-model-nonlinear+diffusion
4872approximation
equationformalism
modelnonlinear
(2864)
+monte _carlo+simulation-nonlinear
2921approximation
gaussianmodel
nonlinear
(6948)
-formalism
2984approximation
gaussiannonlinearparameter
(5716)
-formalism-model
+parameter
4287activity
dna _bindingkappa _bnf _kappa
nf _kapp_b
(2148)
+activity+dna _binding
-apoptosis-tumor
4910apoptosiskappa _bnf _kappa
nf _kapp_btumor
(3579)
5086dna _binding
kappa _bnf _kappa
nf _kapp_btranscription
(2151)
+dna _binding+transcription
-apoptosis-tumor
4299apoptosiscell _cyclecell _deathcell _growth
inhibitor
(2910)
4301apoptosiscell _cyclecell _deathcheckpoint
dna _damage
(1333)
+cancer+suppressor-cell _death
+cancer+dna _repair-cell _death
5366algorithmcomputing
graphimplementation
software
(2042)
+implementation+software
-computation-program
+graph+software
-computation-efficient
6330algorithm
computationcomputing
implementationprogramsoftware
(2077)
+program+software-efficient
-approximation-efficient
-optimization+code
+formalism
+convergence+gaussian
-computing-efficient
5119apoptosisinhibitor
kappa _bnf _kappa
nf _kapp_b
(2902)
5118apoptosiscell _cycle
cell _growthcyclin
inhibitor
(2608)
4700biomasscarbon
ecosystemnitrogennutrient
(1658)
-atom-dioxide-nitrogen-oxygen
+carbon _dioxide+energy
+methane
4703atom
carbondioxidenitrogenoxygen
(1345)
5193approximation
equationformalism
linearnonlinear
(3275)
3311approximation
gaussianlinear
nonlinear
(7977)
-formalism
6672activat_proteinintrace_signali
kinasephosphorylatioprotein_kinase
stimulation
(1167)
+intrace_signali+kinase
-epiderm_growth
6673activat_protein
epiderm_growthkinase
phosphorylatioprotein_kinase
stimulation
(1614)
+kinase
5935activat_protein
activityinhibitorkinase
phosphorylatioprotein_kinase
(6702)
6504activat_protein
inhibitorkinase
phosphorylatioprotein_kinase
signali_pathway
(3189)
+signali_pathway-activity
-activity-kinase+insulin
5936activat_protein
activitykinase
phosphatasephosphorylatioprotein_kinase
(3205)
4647degradation
kappakappa _bnf _kappa
nf _kapp_b
(2945)
-alpha-cytokine
+degradation
5947alpha
cytokinekappa
kappa _bnf _kappanf _kapp_b
(2842)
5948activat_protein
alphakappa
kappa _bnf _kappa
nf _kapp_b
(1797)
5949alpha
cytokinekappa _bnf _kappa
nf _kapp_bstimulation
(1536)
5951alpha
cytokinekappa _bnf _kappanf _kapp_b
tumor
(2306)
+cdna+open
-nucleot_sequenc-sequence
7070apoptosis
cellcell _cycle
cell _growthcyclecyclin
proliferation
(2877)
+cycle
6197algorithm
computationcomputercomputingprogramsoftware
(2602)
+implementation-computer
6050cytokineimmune
immune _responsimmunityresponse
t _cell
(5697)
6061cytokineimmune
immune _responsimmunity
micet _cell
(4529)
6072kinase
phosphatasephosphorylatioprotein_kinase
serinetyrosine
(2100)
+activat_protein-serine
4649cell _migrati
collagenextracellularfibroblasts
matrix
(1154)
-adhesion-migration
+fibroblasts
6094adhesion
cell _migraticollagen
extracellularmatrix
migration
(1590)
+downstream-signal _transdu
6098activat_protein
cascadepathway
protein_kinasesignal _transdu
signalling
(1990)
+transduction+transdu_pathway
-pathway
+distribution-environment
4948biomass
compositionecosystem
nutrientvegetation
(941)
-ecology
7796cancer
cell _cyclecell _growth
cyclinprogressionsuppressor
transformationtumor
(882)
+cancer+cell _cycle+suppressor-proliferation
7797cancer
cell _cyclecell _growth
cyclinprogressionproliferation
transformationtumor
(1122)
+cancer+cell _cycle
6115hiv
hostimmuneimmunityinfection
virus
(2742)
+host-t _cell
6116immune _respons
immunityinfection
persistencet _cellvirus
(1175)
+immune _respons+persistence
-hiv-immune
6118hiv
immuneimmunityinfectiont _cellvirus
(2768)
4922biomass
ecosystemnutrient
plantvegetation
(1207)
-ecology
6295biodiversity
biomassecology
ecosystemplant
vegetation
(662)
+biodiversity-nutrient
+biomass-climate
6297biodiversity
climateecology
ecosystemplant
vegetation
(831)
4677biomassnitrogennutrient
plantroot
(1463)
-ecosystem-vegetation
+root
4699biomass
ecosystemnitrogennutrient
plant
(1470)
-vegetation
6172atombond
chemistryhydroge_bonding
quantumspectroscopy
(1198)
4799algorithm
computationconvergence
genetic_algoritoptimization
(993)
-computing-efficient
-graph+convergence
+genetic_algorit
5052algorithm
computationefficient
genetic_algoritoptimization
(1180)
-computing-graph
+genetic_algorit+cell
2142cell _growth
cyclinoverexpression
suppressor
(1502)
-apoptosis-cell _cycle
-cycle+overexpression
6434apoptosiscell _cycle
cell _growthcyclecyclin
suppressor
(1849)
6436apoptosiscell _cyclecheckpoint
cycledna _damage
suppressor
(1296)
+dna _repair-suppressor
6438cell _cycle
cell _growthcyclecyclin
progressionsuppressor
(1748)
+proliferation-suppressor
6141biomasscarbon
carbon _dioxidedioxidenitrogenoxygen
(1306)
5934activat_protein
activityinhibitor
kappa _bkinase
phosphorylatio
(1294)
-nf _kappa
7063allele
associationdisease
genotypelinkage
polymorphismssusceptibility
(2545)
+exon+frequencies+nucleotide
-disease-genotype
-susceptibility
+frequencies+genetic_variati
+nucleotide+variation-disease
-susceptibility
8057allele
associationfrequencies
genetic_variatigenotypelinkage
polymorphismspopulationvariation
(1029)
+frequencies+genetic_variati
+population+variation-disease
-susceptibility
7132apoptosis
cancercell _cycle
cell _growthhuman
suppressortumor
(2841)
6049cancer
cell _growthepiderm_growth
humanproliferation
tumor
(2281)
-apoptosis-cell _cycle
+epiderm_growth
7133apoptosis
cancercell _cycle
cell _growthhuman
proliferationtumor
(4471)
4675antigenimmuneimmunity
t _celltolerance
(3725)
-effector-immune _respons
+transformation
7193apoptosis
cancercell _cycle
cell _growthcyclin
suppressortumor
(1678)
+transformation
7194apoptosis
cancercell _cycle
cell _growthcyclin
proliferationtumor
(2361)
6112host
immune _responsimmunityinfection
persistencevirus
(1204)
-immune
6113host
immuneimmune _respons
immunityinfection
virus
(4176)
-persistence-host
-immune+t _cell
7382activat_protein
epiderm_growthinhibitorkinase
phosphorylatioprotein_kinase
tyrosine
(1403)
7784antibodiesantibodyantigenimmune
immune _responsimmunity
lymphocytest _cell
(3373)
7785antigencytokineeffectorimmune
immune _responsimmunity
lymphocytest _cell
(2292)
8018antibodiesantibodyantigenimmune
immune _responsimmunityinfection
t _cellvirus
(2190)
Management
1990
2007
Cellu
lar B
iolog
y
Gene
tics
amp M
olecu
lar bi
ology
Form
al Me
thods
amp
Too
ls
Immu
nolog
y
Pseudo
-inclusion
FIG
UR
E4
20E
xtra
itd
ela
phy
logeacute
nie
des
dom
aine
slieacute
sagrave
lrsquoap
pro
che
reacutese
auen
biol
ogie
(cet
tep
orti
onre
grou
pe
envi
ron
1400
clu
ster
s)d
e19
90agrave
2007
N
ous
avon
su
niqu
emen
tseacute
lect
ionn
eacutele
sch
amp
sco
nsti
tueacutes
de
quat
res
term
esou
plu
set
don
tla
qual
iteacute
emp
iriq
ue
eacutetai
tau
-des
sus
drsquou
nse
uil
fixeacute
Cet
tep
hylo
geacuteni
ees
ttro
nqu
eacuteep
our
des
rais
ons
de
preacute
sen-
tati
onL
esco
ule
urs
des
cham
ps
corr
esp
ond
entagrave
leu
rin
dic
ed
ep
seu
do-
incl
usi
onL
eslie
nsd
efi
liati
onen
tre
cham
ps
sont
colo
reacutes
enro
uge
enca
sd
ecr
oiss
ance
eten
bleu
enca
sd
ed
eacutecro
issa
nce
Les
gran
ds
dom
aine
san
noteacute
sd
ans
laba
nde
bleu
eon
teacuteteacute
ajou
teacutes
man
uel
le-
men
t
45 Meacutethode de reconstruction dynamique 151
FIGURE 421 Densiteacute moyenne (agrave gauche) et indice de pseudo-inclusion (agrave droite) en fonc-tion du nombre de descendants drsquoun champ eacutepisteacutemique au sein de la phylogeacutenie pourquatre valeurs d0 distinctes 03 04 05 06
ont moins de deux fils 44 drsquoentre eux nrsquoen ayant qursquoun environ 14 en ont aumoins trois Nous avons calculeacute pour lrsquoensemble des champs ayant k fils leur den-siteacute et leur indice de pseudo-inclusion moyen Pour interroger la faccedilon dont nosindices de structuration se distribuent par rapport agrave cette observable nous avonseacutegalement souhaiteacute inteacutegrer le paramegravetre δ0 (similariteacute minimale drsquoun lien de fi-liation) comme paramegravetre de notre analyse afin drsquoeacutevaluer la robustesse de notrereconstruction par rapport agrave ce seuil Les distributions correspondantes ont donceacuteteacute calculeacutees pour diffeacuterentes valeurs de δ0 qui correspondent agrave autant de reacuteseauxphylogeacuteneacutetiques diffeacuterents La figure 421 regroupe lrsquoensemble de ces courbes
On observe en premier lieu une grande robustesse de la distribution des in-dices de structuration par rapport au nombre drsquoenfants Seul un paramegravetre tregraveseacuteleveacute (δ0 = 06) semble modifier sensiblement la structure du reacuteseau phylogeacuteneacute-tiques Pour 03 le δ0 le 05 on constate que les deux indices de structuration sontmaximaux pour un seul enfant la valeur des indices eacutetant minimales soit lorsquele champ ne donne lieu agrave aucune filiation soit lorsqursquoil est tregraves fertile (nombre im-portant drsquoenfants)
Nous avons eacutegalement classeacute les champs en fonction de leur position dans lereacuteseau phylogeacuteneacutetique autant du point de vue de leur descendance que de leurascendance On distingue ainsi les champs isoleacutes (ni pegravere ni fils) eacutemergents (pasde pegravere mais un ou plusieurs fils) adultes (preacutesence drsquoun ou de plusieurs pegraveres etdrsquoun ou de plusieurs fils) et deacuteclinant (pas de fils mais un ou plusieurs pegraveres)
La distribution des champs scientifiques par rapport agrave ces cateacutegories est parti-culiegraverement informative On a repreacutesenteacute figure 422 la pseudo-inclusion moyenneou la densiteacute moyenne drsquoun ensemble de champs appartenant agrave une cateacutegorie don-neacutee on observe agrave nouveau des reacutegulariteacutes tregraves nettes dans la plage de valeurs04 le δ0 le 06 sur laquelle les distributions sont semblables Les quatre courbescalculeacutees (figures 422 et 421) indiquent une forme de robustesse de ces motifsphylogeacuteneacutetiques vis-agrave-vis des deux indices de structuration agrave lrsquointeacuterieur de la plagede valeurs de seuil 04 le δ0 le 05 ce qui constitue une forme de validation theacuteo-
152 Chapitre 4 Structures eacutemergentes
FIGURE 422 Densiteacute moyenne (agrave gauche) et indice de pseudo-inclusion (agrave droite) en fonc-tion du nombre de la nature (isoleacute eacutemergent adulte deacuteclinant) ou des champs eacutepisteacute-miques au sein de la phylogeacutenie pour quatre valeurs d0 distinctes 03 04 05 06
rique indirecte de la meacutethode (Hopcroft et al 2004b)
Les champs adultes ont des valeurs drsquoindice les plus fortes Les champs en voiede disparition ou eacutemergents ont des indices de structuration plus faibles tandis quece sont les champs isoleacutes qui en moyenne preacutesentent les valeurs de structurationles plus faibles La similitude de nos distributions pour nos deux indices de struc-turation ne signifie pas qursquoils sont eacutequivalents Ainsi on a observeacute empiriquementque certains champs pouvaient ecirctre caracteacuteriseacutes par un indice de pseudo-inclusionimportant et un indice de densiteacute faible Crsquoest notamment le cas des champs dontle degreacute sortant (nombre important de fils) est important sur la figure 419 situeacutesdans les zones dans lesquelles les fertilisations croiseacutees sont freacutequentes Ceux-cisont sans doute des champs eacutemergents tregraves coheacuterents mais qui nrsquoont pas atteintune maturiteacute suffisante La faible densiteacute de ces champs trahit alors leur jeunesse
Ces analyses statistiques meacuteriteraient drsquoincorporer drsquoautres paramegravetres (tel quele paramegravetre temporel par exemple) ainsi que drsquoecirctre eacutetendues aux deacuteriveacutees de nosindices de structuration On peut neacuteanmoins conjecturer drsquoapregraves ces premiegraveres ob-servations lrsquoexistence drsquoune forme de cycle de vie des champs scientifiques dontles indices de structuration augmentent apregraves leur eacutemergence jusqursquoagrave lrsquoeacutetat ldquoadul-terdquo avant de srsquoeffondrer lorsque la communauteacute srsquoen deacutesinteacuteresse donnant alorslieu agrave une extinction ou agrave un morcellement en de multiples champs Au contrairelrsquoeacutetat de maturiteacute qui se caracteacuterise par un fort indice de structuration est a prioriplus stable dynamiquement le faible renouvellement conceptuel induit alors unnombre limiteacute mais non nul de descendants
Drsquoautres eacutetudes srsquoappuyant sur des bases de donneacutees drsquoautres domaines confir-meront ou infirmeront ces hypothegraveses Ces meacutethodes ouvrent en tout cas de nom-breuses perspectives pour lrsquoexploration comparative des motifs dynamiques meacute-soscopiques observeacutes dans diffeacuterents domaines
46 Trajectoires des individus au sein des paysages seacutemantiques 153
46 Trajectoires des individus au sein des paysages seacuteman-
tiques
Nous avons deacutecrit une meacutethode de reconstruction multi-eacutechelle drsquoun domainescientifique en une structure multi-eacutechelle composeacutee de champs eacutepisteacutemiques en-sembles de termes fortement connecteacutes les uns aux autres et lieacutes au sein drsquoun reacute-seau G que lrsquoon peut cartographier Ces repreacutesentations de la connaissance sontobtenues de faccedilon entiegraverement bottom-up (contrairement agrave des approches plus top-down qui proposent une labellisation des cartes des sciences agrave lrsquoaide de cateacutegoriespreacute-existantes telles que la classification des journaux de lrsquoISI eg (Moya-Anegoacutenet al 2004 Boyack et al 2005 Leydesdorff and Schank 2008a Leydesdorff andRafols 2009)) On a enfin proposeacute une meacutethode de reconstruction de la dynamiquede ces champs qui permet de retracer les filiations entre champs sous la forme drsquounreacuteseau phylogeacuteneacutetique
Notre objectif est maintenant drsquoopeacuterer un retour vers les scientifiques qui sontles veacuteritables paysagistes de ces territoires conceptuels En effet les chercheursagrave travers leur production modifient lrsquoeacutetat du paysage scientifique mais lrsquoespaceqursquoils contribuent agrave creacuteer contraint eacutegalement leur activiteacute en retour lrsquohypothegraveseque nous posons est que les champs eacutepisteacutemiques deacutetecteacutes reacuteunissent lrsquoensembledes termes concepts ou outils propres agrave une communauteacute scientifique Agrave chaquechamp devrait donc correspondre un certain nombre de chercheurs qui eacutechangentles uns avec les autres se reacuteunissent reacuteguliegraverement au sein de congregraves ou publientdans les mecircmes journaux Nous illustrerons cette derniegravere partie agrave partir de notrebase de donneacutees sur le deacuteveloppement durable deacutecrite section 431
461 Opeacuterateur de projection
Maintenant que nous avons deacutefini une meacutethode pour repreacutesenter les paysagesscientifiques en spacialisant des reacuteseaux de proximiteacute entre champs G notre ob-jectif est drsquoy ldquosituerrdquo eacutegalement des chercheurs ou drsquoautres types drsquoentiteacutes en pro-jetant leur bagage conceptuel sur les cartes produites Lrsquoopeacuterateur de projection quenous concevons est geacuteneacuterique au sens ougrave il doit permettre de projeter aussi biendes chercheurs des institutions des journaux ou des confeacuterences En toute geacuteneacute-raliteacute il suffit drsquoattribuer agrave une entiteacute un corpus deacutefini par exemple par lrsquoensembledes articles auxquels elle est lieacutee (les publications drsquoun chercheur les articles pu-blieacutes dans une confeacuterence ou dans un journal donneacute etc) et drsquoen extraire un bagageconceptuel qui servira de signature de lrsquoactiviteacute de cette entiteacute au sein du domaineDans la suite mecircme si la meacutethode srsquoapplique plus largement sans difficulteacute nousne traiterons dans nos exemples que des corpus de publications signeacutes par unchercheur
On deacutefinit donc le bagage conceptuel Bi(T ) isin Nl (l = |L| deacutesigne le nombre
de concepts) drsquoun chercheur i agrave une peacuteriode T comme le vecteur deacutenombrant le
154 Chapitre 4 Structures eacutemergentes
nombre drsquooccurrences de chaque concept de L que i a mobiliseacute dans lrsquoensembledes publications dont il est lrsquoauteur pendant la peacuteriode T Contrairement aux vec-teurs Cj qui deacutefinissant les champs le vecteur Bi(T ) peut prendre des valeurssupeacuterieures agrave 1 si lrsquoauteur i a publieacute plusieurs articles avec le mecircme concept Ainsila jme coordonneacutees de Bi(T ) est eacutegale au nombre drsquoarticles signeacutes par i pendant lapeacuteriode T mentionnant le concept j
On souhaite maintenant deacutefinir lrsquoopeacuterateur de projection h Nl rarr R
n ( n deacute-signant le nombre de champs eacutepisteacutemiques reconstruits) qui agrave un bagage seacuteman-tique donneacute fait correspondre un vecteur de probabiliteacutes drsquoappartenance agrave lrsquoen-semble des champs Cj1lejlen la probabiliteacute pi(Cj) que le chercheur i appartienneagrave Cj peut srsquoeacutecrire agrave partir de la distance inter-cluster deacutejagrave deacutefinie section 445 Nousproposons une deacutefinition plus geacuteneacuterale de la distance inter-cluster preacuteceacutedemmentdeacutefinie de faccedilon agrave ce qursquoelle permette de prendre en compte des clusters deacutefiniscomme des vecteurs dans N
l prenant des valeurs entiegraveres pouvant ecirctre supeacuterieuresagrave 1Ainsi la distance inter-cluster geacuteneacuteraliseacutee S srsquoeacutecrit sous la forme
S(Ca Cb) =1
sumnk=1 Ca(k)
sumnk=1 Cb(k)
nsum
ij=1
Ca(i)Cb(j)S(i j)
Cette nouvelle deacutefinition laisse inchangeacutee la mesure entre deux clusters et per-met de deacutefinir la proximiteacute S(Bi(T ) Cj) entre le bagage seacutemantique de lrsquoagent i
et un champ Cj au temps T Le degreacute drsquoappartenance drsquoun agent i agrave un champ j
vaut alors pTi (Cj) = S(Bi(T ) Cj)
On peut eacutegalement normaliser cette derniegravere quantiteacute afin drsquoobtenir un vecteurdes probabiliteacutes de preacutesence de i sur lrsquoensemble des champs
pTi (Cj) =
pTi (Cj)
sumlk=1 pT
i (Ck)=
ST (Bi(T ) Cj)suml
k=1 S(Bi(T ) Ck)
Cette projection deacutefinit un vecteur de probabiliteacute de preacutesence pi qui peut srsquoin-terpreacuteter comme une densiteacute de preacutesence drsquoun auteur sur lrsquoensemble des champsscientifiques 28 Nous avons repreacutesenteacute figure 423 lrsquoeacutevolution de la densiteacute de preacute-sence drsquoun auteur choisi au hasard dans notre base de donneacutees Philip Lowe estprofesseur drsquoeacuteconomie rurale et directeur du programme drsquoeacuteconomie rurale etdrsquoameacutenagement du territoire du Centre de lrsquouniversiteacute de Newcastle 29 Cette re-preacutesentation a comme simple ambition drsquoilluster la faccedilon dont notre opeacuterateur per-met de situer un auteur au sein drsquoune ldquogeacuteographierdquo de la connaissance Plusieursobservations peuvent ecirctre faites
28 Cette normalisation nrsquoest pas neacutecessairement souhaitable lorsqursquoon compare la projection dediffeacuterentes entiteacutes les unes avec les autres Les distribution des degreacutes drsquoappartenance drsquoune entiteacuteaux champs drsquoun domaine peuvent ecirctre tregraves diffeacuterents drsquoune entiteacute agrave lrsquoautre et il peut ecirctre souhai-table de conserver ces diffeacuterences en abandonnant lrsquoopeacuteration de normalisation
29 Rural Economy School of Agriculture Food and Rural Development University of Newcastle
46 Trajectoires des individus au sein des paysages seacutemantiques 155
9agricultural researchagricultural development
11food securityfood production17development policyeconomic development
18floodplainsnatural disasters
20innovation adoptiondiffusion of information
24deforestationtrees
25international agreementsinternational cooperation
28drainagereclamation
29pest controlweeds
32land managementlandscape conservation
33temperatureeconomic impact
37grazinggrassland management
38technical progressinnovation adoption40private ownershipproperty rights
41transition economiesagricultural situation
42forest economicsvaluation
43efficiencyfarm inputs
44drainage systemswater table
46soil fertilitysoil conservation
47fishingfishery policy
48mapsremote sensing49land policypublic domain
50population growthpopulation pressure
52urbanizationagricultural land
53capsubsidies
55renewable resourcesfuel crops
56precipitationclimate
57community forestrysocial participation
58intellectual property rightsindigenous knowledge
59floodsflooding
60social impacteconomic impact
63refusewaste water treatment
66bioenergygreenhouse gases
67biotechnologygenetic engineering
68catchment hydrologyrunoff
69productionexports
70water use efficiencytrickle irrigation
71sedimentsoil conservation
72runoffgroundwater
73nitratespollution control
74groundwaterirrigation water
75fishery resourcesfishing
76mappingmaps
77subsidiessupport measures
78trade liberalizationregulations
79fuelsfuel crops
81tourism impactdestinations
82pasturesrange management
83wild animalswildlife
84refusewaste treatment
86land ownershipland policy
87carbon sequestrationcarbon dioxide
88grasslandsbotanical composition
89indigenous knowledgeplant genetic resources
90outdoor recreationvisitors91weed controlagricultural entomology
92regulationsexports
94low input agriculturemaize
95irrigation systemswater use efficiency
96forest policyprivate forestry
97satellite imageryremote sensing
98wildlife managementwild animals
99tenure systemsland reform
100polluted waterpollutants
101bioremediationrisk assessment
102polluted waterleaching
103natural resource economicsresources
104waste managementwaste water
105water allocationirrigation water
106carbon dioxidecarbon sequestration
107species richnessbotanical composition
108forest policyforest resources
109tourist industrydestinations
110tenure systemsland ownership
111biologyagricultural entomology
112controlplant pests
113soyabeanslow input agriculture
114forest policyforest economics
115economic theoryresource allocation
116agricultural tradeworld trade organization
119waste utilizationrefuse
120world trade organizationtrade liberalization
121water policyirrigation water
122utilizationarid zones
9agricultural researchagricultural development
11food securityfood production17development policyeconomic development
18floodplainsnatural disasters
20innovation adoptiondiffusion of information
24deforestationtrees
25international agreementsinternational cooperation
28drainagereclamation
29pest controlweeds
32land managementlandscape conservation
33temperatureeconomic impact
37grazinggrassland management
38technical progressinnovation adoption40private ownershipproperty rights
41transition economiesagricultural situation
42forest economicsvaluation
43efficiencyfarm inputs
44drainage systemswater table
46soil fertilitysoil conservation
47fishingfishery policy
48mapsremote sensing49land policypublic domain
50population growthpopulation pressure
52urbanizationagricultural land
53capsubsidies
55renewable resourcesfuel crops
56precipitationclimate
57community forestrysocial participation
58intellectual property rightsindigenous knowledge
59floodsflooding
60social impacteconomic impact
63refusewaste water treatment
66bioenergygreenhouse gases
67biotechnologygenetic engineering
68catchment hydrologyrunoff
69productionexports
70water use efficiencytrickle irrigation
71sedimentsoil conservation
72runoffgroundwater
73nitratespollution control
74groundwaterirrigation water
75fishery resourcesfishing
76mappingmaps
77subsidiessupport measures
78trade liberalizationregulations
79fuelsfuel crops
81tourism impactdestinations
82pasturesrange management
83wild animalswildlife
84refusewaste treatment
86land ownershipland policy
87carbon sequestrationcarbon dioxide
88grasslandsbotanical composition
89indigenous knowledgeplant genetic resources
90outdoor recreationvisitors91weed controlagricultural entomology
92regulationsexports
94low input agriculturemaize
95irrigation systemswater use efficiency
96forest policyprivate forestry
97satellite imageryremote sensing
98wildlife managementwild animals
99tenure systemsland reform
100polluted waterpollutants
101bioremediationrisk assessment
102polluted waterleaching
103natural resource economicsresources
104waste managementwaste water
105water allocationirrigation water
106carbon dioxidecarbon sequestration
107species richnessbotanical composition
108forest policyforest resources
109tourist industrydestinations
110tenure systemsland ownership
111biologyagricultural entomology
112controlplant pests
113soyabeanslow input agriculture
114forest policyforest economics
115economic theoryresource allocation
116agricultural tradeworld trade organization
119waste utilizationrefuse
120world trade organizationtrade liberalization
121water policyirrigation water
122utilizationarid zones
9agricultural researchagricultural development
11food securityfood production17development policyeconomic development
18floodplainsnatural disasters
20innovation adoptiondiffusion of information
24deforestationtrees
25international agreementsinternational cooperation
28drainagereclamation
29pest controlweeds
32land managementlandscape conservation
33temperatureeconomic impact
37grazinggrassland management
38technical progressinnovation adoption40private ownershipproperty rights
41transition economiesagricultural situation
42forest economicsvaluation
43efficiencyfarm inputs
44drainage systemswater table
46soil fertilitysoil conservation
47fishingfishery policy
48mapsremote sensing49land policypublic domain
50population growthpopulation pressure
52urbanizationagricultural land
53capsubsidies
55renewable resourcesfuel crops
56precipitationclimate
57community forestrysocial participation
58intellectual property rightsindigenous knowledge
59floodsflooding
60social impacteconomic impact
63refusewaste water treatment
66bioenergygreenhouse gases
67biotechnologygenetic engineering
68catchment hydrologyrunoff
69productionexports
70water use efficiencytrickle irrigation
71sedimentsoil conservation
72runoffgroundwater
73nitratespollution control
74groundwaterirrigation water
75fishery resourcesfishing
76mappingmaps
77subsidiessupport measures
78trade liberalizationregulations
79fuelsfuel crops
81tourism impactdestinations
82pasturesrange management
83wild animalswildlife
84refusewaste treatment
86land ownershipland policy
87carbon sequestrationcarbon dioxide
88grasslandsbotanical composition
89indigenous knowledgeplant genetic resources
90outdoor recreationvisitors91weed controlagricultural entomology
92regulationsexports
94low input agriculturemaize
95irrigation systemswater use efficiency
96forest policyprivate forestry
97satellite imageryremote sensing
98wildlife managementwild animals
99tenure systemsland reform
100polluted waterpollutants
101bioremediationrisk assessment
102polluted waterleaching
103natural resource economicsresources
104waste managementwaste water
105water allocationirrigation water
106carbon dioxidecarbon sequestration
107species richnessbotanical composition
108forest policyforest resources
109tourist industrydestinations
110tenure systemsland ownership
111biologyagricultural entomology
112controlplant pests
113soyabeanslow input agriculture
114forest policyforest economics
115economic theoryresource allocation
116agricultural tradeworld trade organization
119waste utilizationrefuse
120world trade organizationtrade liberalization
121water policyirrigation water
122utilizationarid zones
1998-2001 1999-2002 2000-2003
9agricultural researchagricultural development
11food securityfood production17development policyeconomic development
18floodplainsnatural disasters
20innovation adoptiondiffusion of information
24deforestationtrees
25international agreementsinternational cooperation
28drainagereclamation
29pest controlweeds
32land managementlandscape conservation
33temperatureeconomic impact
37grazinggrassland management
38technical progressinnovation adoption40private ownershipproperty rights
41transition economiesagricultural situation
42forest economicsvaluation
43efficiencyfarm inputs
44drainage systemswater table
46soil fertilitysoil conservation
47fishingfishery policy
48mapsremote sensing49land policypublic domain
50population growthpopulation pressure
52urbanizationagricultural land
53capsubsidies
55renewable resourcesfuel crops
56precipitationclimate
57community forestrysocial participation
58intellectual property rightsindigenous knowledge
59floodsflooding
60social impacteconomic impact
63refusewaste water treatment
66bioenergygreenhouse gases
67biotechnologygenetic engineering
68catchment hydrologyrunoff
69productionexports
70water use efficiencytrickle irrigation
71sedimentsoil conservation
72runoffgroundwater
73nitratespollution control
74groundwaterirrigation water
75fishery resourcesfishing
76mappingmaps
77subsidiessupport measures
78trade liberalizationregulations
79fuelsfuel crops
81tourism impactdestinations
82pasturesrange management
83wild animalswildlife
84refusewaste treatment
86land ownershipland policy
87carbon sequestrationcarbon dioxide
88grasslandsbotanical composition
89indigenous knowledgeplant genetic resources
90outdoor recreationvisitors91weed controlagricultural entomology
92regulationsexports
94low input agriculturemaize
95irrigation systemswater use efficiency
96forest policyprivate forestry
97satellite imageryremote sensing
98wildlife managementwild animals
99tenure systemsland reform
100polluted waterpollutants
101bioremediationrisk assessment
102polluted waterleaching
103natural resource economicsresources
104waste managementwaste water
105water allocationirrigation water
106carbon dioxidecarbon sequestration
107species richnessbotanical composition
108forest policyforest resources
109tourist industrydestinations
110tenure systemsland ownership
111biologyagricultural entomology
112controlplant pests
113soyabeanslow input agriculture
114forest policyforest economics
115economic theoryresource allocation
116agricultural tradeworld trade organization
119waste utilizationrefuse
120world trade organizationtrade liberalization
121water policyirrigation water
122utilizationarid zones
9agricultural researchagricultural development
11food securityfood production17development policyeconomic development
18floodplainsnatural disasters
20innovation adoptiondiffusion of information
24deforestationtrees
25international agreementsinternational cooperation
28drainagereclamation
29pest controlweeds
32land managementlandscape conservation
33temperatureeconomic impact
37grazinggrassland management
38technical progressinnovation adoption40private ownershipproperty rights
41transition economiesagricultural situation
42forest economicsvaluation
43efficiencyfarm inputs
44drainage systemswater table
46soil fertilitysoil conservation
47fishingfishery policy
48mapsremote sensing49land policypublic domain
50population growthpopulation pressure
52urbanizationagricultural land
53capsubsidies
55renewable resourcesfuel crops
56precipitationclimate
57community forestrysocial participation
58intellectual property rightsindigenous knowledge
59floodsflooding
60social impacteconomic impact
63refusewaste water treatment
66bioenergygreenhouse gases
67biotechnologygenetic engineering
68catchment hydrologyrunoff
69productionexports
70water use efficiencytrickle irrigation
71sedimentsoil conservation
72runoffgroundwater
73nitratespollution control
74groundwaterirrigation water
75fishery resourcesfishing
76mappingmaps
77subsidiessupport measures
78trade liberalizationregulations
79fuelsfuel crops
81tourism impactdestinations
82pasturesrange management
83wild animalswildlife
84refusewaste treatment
86land ownershipland policy
87carbon sequestrationcarbon dioxide
88grasslandsbotanical composition
89indigenous knowledgeplant genetic resources
90outdoor recreationvisitors91weed controlagricultural entomology
92regulationsexports
94low input agriculturemaize
95irrigation systemswater use efficiency
96forest policyprivate forestry
97satellite imageryremote sensing
98wildlife managementwild animals
99tenure systemsland reform
100polluted waterpollutants
101bioremediationrisk assessment
102polluted waterleaching
103natural resource economicsresources
104waste managementwaste water
105water allocationirrigation water
106carbon dioxidecarbon sequestration
107species richnessbotanical composition
108forest policyforest resources
109tourist industrydestinations
110tenure systemsland ownership
111biologyagricultural entomology
112controlplant pests
113soyabeanslow input agriculture
114forest policyforest economics
115economic theoryresource allocation
116agricultural tradeworld trade organization
119waste utilizationrefuse
120world trade organizationtrade liberalization
121water policyirrigation water
122utilizationarid zones
9agricultural researchagricultural development
11food securityfood production17development policyeconomic development
18floodplainsnatural disasters
20innovation adoptiondiffusion of information
24deforestationtrees
25international agreementsinternational cooperation
28drainagereclamation
29pest controlweeds
32land managementlandscape conservation
33temperatureeconomic impact
37grazinggrassland management
38technical progressinnovation adoption40private ownershipproperty rights
41transition economiesagricultural situation
42forest economicsvaluation
43efficiencyfarm inputs
44drainage systemswater table
46soil fertilitysoil conservation
47fishingfishery policy
48mapsremote sensing49land policypublic domain
50population growthpopulation pressure
52urbanizationagricultural land
53capsubsidies
55renewable resourcesfuel crops
56precipitationclimate
57community forestrysocial participation
58intellectual property rightsindigenous knowledge
59floodsflooding
60social impacteconomic impact
63refusewaste water treatment
66bioenergygreenhouse gases
67biotechnologygenetic engineering
68catchment hydrologyrunoff
69productionexports
70water use efficiencytrickle irrigation
71sedimentsoil conservation
72runoffgroundwater
73nitratespollution control
74groundwaterirrigation water
75fishery resourcesfishing
76mappingmaps
77subsidiessupport measures
78trade liberalizationregulations
79fuelsfuel crops
81tourism impactdestinations
82pasturesrange management
83wild animalswildlife
84refusewaste treatment
86land ownershipland policy
87carbon sequestrationcarbon dioxide
88grasslandsbotanical composition
89indigenous knowledgeplant genetic resources
90outdoor recreationvisitors91weed controlagricultural entomology
92regulationsexports
94low input agriculturemaize
95irrigation systemswater use efficiency
96forest policyprivate forestry
97satellite imageryremote sensing
98wildlife managementwild animals
99tenure systemsland reform
100polluted waterpollutants
101bioremediationrisk assessment
102polluted waterleaching
103natural resource economicsresources
104waste managementwaste water
105water allocationirrigation water
106carbon dioxidecarbon sequestration
107species richnessbotanical composition
108forest policyforest resources
109tourist industrydestinations
110tenure systemsland ownership
111biologyagricultural entomology
112controlplant pests
113soyabeanslow input agriculture
114forest policyforest economics
115economic theoryresource allocation
116agricultural tradeworld trade organization
119waste utilizationrefuse
120world trade organizationtrade liberalization
121water policyirrigation water
122utilizationarid zones
2001-2004 2002-2005 2003-2006
0
1
05
075
025
9agricultural researchagricultural development
11food securityfood production17development policyeconomic development
18floodplainsnatural disasters
20innovation adoptiondiffusion of information
24deforestationtrees
25international agreementsinternational cooperation
28drainagereclamation
29pest controlweeds
32land managementlandscape conservation
33temperatureeconomic impact
37grazinggrassland management
38technical progressinnovation adoption40private ownershipproperty rights
41transition economiesagricultural situation
42forest economicsvaluation
43efficiencyfarm inputs
44drainage systemswater table
46soil fertilitysoil conservation
47fishingfishery policy
48mapsremote sensing49land policypublic domain
50population growthpopulation pressure
52urbanizationagricultural land
53capsubsidies
55renewable resourcesfuel crops
56precipitationclimate
57community forestrysocial participation
58intellectual property rightsindigenous knowledge
59floodsflooding
60social impacteconomic impact
63refusewaste water treatment
66bioenergygreenhouse gases
67biotechnologygenetic engineering
68catchment hydrologyrunoff
69productionexports
70water use efficiencytrickle irrigation
71sedimentsoil conservation
72runoffgroundwater
73nitratespollution control
74groundwaterirrigation water
75fishery resourcesfishing
76mappingmaps
77subsidiessupport measures
78trade liberalizationregulations
79fuelsfuel crops
81tourism impactdestinations
82pasturesrange management
83wild animalswildlife
84refusewaste treatment
86land ownershipland policy
87carbon sequestrationcarbon dioxide
88grasslandsbotanical composition
89indigenous knowledgeplant genetic resources
90outdoor recreationvisitors91weed controlagricultural entomology
92regulationsexports
94low input agriculturemaize
95irrigation systemswater use efficiency
96forest policyprivate forestry
97satellite imageryremote sensing
98wildlife managementwild animals
99tenure systemsland reform
100polluted waterpollutants
101bioremediationrisk assessment
102polluted waterleaching
103natural resource economicsresources
104waste managementwaste water
105water allocationirrigation water
106carbon dioxidecarbon sequestration
107species richnessbotanical composition
108forest policyforest resources
109tourist industrydestinations
110tenure systemsland ownership
111biologyagricultural entomology
112controlplant pests
113soyabeanslow input agriculture
114forest policyforest economics
115economic theoryresource allocation
116agricultural tradeworld trade organization
119waste utilizationrefuse
120world trade organizationtrade liberalization
121water policyirrigation water
122utilizationarid zones
2004-2007
FIGURE 423 Evolution de la projection de lrsquoauteur 478 (Philip Lowe) sur les 10 derniegraveresanneacutees (fenecirctres glissantes de 4 ans)
1 les champs associeacutes agrave une forte densiteacute de preacutesence de lrsquoauteur (zonesrouges) sont contigus sur notre carte ce qui tend agrave valider la reconstructionstatique
2 la densiteacute de preacutesence de lrsquoauteur dans cet espace est centreacutee sur un ensemblede champs semblant correspondre aux domaines drsquoexpertise du chercheur(principalement les aspects eacuteconomiques et leacutegaux des eacutechanges commer-ciaux internationaux mais eacutegalement des domaines connexes)
156 Chapitre 4 Structures eacutemergentes
3 la densiteacute de preacutesence de lrsquoauteur eacutevolue tregraves peu dans le temps laissantpenser que le chercheur repreacutesenteacute ici est resteacute ldquofidegravelerdquo aux communauteacuteseacutepisteacutemiques auxquelles il participe
4 lorsqursquoil y a dispersion vers drsquoautres champs mdash crsquoest agrave dire activation denouveaux champs mdash les champs toucheacutes semblent ecirctre proches des champsactiveacutes preacuteceacutedemment ie les champs nouvellement peupleacutes se situent dansle voisinage immeacutediat des champs preacuteceacutedemment occupeacutes 30
Ces observations semblent donc valider nos reconstructions et suggegraverent unecertaine forme de stabiliteacute dans lrsquoengagement des chercheurs aupregraves drsquoune com-munauteacute eacutepisteacutemique donneacutee Nous cherchons maintenant agrave rendre compte defaccedilon plus rigoureuse de lrsquoattraction exerceacutee sur les scientifiques par leurs champseacutepisteacutemiques drsquoappartenance agrave travers le calcul de mesures drsquoattachement preacutefeacute-rentiel liant la structure des champs agrave lrsquoeacutevolution de lrsquoactiviteacute des chercheurs
462 Reacutetroaction macro-micro
On srsquoattache maintenant agrave veacuterifier lrsquohypothegravese drsquoune stabiliteacute dynamique deschamps drsquoappartenance des chercheurs en eacutetudiant les motifs drsquoeacutevolution drsquounensemble I de plus de 800 scientifiques du domaine ayant publieacute au moins 7 ar-ticles parmi notre base de publications de deacutepart durant la peacuteriode 1998-2007 31Pour appreacutecier la vitesse de dispersion du vecteur de densiteacute des auteurs au seinde notre carte nous mettons en place deux mesures
En premier lieu nous introduisons une mesure entre deux densiteacutes de preacutesencenormaliseacutees pa et pb agrave lrsquoaide de la version symeacutetriseacutee de la divergence de KullBachLeibler DKL (Kullback and Leibler 1951) Etant donneacutee deux distributions de pro-babiliteacutes agrave valeurs non nulles 32 la divergence entre les deux distributions de pro-babiliteacute P et Q est deacutefinie par DKL(P Q) =
sum
i P (i)log(P (i)Q(i)) cette distanceest asymeacutetrique mais est classiquement symeacutetriseacutee en effectuant une moyenneDans sa version symeacutetrique on deacutefinit alors la distance entre deux distributionscomme 12[DKL(PQ) + DKL(Q P )] (Johnson and Sinanovic 2001)
On deacutefinit donc δ comme la distance de Kull-Back Leibler symeacutetriseacutee 33 entredeux vecteurs de probabiliteacutes de preacutesence pa et pb Cette distance srsquoexprime donc
30 Cette observation reste valable en consideacuterant une seacutequence de cartes sans recouvrement tem-porel
31 Cette borne permet de reacuteunir un nombre suffisant de chercheurs ayant a priori publieacute durantplusieurs anneacutees
32 Dans notre cas ll paraicirct improbable de trouver au sein des vecteurs de densiteacute individuelsdes valeurs parfaitement nulle car cela supposerait que les termes mobiliseacutes par un auteur ne co-occurrent pas une seule fois avec aucun des termes drsquoun champ donneacute
33 Mecircme si la divergence de KullBack Leibler mecircme symeacutetriseacutee ne veacuterifie pas les conditionsdrsquoune distance (lrsquoineacutegaliteacute triangulaire nrsquoest pas respecteacutee) nous lrsquoappellerons neacuteanmoins distancepar commoditeacute
46 Trajectoires des individus au sein des paysages seacutemantiques 157
sous la forme
δ(pa pb) = 12(DKL(pa pb) + DKL(pb pa))
Cette mesure permet notamment drsquoestimer le deacuteplacement qursquoa effectueacute un au-teur entre deux peacuteriodes successives On calcule la propension moyenne de deacutepla-cement drsquoun chercheur agrave une distance donneacutee en contrastant la distribution desdistances δ(pT
i pTminusi )iisinI
34 observeacutees sur lrsquoensemble des chercheurs entre deuxpeacuteriodes successives Tminus et T avec lrsquoensemble des distances δ(pT
i pTminusj )(ij)isinI2
calculeacutee sur la totaliteacute des paires de chercheurs (i j) entre les deux mecircmes peacute-riodes Ce mode de calcul revient agrave faire lrsquohypothegravese drsquoun modegravele nul construiten nous appuyant sur la distribution des mots-cleacutes sur les agents agrave un tempsdonneacute comme une distribution typique drsquoun agent actif dans la communauteacute in-deacutependamment de son activiteacute anteacuterieure Les peacuteriodes successives choisies pourle calcul de la propension sont des fenecirctres de trois ans non recouvrantes soitlrsquoensemble des couples (Tk T
minusk )1lekle8 ougrave Tminus
k = [1995 + k minus 1 1995 + k + 1] etTk = [1998 + k minus 1 1998 + k + 1] La propension repreacutesenteacutee est une moyenne surlrsquoensemble des couples de peacuteriodes (Tk T
minusk )1lekle8 accompagneacutee de lrsquointervalle
de confiance associeacuteLa propension de deacuteplacement en fonction de notre distance δ est repreacutesenteacutee
figure 424 Celle-ci est fortement deacutecroissante ce qui indique que la densiteacute depreacutesence drsquoun chercheur a tendance agrave ecirctre tregraves stable drsquoune peacuteriode agrave lrsquoautre Il estainsi 10 fois plus probable pour un chercheur de limiter son deacuteplacement concep-tuel agrave δ lt 01 que ne le laisserait supposer un modegravele aleacuteatoire a contrario lesdeacuteplacements importants (δ gt 15) sont 10 fois moins probable qursquoattendu
Mais cette mesure qui srsquoappuie sur le vecteur de densiteacute de preacutesence des agentsne permet pas de rendre compte de la structure sous-jacente de lrsquoorganisation deschamps Afin drsquoillustrer quantitativement notre intuition sur la ldquodiffusionrdquo deschamps drsquoappartenance des auteurs via les liens de notre reacuteseau nous proposonsdrsquointroduire une autre distance agrave mecircme de rendre compte des deacuteplacements desauteurs en fonction de la topologie du reacuteseau des champs
On introduit dans un premier temps un seuil θ (en pratique θ = 015 ona veacuterifieacute que les reacutesultats restent extrecircmement robustes aux modifications de ceseuil) qui permet drsquoattribuer agrave un auteur i lrsquo ensemble des champs Cj qui veacuterifientpi(Cj) ge θ ie leur probabiliteacute de preacutesence dans un champ doit ecirctre supeacuterieure agraveun seuil pour que ce champ soit retenu
Lrsquoeacutetat drsquoun agent i au temps T est donc deacutefini par un ensemble de champsdrsquoappartenance At
i = CkpTi (Ck)gtθ La distance ∆ entre deux eacutetats successifs drsquoun
agent peut alors ecirctre deacutefinie comme la moyenne de la distance minimale (au sensdu plus court chemin dans un graphe) pour se deacuteplacer depuis ATminus
i lrsquoensemble
34 Dans le cas ougrave un auteur nrsquoaurait pas publieacute dans une des deux peacuteriodes consideacutereacutee cette me-sure est simplement ignoreacutee la densiteacute de probabiliteacute de preacutesence du chercheur en question nrsquoeacutetantpas deacutefinie
158 Chapitre 4 Structures eacutemergentes
0 05 1 15 gt1810
minus2
10minus1
100
101
102
inter-period density distance δ
f(δ
)
FIGURE 424 Propension agrave occuper un nouveau champ eacutepisteacutemique en fonction de la dis-tance de deacuteplacement des auteurs δ
des champs drsquoappartenance de i agrave Tminus vers chacun des champs de ATi auxquels i
appartient agrave t Plus formellement
∆(ATminusi AT
i ) =1
|ATi |
sum
jisinATi
[
minCkisinATminus
i
d(Cj Ck)]
ougrave d repreacutesente la distance dans le graphe (longueur du plus court chemin dansG permettant de naviguer drsquoun nœud agrave un autre) calculeacutee avec lrsquoalgorithme deDijkstra (Dijkstra 1959) 35 36
La distance deacutefinie ci-dessus est une moyenne sur lrsquoensemble des deacuteplacementsopeacutereacutes par un acteur Ainsi afin de rendre compte de lrsquoheacuteteacuterogeacuteneacuteiteacute des deacuteplace-ments et obtenir une mesure moins agreacutegeacutee plus agrave mecircme de rendre compte dela continuiteacute ou de la discontinuiteacute theacutematique dont font preuve les chercheursdans leur deacuteplacement on peut eacutegalement associer agrave chaque agent se deacuteplaccedilantdans le paysage eacutepistemique et pour chaque champ drsquoappartenance Cj isin AT
i delrsquoagent i agrave la peacuteriode T lrsquoensemble des distances ∆(ATminus
i Cj)CjisinATi
Ces deacutepla-cements sont compareacutes aux deacuteplacements que lrsquoon obtiendrait en appliquant lamecircme hypothegravese nulle que celle deacutecrite preacuteceacutedemment afin de calculer la propen-sion agrave ldquoadopterrdquo un champ situeacute agrave une distance ∆ donneacutee
35 Nous avons utiliseacute la version non pondeacutereacutee du reacuteseau mecircme si les reacutesultats sont sans doutesemblables en conservant ces poids et en eacutetendant la deacutefinition de la distance agrave un coucirct de circulationdans le reacuteseau pondeacutereacute
36 Dans le cas ougrave un auteur nrsquoaurait pas publieacute dans une des deux peacuteriodes consideacutereacutee cettemesure est ignoreacutee comme preacuteceacutedemment
46 Trajectoires des individus au sein des paysages seacutemantiques 159
0 1 2 3 4 gt410
minus2
10minus1
100
101
102
fields graph distance ∆
f(∆
)
FIGURE 425 Propension agrave occuper un nouveau champ eacutepisteacutemique en fonction du deacutepla-cement ∆ opeacutereacute dans le graphe des champs mdash peacuteriodes de trois ans par rapport aux troisanneacutees preacuteceacutedentes de publication
La propension moyenne de deacuteplacement dans le reacuteseau des champs sur lrsquoen-semble des auteurs et des peacuteriodes drsquoobservation (en suivant les mecircmes hypo-thegraveses que preacuteceacutedemment) est repreacutesenteacutee figure 425 On observe que cette courbeest agrave nouveau fortement deacutecroissante indiquant que les chercheurs ont tendanceagrave ldquoadopter des champsrdquo avec une propension drsquoautant plus faible que ces champssont eacuteloigneacutes des champs auxquels ils participaient preacuteceacutedemment Par contre onconstate une tregraves forte tendance agrave la ldquoreacutepeacutetitionrdquo la propension agrave rester dans unchamp preacuteceacutedemment occupeacute (∆ = 0) est proche de 80 La valeur obtenue signi-fie donc qursquoun auteur a pregraves de 80 fois plus de chances de continuer agrave occuperle mecircme champ eacutepisteacutemique le pas de temps suivant que ne le laisserait suppo-ser un modegravele aleacuteatoire La propension chute ensuite drsquoun ordre de grandeur degravesqursquoon envisage des champs agrave distance 1 A contrario un deacuteplacement agrave distance4 ou supeacuterieure est 10 fois moins probable que ne le preacutevoierait notre hypothegravesenulle Ce calcul confirme lrsquointuition que nous avions drsquoune grande stabiliteacute de ladynamique des auteurs au sein de ce paysage Il nous conforte eacutegalement quantagrave la qualiteacute du reacuteseau de champ reconstruit dont la topologie semble exercer uneinfluence capitale vis agrave vis de lrsquoactiviteacute des auteurs et de leur eacutevolution
Les deacuteplacements conceptuels des chercheurs semblent donc eacutepouser les che-mins formeacutes par les relations de proximiteacute entre champs De faccedilon symeacutetriqueau reacuteseau social qui supporte la diffusion de concepts on peut consideacuterer de faccedilonduale que les cartes des sciences constituent le medium sur lequel les scientifiquesldquodiffusentrdquo
Cette derniegravere courbe peut eacutegalement ecirctre interpreacuteteacutee comme la mise en eacutevi-
160 Chapitre 4 Structures eacutemergentes
dence drsquoune reacutetroaction du niveau macro sur le niveau micro au sens ougrave la struc-ture des champs qui eacutemergent des statistiques brutes extraites de lrsquoensemble despublications ldquocontraintrdquo en retour la dynamique des scientifiques qui se retrouventplus ou moins ldquoemprisonneacutesrdquo dans leurs champs drsquoappartenance ou dans leur voi-sinage proche Ce reacutesultat fournit donc lrsquoillustration quantitative drsquoun effet drsquoim-mergence qursquoexercent des structures de haut niveau (qui eacutemergent pourtant direc-tement de lrsquoactiviteacute des chercheurs) sur les dynamiques individuelles
Les mesures que nous avons introduites permettent eacutegalement de deacutefinir desindices mesurant lrsquoactiviteacute individuelle des agents dans ces paysages conceptuels on peut ainsi aiseacutement deacuteduire des distances preacuteceacutedemment introduites (δ et ∆)un indice global de deacuteplacement geacuteneacuteral drsquoun agent agreacutegeant lrsquoensemble de sesdeacuteplacements dans le temps afin drsquoappreacutecier sa mobiliteacute De la mecircme faccedilon unindice de diversiteacute (lieacute agrave la pluridisciplinariteacute drsquoun auteur) peut eacutegalement aiseacute-ment ecirctre construit agrave partir des vecteurs At
i en calculant par exemple la distancemoyenne entre termes dans le reacuteseau des champs
463 Se deacuteplacer dans un espace mouvant
Lrsquoanalyse des dynamiques des scientifiques dans ces espaces conceptuels de-vrait eacutegalement tenir compte des eacutevolutions propres de lrsquoespace Si nous suivonsSewell (1992)
ldquoOf course if cultural and societal (network) structures shape ac-tors then it is equally true that actors shape these structures in turnCultural an social structures do not in other words by themselvesbring about or somehow ldquocauserdquo historical change Rather it is theactions of historical subjects that actually ldquoreconfigurerdquo (given histori-cally conducive circumstances) existing long-term structures of actionboth cultural and societalrdquo
Les structures dans lesquelles se deacuteplacent les agents sont eacutegalement suscep-tibles drsquoeacutevoluer sous lrsquoeffet de lrsquoactiviteacute de ces mecircmes agents Or nous avons faitlrsquohypothegravese que la structuration du domaine restait relativement uniforme durantles 10 ans de notre analyse et avons donc calculeacute les propensions drsquoaborder unnouveau champ en fonction drsquoune cartographie tenant compte de lrsquoactiviteacute scien-tifique sur lrsquoensemble de la peacuteriode Ainsi certains deacuteplacement drsquoauteurs obser-veacutes sont certainement simplement ducircs agrave une modification de lrsquoespace sur lequel ilssont projeteacutes Les effets drsquoattachement agrave une communauteacute scientifique donneacutee se-raient alors sans doute encore plus forts si nous avions envisageacute des communauteacutesdont le contenu eacutevolue continuellement les scientifiques preacutesents dans une com-munauteacute ayant tendance agrave la fois agrave en modifier les frontiegraveres et agrave en suivre lesglissements
Agrave titre drsquoillustration nous avons traceacute figure 426 la projection drsquoun auteur (PLowe agrave nouveau) sur une phylogeacutenie La meacutethodologie est identique agrave celle qui
46 Trajectoires des individus au sein des paysages seacutemantiques 161
1998-2001
1999-2002
2000-2003
2001-2004
2002-2005
2003-2006
2004-2007
46support_measure
capenviron_policyagricul_policy
environmental policy
49
agricultural policyeuropean union
+europea_union
+membership
-support_measure
-cap
48interna_organiz
biodiversityconservation
indigen_knowlednetworking
plan_gene_resointe_prop_righplant _breedin
interna_agreemegenetic_resourc
intellectual property rights
56
intellectual property rightsplant genetic resources
+medicin_plants
+biotechnology
-interna_organiz
82
indigenous knowledgeintellectual property rights
-interna_organiz
-networking
-plant _breedin
-interna_agreeme
49fishery_resourcfishery_policy
fishery_managemfisheriesfishing
fishery policy
50
fishingfishery resources
+marine _areas
87residen_areasland _diversiagricul_landland _use
abandon_landabandoned land
70
land diversionabandoned land
53
eu regulationsagricultural policy
+eu _regulat
62
structural changeagricultural structure
+transit_economi
+agricul_land
+structu_change
+agricul_structu
+land _use
+agraria_reform
-europea_union
-environ_policy
-membership
69
fishingfishery resources
-marine _areas
34
conservationplant genetic resources
-medicin_plants
-indigen_knowled
-networking
+interna_organiz
52
land diversionagricultural land
-residen_areas
-abandon_land
+suburba_areas
+transit_economi
+agricul_policy
+structu_change
+agricul_structu
+agraria_reform
-residen_areas
-land _diversi
-abandon_land
88
agricultural structurestructural change
+structu_change
+agricul_structu
+agraria_reform
-residen_areas
-land _diversi
-abandon_land
65
intellectual property rightsplant genetic resources
-indigen_knowled
68
intellectual property rightsplant genetic resources
-conservation
-plant _breedin
-interna_agreeme
-genetic_resourc
41
land diversionagricultural land
52
eu regulationsagricultural policy
62
subsidiesenvironmental policy
-europea_union
-eu _regulat
-membership
+support_measure
+subsidies
65
agricultural structuretransition economies
-agricul_policy
-land _use
47
fishery resourcesfishing
+marine _parks
31
fishery resourcesfishery policy
+angling
55
fishery resourcesfishing
49
eu regulationseuropean union
+nitrates
50
subsidiesenvironmental policy
37
genetic resourcesinternational trade
+interna_trade
+transge_plants
+genetic_enginee
+regulations
+risk
+environ_impact
+genetic_resourc
+biosafety
-interna_organiz
-plan_gene_reso
32
biotechnologyregulations
-interna_trade
-transge_plants
-genetic_enginee
-risk
-environ_impact
-biosafety
45
capsubsidies
+cap
+conserv_tillage
25
fishery resourcesfishing
36
fishingfishery management
-marine _parks
-fishery_resourc
70transge_plants
genetic_engineeregulations
biotechnologyenviron_impact
biosafetygenetic engineering
43
biotechnologyrisk
+risk
70
genetic engineeringbiotechnology
-regulations
10fishery_resourcfishery_policy
fishery_managemfisheriesfishing
fishery resources
-marine _parks
32transge_plants
genetic_engineeregulations
inte_prop_righbiotechnology
riskgenetic_resourc
biosafetybiosafety
+transge_plants
+genetic_enginee
+risk
+biosafety
-biodiversity
62regulations
inte_prop_righbiotechnology
genetic_resourcgenetic resources
-biodiversity
+inte_prop_righ
+genetic_resourc
-environ_impact
53transge_plants
genetic_engineeregulations
biotechnologyrisk
biosafetytransgenic plants
-environ_impact
70cap
subsidiesenviron_policyagricul_policyterm_of _trad
cap
-support_measure
-conserv_tillage
+term_of _trad
71environ_protect
capagricul_policyfarm _surveys
rolesroles
-support_measure
-subsidies
-environ_policy
-conserv_tillage
+environ_protect
+farm _surveys
+roles
80fuel _crops
greenho_gasesemission
carbon _sequestmethanemethane
74
air pollutantspollution control
+air _polluti
+atmosphere
+polluti_control
+air _polluta
-carbon _sequest
85greenho_gases
air _pollutiemission
carbon _dioxideatmosphere
climati_changecarbon _sequest
polluti_controlair _pollutaalgorithms
pollution control
-carbon _dioxide
-climati_change
-carbon _sequest
-algorithms
+fuel _crops
+methane
93greenho_gases
air _pollutiemission
carbon _dioxideatmosphere
climati_changecarbon _sequest
algorithmsair pollution
60
global warmingcarbon dioxide
+global _warming
+precipitation
+temperature
-air _polluti
84
emissioncarbon sequestration
-atmosphere
-global _warming
-precipitation
-algorithms
-temperature
87
air pollutantspollution control
+carbon _dioxide
-fuel _crops
74
climatic changeair pollutants
+air _polluti
+polluti_control
+air _polluta
+methane
+climati_change
+carbon _sequest
-atmosphere
72
climatic changeair pollutants
64
air pollutantscarbon dioxide
+carbon
+atmosphere
78
pollution controlgreenhouse gases
-climati_change
-carbon _sequest
-methane
82greenho_gases
emissionclimati_changeproduct_possibiglobal _warmingglobal warming
-carbon
-air _polluti
-carbon _dioxide
-atmosphere
-carbon _sequest
-polluti_control
-air _polluta
-methane
+product_possibi
+global _warming
92carbon
greenho_gasesemission
carbon _dioxideclimati_change
carbon _sequestclimatic change
-air _polluti
-atmosphere
-polluti_control
-air _polluta
-methane
84greenho_gases
air _pollutiemission
carbon _dioxidepolluti_control
air _pollutagreenhouse gases
88greenho_gases
emissioncarbon _dioxide
farmsregions
methanecarbon dioxide
+farms
+regions
+methane
-air _polluti
-polluti_control
-air _polluta
32mangrov_forests
forestsmangroves
treesmangrove forests
38
treesmangrove forests
33technic_progresinnovat_adoptio
innovationstechnol_transfeagricul_develop
diff_of _infoextension
innovations
34rural _areas
righ_of _accetransport
rural _environrural _communirural _economy
rural environment
19
rural communitiesrural environment
+rural _tourism
-righ_of _acce
69
rural environmentrural communities
-righ_of _acce
-rural _economy
39
rural communitiesrural environment
41
treesmangrove forests
16
rural environmentrural areas
-rural _tourism
-transport
-rural _communi
+rural _develop
21
deforestationtrees
+deforestation
+aquaculture
18
rural environmentrural economy
+villages
24
treesaquaculture
-deforestation
21
deforestationtrees
+deforestation
18mangrov_forests
forestsmangroves
treesdeforestationaquaculture
trees
10geologi_sedimensuburba_areaserosion_controlsoil _conserv
erosionrunoff
erosion control
36
erosion controlgeological sedimentation
-suburba_areas
-runoff
+sediment
17modelssalinity
water _qualityhydrology
drainag_systemseconomicsdrainage
modernizationsocioeconomics
water _tablereclamation
drainage systems
20production
interna_tradeimportsexportsexports
18
productionexports
58
erosion controltillage
-geologi_sedimen
-sediment
+tillage
35
erosion controltopography
+topography
-tillage
55fuel _cropsbioenergybiomass
energy _sourcesethanolethanol
58
bioenergybiomass
-ethanol
26
renewable resourcesfuel crops
+renewab_resourc
+fuels
+energy _resourc
+prices
+ethanol
54
renewable resourcesfuels
+renewab_resourc
+fuels
+energy _resourc
+ethanol
5
fuelsrenewable resources
42
bioenergyrenewable resources
-fuels
-energy _resourc
-ethanol
3
fuelsfuel crops
+biogas
+energy _policy
-ethanol
40
bioenergyfuels
+fuels
-renewab_resourc
4
fuelsfuel crops
+biomass_product
+ethanol
-energy _policy
34
renewable resourcesfuel crops
-biogas
-fuels
-energy _policy
+biomass_product
+ethanol
63
bioenergyrenewable resources
+renewab_resourc
-fuels
3electricity
biomass_productfuel _cropsbioenergy
renewab_resourcharvesting
multipu_treesbiomass
energy _sourcesfuels
energy _resourcelectricity
+electricity
+harvesting
+multipu_trees
-biogas
-ethanol
43fuel _cropsbioenergy
renewab_resourcbiomass
energy _sourcesenergy _resourc
bioenergy
+energy _resourc
77fuel _cropsbioenergy
renewab_resourcbiomass
energy _sourcesrenewable resources
0
1
05
075
025
FIGURE 426 Extrait de la phylogeacutenie du domaine deacuteveloppement durable sur les 10 der-niegraveres anneacutees (fenecirctres glissantes de 4 ans) la couleur des champs correspond agrave la densiteacutede preacutesence drsquoun auteur (P Lowe) sur les champs (du plus clair (blanc) au plus fonceacute(rouge)) la phylogeacutenie complegravete est beaucoup plus eacutetendue mais ne peut pas ecirctre aiseacute-ment repreacutesenteacute On remarque la preacutesence privileacutegieacutee de lrsquoauteur sur une seule branchede notre reacuteseau
nous avait preacuteceacutedemment permis de creacuteer la projection des publications drsquoun cher-cheur sur une carte pendant une peacuteriode donneacutee Nous appliquons pour chaquepeacuteriode temporelle T notre opeacuterateur de projection h sur lrsquoensemble des champseacutepisteacutemiques deacutetecteacutes durant cette peacuteriode Cette opeacuteration permet de fournir unedensiteacute de preacutesence associeacutee agrave cet auteur pour chaque champ de chaque peacuteriodeNous repreacutesentons ensuite le reacutesultat de cette projection sur la phylogeacutenie calcu-leacutee aux peacuteriodes successives en attribuant agrave un champ une couleur drsquoautant plusrouge que lrsquoauteur a une probabiliteacute de preacutesence eacuteleveacutee dans ce champ Le reacutesul-tat bien que nous nrsquoayons pas pu reproduire la totaliteacute de la phylogeacutenie pour desraisons de place montre pour lrsquoauteur consideacutereacute (qui est le mecircme que celui repreacute-senteacute figure 423) qursquoil suit une trajectoire tregraves lineacuteaire au sein de la phylogeacutenieUne des branches de la phylogeacutenie preacutesente des taux drsquooccupation particuliegravere-ment importants et ce sur lrsquoensemble des peacuteriodes Cette branche a subi des muta-tions importantes qui ont transformeacute le champ de deacutepart (peacuteriode 1998-2001) com-poseacute des termes support measure CAP environmental policy agricultural policy enun champ final (peacuteriode 2004-2007) composeacute des mots-cleacutes suivants environmentprotection CAP agricultural policy roles et farm surveys en passant par des champsayant emprunteacute puis deacutelaisseacute les termes subsidies support measure EU regulation
162 Chapitre 4 Structures eacutemergentes
ou conservation tillage Malgreacute ces transformations touchant agrave la deacutefinition mecircmedes champs on observe une grande stabiliteacute du chercheur consideacutereacute sur les 10 ansque traverse cette branche du reacuteseau phylogeacuteneacutetique
Perspectives
Nous avons deacuteveloppeacute un ensemble de meacutethodes de cartographie des sciencesagrave partir de corpus eacutelectroniques de publications scientifiques en nous appuyantsur des outils de fouille de donneacutees et drsquoanalyse de reacuteseaux Ces cartes permettentde repreacutesenter un domaine scientifique sous la forme de champs eacutepisteacutemiquesqui srsquoarticulent les uns avec les autres Lrsquoenjeu est drsquoecirctre capable de deacutevelopperdes outils permettant de deacutevelopper une veacuteritable eacutepisteacutemologie quantitative ex-clusivement fondeacutee sur les traces de lrsquoactiviteacute scientifique Mais les perspectivesouvertes sont aussi bien theacuteoriques qursquoapplicatives ces meacutethodes de reconstruc-tion permettent eacutegalement de deacutefinir de nouvelles modaliteacutes drsquointeraction avec lascience notamment en ce qui concerne la navigation agrave travers de grandes basesde donneeacutes On peut mecircme songer agrave des application du type reconstruction deconnaissance agrave partir drsquoinformations manquantes (donneacutees de micropuces ou dereacuteseaux de reacutegulation en biologie)
Une partie de lrsquointeacuterecirct de ces cartes pour les theacuteoriciens (sociologues dessciences et techniques historiens ou philosophes des sciences) pour leurs cher-cheurs ou pour les gestionnaires de la science est de les eacutequiper de repreacutesenta-tions et drsquointerfaces de manipulation de ces repreacutesentations afin de mieux saisirun paysage scientifique extrecircmement mouvant et donc de mieux anticiper voir etcomprendre les dynamiques qui lrsquoaniment
Un des deacutefis qursquoil srsquoagit de relever tient preacuteciseacutement agrave la question de la repreacute-sentation et de la communication de ces reacutesultats Les structures que nous avonsconstruites ne sont pas toutes aiseacutement manipulables Ainsi au delagrave drsquoune inter-rogation drsquoordre globale sur les motifs qui les composent les phylogeacutenies pa-raissent difficilement utilisables en lrsquoeacutetat Il nous faut donc inventer des repreacutesenta-tions plus pertinentes ou des modaliteacutes de navigation plus locales qui interrogentlrsquousage que lrsquoon souhaite faire de ces cartes et qui se construisent de facto en inter-action tregraves forte avec les destinataires des cartes
Les meacutethodologies que nous avons deacutecrites peuvent en grande partie ecirctre eacuteten-dues agrave drsquoautres type de corpus On peut envisager les appliquer agrave des domainesconnexes aux sciences (base de brevets par exemple) ou plus eacuteloigneacutes donneacuteesde cooccurrences extraites de lrsquoactiviteacute des communauteacute en ligne (nous pensonseacutevidemment au texte brute des billets de blogs ou plus largement aux contenusveacutehiculeacutes au sein de communauteacutes de savoirs mais eacutegalement aux tagging system(folksonomy)) ou encore donneacutees extraites des requecirctes des moteurs de recherche
Dans une perspective plus directement lieacutee agrave notre exploration des communau-
46 Trajectoires des individus au sein des paysages seacutemantiques 163
teacutes de savoirs ces meacutethodes offrent une veacuteritable opportuniteacute pour ameacuteliorer leurmodeacutelisation En effet la modeacutelisation des reacuteseaux socio-seacutemantique et seacuteman-tique que nous avions introduit dans le chapitre preacuteceacutedent peut maintenant ecirctreeacutetendue gracircce agrave nos meacutethodes de reconstruction des dynamiques scientifiques (oudans une perspective plus large seacutemantiques) Ainsi nous pouvons utiliser notrenotion de champ eacutepisteacutemique (ou simplement de champ) pour remplacer les enti-teacutes linguistiques que nous avions privileacutegieacutees et qui eacutetaient susceptibles drsquoinduireun certain nombre de problegravemes (lieacutes notamment agrave la polyseacutemie ou agrave la synony-mie des termes par exemple) Le reacuteseau socio-seacutemantique serait ainsi transformeacuteen un reacuteseau biparti liant les agents agrave leurs champs drsquoappartenance tandis que lereacuteseau seacutemantique est directement identifiable agrave notre reacuteseau de champs G Nousnrsquoavons pas pu reprendre lrsquoensemble des analyses du chapitre preacuteceacutedente agrave tra-vers cette nouvelle modeacutelisation mais conjecturons que ces meacutethodes ouvrent lavoie vers une prise en compte encore plus fidegravele de la pheacutenomeacutenologie des com-munauteacutes de savoirs
164 Chapitre 4 Structures eacutemergentes
Reacutesumeacute du chapitre
Apregraves une rapide analyse des relations entre des communauteacutes structu-relles et communauteacutes theacutematiques sur le web social franccedilais nous avonsproposeacute dans ce chapitre un ensemble de meacutethodes de reconstructiondes dynamiques des communauteacutes scientifiques agrave diffeacuterentes eacutechelles Lacartographie des sciences se situe agrave la croiseacutee de nombreux enjeux meacutethodolo-giques politiques ou de gestion Notre apport a consisteacute agrave proposer une seacuteriede meacutethodes de reconstruction entiegraverement bottom-up qui rende compte de lanature hieacuterarchique de lrsquoorganisation des sciences mais aussi de la polyseacutemiedes concepts
Une mesure asymeacutetrique de proximiteacute entre termes adapteacutee agrave lrsquoheacuteteacuterogeacute-neacuteiteacute de la distribution des occurrences drsquoapparition des termes dans les pu-blications scientifiques a eacuteteacute introduite Une meacutethode de cateacutegorisation multi-eacutechelle drsquoun ensemble de termes a ensuite eacuteteacute proposeacutee Les clusters ainsi pro-duits ont eacuteteacute qualifieacutes au moyen drsquoindices permettant drsquoen appreacutecier la coheacute-sion lrsquoimportance ou lrsquoeacutevolution Nous avons eacutegalement introduit un certainnombre de mesures et de meacutethodes agrave mecircme de rendre compte de la dynamiquede ces clusters
La dynamique meacutesoscopique des champs eacutepisteacutemiques a eacuteteacute reconstruitesous la forme drsquoun reacuteseau phylogeacuteneacutetique regroupant les motifs de filiationentre champs Ces structures semblent doteacutees drsquoun certain nombre de pro-prieacuteteacutes remarquables vis-agrave-vis des indices de structuration de nos champs cequi ouvre la voie vers une veacuteritable eacutepisteacutemologie quantitative Enfin les pu-blications des chercheurs ont eacuteteacute reprojeteacutees sur les champs eacutepisteacutemiques re-construits Lrsquoeacutevolution de la distribution de ces chercheurs dans ces paysagesconceptuels montre une forte stabiliteacute de leurs deacuteplacements dans ces espacesdont la topologie reacutetroagit sur le comportement des agents
Troisiegraveme partie
Diffusion dans les reacuteseaux sociaux
LA partie preacuteceacutedente nous a permis de mettre en eacutevidence un certain nombrede motifs agrave la fois sociaux seacutemantiques ou socio-seacutemantiques eacutemergents qui
structurent nos communauteacutes de savoirs On a eacutegalement montreacute comment les dy-namiques individuelles eacutetaient pourvues drsquoun certain nombre de reacutegulariteacutes lieacuteesdirectement agrave ces structures Nous nous focaliserons dans cette derniegravere partiesur les processus de diffusion qui animent nos communauteacutes de savoirs et quipeuvent eacutegalement ecirctre interpreacuteteacutes comme des processus socio-seacutemantiques eacutemer-gents
Les pheacutenomegravenes de diffusion sont par nature de type socio-seacutemantique Nonseulement ils deacutecrivent la succession drsquo ldquoeacutetatsrdquo pris par les agents drsquoun systegravemepar rapport agrave une innovation ou agrave une opinion mais ils traduisent eacutegalement lafaccedilon dont ces modifications sont meacutediatiseacutees par les influences locales que lesagents exercent sur leur environnement social Agrave ce titre les processus de diffusionconstituent une illustration du couplage entre le reacuteseau social et le bagage cogni-tif des individus Les eacutepisodes de diffusion qui traversent les communauteacutes desavoirs apparaissent eacutegalement comme une proprieacuteteacute dynamique eacutemergente deseacutevolutions micros du systegraveme Un processus de diffusion est par essence construitpar la juxtaposition drsquoeacuteveacutenements de transmission drsquoinformation locaux pourtanton peut deacutefinir au niveau de lrsquoensemble du systegraveme des proprieacuteteacutes globales de ceprocessus telles que sa vitesse ou sa longeacuteviteacute
Nous adopterons deux strateacutegies pour comprendre les pheacutenomegravenes de diffu-sion dans les communauteacutes de savoirs Nous aborderons dans un premier temps(chapitre 5) la question de lrsquoinfluence entre diffeacuterentes sources de contenus avecun point de vue exclusivement seacutemantique et en nous attachant agrave deacutetecter des mo-tifs inter-temporels dans lrsquoactiviteacute de production de contenus drsquoun ensemble degroupes de blogs marqueacutes politiquement et de la presse Notre objectif est doncdrsquoextraire des comportements dynamiques systeacutematiques de reprise de tel ou telcontenu agrave partir de lrsquoanalyse longitudinale des contenus produits par une commu-nauteacute de blogueurs politiques Peut-on reconstruire un diagramme drsquoinfluence entreces sources qui nous renseigne sur les motifs intertemporels qui corregravelent les unesavec les autres les activiteacutes de production de contenus de certains sous-ensemblesde sources Peut-on par exemple deacutecrire lrsquoinfluence systeacutematique de la presse surles blogs de droite ou par exemple de faccedilon plus complexe lrsquoinfluence coupleacutee
166
de la presse et des blogs centriste sur les theacutematiques qursquoaborderont les blogs dedroite
Dans les chapitres suivants nous envisageons la question de la diffusion sur unreacuteseau social agrave part entiegravere en nous interrogeant sur lrsquoinfluence des structures (lo-cales et globales) du reacuteseau drsquointeraction inter-individuel vis-agrave-vis des processusde diffusion Dans une perspective macroscopique nous proposons un protocolesimulatoire (chapitre 6) afin de comprendre en quoi la topologie drsquoun reacuteseau sup-port drsquoun eacutepisode de diffusion affecte la dynamique globale de cette diffusionPlus preacuteciseacutement et dans le prolongement de notre parti pris empirique nousnous interrogeons sur les proprieacuteteacutes structurelles de reacuteseaux sociaux reacuteels suscep-tibles de modifier de faccedilon sensible la vitesse de diffusion vis-agrave-vis drsquoun modegravelede transmission inter-individuelle donneacute Pour ce faire nous proposons de compa-rer de faccedilon systeacutematique les dynamiques de diffusion observeacutees sur nos reacuteseauxreacuteels avec celles observeacutees sur diffeacuterents reacuteseaux styliseacutes Le reacutealisme des modegravelesde transmission choisis sera eacutegalement interrogeacute
Enfin nous preacutesenterons dans le chapitre 7 une analyse des processus de dif-fusion agrave un niveau plus local fondeacutee sur le suivi in-vivo drsquoeacutepisodes de diffusiondrsquoURLs observeacutes au sein des blogosphegraveres politiques franccedilaise et ameacutericaine Cetteanalyse nous permet drsquoidentifier agrave un niveau eacutegocentreacute les paramegravetres structu-rels susceptibles drsquoecirctre correacuteleacutes agrave lrsquoinfluence drsquoun blog mesureacutee comme le nombrede transmissions de ressources qursquoil geacutenegravere au sein du systegraveme Quelles proprieacute-teacutes structurelles du reacuteseau social sont-elles correacuteleacutees agrave lrsquoinfluence drsquoun blog Lalongeacuteviteacute drsquoun eacutepisode de diffusion peut-elle deacutependre du chemin emprunteacute parlrsquoinformation
CHAPITRE 5
Correacutelations intertemporelles
entre sources
Sommaire
51 Creacuteation des cateacutegories de blogs 169
511 Deacutefinition des profils seacutemantiques instantaneacutes des blogs 169
512 Cateacutegorisation des blogs selon leur sensibiliteacute politique 170
52 Diagramme de correacutelations intertemporelles 172
521 Contexte 172
522 Machines agrave eacutetats causaux 173
523 Alphabet des concepts 174
524 Deacutefinition drsquoune dynamique symbolique 175
525 Resultats 176
526 Perspectives 178
Avant drsquoexplorer les meacutecanismes lieacutes agrave la diffusion au sein drsquoun reacuteseau socialnous abordons les dynamiques drsquoinfluence agrave un niveau drsquoagreacutegation supeacuterieuren examinant la faccedilon dont un ensemble de cateacutegories de sources de contenu srsquoin-fluencent mutuellement au sein drsquoune eacutecosphegravere informationnelle Notre approchesera agrave nouveau fondeacutee sur lrsquoobservation in-vivo des dynamiques drsquoune commu-nauteacute de savoirs mais lrsquoapport essentiel sera neacuteanmoins drsquoordre meacutethodologiqueen proposant lrsquoapplication drsquoune meacutethode geacuteneacuterique de meacutecanique computation-nelle Shalizi (2001a) agrave la reconstruction de correacutelations intertemporelles entre dessources de production de contenus Ce travail a fait lrsquoobjet drsquoune premiegravere analyseen collaboration avec Camille Roth et Emmanuel Faure Ce chapitre eacutetend donc lameacutethodologie deacutejagrave introduite dans (Cointet et al 2007) tout en lrsquoappliquant agrave unjeu de donneacutees plus large
Les individus soulegravevent des questions eacutechangent des points de vue font partde leurs concernements au sein du systegraveme de production de contenus et drsquointerac-tion distribueacute que forment les communauteacutes de savoirs Bien que purement localesles modaliteacutes drsquoaction des individus peuvent suivre certaines structures reacuteguliegraveresNotre objectif est donc drsquoextraire des comportements dynamiques systeacutematiquesde reprise de tel ou tel contenu agrave partir de lrsquoanalyse longitudinale des contenusproduits par une communauteacute de blogueurs politiques
168 Chapitre 5 Correacutelations intertemporelles entre sources
Comme on lrsquoa vu la blogosphegravere peut ecirctre eacutetudieacutee comme un systegraveme com-plexe agrave part entiegravere doteacute drsquoune dynamique de production de contenus distribueacutessur lrsquoensemble des blogs les discussions ou conversations se deacuteployant le longdrsquoun reacuteseau drsquointeraction lui mecircme dynamique Neacuteanmoins ce systegraveme de sourcesde contenus interconnecteacutees bien que doteacute drsquoune dynamique propre nrsquoest pas isoleacutedu ldquomonde exteacuterieurrdquo on peut raisonnablement attendre drsquoun espace de deacutebatpublic fucirct-il meacutediatiseacute par un substrat purement numeacuterique qursquoil entre en inter-action avec un environnement plus large
On a eacutegalement deacutejagrave insisteacute dans le chapitre 4 sur le profil particuliegraverement ldquoac-cidenteacuterdquo de lrsquoactiviteacute de production de contenus dans les blogs Celui-ci se carac-teacuterise par la preacutesence de ldquopicsrdquo (spikes) drsquoactiviteacute autour de certaines theacutematiquesqui accaparent lrsquoattention drsquoune grande partie des blogueurs pendant une courtedureacutee et par des eacutepisodes se deacuteveloppant sur des plages temporelles plus longuesde ldquoconversationrdquo entre sources Gruhl et al (2005 2004) Dans tous les cas il existede fortes correacutelations dynamiques voire des pheacutenomegravenes de reacutesonance entre lrsquoen-semble des auteurs ie des agents discutant drsquoun mecircme sujet au mecircme moment ouavec un certain deacutecalage temporel Les blogueurs srsquoinfluencent les uns les autres(le reacuteseau des liens hypertextes peut ecirctre un moyen de mettre en eacutevidence cesinfluences qursquoelles soient directes Herring et al (2005) ou indirectes Adar et al(2004b)) mais ils sont eacutegalement soumis agrave des influences exteacuterieures agrave la blogo-sphegravere notamment les media Lloyd et al (2006) connaissances dans le ldquomondereacuteelrdquo (ou plutocirct actuel par opposition agrave un monde virtuel) etc Ces influences sonttout agrave fait primordiales voire constitutives dans le cas qui nous occupe ici uneacutechantillon de la blogosphegravere politique intervenant dans un espace public de deacute-bat plus large
La question de lrsquoindeacutependance relative ou de lrsquoinfluence exerceacutee par le mondeexteacuterieur est tout agrave fait preacutegnante lorsqursquoon envisage les dynamiques des com-munauteacutes dites citoyennes (reacuteunies sous la quatriegraveme cateacutegorie de blogs dans latypologie des modes drsquoeacutenonciation de la blogosphegravere de Cardon and Delaunay-Teterel (2006)) lieacutees agrave lrsquoactualiteacute sociale eacuteconomique ou politique En effet la deacute-pendance de ces communauteacutes vis-agrave-vis des aregravenes plus classiques telles que celledes media est une question largement deacutebattue dans la litteacuterature depuis la ques-tion de lrsquoanteacuterioriteacute drsquoune source de contenus sur une autre (blogs versus mediaLeskovec et al (2009)) 1 jusqursquoagrave la faccedilon dont la blogosphegravere politique est ques-tionneacutee quant agrave son autonomie reacuteelle vis-agrave-vis drsquoaregravenes traditionnelles (Wallsten2005 Lloyd et al 2006) - la question de fond eacutetant de deacuteterminer si les espaces
1 Ces probleacutematiques srsquoinscrivent eacutegalement dans un contexte de crise du journalisme mis enpeacuteril selon certains par lrsquoimmeacutediateteacute des outils drsquoeacutedition et de communication sur le web (qursquoonsonge simplement aux reacutecents eacuteveacutenements qui ont animeacute la plateforme de microblogging Twitter(Huberman et al 2008 Java et al 2007 OrsquoConnor 2009)) qui a donneacute lieu a la creacuteation de nou-veaux modegraveles eacuteconomiques de publication ou agrave des formes eacutemergentes de journalisme partcipatifet citoyen Pledel (2008)
51 Creacuteation des cateacutegories de blogs 169
de discussion ouverts par les technologies du Web 20 produisent reacuteellement desespaces publiques agrave mecircme de geacuteneacuterer des nouveaux modes drsquoaction et de partici-pation agrave la vie politique (Goodman 1964 Flichy 2008 Thelwall and Price 2006)
Nous appliquons la question de la correacutelation des contenus publieacutes par dif-feacuterentes sources en observant les profils drsquoactiviteacute de notre eacutechantillon de blogspolitiques franccedilais preacuteceacutedemment introduit (voir section 236) que lrsquoon cateacutegoriseselon leur inclination politique (que lrsquoon reacutesumera grossiegraverement aux blogs de sen-sibiliteacute de droite de gauche ou du centre) et auxquels on adjoint un ensemble desites web des trois grands quotidiens nationaux (Le Figaro Le Monde et Libeacuteration)Notre objectif est de questionner la faccedilon dont les comportements drsquoeacutedition de ces4 grandes cateacutegories de sources peuvent ecirctre correacuteleacutes les uns aux autres
Nous nous appuyons sur un formalisme baseacute sur des chaicircnes de Markov ca-cheacutees pour extraire les motifs dynamiques de correacutelation entre les occurrences decertains sujets entre ces groupes de sources distincts La distribution des sujets ausein des groupes agrave un moment donneacute est donc modeacuteliseacutee comme un eacutetat du sys-tegraveme dont nous cherchons agrave reconstruire la dynamique Pour deacutetecter les motifsde correacutelation intertemporelle entre sources dans la blogosphegravere et dans la pressenous proposons de faire appel agrave un formalisme baseacute sur les machines agrave eacutetats cau-saux (causal states machines) Crutchfield and Young (1989) Shalizi and Shalizi(2004) issu de la meacutecanique computationnelle
Au delagrave de la mise en eacutevidence de correacutelations entre les contenus discuteacutes dansla blogosphegravere politique franccedilaise et ceux issus de lrsquoactualiteacute politique publieacutes dansla presse - agrave mecircme de mettre en eacutevidence la ldquosubordinationrdquo de lrsquoagenda drsquounterritoire agrave un autre nous visons eacutegalement agrave identifier des motifs de correacutelationinter-groupes plus riches et plus varieacutes au sein mecircme des diffeacuterentes cateacutegoriesde blogueurs Lrsquoobjectif est drsquoobtenir une description aussi exhaustive et conciseque possible de la faccedilon dont le comportement de production de contenus drsquoungroupe ou drsquoun ensemble de groupes est affecteacute par les contenus publieacutes par lesautres groupes Agrave ce titre nous eacutetendons la notion de correacutelation comparant deuxvariables agrave une correacutelation de nature n-adique permettant de reacuteveacuteler des relationsde correacutelation plus riches entre n gt 2 variables (Funabashi et al 2009)
51 Creacuteation des cateacutegories de blogs
511 Deacutefinition des profils seacutemantiques instantaneacutes des blogs
Nous nous appuyons sur lrsquoensemble des 120 blogs politiques franccedilais auquelon a ajouteacute 3 sources ldquoinstitutionnellesrdquo (eacuteditions web des quotidiens nationaux)dont nous avons collecteacute lrsquoactiviteacute pendant les 6 premiers mois de lrsquoanneacutee 2007Les profils de production de contenus sont estimeacutes en suivant lrsquoensemble des 190
syntagmes deacutejagrave deacutecrit section 236 Ils incluent un large ensemble de sujets et denoms de personnaliteacutes politiques ayant alimenteacute les deacutebats durant la campagne
170 Chapitre 5 Correacutelations intertemporelles entre sources
preacutesidentielle franccedilaise de 2007Les statistiques de base agrave partir desquelles nous travaillerons consistent donc
pour une source i en un vecteur seacutemantique instantaneacute wt(i) Cette fois ci etcontrairement au chapitre 3 nous caracteacuteriserons le profil drsquoune source comme unvecteur deacutependant uniquement des contenus publieacutes agrave t et non comme la reacutesul-tante de lrsquoagreacutegation de lrsquoensemble des contenus produits jusque lagrave La proceacutedurede pondeacuteration des occurrences des syntagmes par le tfidf reste semblable agrave celleemployeacutee dans la partie preacuteceacutedente (partie II) on deacutefinit donc le vecteur seacuteman-tique drsquoun blog wt(i) selon la formule
wt(i c) =Wt(i c)
sum|W|c=1 Wt(i c)
middot log|B|
|jW(j c) gt 0|
ougrave Wt(i c) deacutesigne le nombre drsquooccurrences du concept c dans les contenus publieacutesau temps t (soit le jour t dans la suite) par le blog i et |B| deacutesigne le nombre desources (soit 123) 2
On emploiera agrave nouveau une mesure de similariteacute de type cosinus (mesurede correacutelation) pour mesurer la proximiteacute seacutemantique entre deux blogs i et j enfonction de leur profil seacutemantique w(i) 3 et w(j) calculeacutes agrave partir de lrsquoensemble descontenus qursquoils ont publieacute sur lrsquoensemble de la peacuteriode drsquoobservation s(i j) =
w(i) middot w(j)
w(i)w(j) Cette distance doit nous permettre de cateacutegoriser les blogs selon
des ensembles theacutematiquement coheacuterents censeacutes refleacuteter la sensibiliteacute politiquedes blogueurs
512 Cateacutegorisation des blogs selon leur sensibiliteacute politique
On a montreacute que les blogueurs reproduisent en partie des motifs relationnelssimilaires agrave leur alter-ego ldquoreacuteelrdquo par exemple Adamic and Glance (2005b) ontmontreacute que les regroupements (baseacutes sur des critegraveres structurels) de blogs au seinde la blogosphegravere politique ameacutericaine suivaient les frontiegraveres partisanes tradition-nelles (blogs deacutemocrates ou reacutepublicains) Cette similariteacute avec le monde reacuteel nousencourage agrave proposer une cateacutegorisation des blogs en fonction de leur sensibiliteacutepolitique dont nous ferons lrsquohypothegravese qursquoelle permet de deacutefinir des cateacutegories desources coheacuterentes et pertinentes vis-agrave-vis de notre probleacutematique
2 Comme nous souhaitons par la suite repeacuterer les pics drsquoactiviteacute associeacutes agrave un concept donneacutenous avons fixeacute le terme de pondeacuteration ndash lrsquoidf ndash comme constant dans le temps il est donc cal-culeacute pour lrsquoensemble des contenus agreacutegeacutes dans le temps Par la suite nous deacutefinissons des seuilsdeacutependant des concepts pour deacutecrire la dynamique symbolique de nos sources ainsi ce terme depondeacuteration est naturellement sans conseacutequence pour deacuteterminer si une cateacutegorie de blogs mobilisede faccedilon particuliegravere un concept agrave un moment donneacute par contre il est crucial au moment de lrsquoeacutetapede cateacutegorisation des blogs que nous deacutecrivons dans la section suivante
3 w(i) =
P
t Wt(i c)P
t
P|W|c=1 Wt(i c)
middot log|B|
|jW(j c) gt 0|
51 Creacuteation des cateacutegories de blogs 171
$
$
$
amp
amp
amp
(
(
(
)
)
)
+
+
+
-01234567
8590234567
lt0234567
=gt3
1590
601
lt0
$
$
$
amp
amp
amp
(
(
(
)
)
)
+
+
+
-01234567
8590234567
lt0234567
=gt3
1590
601
lt0
$
$
$
amp
amp
amp
(
(
(
)
)
)
+
+
+
-01234567
8590234567
lt0234567
=gt3
1590
601
lt0
$
$
$
amp
amp
amp
(
(
(
)
)
)
+
+
+
-01234567
8590234567
lt0234567
=gt3
1590
601
lt0
FIGURE 51 Diagramme ternaire repreacutesentant le vecteur des poids relatifs des conceptsde la droite du centre et de la gauche agrave gauche projection des blogs preacute-cateacutegoriseacutes (leurinclination politique est mateacuterialiseacutee par leur couleur) au milieu deacutefinition des zones drsquoap-partenance agrave chaque parti agrave droite projection de lrsquoensemble des blogs dans cet espace lesblogs appartenant aux zones preacute-deacutefinies sont cateacutegoriseacutes selon chacune des couleurs po-litiques
Pour reacutealiser cette cateacutegorisation nous pouvons compte tenu de la taille limi-teacutee du jeu de donneacutees consulter chaque site et eacutetablir une premiegravere cateacutegorisa-tion ldquomanuellerdquo Geacuteneacuteralement les blogueurs prenant ouvertement parti pour uncamp politique placent des liens dans leur blogroll vers des sites de campagneou les sites de soutien au candidat qursquoils supportent Ces marqueurs nous ont per-mis drsquoattribuer sans ambiguiumlteacute une couleur politique droite gauche centre agrave pregravesdrsquoune trentaine de sites
Une fois cette preacute-cateacutegorisation eacutetablie nous deacutefinissons ensuite une seacuteriede concepts nous semblant caracteacuteristiques des theacutematiques mises en avant parchaque parti au cours de la campagne 4 Ces trois classes de concepts permettentdrsquoattribuer agrave chaque source un vecteur tridimensionnel dont les coordonneacuteescorrespondent agrave la moyenne de leur profil seacutemantique wt(i) sur chaque classede concepts Ces vecteurs sont ensuite normaliseacutes de maniegravere agrave pouvoir deacutefi-nir chaque source comme un triplet censeacute indiquer la proportion de concepts dedroite du centre ou de gauche au sein de leurs publications
Nous avons repreacutesenteacute lrsquoensemble des blogs cateacutegoriseacutes ldquomanuellementrdquo surla figure 51 Le positionnement des blogs au sein du diagramme ternaire indiqueune focalisation des theacutematiques abordeacutees en fonction de la couleur politique dublogueur ce qui valide en partie notre hypothegravese selon laquelle les classes de blogsque nous construisons ont un comportement drsquoeacutedition relativement homogegraveneAinsi les blogs centristes (en jaune sur la figure) semblent aborder uniquementdes theacutematiques centristes Le profil des blogs de gauche et de droite est plus dis-perseacute sur la dimension des theacutematiques centristes on peut neacuteanmoins aiseacutementles caracteacuteriser par les theacutematiques qursquoils abordent peu ainsi drsquoapregraves nos blogspreacute-eacutetiquetteacutes un blog de gauche emploiera systeacutematiquement moins de 20 de
4 quelques exemples de concepts seacutelectionneacutes pour le centre Ruraliteacute UDF Francois Bayroubudget de la recherche dette publique pour la gauche encadrement militaire salaire minimum capita-lisme financier Lionel Jospin pacte preacutesidentiel et pour la droite reacuteforme des retraites service minimumidentiteacute franccedilaise reacutegimes speacuteciaux
172 Chapitre 5 Correacutelations intertemporelles entre sources
thegraveme de droite et vice-versa pour les blogs de droite Nous creacuteons ainsi (dia-gramme central figure 51) trois zones censeacutees caracteacuteriser lrsquoinclination politiquedrsquoun blog une premiegravere mateacuterialiseacutee par un triangle orange pour les blogs cen-tristes correspond agrave des usages de concepts centristes agrave plus de 90 le seconden bleu correspond agrave lrsquoensemble des sources dont les contenus publieacutes mobi-lisent moins de 10 de concepts de gauche et au moins 10 de concepts de droiteLe dernier ensemble en rose est le pendant du preacuteceacutedent en inversant gauche etdroite
Une fois ces ldquoespaces de sensibiliteacute politiquerdquo deacutefinis nous projetons lrsquoen-semble des blogs dans cet espace et nous servons de leur distribution spatialedans le diagramme ternaire pour les cateacutegoriser Un peu plus de 50 blogs sontainsi eacutetiqueteacutes comme appartenant aux classes gauche droite ou centre en fonc-tion de leur appartenance aux trois zones preacute-deacutefinies Les trois classes de blogssont de tailles eacutequivalentes Les blogs non cateacutegoriseacutes ne sont pas pris en comptepar la suite leur profil seacutemantique ne permettant pas de leur attribuer de faccedilonclaire une couleur politique
Cette meacutethode de cateacutegorisation peut ecirctre critiqueacutee agrave cause des interventionsmanuelles qursquoelle a requises neacuteanmoins la contiguiumlteacute apparente des blogs qui af-fichent la mecircme sensibiliteacute politique au sein de cet espace offre quelque garantievis-agrave-vis du reacutesultat final Nous avons maintenant agrave notre disposition 4 classes desources noteacutees C trois classes reacuteunissent les blogs dont le profil drsquoactiviteacute est ca-racteacuteristique drsquoun blog de droite de gauche ou du centre et une derniegravere classe desources reacuteunissant les 3 grands quotidiens nationaux 5
52 Diagramme de correacutelations intertemporelles
521 Contexte
Etant donneacutees ces diffeacuterentes classes de sources nous cherchons maintenant agravesavoir srsquoil existe certains groupes dont lrsquoactiviteacute de publication est influenceacutee pardrsquoautres groupes Le terme influence est ici employeacute dans une acception tregraves largepuisque nous cherchons simplement agrave deacutetecter les motifs temporels systeacutematiquesdu type lrsquousage drsquoun concept par certains groupes induit ulteacuterieurement lrsquousagede ce mecircme concept par drsquoautre groupes
Les correacutelations que nous cherchons agrave exhiber peuvent aussi bien ecirctre la conseacute-quence drsquoune relation causale directe (on peut penser agrave un ldquoscooprdquo reacuteveacuteleacute dansla presse et qui donne lieu agrave des commentaires en eacutecho dans la blogosphegravere parexemple) ou indirecte (un thegraveme de campagne devenant particuliegraverement popu-laire dans un camp politique est freacutequemment mobiliseacute dans la communauteacute
5 Il est inteacuteressant de noter que la projection de ces trois sources dans notre diagramme ternairereacutevegravele qursquoelles sont toutes trois tregraves proches et exteacuterieures aux zones deacutefinies preacuteceacutedemment
52 Diagramme de correacutelations intertemporelles 173
de blogueurs associeacutee les deux espaces (reacuteels et virtuels) eacutetant fortement recou-vrants) ou simplement signaler un deacutelai de reacuteaction diffeacuterent par rapport agrave unemecircme cause exteacuterieure
522 Machines agrave eacutetats causaux
Nous nous appuyons sur la meacutethode des machines agrave eacutetats causaux introduitepar Crutchfield and Young (1989) Avant drsquoappliquer cette meacutethode agrave nos donneacuteesnous allons en reacutesumer briegravevement le principe
La meacutethode de Crutchfield et Young considegravere une dynamique symboliquediscregravete et vise agrave identifier des classes drsquoeacutequivalence des eacutetats du systegraveme qui ont lamecircme probabiliteacute de futur en probabiliteacute on appelle ces classes drsquoeacutequivalence deseacutetats causaux Les eacutetats drsquoune mecircme classe drsquoeacutequivalence au temps t ont statisti-quement les mecircme futurs en probabiliteacute ie la mecircme distribution de probabiliteacutesdrsquoinduire un futur eacutetat y au pas de temps suivant t + 1 Shalizi and Shalizi (2004)proposent un algorithme pour reconstruire lrsquoensemble des eacutetats causaux de la dy-namique du systegraveme et simultaneacutement trouver les probabiliteacutes de transition entreeacutetats causaux successifs Cette reconstruction prend la forme drsquoune chaicircne de Mar-kov cacheacutee (Shalizi 2001b) le futur ne deacutependant que de lrsquoeacutetat preacutesent du systegraveme
Les eacutetats causaux repreacutesentent donc des ensembles drsquoeacutetats eacutequivalents au sensougrave ils ont le mecircme futur en probabiliteacute tandis que les probabiliteacutes de transitionentre ces eacutetats deacutefinissent des relations drsquoinfeacuterence systeacutematiques (ou de ldquocausali-teacuterdquo) entre eacutetats
symboles eacutemis
signal A H H a a a h H H a a a A H H
minusrarrtemps minusrarr
TABLE 51 Exemple de signal produit par une dynamique discregravete symbolique sur unalphabet composeacute de quatre lettres a h A et H)
De faccedilon plus formelle lrsquoalgorithme CSSR reconstruit les eacutetats causaux drsquounedynamique symbolique ainsi que lrsquoensemble des probabiliteacutes de transition asso-cieacutees Les eacutetats reacuteunis au sein drsquoune mecircme classe peuvent ecirctre de longueurs va-riables allant jusqursquoagrave lmax (crsquoest agrave dire qursquoon peut consideacuterer que le systegraveme peutecirctre deacutecrit par une succession drsquoldquohistoiresrdquo de longueurs variables) Par exemplesi lrsquoon considegravere le signal repreacutesenteacute tableau 51 qui deacutefinit une dynamique surquatre symboles a h A et H alors lrsquoalgorithme CSSR
6 parameacutetreacute pour inteacutegrerdes histoires de taille 1 (lmax = 1) permet drsquoextraire les eacutetats causaux suivants S1 = a S2 = H S3 = A h dont la seacutequence temporelle St suit un
6 CSSR est librement disponible dans son impleacutementation originale http bactraorgCSSRainsi qursquoagrave lrsquoadresse http wwwlsiupces7Empadrocssrhtml dans une autre version
174 Chapitre 5 Correacutelations intertemporelles entre sources
processus markovien Les eacutetats A et h ont le mecircme futur en probabiliteacute (eacutemissiondrsquoun symbole H) et sont donc regroupeacutes au sein du mecircme eacutetat causal Nous pou-vons donc repreacutesenter la dynamique du signal comme une instance de la chaicircne deMarkov cacheacutee sur les eacutetats causaux S1 S2 et S3 du systegraveme comme repreacutesenteacutefigure 52
A|017
HAh
a
a|066
H|05H|1
a|05h|017
FIGURE 52 Machine agrave eacutetats causaux correspondant au signal preacutesenteacute tableau 51 pourlmax = 1 Les transitions entre eacutetats causaux sont accompagneacutees des symboles eacutemis etleur probabiliteacute Ainsi si le systegraveme est agrave un moment donneacute dans lrsquoeacutetat causal S1 agrave savoir(correspondant sans ambiguiumlteacute dans ce cas agrave lrsquoeacutetat a) alors au pas de temps suivant lesystegraveme passera dans lrsquoeacutetat causal S3 avec une probabiliteacute drsquoun tiers en eacutemettant avec lamecircme probabiliteacute le symbole A ou h
523 Alphabet des concepts
Pour chaque concept c on deacutecrit lrsquoeacutetat de la blogosphegravere agrave un moment t commeun vecteur binaire de dimension 4 qui repreacutesente lrsquoensemble des configurationsdrsquoapparition du terme c sur lrsquoensemble des classes de sources Il existe ainsi 24
combinaisons possibles qui forment lrsquoalphabet (voir tableau 52) de notre dyna-mique symbolique Les eacutetats en majuscule correspondent agrave la preacutesence du termedans la presse les eacutetats signaleacutes par une minuscule signalent au contraire lrsquoab-sence drsquoactiviteacute du concept dans la presse
alphabet a b c d e f g h A B C D E F G H
gauche 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1
centre 0 0 1 1 0 0 1 1 0 0 1 1 0 0 1 1
droite 0 0 0 0 1 1 1 1 0 0 0 0 1 1 1 1
presse 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1
eacutetat causal S5 S6 S7 S3 S8 S1 S2 S2 S0 S1 S2 S3 S4 S1 S2 S3
TABLE 52 Alphabet choisi et eacutetats causaux associeacutes par exemple si le systegraveme se re-trouve dans lrsquoeacutetat f cela signifie que seuls les groupes de droite et de gauche sont actifsvis-agrave-vis du concept envisageacute
52 Diagramme de correacutelations intertemporelles 175
524 Deacutefinition drsquoune dynamique symbolique
Nous appliquons la meacutethode de reconstruction des eacutetats causaux agrave la dyna-mique de production de contenus sur nos diffeacuterentes cateacutegories de sources Nousconsideacuterons qursquoil existe un ldquotissu drsquoinfluencerdquo entre ces sources indeacutependant desconcepts mobiliseacutes ainsi nous faisons lrsquohypothegravese que la dynamique observeacutee surchaque concept est une instance parmi drsquoautres du comportement global du sys-tegraveme
Il nous faut encore reacuteduire lrsquoactiviteacute de publication de lrsquoensemble des sourcescomposant un mecircme groupe en une seule seacuterie temporelle qui srsquoexprime dans lrsquoal-phabet que nous venons de deacutecrire Etant donneacutee une classe Cj isin C (1 ge j ge 4)on deacutefinit le profil seacutemantique de la classe comme la moyenne des profils indivi-duels la composant ie wt(Cj) =
sum
iisinCjwt(i)|Cj |
7 Cette opeacuteration nous permetde construire la matrice temporelle tridimensionnelle M deacutefinissant la valeur duprofil seacutemantique de la cateacutegorie j pour un concept c agrave t M(j c t) = wt(Cj c)
Parallegravelement nous construisons pour chaque concept c un vecteur drsquoactiviteacutemoyen agrave partir de lrsquoensemble des groupes de sources qui srsquoexprime comme lamoyenne des profils sur chaque classe wt(c) = 1
4
sum
CjisinCwt(Cj c) La seacuterie tempo-
relle wt(c) permet donc de deacutecrire lrsquoeacutevolution de lrsquousage moyen du concept c surlrsquoensemble des classes de sources
Cette seacuterie va nous permettre de deacutefinir un seuil au-dessus duquel lrsquoactiviteacutedrsquoune classe vis-agrave-vis drsquoun concept est ldquoanormalementrdquo eacuteleveacutee Les vecteurs drsquoeacutevo-lution propres agrave chaque concept eacutetant relativement heacuteteacuterogegravenes en deacutepit de lapondeacuteration que nous avons appliqueacutee nous deacutefinissons un seuil diffeacuterent micro(c)
pour chaque concept On deacutefinit micro(c) = 〈w(c)〉 + 2σ(w(c)) le seuil est eacutegal agrave lamoyenne du profil seacutemantique du concept sur lrsquoensemble de la peacuteriode drsquoobserva-tion agrave laquelle on rajoute deux fois lrsquoeacutecart type Ce seuil permet de garantir qursquouneclasse de sources est ldquoexceptionnellementrdquo active vis-agrave-vis drsquoun concept lorsqueson usage deacutepasse largement lrsquousage moyen qui en est fait habituellement
Ces seuils permettent de transformer la matrice M deacutecrivant lrsquoeacutetat du systegravemesur lrsquoensemble des groupes sous une forme binaire M0 en suivant la regravegle suivantepour chaque groupe j concept c et temps t M0(j c t) = 1 ssi M(j c t) ge micro(c)0 sinon Nous pouvons finalement construire les seacuteries temporelles constitueacutees agravepartir de notre alphabet en creacuteant la matrice dont les lignes correspondent agrave nos190 concepts et les colonnes correspondent aux 181 jours de suivi de la blogo-sphegravere Les eacuteleacutements de cette matrice sont constitueacutes par les lettres de notre alpha-
7 Les ldquonormesrdquo des vecteurs wt(Cj) restent sensiblement comparables agrave travers les cateacutegories etdans le temps ce qui permet de comparer ces vecteurs par la suite Une autre solution possible pourcalculer le profil seacutemantique drsquoune cateacutegorie de sources aurait consisteacute agrave calculer directement le tfmiddotidfde lrsquoensemble des contenus agreacutegeacutes produit par lrsquoensemble des sources drsquoun groupe (en concateacutenantsimplement lrsquoensemble des textes) La solution que nous avons adopteacutee (qui consiste agrave eacutetablir unemoyenne sur lrsquoensemble des profils seacutemantiques des sources) donne le mecircme poids agrave chaque sourcetandis que la seconde privileacutegierait les blogs produisant des billets plus longs
176 Chapitre 5 Correacutelations intertemporelles entre sources
bet qui permettent de deacutecrire la distribution de lrsquoactiviteacute autour drsquoun concept agrave unjour donneacute Ainsi si le systegraveme est dans lrsquoeacutetat ldquofrdquo agrave t cela signifie que le concept c
est fortement mobiliseacute par les blogs de la cateacutegorie Gauche et Droite agrave t
525 Resultats
Le paramegravetre lmax reacutesulte drsquoun compromis entre la taille des donneacutees dispo-nibles N et la taille de lrsquoalphabet deacutecrivant la dynamique symbolique k Selon(Shalizi 2001b) lmax doit rester infeacuterieur au ratio log(N)log(k) pour que lrsquoalgo-rithme reste statistiquement fiable aussi non ne pouvons pas compte tenu de nosdonneacutees espeacuterer des reacutesultats fiables pour des histoires de taille supeacuterieure agrave 3 8
Pratiquement nous avons fixeacute lmax agrave 1 Nous avons privileacutegieacute une histoire courteessentiellement pour des raisons de clarteacute de preacutesentation notre objectif premiernrsquoeacutetant pas drsquointerpreacuteter le reacutesultat obtenu sur notre communauteacute de savoirs maisde preacutesenter la meacutethodologie drsquoanalyse 9
Lrsquoalgorithme CSSR fournit les eacutetats causaux tels qursquoindiqueacutes dans la derniegravereligne du tableau 52 ainsi que la chaicircne de Markov entre eacutetats causaux dont ona repreacutesenteacute les principales transitions figure 53 (la composition des eacutetats cau-saux est eacutegalement repreacutesenteacutee sur la figure par les diffeacuterentes combinaisons decercles coloreacutes) Neuf eacutetats causaux diffeacuterents ont eacuteteacute construits par lrsquoalgorithmeSix drsquoentre eux correspondent agrave un seul eacutetat du systegraveme S5 aucune activationS0 S6 S7 et S8 activation drsquoune seule cateacutegorie (respectivement Presse GaucheCentre et Droite) et enfin S4 activation simultaneacutee des cateacutegories Presse et DroiteLes autres eacutetats causaux sont des assemblages de plusieurs eacutetats S1 par exempleregroupe lrsquoensemble des activations composeacutees drsquoune combinaison des blogs desensibiliteacute de gauche avec au moins lrsquoune des cateacutegories Droite ou Presse Cet eacutetatcausal peut ecirctre interpreacuteteacute de la faccedilon suivante pourvu que les blogs de sensi-biliteacute centriste soient inactifs si les blogs de sensibiliteacute de gauche sont actifs ainsiqursquoau moins une autre classe de source alors quel que soit le type de combinai-son observeacutee (eacutetats f B F ) la mecircme dynamique en probabiliteacute sera observeacutee lelendemain Ces eacutetats sont causalement eacutequivalents Les probabiliteacutes de transitionse lisent de la faccedilon suivante une fois le systegraveme dans lrsquoeacutetat S1 ie apregraves lrsquoeacutemis-sion drsquoun symbole f B ou F on observe de faccedilon systeacutematique lrsquoeacutemission le joursuivant drsquoun symbole b (seuls les blogs de la cateacutegorie Gauche continuent drsquoutili-ser le concept) dans 19 des cas ou lrsquoeacutemission drsquoun symbole e (seuls les blogs dela cateacutegorie Droite continuent drsquoutiliser le concept) dans 13 des cas ou encorelrsquoeacutemission drsquoun symbole f (blogs des cateacutegories Gauche et Droite qui srsquoactivent
8 dans notre cas N = 190 times 181 et k = 16
9 Theacuteoriquement augmenter la taille de lrsquohistoire permet parfois de diminuer le nombre drsquoeacutetatscausaux dans notre cas la dynamique restant tregraves bruiteacutee le nombre drsquoeacutetats causaux obtenus aug-mente assez sensiblement avec la taille de lrsquohistoire si bien que le diagramme drsquoinfluence obtenudevient rapidement trop compliqueacute pour ecirctre repreacutesenteacute graphiquement
52 Diagramme de correacutelations intertemporelles 177
FIGURE 53 Machine agrave eacutetats causaux obtenue agrave partir de notre dynamique empiriqueSeules les transitions les plus pertinentes ont eacuteteacute repreacutesenteacutees (ie au moins les deux tran-sitons les plus probables sortant de chaque eacutetat et toutes celles dont la probabiliteacute est su-peacuterieure agrave 10) ainsi que les symboles eacutemis correspondants
simultaneacutement) dans 14 des cas
Les deux autres eacutetats causaux composeacutes de plusieurs histoires sont S2 et S3 ilsreacuteunissent des eacutetats du systegraveme pour lesquelles les blogs centristes sont toujoursactifs et accompagneacutes drsquoau moins une classe de source Concernant S2 pressemise agrave part on observe que les eacutetats le composant sont essentiellement des eacutetatspour lesquelles la classe des blogs de droite est active Concernant S3 on ob-serve essentiellement des eacutetats incluant une activations de la classe des blogs degauche Ces deux eacutetats causaux ont des futurs en probabiliteacute extrecircmement diffeacute-rents ils donnent lieu agrave lrsquoeacutemission drsquoun symbole c (activation de la classe desblogs centristes uniquement) dans respectivement 30 et 20 des cas agrave lrsquoeacutemis-sion drsquoun symbole a (aucune classe de source nrsquoest active) dans moins drsquoun quartdes cas pour le reste les transitions repreacutesenteacutees sur notre machine agrave eacutetats causauxmontrent bien combien la dynamique agrave venir du systegraveme diffegravere selon lrsquoeacutetat causaldans lequel il se trouve S5 et S7 mis agrave part lrsquoeacutetat S2 induira majoritairement des
178 Chapitre 5 Correacutelations intertemporelles entre sources
transitions vers lui-mecircme ou vers S4 tandis que S3 induira des transitions verslui-mecircme ou S1
Pour eacutevaluer la significativiteacute de notre reconstruction nous avons appliqueacuteCSSR agrave une sous-partie de notre jeu de donneacutees En utilisant uniquement la moitieacutede nos concepts (choisis aleacuteatoirement) et donc en divisant par deux la quantiteacutede donneacutees initiale nous obtenons les mecircmes eacutetats causaux que ci-dessus Les pro-babiliteacutes de transition entre eacutetats sont leacutegeacuterement modifieacutees mais agrave ces quantiteacutespregraves la repreacutesentation finale de la figure 53 reste la mecircme Cette stabiliteacute illustrela robustesse de notre reconstruction
Agrave nouveau notre objectif nrsquoest pas de donner une interpreacutetation complegravete dece diagramme drsquoinfluence mais de montrer la faccedilon dont une information tregravesriche (profils drsquoactiviteacute drsquoeacutedition quotidienne de 120 blogs et de 3 journaux suivispendant 6 mois) peut ecirctre reacutesumeacutee reacuteduite en un diagramme syntheacutetique quirepreacutesente les eacutetats du systegraveme causalement eacutequivalents et les effets drsquoinfluencesysteacutematiques entre cateacutegories de sources
526 Perspectives
Cette meacutethode de reconstruction des diagrammes drsquoinfluence entre cateacutegoriesde sources pourrait profiter de nombreux deacuteveloppements Une premiegravere pisteconsisterait en augmentant sensiblement le nombre de concepts agrave en proposerune cateacutegorisation susceptible de donner lieu agrave des motifs drsquoinfluence diffeacuterentsen fonction des cateacutegories de concepts Ainsi on peut srsquointerroger sur la stabi-liteacute de notre diagramme selon le type de concepts employeacutes Est-ce que la dyna-mique drsquoinfluence des concepts ayant trait agrave des theacutematiques particuliegraveres (parexemple des concepts exclusivement lieacutes aux questions eacuteconomiques ou eacutecolo-giques) serait susceptible drsquoecirctre reconstruite par un diagramme diffeacuterent Cer-taines sources deviennent-elles plus ldquoinfluentesrdquo ou moins ldquoinfluenccedilablesrdquo selonle type de concept mobiliseacute Nous avons dans ce travail construit un diagrammequi agregravege lrsquoensemble des influences observeacutees sur lrsquoensemble de nos conceptsEn ce sens crsquoest une caracteacuterisation des influences moyennes entre nos cateacutegoriesde sources qui nrsquointerdit pas agrave certaines cateacutegories drsquoecirctre doteacutees drsquoun pouvoir deprescription supeacuterieur lorsque le deacutebat se deacuteplace dans leur domaine de speacutecialiteacute
Une autre ameacutelioration consisterait agrave augmenter lrsquohistoire des eacutetats possiblesIl existe sans doute des correacutelations intertemporelles qui deacutependent drsquohistoiresde tailles supeacuterieures agrave un jour on peut songer par exemple agrave une classe desources devant systeacutematiquement persister agrave discuter un concept pendant plu-sieurs jours drsquoaffileacutee avant que drsquoautres ne lui ldquoemboicirctent le pasrdquo La difficulteacuteque nous risquons de rencontrer dans ce cas tient agrave la multiplication des eacutetats cau-saux construits par lrsquoalgorithme Effectuer une seconde opeacuteration de cateacutegorisationpourrait reacutesoudre cette difficulteacute Rassembler les eacutetats causaux les plus semblables(ayant des futurs ldquoprochesrdquo en probabiliteacute agrave deacutefaut drsquoecirctre stochastiquement iden-
52 Diagramme de correacutelations intertemporelles 179
tiques) pourrait permettre de conserver une repreacutesentation syntheacutetique de notrediagramme drsquoinfluence tout en inteacutegrant des histoires plus longues
Une derniegravere piste drsquoapprofondissement consisterait agrave tenter de correacuteler lesdiagrammes drsquoinfluence propres aux blogs avec les reacuteseaux sociaux reliant lessources de contenus sous-jacentes Notre meacutethode permet de retracer des in-fluences systeacutematiques drsquoun groupe de sources sur un autre Le reacuteseau social(comme le reacuteseau de citations entre blogs) est-il un bon preacutedicteur des transitionsentre eacutetats que nous avons exhibeacutees
Enfin dans une perspective plus large nous pouvons nous interroger sur lrsquoap-plication de ce type de meacutethode agrave lrsquoactiviteacute scientifique Le mecircme cadre pourraitecirctre employeacute pour suivre les influences croiseacutees induites par tel ou tel groupe decommunauteacutes scientifiques sur tel ou tel autre Cette meacutethode permettrait ainsi derepeacuterer les flux systeacutematiques de concepts transitant entre communauteacutes
180 Chapitre 5 Correacutelations intertemporelles entre sources
Reacutesumeacute du chapitre
Nous avons preacutesenteacute une meacutethodologie geacuteneacuterique de reconstruction descorreacutelations intertemporelles apparaissant entre les contenus produits par dif-feacuterentes cateacutegories de sources Nous nous sommes appuyeacutes sur lrsquoalgorithmeCSSR qui permet agrave partir drsquoune dynamique discregravete symbolique de recons-truire lrsquoensemble des eacutetats causaux deacutefinis comme des classes drsquoeacutequivalencedrsquoeacutetats du systegraveme ayant le mecircme futur en probabiliteacute Cette meacutethode permeteacutegalement de deacutecrire la dynamique du systegraveme comme une chaicircne de Markovcacheacutee dont les eacuteleacutements sont des eacutetats causaux accompagneacutee de lrsquoensembledes probabiliteacutes de transitions entre eacutetats causaux et des symboles eacutemis (leseacutetats du systegraveme) agrave chaque transition La dynamique du systegraveme est ainsireconstruite de faccedilon statistiquement optimale
Nous avons appliqueacute ce formalisme agrave la dynamique de production decontenus drsquoun ensemble de sources au sein de la blogosphegravere politique fran-ccedilaise ainsi que dans la presse Notre objectif eacutetait de montrer qursquoil est possiblepar la seule observation des profils seacutemantiques drsquoun ensemble de sourcesdrsquoexhiber les motifs drsquoinfluence systeacutematiques entre ces sources afin de ten-ter de reacutepondre aux questions concernant notamment la subordination drsquouneclasse de sources agrave une autre (une forte activiteacute observeacutee autour drsquoun conceptau sein des blogs est-elle susceptible drsquoecirctre ldquorepriserdquo le lendemain dans lapresse ) et plus largement drsquoexhiber des motifs drsquoactivations de sources quiinduisent de faccedilon systeacutematique un certain comportement du systegraveme
Plus preacuteciseacutement nous avons construit trois classes de blogs partageant lesmecircmes inclinations politiques (droite gauche centre) ainsi qursquoune derniegravereclasse regroupant un ensemble de quotidiens repreacutesentant lrsquoactiviteacute des mediadurant les eacutelections preacutesidentielles franccedilaises de 2007 Lrsquoexamen des profilsdrsquoactiviteacute de chacune de ces classes nous a permis de deacutefinir une dynamiquesymbolique discregravete sur les quatre classes deacutejagrave deacutefinies ie la dynamique delrsquoensemble du systegraveme peut ecirctre deacutecrite comme une seacuterie temporelle discregravetesous la forme drsquoun vecteur binaire dont les 4 eacuteleacutements (correspondant aux 4classes de source) valent 1 ou 0 selon que les diffeacuterentes sources sont activesou non vis-agrave-vis drsquoun concept agrave un moment donneacute Lrsquoalphabet des eacutetats deacutecritspar le systegraveme comprend 16 eacuteleacutements La totaliteacute des transitions entre eacutetatsest a priori possible et la dynamique symbolique empirique observeacutee en com-prend un grand nombre La reconstruction que nous en proposons permet dereacuteduire cette dynamique sur lrsquoensemble de nos concepts agrave une chaicircne de mar-kov cacheacutee que nous appelons diagramme drsquoinfluence reacuteveacutelant les correacutelationsintertemporelles systeacutematiques existant entre des profils drsquoactiviteacute de sources
52 Diagramme de correacutelations intertemporelles 181
reacuteunies au sein drsquoeacutetats causaux Le diagramme drsquoinfluence ainsi construit per-met de faire diffeacuterentes observations drsquoune part repeacuterer les eacutetats du systegravemeeacutequivalents ie appartenant agrave un mecircme eacutetat causal - ces eacutetats sont eacutequiva-lents drsquoun point de vue dynamique ils induisent le mecircme futur en probabiliteacutedrsquoautre part observer agrave un niveau syntheacutetique les dynamiques agrave lrsquoœuvre dansle systegraveme de faccedilon agrave repreacutesenter et quantifier les influences existantes entregroupes de sources
CHAPITRE 6
Du rocircle de la topologie des
reacuteseaux sur la diffusion
Sommaire
61 Protocole de simulation 186
611 Protocole de simulation 186
612 Topologies de reacuteseaux 188
62 Dynamiques de diffusion 191
621 Reacutesultat des simulations 191
622 Interpreacutetation 193
63 Rocircle des regravegles de transmission 196
631 Directionaliteacute de la transmission 196
632 Hypothegraveses de transmission reacutealistes 199
633 Modegraveles de transmission styliseacutes 201
634 Reacutesultats des simulations 202
Les processus de diffusion de connaissance sont intimement conditionneacutes parla combinaison des comportements des agents (en situation drsquoincertitude on peutsrsquoattendre agrave diffeacuterents comportements vis-agrave-vis drsquoune innovation (voir (Granovet-ter 1978a) par exemple) et drsquoeffets de structure inheacuterents au reacuteseau social supportdes transmissions entre individus Ce chapitre qui srsquoappuie en grande partie surun article (Cointet and Roth 2007) publieacute en collaboration avec Camille Roth viseagrave travers un protocole simulatoire agrave caracteacuteriser les paramegravetres topologiques sus-ceptibles drsquoinfluencer la vitesse drsquoun processus de diffusion pour diffeacuterentes hy-pothegraveses de transmission inter-individuelle
Les modegraveles de diffusion drsquoinnovation de maladies ou de connaissance dansles reacuteseaux sociaux ont susciteacute un inteacuterecirct accru ces derniegraveres anneacutees Lrsquoanalyse despheacutenomegravenes de diffusion de connaissance remonte au milieu du XXeme siegravecle et ainitialement eacuteteacute abordeacutee en sociologie en eacuteconomie ou en gestion (Coleman et al1957a Rogers 2003 Robertson 1967 Rogers 1976 Granovetter 1978a Burt 1987Valente 1995)
Degraves les premiegraveres eacutetudes empiriques des processus de diffusion (Ryan andGross 1943 Menzel and Katz 1955 Coleman et al 1957b) une attention particu-liegravere a eacuteteacute porteacutee agrave certaines proprieacuteteacutes du reacuteseau social sous-jacent semblant lieacutees agrave
184 Chapitre 6 Du rocircle de la topologie des reacuteseaux sur la diffusion
la dynamique de diffusion (centraliteacute des premiers innovateurs par exemple) tan-dis que Rogers (1976) insistait sur la neacutecessiteacute de mettre en place des protocolesexpeacuterimentaux drsquoobservation longitudinale des pheacutenomegravenes de diffusion
ldquoFor network analysis to fulfill its potential however I feel we mustimprove the methods of data gathering and measurement () Longitu-dinal panel designs for networks analysis of diffusion process are alsoneeded along with field experiments they help secure the necessarydata to illuminate the over-time process of diffusionrdquo Rogers (1976)
Lrsquoanalyse des grands reacuteseaux drsquointeraction par des approches de type ldquophy-sique statistiquerdquo a eacutegalement insuffleacute un courant formalisateur dans lrsquoappreacutehen-sion des questions lieacutees agrave la diffusion dans un premier temps en srsquoappuyant surla litteacuterature en eacutepideacutemiologie (Pastor-Satorras and Vespignani 2001 Lloyd andMay 2001) avant de se pencher plus directement sur des processus plus speacute-cifiques aux sciences sociales tels que la diffusion des rumeurs (Newman 2002Kempe et al 2003) ou les dynamiques drsquoopinions (Axelrod 1997b Deffuant et al2002)
Neacuteanmoins mecircme si certains auteurs ont insisteacute sur la neacutecessiteacute de prendreen compte des topologies de reacuteseau et des meacutecanismes de transmission reacutealistesagrave lrsquoaide de mesures empiriques (Valente 1996 Wu et al 2004 Leskovec et al2007b) on peut srsquointerroger sur le degreacute drsquoadeacutequation des reacutesultats analytiquesou simulatoires obtenus agrave partir des modegraveles de diffusion actuels par rapport auxpheacutenomegravenes de diffusion ldquoreacuteelsrdquo Nous adresserons la question du reacutealisme de cesmodegraveles en envisageant successivement les deux dimensions topologie du reacuteseausous-jacent et meacutecanismes de transmission inter-individuelle
Premiegraverement la topologie de reacuteseau retenue dans les eacutetudes sur la diffusionest souvent baseacutee sur des modegraveles classiques de morphogenegravese de reacuteseaux Ainsiles reacuteseaux aleacuteatoire dits agrave la Erdoumls-Renyi (que nous noterons ER par la suite)(Erdoumls and Reacutenyi 1959) ont eacuteteacute massivement employeacutes (Barbour and Mollison1990 Wasserman and Faust 1994 Zegura et al 1996) tandis que drsquoautres ont pri-vileacutegieacute des modegraveles plus simples ou plus geacuteomeacutetriques (notamment fondeacutes surdes grilles) (Ellison and Fudenberg 1995 Deroian 2002) Les modegraveles de typesmall-world (Watts and Strogatz 1998) ont eacutegalement susciteacute reacutecemment un in-teacuterecirct particulier (Cowan and Jonard 2004b Kuperman and Abramson 2001) ainsique drsquoautres modegraveles moins ldquoclassiquesrdquo (Bala and Goyal 1998 Morris 2000)
Mais le modegravele de topologie qui a reacutecemment attireacute le plus drsquoattention notam-ment dans le cadre de lrsquoanalyse des dynamiques de diffusion est sans doute lereacuteseau ldquosans eacutechellerdquo (ldquoscale-freerdquo) dont la distribution de degreacute suit une loi depuissance caracteacuteristique topologique dont les anciens modegraveles ne rendaient pascompte Il existe diffeacuterentes meacutethodes pour construire un reacuteseau sans eacutechelle Laplus populaire drsquoentre elles introduite par Barabaacutesi and Albert (1999) srsquoappuiesur un processus de morphogenegravese dans lequel de nouveaux nœuds sont ajou-
185
teacutes au reacuteseau et sont connecteacutes preacutefeacuterentiellement aux nœuds de fort degreacute Unreacutesultat en particulier a reccedilu un large eacutecho dans les eacutetudes ulteacuterieures sur la dif-fusion Pastor-Satorras and Vespignani (2001) ont montreacute que les reacuteseaux dontla distribution de degreacute suit une loi de puissance ont un comportement radica-lement diffeacuterent drsquoun reacuteseau aleacuteatoire (ER) vis-agrave-vis drsquoun processus de diffusionPlus preacuteciseacutement ce travail prouve que le seuil eacutepideacutemique 1 est nul sur un reacuteseausans eacutechelle de taille infinie 2 alors qursquoil est toujours positif dans le cas drsquoun reacuteseaualeacuteatoire de typer ER Ainsi nombre drsquoeacutetudes reacutecentes sur la diffusion srsquoappuientsur des reacuteseaux de type sans-eacutechelle (Amblard and Deffuant 2004 Ganesh et al2005 Creacutepey et al 2006)
Au delagrave du choix drsquoune typologie ou drsquoun modegravele de morphogenegravese il est im-portant de noter que lrsquoapproche classique des processus de diffusion supporteacutespar des reacuteseaux autant du point de vue des eacutetudes simulatoires qursquoanalytiquesconsiste agrave travailler agrave partir de reacuteseaux styliseacutes Les modegraveles de diffusion de connais-sance ont rarement eacuteteacute simuleacutes sur la base de reacuteseaux reacuteels 3
Deuxiegravemement les hypothegraveses employeacutees quant au meacutecanisme de transmis-sion mecircme si elles paraissent plausibles nrsquoont que tregraves rarement donneacute lieu agrave uncontrocircle empirique Comme le mentionnent Leskovec et al (2007b)
ldquo[while former] models address the question of maximizing thespread of influence in a network they are based on assumed ratherthan measured influence effectsrdquo
Geacuteneacuteralement on postule un modegravele de comportement individuel styliseacute agrave par-tir de modegraveles ldquopsychologiquesrdquo (Granovetter 1978b Goldenberg et al 2001))de modegraveles eacuteconomiques (Ellison and Fudenberg 1995 Morris 2000) ou de mo-degraveles de connaissance visant agrave suivre lrsquoeacutevolution de profils drsquoopinions continus oudiscrets prenant la forme de vecteurs unidimensionnels (Axelrod 1997a Deroian2002 Deffuant et al 2002) ou multidimensionnels (Gilbert et al 2001 Cowan andJonard 2004b Klemm et al 2005)
Notre objectif est donc de caracteacuteriser la faccedilon dont la dynamique de diffusionsur un reacuteseau est modifieacutee en fonction du type de modegravele styliseacute retenu autant auniveau de la topologie du reacuteseau sous-jacent que des hypothegraveses de transmission
1 Le seuil eacutepideacutemique deacutesigne le ratio drsquoagents infecteacutes en-dessous duquel une eacutepideacutemie suivantle modegravele SIS (les agents du systegraveme peuvent se ecirctre dans trois eacutetats Susceptible Infecteacute ou Sain)srsquointerrompt
2 ce reacutesultat est neacuteanmoins limiteacute agrave des reacuteseaux de taille infinie et ne tient plus pour des modegravelesde type SIR (Susceptible Infected Recovered)(May and Lloyd 2001 Eguiluz and Klemm 2002)
3 Wang et al (2003) ont compareacute les preacutedictions de leur modegravele de diffusion agrave celui de Pastor-Satorras and Vespignani (2001) sur diffeacuterentes topologies dont un reacuteseau informatique reacuteel maissans srsquointerroger sur la faccedilon dont leur modegravele appliqueacute agrave diffeacuterentes topologies pouvait modifier ladynamique de diffusion De la mecircme faccedilon Wu et al (2004) ont simuleacute un processus de diffusionsur un reacuteseau drsquoe-mail reacuteel mais agrave nouveau sans chercher agrave estimer la faccedilon dont leurs reacutesultatsseraient modifieacutes avec drsquoautres hypothegraveses de topologie
186 Chapitre 6 Du rocircle de la topologie des reacuteseaux sur la diffusion
Nous souhaitons donc comparer les reacutesultats obtenus sur des modegraveles styli-seacutes avec les reacutesultats observeacutes sur des reacuteseaux ou des meacutecanismes de transmissionreacuteels Malheureusement nous manquons de donneacutees permettant de mesurer si-multaneacutement les comportements de transmission et la topologie du reacuteseau sous-jacent 4 Nous deacutecouplerons donc notre analyse en deux parties drsquoune part nousexaminerons la faccedilon dont un reacuteseau reacuteel et des reacuteseaux styliseacutes dont la topologieest deacutepreacutecieacutee agrave partir de ce dernier se comportent vis-agrave-vis drsquoun processus de dif-fusion drsquoautre part nous comparons un comportement de transmission reacuteel et sesmodegraveles styliseacutes vis-agrave-vis drsquoune dynamique de diffusion
61 Protocole de simulation
Notre objectif eacutetant de comparer les diffeacuterents modegraveles de reacuteseau et modegravelesde transmission agrave leur instance reacuteelle nous cherchons agrave deacutefinir un protocole aussibasique que possible
611 Protocole de simulation
Nous consideacuterons un ensemble de N agents et une entiteacute drsquoinformation ato-mique binaire lrsquoeacutetat du systegraveme au temps t est deacutecrit agrave lrsquoaide du vecteur c(t) isin
0 1N tel que ci(t) = 1 si lrsquoagent i a connaissance de cette entiteacute agrave t mdash on diraalors qursquoil est informeacute mdash ci(t) = 0 sinon Le processus est supposeacute strictementcroissant une fois informeacutes les agents ne peuvent donc pas ldquooublierrdquo
En terme eacutepideacutemiologique notre protocole est donc tregraves proche drsquoun modegravelede type ldquoSIrdquo (Sain Infecteacute) (Hethcote 2000) Il se distingue neacuteanmoins des modegravelesclassiques pour deux raisons Premiegraverement nous envisageons un processus asyn-chrone de seacutelection des nœuds de sorte qursquoun seul nœud peut voir son eacutetat chan-ger agrave chaque pas de temps tandis que la plupart des modegraveles existants ldquomettentagrave jourrdquo simultaneacutement lrsquoensemble des eacutetats de nœuds du reacuteseau en fonction desinteractions qursquoils ont eu avec leur environnement de faccedilon synchrone Deuxiegrave-mement on envisage un processus eacutegalement asyncrhone drsquointeractions entre lesnœuds agrave chaque pas de temps lrsquoagent susceptible de changer drsquoeacutetat interagit avecun seul de ses voisins Chaque interaction met donc en jeu uniquement un couplede nœuds alors que les modegraveles classiques supposent geacuteneacuteralement que lrsquoeacutetat drsquounnœud est modifieacute en fonction de lrsquoeacutetat de lrsquoensemble de son voisinage Nous deacute-composons en quelque sorte le processus de diffusion pour ne consideacuterer agrave chaquepas de temps qursquoun seul eacuteveacutenement primitif une interaction entre deux agentssusceptible de modifier lrsquoeacutetat drsquoun des agents Les conditions initiales sont fixeacuteesde telle faccedilon qursquoune proportion λ drsquoagents est initialement ldquoinformeacuteerdquo (ie λN
agents)
4 Le chapitre 7 propose une premiegravere avanceacutee dans cette direction
61 Protocole de simulation 187
i j
FIGURE 61 Agrave chaque pas de temps un nœud i est choisi aleacuteatoirement il interagit avecun de ses voisins j Il y a alors transmission si j est informeacute et que i ne lrsquoest pas Dans cescheacutema les nœuds informeacutes sont griseacutes
Nous pouvons deacutecrire notre processus de diffusion de la faccedilon suivante Agravechaque pas de temps une interaction entre un agent i choisi aleacuteatoirement et unde ses voisins (choisi aleacuteatoirement parmi les voisins de i) induit une transmis-sion drsquoinformation de j vers i si et seulement si j est informeacute La seacutequence drsquoeacuteveacute-nements (repreacutesenteacutee scheacutematiquement figure 61) se deacuteroulant agrave chaque pas detemps est donc la suivante
1 un agent i est choisi aleacuteatoirement
2 un agent j est choisi aleacuteatoirement parmi les voisins de i (j isin Vi)
3 cj(t) = 1rArr ci(t) = 1
Notre modegravele de transmission diffegravere de la plupart des modegraveles classiques carles agents entrent a priori le mecircme nombre de fois en interaction avec leur voi-sins en tant que reacutecepteur potentiel drsquoune transmission alors que la plupart desmodegraveles existants confegraverent une importance particuliegravere aux nœuds de fort degreacutedont ldquolrsquoactiviteacuterdquo vis-agrave-vis de la diffusion est proportionnelle agrave leur degreacute
Notre processus de transmission est bien asymeacutetrique nous reviendrons sur lesconseacutequences de cette asymeacutetrie ulteacuterieurement Ce type de processus de transmis-sion appartient agrave la famille des modegraveles de diffusion de rumeurs (appeleacutes ldquogossip-based modelsrdquo (Kempe and Kleinberg 2002))
Nous proceacutedons agrave une seacuterie de simulations dans des contextes expeacuterimentauxdistincts et mesurons lrsquoeacutevolution du ratio drsquoagents ldquoinformeacutesrdquo ρ au cours du tempsougrave ρ(t) = 1
N
sumNi=1 ci(t) en utilisant pour chaque simulation un ensemble aleacuteatoire
drsquoagents initialement informeacutes (ρ(0) = λ)
188 Chapitre 6 Du rocircle de la topologie des reacuteseaux sur la diffusion
612 Topologies de reacuteseaux
On considegravere deux reacuteseaux sociaux reacuteels Notre premier reacuteseau appeleacuteMedline par la suite est un reacuteseau constitueacute de collaborations entre des embryo-logistes travaillant sur le poisson zeacutebreacute (zebrafish) extrait agrave partir drsquoune grandebase de donneacutees de publications scientifiques 5 Nous consideacuterons uniquement laplus grande composante connexe composeacutee de 6 453 agents lieacutes par 67 392 liensissus de 2 476 publications 6 Sa distribution de degreacute (voir figure 62) est heacuteteacutero-gegravene comme il est classique de lrsquoobserver dans les reacuteseaux sociaux (Barabaacutesi andAlbert 1999) Le second reacuteseau a eacuteteacute collecteacute sur le site de ldquoThey rulerdquo 7 ce reacuteseauest un reacuteseau drsquointerlock il est composeacute de directeurs sieacutegeant agrave des conseils drsquoad-ministration de grandes firmes ou de grandes institutions ameacutericaines Deux direc-teurs sont lieacutes srsquoils siegravegent dans un mecircme conseil drsquoadministration La plus grandecomposante connexe de ce reacuteseau est composeacutee de 4 656 nœuds pour 76 600 liensextraits drsquoune base de donneacutees formeacutee de 516 conseils drsquoadministration
Notre strateacutegie consiste agrave deacutepreacutecier progressivement les caracteacuteristiques topo-lologiques de nos reacuteseaux originaux afin de produire une seacuterie de reacuteseaux styliseacutesNous comparerons ensuite les profils des dynamiques de diffusion sur ces diffeacute-rents reacuteseaux afin de tenter drsquoappreacutecier le rocircle des caracteacuteristiques topologiquesdu reacuteseau reacuteel sur la dynamique de diffusion Nous commenccedilons par distinguerles 4 types de reacuteseaux suivants
ndash Reacuteseau reacuteel (RN - Real Network) mdash Le reacuteseau reacuteel non deacutepreacutecieacute sera noteacute res-pectivement RN1 et RN2 selon qursquoon se reacutefegravere au reacuteseau de collaborationscientifique ou au reacuteseau drsquointerlock
ndash Sans-eacutechelle (SF - Scale-Free) mdash Les reacuteseaux SF (SF1 et SF2) sont construits agravepartir des reacuteseaux reacuteels (RN1 et RN2) en appliquant le modegravele configura-tionnel (Molloy and Reed 1995) qui consiste agrave connecter aleacuteatoirement lesdemi-liens du reacuteseau de faccedilon agrave obtenir un reacuteseau aleacuteatoire preacuteservant ladistribution des degreacutes originale
ndash Erdoumls-Regravenyi (ER) mdash Les reacuteseaux aleacuteatoires (Erdoumls and Reacutenyi 1959) ER1 etER2 conservent uniquement la densiteacute des reacuteseaux reacuteels de deacutepart ainsi quele nombre drsquoagents N Contrairement agrave SF et RN les distributions de de-greacute peuvent ecirctre approcheacutees par une loi de Poisson (Bollobaacutes 1985) voirfigure 62 Le nombre drsquoagents N et de liens M sont identiques au reacuteseaureacuteel
ndash Reacuteseau complet (CN - Complete Network) mdash Les reacuteseaux complets CN1 et CN2partagent uniquement le nombre drsquoagents avec leur alter-ego reacuteel Dans cettetopologie chaque agent est connecteacute agrave lrsquoensemble des autres agents La den-
5 la platforme Medline http wwwncbinlmnihgovpubmed est speacutecialiseacutee dans la litteacute-rature biomeacutedicale
6 nous nrsquoavons consideacutereacute que les articles dont lrsquoabstract ou le titre mentionnait le terme ldquozebra-fishrdquo sur la peacuteriode 2000ndash2004
7 http wwwtheyrulenet
61 Protocole de simulation 189
Medline Theyrule
1
10
100
1000
1 10 100
Degree
Erdos-Renyi NetworkScale-Free Network
Event-Based NetworkReal Network
1
10
100
1000
1 10 100
Degree
Erdos-Renyi NetworkScale-Free Network
Event-Based NetworkReal Network
FIGURE 62 Agrave gauche Distributions de degreacute cumuleacutees pour les diffeacuterentes topologiesenvisageacutees (abscisses degreacute k ordonneacutees N (k) =
sum
infin
kprime=k N(kprime)) agrave droite reacuteseau Medlineagrave droite reacuteseau Theyrule )
siteacute nrsquoest naturellement pas preacuteserveacutee contrairement aux reacuteseaux preacuteceacutedentset le nombre de liens dans le reacuteseau vaut N(N minus 1)2
La structure de clustering de nos reacuteseaux peut srsquoaveacuterer un paramegravetre im-portant pour eacutetudier le processus de diffusion drsquoinformation (Bala and Goyal1998 Morris 2000) La deacutefinition classique du clustering (voir chapitre 3) estune mesure lieacutee au ratio du nombre de triangles sur le nombre de fourchesDans sa version locale on deacutefinit pour chaque agent son clustering commele nombre moyen de ses voisins qui sont eacutegalement voisins lrsquoun de lrsquoautre c3(i) =
[nombre de paires de voisins de i connecteacutes ]kimiddot(kiminus1)2 ougrave ki deacutesigne le nombre de voisins du
nœud i Le coefficient de clustering 〈c3〉 du reacuteseau est alors une moyenne des clus-terings calculeacutes sur lrsquoensemble des agent Comme on lrsquoa deacutejagrave constateacute dans la par-tie preacuteceacutedente les reacuteseaux reacuteels sont geacuteneacuteralement doteacutes de coefficients de cluste-ring 〈c3〉 tregraves grands compareacutes aux valeurs attendues sur un reacuteseau aleacuteatoire (et cequelle que soit sa distribution de degreacute de type SF ou ER (Boguna and Pastor-Satorras 2002 Newman and Park 2003b)) Dans notre cas nous avons mesureacute lesvaleurs de clustering suivantes pour le reacuteseau de collaborations 〈c3〉 vaut 827
tandis que son reacuteseau deacutepreacutecieacute de type SF a un coefficient de clustering de lrsquoordrede 00539 Une mecircme dispariteacute entre reacuteseau reacuteel et sans-eacutechelle est observeacutee dansle reacuteseau drsquointerlock dont le coefficient de clustering du reacuteseau reacuteel (〈c3〉 = 889)est supeacuterieur de deux ordres de grandeur agrave celui du reacuteseau SF (〈c3〉 = 00395)
Nous souhaiterions eacutegalement inteacutegrer dans notre panel de reacuteseaux styliseacutesun reacuteseau capable de preacuteserver ce fort taux de clustering Pour ce faire nous uti-lisons la structure eacuteveacutenementielle sous-jacente de nos deux reacuteseaux En effet lesdeux reacuteseaux reacuteels consideacutereacutes sont en fait des reacuteseaux drsquoaffiliation de type biparti(les scientifiques sont lieacutes aux articles qursquoils publient les directeurs aux conseilsdrsquoadministration auxquels ils siegravegent) dont la projection sur la dimension socialeproduit les reacuteseaux reacuteels pertinents pour notre eacutetude Nous proposons donc drsquouti-
190 Chapitre 6 Du rocircle de la topologie des reacuteseaux sur la diffusion
liser un modegravele de morphogenegravese ldquoagrave base drsquoeacuteveacutenementsrdquo qui srsquoappuie sur cettedescription bipartie sous-jacente des reacuteseaux Agrave partir de la description originaledes donneacutees de nos deux reacuteseaux qui est constitueacutee drsquoeacuteveacutenements regroupantdes agents participant agrave une mecircme activiteacute nous calculons drsquoune part la distri-bution des tailles des eacuteveacutenements (distribution du nombre drsquoagents engageacutes danschaque eacuteveacutenement) et drsquoautre part la distribution du nombre drsquoeacuteveacutenements aux-quels chaque agent prend part Ces deux distributions sont parfois appeleacutees distri-butions agrave droite et agrave gauche du reacuteseau biparti consideacutereacute Le modegravele de reconstruc-tion est tregraves simple et revient agrave un modegravele configurationnel sur le graphe bipartioriginal Chaque agent conserve un nombre de liens sortants fidegravele agrave la distribu-tion de deacutepart du nombre drsquoeacuteveacutenements par agent Ces liens sont relieacutes de faccedilonaleacuteatoire agrave lrsquoensemble des eacuteveacutenements dont la taille respecte les distributions ori-ginales (distributions du nombre drsquoauteurs par article ou de directeurs par conseildrsquoadministration) Une fois distribueacute lrsquoensemble des liens sortants des agents versles eacuteveacutenements nous projetons le reacuteseau biparti ainsi formeacute (deux agents se re-trouvent lieacutes srsquoils participent au mecircme eacuteveacutenement) afin de construire un reacuteseaude type EB (Event-Based)
Le reacuteseau EB est encore plus proche de RN que SF au sens ougrave il conserve unplus grand nombre de proprieacuteteacutes topologiques Nous avons repreacutesenteacute figure 62les distributions de degreacute pour lrsquoensemble de nos topologies de reacuteseau On ob-serve que le reacuteseau EB permet de reconstruire relativement fidegravelement la queuede la distribution de degreacute Cette proprieacuteteacute est une conseacutequence directe du proces-sus de construction adopteacute (Guillaume and Latapy 2004 Newman et al 2001) Lastructure de clustering (voir tableau 61) est eacutegalement reconstruite de faccedilon satis-faisante En effet le coefficient de clustering est fortement influenceacute par lrsquoopeacutera-tion de projection qui aboutit en lrsquoaddition drsquoautant de cliques 8 que drsquoeacuteveacutenements(Newman et al 2001) On srsquoattend donc agrave observer un large nombre de structurestriangulaires dans ces reacuteseaux
Une mesure de clustering agrave plus longue distance appeleacutee clustering drsquoordre 4a reacutecemment eacuteteacute introduite (Lind et al 2005) Elle consiste agrave calculer la proportionmoyenne de voisins communs parmi les voisins drsquoun nœud i
c4(i) =
sumki
i1=1
sumki
i2=i1+1 κi1i2sumki
i1=1
sumki
i2=i1+1 [(ki1 minus ηi1 i2)(ki2 minus ηi1i2) + κi1i2 ](61)
ougrave κj1j2 deacutesigne le nombre de nœuds que les voisins j1 amp j2 de i ont en commun(i exclu) ηj1j2 = 1 + κj1j2 + θj1j2 ougrave θj1j2 vaut 1 si j1 et j2 sont connecteacutes 0 sinon
EB1 permet de reconstruire approximativement le clustering du reacuteseau reacuteel(RN1) mais semble mis en deacutefaut pour reconstruire efficacement 〈c4〉 (un ordrede grandeur seacutepare les valeurs de EB1 et de RN1) Par contre EB2 semble plus
8 une clique est un sous-graphe complet ie un sous-graphe dont les nœuds sont tous connecteacutesles uns aux autres
62 Dynamiques de diffusion 191
performant par rapport agrave cet indice 〈c4〉 vaut 280 ce qui reste relativement prochede la valeur originale de 415 pour le reacuteseau reacuteel RN2 Les valeurs de lrsquoensembledes caracteacuterisitiques topologiques de nos reacuteseaux sont reacuteunies tableau 61
Pour reacutesumer nous consideacutererons 5 topologies de reacuteseau diffeacuterentes (i) le reacute-seau reacuteel RN (ii) un reacuteseau agrave structure drsquoeacuteveacutenements sous-jacente EB (iii) un reacute-seau sans-eacutechelle SF (iv) un reacuteseau aleacuteatoire de type Erdoumls-Reacutenyi ER (v) un reacuteseaucomplet CN
RN1 SF1 ER1 CN1 EB1
N 6453
M 674 middot 104 208 middot 107 762 middot 104
d 00162 1 00183
dist degreacute power-law tail Poisson mdash power-law tail
〈c3〉 827 00539 00199 1 753
〈c4〉 400 000260 000158 1 0694
RN2 SF2 ER2 CN2 EB2
N 4656
M 766 middot 104 217 middot 107 768 middot 104
d 0035 1 0035
dist degreacute power-law tail Poisson mdash power-law tail
〈c3〉 889 00395 00403 1 897
〈c4〉 398 000261 000217 1 268
TABLE 61 Principales caracteacuteristiques topologiques des diffeacuterents reacuteseaux styliseacutes deacuteriveacutesdes reacuteseaux reacuteels RN1 et RN2 en termes de nombre drsquoagents N nombre de liens M densiteacute d formes des distributions de degreacute et coefficients de clustering 〈c3〉amp 〈c4〉 (valeursmoyenneacutees sur 1000 reacuteseaux pour les modegraveles de type SF ER amp EB)
62 Dynamiques de diffusion
621 Reacutesultat des simulations
Pour chaque type de topologie nous avons lanceacute 1 000 simulations en suivantle protocole deacutecrit section 611 Pour chacune des instances de simulation nousseacutelectionnons la plus grande composante connexe qui dans tous les cas couvreau moins 999 de lrsquoensemble des nœuds Ainsi lrsquoeacutetat final de la simulation tendnaturellement vers ρ(infin) = 1 ie lrsquoensemble des nœuds est informeacute in fine La
192 Chapitre 6 Du rocircle de la topologie des reacuteseaux sur la diffusion
Medline Theyrule
0
02
04
06
08
1
0 20000 40000 60000 80000 100000 120000
Rat
io o
f Nod
es In
form
ed
Simulation Time Steps
Complete NetworkErdos-Renyi Network
Scale-Free NetworkEvent-Based Network
Real Network
0
02
04
06
08
1
0 40000 80000 120000
0
02
04
06
08
1
0 20000 40000 60000 80000 100000
Rat
io o
f Nod
es In
form
ed
Simulation Time Steps
Complete networkErdos-Renyi network
Scale-Free networkEvent-Based network
Real network
0
02
04
06
08
1
0 30000 60000 90000
FIGURE 63 ρ(t) simuleacute pour les reacuteseaux complets (CN) Erdoumls-Reacutenyi (ER) sans-eacutechelle(SF) agrave base drsquoeacuteveacutenements (EB) et reacuteels (RN) λ = 002 et λ = 0002 (en encart) les barresdrsquoerreurs correspondent aux intervalles de confiance agrave 99 Topologies extraites des reacute-seaux de collaboration (agrave gauche) et du reacuteseau drsquointerlock (agrave droite)
simulation est initialiseacutee avec une fraction λ de nœuds informeacutesLa figure 63 reacutecapitule lrsquoensemble des profils drsquoeacutevolution temporelle de ρ sur
lrsquoensemble des topologies de reacuteseau pour λ = 002 et λ = 0002 On observe queplus les reacuteseaux ont une topologie ldquosemblablerdquo agrave celle du reacuteseau reacuteel et plus ladynamique est lente Le reacuteseau complet est celui sur lequel la diffusion est la plusrapide De faccedilon plus surprenante les reacuteseaux ER et SF semblent se comporterde faccedilon identique vis-agrave-vis de ρ(t) Le comportement de EB est plus lent que lesautres topologies styliseacutees et offre la meilleure approximation de la dynamique dediffusion sur RN Neacuteanmoins les reacutesultats sont contrasteacutes selon que lrsquoon srsquointeacute-resse au reacuteseau de collaboration ou drsquointerlock EB2 semble reconstruire de faccedilonsatisfaisante la dynamique de diffusion de RN2 tandis que EB1 diverge encore defaccedilon significative de RN1
Nos reacutesultats ne semblent pas affecteacutes par le paramegravetre λ fixant la proportioninitiale drsquoagents informeacutes (cf encart figure 63) qualitativement nous observonssimplement un ralentissement geacuteneacuteral de la dynamique de diffusion sans queldquolrsquoordrerdquo entre les diffeacuterentes topologies ne soit affecteacute
Il semble donc que la focalisation sur les reacuteseaux styliseacutes de type sans-eacutechelle(Eguiluz and Klemm 2002 Boguna and Pastor-Satorras 2002 May and Lloyd2001) soit pertinente dans les limites du processus de transmission mis en œuvreDans notre cas le reacuteseau SF a une dynamique de diffusion similaire agrave celle dureacuteseau ER beaucoup plus rapide que la dynamique que lrsquoon observe sur le reacuteseaureacuteel
Par contre EB suggegravere une importance non neacutegligeable de la structure de clus-tering dans le processus de diffusion La lenteur du processus de diffusion surRN pourrait ecirctre due agrave sa structure de communauteacutes (ou encore agrave sa structuremodulaire) sous-jacente (Girvan and Newman 2002 Clauset et al 2004 Blon-
62 Dynamiques de diffusion 193
del et al 2008) De nombreuses eacutetudes sur la diffusion des innovations ont ainsisouligneacute qursquoune structure de reacuteseau favorisant les interactions dans un cercle so-cial proche plutocirct qursquoavec des agents distants est susceptible de ralentir la dyna-mique de diffusion (Granovetter 1973 Bala and Goyal 1998) mdash les clusters drsquoin-dividus denseacutement inter-connecteacutes produisant meacutecaniquement de la redondancedans la distribution de la connaissance (ie lrsquoensemble des agents appartenant agraveun mecircme groupe denseacutement connecteacute sont rapidement aligneacutes dans le mecircme eacutetatmais risquent eacutegalement drsquoecirctre dans un eacutetat drsquoisolement par rapport agrave drsquoautresgroupes plus distants) Comme lrsquoeacutecrit Granovetter (1973)
ldquoif one tells a rumor to all his close friends and they do likewisemany will hear the rumor a second and third time since those linkedby strong ties tend to share friendsrdquo
Ainsi nombres des liens preacutesents dans le reacuteseau reacuteel sont redondants vis-agrave-vis duprocessus de diffusion ces redondances eacutetant dommageables pour la diffusion delrsquoinformation sur lrsquoensemble des agents du reacuteseau
Une eacutetude anteacuterieure de Bala and Goyal (1998) avait montreacute que des voisinagesrecouvrants pouvaient ralentir le pheacutenomegravene de diffusion Eguiluz and Klemm(2002) ont eacutegalement remarqueacute que le seuil eacutepideacutemique eacutetait diminueacute dans les reacute-seaux fortement clusteriseacutes compareacutes agrave des reacuteseaux aleacuteatoires tandis qursquoOnnelaet al (2007) ont observeacute lrsquoalternance de plateaux et drsquoaugmentations rapides dunombre drsquoagents infecteacutes en simulant un processus de diffusion sur un reacuteseaupondeacutereacute dont les liens repreacutesentent des contacts teacuteleacutephoniques reacuteels Les auteursinterpregravetent ces plateaux comme des eacutepisodes durant lesquels lrsquoeacuteleacutement diffusantest ldquoemprisonneacuterdquo par des communauteacutes locales Enfin de faccedilon connexe Galloset al (2007) ont observeacute analytiquement et agrave lrsquoaide de simulations une relation li-neacuteaire entre lrsquoexposant fractal de modulariteacute drsquoun reacuteseau biologique et lrsquoexposantcaracteacuteristique drsquoune marche aleacuteatoire dans le reacuteseau (qui traduit typiquement letemps caracteacuteristique drsquoun processus de diffusion) Cette eacutetude montre donc queselon lrsquoexposant de modulariteacute (deacutetermineacute pour un reacuteseau fractal) on observe uneldquosub-diffusionrdquo pour des reacuteseaux tregraves modulaires et une ldquosuper-diffusionrdquo pourdes reacuteseaux tregraves peu modulaires
622 Interpreacutetation
Afin de veacuterifier notre hypothegravese nous avons calculeacute un indice de correacutelationentre agents voisins dans le reacuteseau
ν(t) =1
n
[
nsum
i=1
ci(t)sum
jisinVi
cj(t)
ki
]
ν mesure la somme des proportions de nœuds deacutejagrave informeacutes dans le voisinagedes nœuds informeacutes Pour un mecircme taux de diffusion ρ(t) un indice de correacute-lation ν(t) plus eacuteleveacute indique que la diffusion risque drsquoecirctre ralentie agrave cause drsquoun
194 Chapitre 6 Du rocircle de la topologie des reacuteseaux sur la diffusion
Medline Theyrule
0
02
04
06
08
1
0 20000 40000 60000 80000 100000 120000
Ra
tio
of
Info
rme
d N
od
es
in I
nfo
rme
d N
od
es N
eig
hb
orh
oo
d
Simulation Time Steps
Complete NetworkErdos Renyi Network
Scale-Free NetworkEvent Based Network
Real Network
0
02
04
06
08
1
0 20000 40000 60000 80000 100000
Ra
tio
of
Info
rme
d N
od
es
in I
nfo
rme
d N
od
es N
eig
hb
orh
oo
d
Simulation Time Steps
Complete NetworkErdos Renyi Network
Scale-Free NetworkEvent Based Network
Real Network
FIGURE 64 Evolution de ν(t) pour les reacuteseaux complets (CN) Erdoumls-Reacutenyi (ER) sans-eacutechelle (SF) agrave base drsquoeacuteveacutenements (EB) et reacuteels (RN) λ = 002 Topologies extraites desreacuteseaux de collaboration (agrave gauche) et du reacuteseau drsquointerlock (agrave droite)
faible ratio drsquoagents non informeacutes susceptible de propager lrsquoinformation dans levoisinage des nœuds informeacutes Nous avons traceacute lrsquoeacutevolution de ν durant le pheacute-nomegravene de diffusion sur nos deux reacuteseaux et pour lrsquoensemble de nos topologiesfigure 64 Lrsquoindice de correacutelation est croissant tendant vers 1 lorsque lrsquoensembledes nœuds est informeacute Le profil drsquoeacutevolution de lrsquoindice de correacutelation est extrecirc-mement diffeacuterent selon la topologie consideacutereacutee Pour les deux reacuteseaux eacutetudieacutes laproportion drsquoagents susceptibles drsquoecirctre infecteacutes croicirct rapidement dans le cas desreacuteseaux de type EB et RN contrairement aux topologies de type SF et ER et a for-tiori CN pour lesquels la croissance est beaucoup plus lente Ces courbes doiventtheacuteoriquement ecirctre compareacutees pour un mecircme taux de diffusion ρ Les diffeacuterencesde comportement observeacutees entre les diffeacuterentes topologies vis-agrave-vis de ν seraientmecircme encore plus flagrantes si les deacutelais ducircs aux eacutecarts de vitesse de diffusionentre topologies eacutetaient pris en compte
Lrsquoensemble des ces observations nous permet de mieux comprendre pourquoiEB est plus lent que SF et pourquoi RN dont la structure complexe de commu-nauteacutes nrsquoest pas parfaitement reproduite (cf stastiques de c4) par EB est encoreplus lent En effet les valeurs de 〈c4〉 mesureacutees semblent donner une indicationsur la qualiteacute de la reconstruction de la structure de communauteacutes sous-jacente lorsque 〈c4〉 est infeacuterieur drsquoun ordre de grandeur dans EB1 par rapport agrave RN1les vitesses de diffusion diffeacuterent significativement alors que pour des valeurs de〈c4〉 comparables comme dans le cas de EB2 et RN2 les vitesses de diffusion sontcomparables
Il est probable que ldquola nature sans-eacutechelle [des reacuteseaux reacuteels] ne doive pas ecirctreneacutegligeacutee dans lrsquoestimation des seuils drsquoimmunisation et eacutepideacutemiques des reacuteseauxreacuteelsrdquo 9 (Pastor-Satorras and Vespignani 2001) mais la seule prise en compte de
9 ldquothe SF nature cannot be neglected in the practical estimates of epidemic and immunization
62 Dynamiques de diffusion 195
cette proprieacuteteacute pourrait srsquoaveacuterer insuffisante tous les reacuteseaux sans-eacutechelles ne sontpas eacutequivalents (May and Lloyd 2001 Boguna and Pastor-Satorras 2002 Eguiluzand Klemm 2002) et dans notre cas la reacuteseau sans-eacutechelle le plus simple exhibeen reacutealiteacute la mecircme dynamique que celle observeacutee sur une topologie ER mecircme sidrsquoautres hypothegraveses de transmissions peuvent induire une diffeacuterence de compor-tement entre les reacuteseaux ER et SF (Dorogovtsev and Mendes 2003 Bartheacuteleacutemyet al 2005) Dans notre cas ces diffeacuterences sont minimes tandis que les reacutesultatsconstateacutes sur EB penchent plutocirct pour un rocircle deacuteterminant de la structure de com-munauteacutes
On peut eacutegalement srsquointerroger leacutegitimement sur les diffeacuterences observeacuteesentre nos deux reacuteseaux vis-agrave-vis de la qualiteacute de la reconstruction de type EB Nonseulement EB1 a un coefficient de clustering drsquoordre 4 largement infeacuterieur agrave celuide RN1 mais on constate eacutegalement figure 62 que la distribution de degreacute drsquoEB1est leacutegegraverement deacutecaleacutee vers la droite par rapport agrave celle de RN1 Dans le cas dureacuteseau drsquointerlock on ne constate pas une telle divergence de EB2 par rapport agraveRN2 les distributions de degreacute de ces derniers eacutetant tregraves proches et le coefficientde clustering drsquoordre 4 eacutetant relativement identique
Cette observation est en fait coheacuterente avec les reacutesultats obtenus par Newmanet al (2001 2002a) sur lrsquoeacutevaluation des paramegravetres topologiques theacuteoriques de reacute-seaux aleacuteatoires agrave structure bipartie sous-jacente respectant les distributions dedegreacute du reacuteseau biparti original Plus preacuteciseacutement les valeurs theacuteoriques de clus-tering et de degreacute moyen drsquoun reacuteseau aleacuteatoire sont estimeacutees analytiquement agrave par-tir des seules distributions de degreacute du reacuteseau biparti sous-jacent (liant les agentsaux eacuteveacutenements auxquels ils prennent part) Ces valeurs theacuteoriques sont ensuitecompareacutees aux valeurs observeacutees dans les reacuteseaux reacuteels le clustering est systeacutema-tiquement sous-estimeacute tandis que le degreacute moyen est systeacutematiquement surestimeacutedans un reacuteseau drsquoacteurs (deux acteurs sont lieacutes srsquoils ont joueacute dans un mecircme film)et deux reacuteseaux de collaboration scientifique tandis que le reacuteseau drsquointerlock (For-tune 1000 - du mecircme type que notre reacuteseau Theyrule mais de taille plus impor-tante) a des valeurs theacuteoriques et reacuteelles quasiment parfaitement concordantesComme le notent Newman et al (2002b) ldquo the discrepancy between theory andexperiment may be highlighting real sociological phenomena in the networks stu-died rdquo Mais si lrsquoon conccediloit aiseacutement que le reacuteseau de collaboration scientifiquepuisse ecirctre fortement structureacute par les institutions sous-jacentes ou par des pro-cessus transitifs locaux 10 on comprend a priori moins bien pourquoi les reacuteseauxdrsquointerlock sont si fidegravelement reconstruits par un modegravele structurel (Robins and
thresholds in real networksrdquo10 Ces processus transitifs locaux sont geacuteneacuterateurs de liens reacutepeacuteteacutes lors de la production de nou-
veaux articles auxquels participent drsquoanciens collaborateurs On srsquoattend eacutegalement dans un reacuteseaude collaboration scientifique agrave retrouver des ensembles drsquoindividus relieacutes les uns aux autres en fonc-tions drsquointeacuterecircts communs et formant par exemple des communauteacutes drsquoexperts ces regroupementsdonnent lieu agrave une structuration particuliegravere du reacuteseau de collaboration
196 Chapitre 6 Du rocircle de la topologie des reacuteseaux sur la diffusion
Alexander 2004 Uzzi et al 2005) aussi simple fondeacute sur les seules distributions dedegreacute du reacuteseau biparti Une explication possible (diffeacuterente de celle avanceacutee parNewman et al (2001) qui insistent sur le fait que les directeurs sieacutegeant dans denombreux conseils drsquoadministration ont eacutegalement tendance agrave co-sieacuteger avec desdirecteurs eacutegalement impliqueacutes dans plusieurs conseils drsquoadministration) consisteagrave expliquer le caractegravere ldquotypiquement aleacuteatoirerdquo des reacuteseaux drsquointerlocks par lesregravegles entourant la composition des conseils drsquoadministration Ainsi aux Etats-Unis (mais drsquoautre proceacutedures du mecircme type sont appliqueacutees dans drsquoautres pays)le Clayton act (1914) interdit notamment agrave un individu de sieacuteger dans les conseilsdrsquoadministration de deux compagnies en situation de concurrence Ce mode dereacutegulation srsquoinscrit dans le dispositif leacutegal anti-monopolistique ameacutericain et viseagrave empecirccher les pratiques anti-compeacutetitives Il est possible que ce type de reacutegula-tion induise un meacutelange de la composition des conseils drsquoadministration qui rendeldquoplus aleacuteatoirerdquo leur composition
Pour reacutesumer nous avons constateacute que mecircme avec un protocole de diffusiontregraves basique aucune des topologies styliseacutees nrsquoest satisfaisante pour reconstruirela dynamique de diffusion que nous avons observeacute sur lrsquoensemble de nos reacuteseauxreacuteels Le reacuteseau SF se comporte comme le reacuteseau ER vis-agrave-vis de la vitesse de dif-fusion mais tregraves diffeacuteremment du reacuteseau reacuteel Cette observation amoindrit pour leprotocole de transmission retenu lrsquoimportance qursquoon porte geacuteneacuteralement au rocirclede la distribution de degreacute dans les processus de diffusion La structure locale decommunauteacute semble en revanche comme le suggegraverent partiellement les reacutesultatsdu reacuteseau EB ecirctre un paramegravetre crucial pour modeacuteliser fidegravelement la dynamiquede diffusion
63 Rocircle des regravegles de transmission
631 Directionaliteacute de la transmission
Dans la partie preacuteceacutedente nous avions fixeacute arbitrairement une direction dansla transmission drsquoinformation au moment de lrsquointeraction entre deux agents Unagent i est choisi aleacuteatoirement et ldquoest informeacuterdquo par lrsquoun de ses voisins j (choisialeacuteatoirement) si celui-ci est lui-mecircme informeacute cj(t) = 1 rArr ci(t) = 1 Le fluxdrsquoinformation eacutetant dirigeacute vers lrsquoagent i nous appellerons ce modegravele le modegravelecentripegravete (1) - il correspond agrave un pheacutenomegravene de diffusion dans lequel les agentscherchent activement agrave acqueacuterir une information (on pourrait eacutegalement lrsquoappe-ler le modegravele de type reporter) Le modegravele opposeacute est eacutegalement envisageable ilcorrespond agrave un processus dans lequel les agents tentent activement drsquoinformerun de leurs voisins formellement il correspond agrave la mecircme proceacutedure de seacutelectionaleacuteatoire drsquoun agent i et agrave une regravegle de transmission du type ci(t) = 1rArr cj(t) = 1on appellera ce modegravele le modegravele centrifuge (2) (on pourrait eacutegalement lrsquoappelerle modegravele de type gossip mais crsquoest eacutegalement le type de transmission qui srsquoopegravere
63 Rocircle des regravegles de transmission 197
modegravele (1) centripegravete modegravele (2) centrifuge
i j i j
FIGURE 65 Repreacutesentation scheacutematique du processus de transmission selon la directionretenue Agrave gauche modegravele de transmission (1) dit centripegravete agrave droite modegravele de transmis-sion (2) dit centrifuge
entre un professeur et son eacutelegraveve) Nous avons repreacutesenteacute figure 65 une repreacutesen-tation scheacutematique du processus de transmission adopteacute pour chaque direction
Nous avons eacutevalueacute le rocircle de ce changement de direction de la regravegle de trans-mission sur la dynamique de diffusion Le modegravele centrifuge (voir courbes drsquoin-dice 2 figure 66) ne modifie pas qualitativement les reacutesultats obtenus sur le mo-degravele centripegravete (voir courbes drsquoindice 1) Pour simplifier nous nrsquoavons repreacutesenteacuteles dynamiques de diffusion pour les deux types drsquohypothegraveses de transmissionque sur les topologies CN ER SF et RN en nous basant sur le reacuteseau de collabora-tion Les vitesses de diffusion sont systeacutematiquement plus lentes sous lrsquohypothegravese(2) agrave lrsquoexception du reacuteseau complet pour lequel le sens de la transmission nrsquoa na-turellement aucun effet lrsquoensemble des nœuds eacutetant eacutequivalents les agents i etj seacutelectionneacutes pour un eacuteveacutenement drsquointeraction sont naturellement parfaitementinterchangeables
Le ralentissement de la diffusion dans lrsquohypothegravese (2) peut srsquoexpliquer agrave traversle rocircle joueacute par les nœuds de plus fort degreacute Apregraves qursquoun agent i a eacuteteacute choisi defaccedilon aleacuteatoire sur lrsquoensemble des agents un voisin de i est choisi aleacuteatoirementDans un premier temps chaque agent a donc la mecircme probabiliteacute 1N drsquoecirctre seacute-lectionneacute mais les nœuds de fort degreacute sont favoriseacutes lors du choix du secondagent j parmi les voisins de i Ainsi un agent aura une probabiliteacute kj
sum
j kj departiciper agrave une interaction comme second agent Degraves lors les nœuds de fort degreacutesont plus souvent mobiliseacutes dans lrsquohypothegravese (1) comme source de la transmissionet dans lrsquohypothegravese (2) comme destinataire de la transmission On srsquoattend doncdans lrsquohypothegravese (2) agrave une acquisition rapide de lrsquoinformation chez les agents defort degreacute et agrave un ralentissement de la vitesse drsquoacquisition chez les agents defaible degreacute beaucoup moins freacutequemment solliciteacutes Par contre dans lrsquohypothegravese(1) la distribution de degreacute nrsquoaffecte pas directement la probabiliteacute de participer agraveune interaction en tant que destinataire drsquoune information Ainsi en lrsquoabsence drsquoef-fets de correacutelation de degreacutes on srsquoattend dans lrsquohypothegravese (1) agrave ce que les agents
198 Chapitre 6 Du rocircle de la topologie des reacuteseaux sur la diffusion
0
02
04
06
08
1
0 20000 40000 60000 80000 100000 120000
CN-1CN-2ER-1ER-2SF-1SF-2RN-1RN-2
0
20000
40000
60000
80000
100000
120000
0 5 10 15 20 25
ER-1ER-2
FIGURE 66 Agrave gauche eacutevolution du taux de diffusion total ρ sur une seacuterie de 5 simulationspour diffeacuterentes topologies de reacuteseau CN ER SF et RN construites sur le reacuteseau de colla-boration Medline pour les deux hypothegraveses de transmission (1) centripegravete (2) centrifuge(le temps est en abscisses et ρ(t) en ordonneacutees) Agrave droite eacutevolution du temps de transmis-sion moyen (en ordonneacutees) en fonction du degreacute des nœuds (en abscisses) sur une seacuteriede 50 simulations et une topologie de type ER construite agrave partir du reacuteseau de collabora-tion Medline pour les deux hypothegraveses de transmission (1) centripegravete (ER1) (2) centrifuge(ER2)
soient informeacutes agrave la mecircme vitesse indeacutependamment de leur degreacute
Cette simple observation de lrsquoheacuteteacuterogeacuteneacuteiteacute inheacuterente au nombre de participa-tions agrave une interaction en tant que destinataire dans lrsquohypothegravese (2) permet drsquoex-pliquer le ralentissement de la vitesse de diffusion par rapport agrave lrsquohypothegravese (1)qui assure agrave lrsquoensemble des nœuds le mecircme taux drsquoexposition agrave un eacuteveacutenement detransmission La freacutequence drsquoexposition plus eacuteleveacutee preacutevisible pour les nœuds dehaut degreacute implique un plus grand nombre drsquointeractions sans effet vis-agrave-vis deces nœuds et drsquoautant moins de tentatives drsquoinfection des nœuds de faible degreacuteCette heacuteteacuterogeacuteneacuteiteacute est mise en eacutevidence sur la figure 66 (droite) qui repreacutesentepour une seacuterie de simulations et pour chaque classe de nœuds de degreacute k donneacute letemps moyen eacutecouleacute avant que la moitieacute des nœuds drsquoune classe de nœuds donneacuteesoit informeacutee On constate que le profil est quasiment plat dans le cas de lrsquohypo-thegravese de transmission (1) ie les nœuds sont informeacutes agrave la mecircme vitesse quel quesoit leur degreacute tandis que dans le cas drsquoune hypothegravese de transmission (2) la vi-tesse augmente fortement avec le degreacute Des motifs similaires ont eacuteteacute observeacutes surles autres types de topologie De faccedilon geacuteneacuterale et sur lrsquoensemble des topologieslrsquohypothegravese centrifuge (2) induit une forte deacutependance des vitesses de diffusionau degreacute des agents qui est absent dans le cas de lrsquohypothegravese centripegravete la vitessereacuteduite drsquoacquisition de lrsquoinformation des nœuds de faible degreacute est donc une ex-plication plausible du ralentissement de la diffusion sur lrsquoensemble des topologiesinduit par le passage drsquoune transmission centripegravete agrave une transmission centrifuge
63 Rocircle des regravegles de transmission 199
632 Hypothegraveses de transmission reacutealistes
Indeacutependamment du sens de la transmission le protocole de transmission uti-liseacute dans nos simulations peut eacutegalement ecirctre interrogeacute puisque celui-ci est ex-trecircmement basique Plusieurs modegraveles de transmission ont eacuteteacute proposeacutes dans lalitteacuterature notamment le ldquomodegravele agrave seuilrdquo stipulant que les agents adoptent siune fraction de leurs voisins ont deacutejagrave adopteacute (Granovetter 1978a Valente 19951996 Abrahamson and Rosenkopf 1997 Lew 2000 Gruhl et al 2004) et le ldquomo-degravele agrave cascaderdquo qui fixe une probabiliteacute drsquoadoption agrave chaque nouvelle interaction(Goldenberg et al 2001 Kempe et al 2003)
De la mecircme maniegravere que sur les diffeacuterentes topologies de reacuteseaux nous sou-haitons comparer ces modegraveles styliseacutes agrave un comportement reacuteel issu drsquoune mesureempirique Cette fois-ci la topologie du reacuteseau qui supporte la diffusion est fixeacutee nous choisissons le reacuteseau reacuteel (RN) comme topologie de reacutefeacuterence
Pour deacutefinir notre meacutecanisme de transmission ldquoreacuteelrdquo nous nous basons surdes donneacutees empiriques extraites drsquoune analyse de Leskovec et al (2007b) danslaquelle est eacutevalueacutee la probabiliteacute drsquoun comportement drsquoachat en fonction dunombre de recommandations reccedilues par email pour un produit donneacute Nous nousservirons de ldquolrsquoallurerdquo de cette courbe de probabiliteacute drsquoadoption comme drsquounexemple de processus de transmission reacuteel (voir figure 68)
Ces donneacutees empiriques permettent drsquoestimer une fonction de probabiliteacute P (n)
drsquoavoir acheteacute un bien (en lrsquooccurrence un DVD) en fonction du nombre n de re-commandations reccedilues par un individu Sachant que le protocole de mesure estle reacutesultat drsquoune observation finale a posteriori et que lrsquoadoption a pu avoir lieuagrave la suite de chacun des eacuteveacutenements de recommandation nous deacuteduisons la pro-babiliteacute drsquoadoption pour chaque recommandation en appliquant la proceacutedure sui-vante Si on note p(n) la probabiliteacute drsquoadopter immeacutediatement apregraves la negraveme re-commandation nous pouvons eacutecrire
P (n) = 1minusn
prod
i=1
(1minus p(i)) (62)
et nous en deacuteduisons donc que
p(n) =P (nminus 1)minus P (n)
P (nminus 1)minus 1(63)
en faisant lrsquohypothegravese que les probabiliteacute individuelles drsquoadoption p(i) sont indeacute-pendantes les uns des autres (ie la probabiliteacute drsquoadopter apregraves une tentative detransmission ne deacutepend pas du nombre drsquointeractions ayant preacuteceacutedeacutees) Ainsi laprobabiliteacute drsquoadoption pour une negraveme recommandation (qui correspond donc dansnotre cadre agrave une interaction avec un voisin informeacute) vaut p(n)
Les donneacutees de ce type sont encore rares Backstrom et al (2006a) ont eacutegale-ment mesureacute la probabiliteacute de participer agrave une communauteacute de ldquoLivejournalrdquo en
200 Chapitre 6 Du rocircle de la topologie des reacuteseaux sur la diffusion
0 5 10 15 20
10minus4
10minus3
10minus2
10minus1
number of neighbours k who adopted
pro
babilit
yto
adopt
p(k
)
FIGURE 67 Probabiliteacute de mentionner une URL en fonction du nombre de voisins dansle voisinage drsquoun blog lrsquoayant deacutejagrave mentionneacute
fonction du nombre drsquoamis de lrsquoagent consideacutereacute deacutejagrave engageacutes dans celle-ci ou laprobabiliteacute de participer agrave une confeacuterence en fonction du nombre de co-auteurs yparticipant et ont observeacute des courbes de probabiliteacute drsquoadoption similaire
Nous avons essayeacute de calculer le mecircme type de courbe de probabiliteacute drsquoadop-tion agrave partir de notre base de donneacutees sur les blogs politiques ameacutericains Le pro-tocole qui srsquoinspire du travail de Backstrom et al (2006a) est le suivant nous seacutelec-tionnons dans un premier temps un ensemble drsquoURLs U qui correspondent agrave desressources mobiliseacutees dans la blogosphegravere ameacutericaine (le protocole preacutecis est deacutecritchapitre 7) Pour chacune de ces URLs u isin U nous calculons lrsquoeacutetat des blogs (dontlrsquoensemble est deacutesigneacute par B) par rapport agrave cette URL On considegravere qursquoun bloga adopteacute u agrave t srsquoil lrsquoa mentionneacutee dans un de ses billets agrave tprime le t Lrsquoeacutetat drsquoun blogi agrave un moment t donneacute srsquoexprime donc comme un vecteur drsquoeacutetat sur lrsquoensembledes ressources Ut(i) tel que Ut(i u) = 1 ssi i a deacutejagrave adopteacute u agrave t Ut(i u) = 0
dans le cas contraire Agrave chaque pas de temps on mesure eacutegalement pour chaqueblog i et chaque ressource u le nombre de ses voisins κt(i u) ayant deacutejagrave adopteacuteu agrave t Lrsquoeacutevolution temporelle des matrices Ut et κt nous permet de mesurer pourchaque moment t la probabiliteacute moyenne pour un blog drsquoadopter une ressource u
en fonction du nombre κ de voisins la partageant anteacuterieurement 11
11 Cette probabiliteacute est simplement estimeacutee en calculant la proportion sur lrsquoensemble des blogsnrsquoeacutetant pas informeacute agrave t minus 1 (la granulariteacute est le jour) et ayant exactement κ0 voisins ayant deacutejagravementionneacute u agrave t minus 1 du nombre de blogs adoptant u agrave t
pt(u κ0) =|i isin B U(i t minus 1) = 0 κtminus1(i u) = κ0 U(i t) = 1|
|i isin B U(i t minus 1) = 0 κtminus1(i u) = κ0|
Ces probabiliteacutes sont ensuite moyenneacutees sur lrsquoensemble des ressources (on a appliqueacute le calcul agraveenviron 10 000 ressources diffeacuterentes) pour construire des probabiliteacutes drsquoadoption pt indeacutependantesdes ressources La figure 67 repreacutesente la moyenne de ces probabiliteacutes drsquoadoption dans le temps(avec les intervalles de confiance associeacutes) NB Cette courbe agregravege des ressources tregraves partageacutees
63 Rocircle des regravegles de transmission 201
0
005
01
015
02
025
03
035
04
045
0 2 4 6 8 10 12 14 16
Pro
babi
lity
of a
dopt
ion
Number of positive interactions
Empirical ModelThreshold ModelCascade Model
FIGURE 68 Probabiliteacute drsquoadoption P (n) apregraves n eacuteveacutenements de recommandations(Pmax = 04) pour nos trois modegraveles de transmission (empirique agrave seuil ou agrave cascade)Donneacutees empiriques adapteacutees de (Leskovec et al 2007b) avec Pmax = 004
Nous avons repreacutesenteacute la probabiliteacute drsquoadoption en fonction de ce paramegravetre κ
figure 67 Contrairement aux reacutesultats deacutejagrave mentionneacutes et malgreacute le caractegravere assezbruiteacute de la courbe obtenue nous observons une croissance exponentielle (la crois-sance de la probabiliteacute semblant lineacuteaire malgreacute lrsquoeacutechelle logarithmique de lrsquoaxedes ordonneacutees) - avant un aplanissement de la courbe Malgreacute lrsquoallure plutocirct loga-rithmique des probabiliteacutes drsquoadoption observeacutees par Backstrom et al (2006b) lesauteurs notent que celles-ci ont neacuteanmoins des allures leacutegegraverement sigmoiumldales (ldquoS-shapedrdquo) avec une deacuteriveacutee seconde positive pour les premiers κ (κ = 0 ou 1) avantde srsquoinverser Le jeu de donneacutees et le type de donneacutees que nous observons permetpeut-ecirctre drsquoobserver sur une plus grande plage de valeurs et avec une meilleurereacutesolution cet effet drsquoacceacuteleacuteration supralineacuteaire de la probabiliteacute drsquoadoption quipreacutecegravede la phase de saturation au delagrave de laquelle lrsquoaugmentation du nombre devoisins ayant deacutejagrave adopteacute ne modifie quasiment plus la probabiliteacute drsquoadoption
633 Modegraveles de transmission styliseacutes
Nous nous concentrons sur les modegraveles classiques agrave seuil ou agrave cascade Nouschoisissons les paramegravetres de ces modegraveles de sorte que leur probabiliteacute drsquoadoptionP (n) soit la plus proche possible du profil empirique
Dans cette partie nous envisageons eacutegalement des eacutepisodes de diffusion pourlesquels les agents ne sont pas neacutecessairement tous informeacutes Nous bornons doncles probabiliteacutes drsquoadoption agrave une valeur Pmax telle qursquoobserveacutee empiriquement
et drsquoautres qui nrsquoont eacuteteacute adopteacutees que par peu de blogs neacuteanmoins elle semble stable lorsqursquoonne srsquointeacuteresse qursquoagrave une sous-classe de ressources eacutetant in-fine partageacutee par un nombre K de blogspourvu que K soit suffisamment grand
202 Chapitre 6 Du rocircle de la topologie des reacuteseaux sur la diffusion
foralln P (n) le Pmax et existn0 P (n0) = Pmax mdash apregraves un certain nombre drsquointeractionstoute forme drsquoadoption ulteacuterieure est consideacutereacutee comme impossible dans lrsquoeacutetudeoriginale de Leskovec et al (2007b) on obtient Pmax asymp 006
Trois types de comportement de transmission sont donc envisageacutes le modegraveleempirique et les modegraveles agrave seuil et agrave cascade les plus proches pour diffeacuterentesvaleurs de Pmax Pour reacutesumer nous allons comparer la dynamique de diffusionen fonction des hypothegraveses de transmission suivantes
ndash Modegravele reacutealiste (RM) mdash PRM(n) = Pempirical(n) correspond aux observationsempiriques pRM(n) est calculeacute agrave lrsquoaide de lrsquoeacutequation 63
ndash Modegravele agrave seuil (TM) mdash pour ce type de modegravele les agents ne peuvent pasadopter avant un certain nombre drsquointeractions ν (appeleacute le seuil) les agentsadoptent avec une probabiliteacute Pmax au moment de la νme interaction pour n
interactions avec n 6= ν p(n) = 0 if n = ν p(n) = Pmax La probabiliteacute finaledrsquoadoption est donc de la forme
PTM (n) = Pmax middotHν(n)
ougrave Hν est deacutefinie telle que Hν(n) = 1 si n ge ν 0 sinon ndash Modegravele agrave cascade (CM) mdash nous introduisons un modegravele de cascade ldquoborneacuterdquo
dont la probabiliteacute drsquoadoption finale est limiteacutee agrave Pmax de faccedilon agrave modeacute-liser un facteur de saturation (de faccedilon similaire aux modegraveles de cascadesldquodeacutecroissantesrdquo introduites dans la litteacuterature (Kempe et al 2005)) Ainsip(n) = p est la probabiliteacute fixe drsquoadoption agrave chaque interaction mais apregravesun certain nombre drsquointeractions ν p(n) = 0 La probabiliteacute finale drsquoadop-tion est donc de la forme PCM (n) = 1 minus (1 minus p)min(nν) On constate quep = 1 minus (1 minus Pmax)
1ν ainsi Pmax permet de deacutefinir de faccedilon univoque p agravepartir de ν et vice-versa
634 Reacutesultats des simulations
Pour chaque valeur de Pmax nous avons traceacute la valeur moyenne de lrsquoeacutevolutionde ρ sur 50 simulations figure 69 Tous les modegraveles convergent vers un mecircme eacutetatfinal ρ(infin) le Pmax
Nous avons simuleacute les diffeacuterentes regravegles de transmission sur nos reacuteseaux reacuteelspour diffeacuterentes valeurs de Pmax Pour eacutevaluer lrsquoinfluence de ce paramegravetre nouschoisissons les valeurs suivantes Pmax isin 004 04 07 099 Pour construire lameilleure approximation possible des modegraveles TM et CM nous proceacutedons agrave unesimple homotheacutetie des reacutesultats empiriques originaux Nous choisissons ensuite p
et ν pour CM et TM en minimisant la distance quadratique entre le modegravele em-pirique original (RM) et les distributions de la probabiliteacute drsquoadoption totale asso-cieacutee agrave chaque modegravele PTM et PCM sont repreacutesenteacutes figure 68 pour une valeur dePmax = 04
63 Rocircle des regravegles de transmission 203
FIGURE 69 Evolution de ρ pour des hypothegraveses de transmission RM TM et CM pour 4valeurs de Pmax de gauche agrave droite et de haut en bas Pmax = 099 Pmax = 07 Pmax = 04Pmax = 004 Les encarts preacutesentent les comportements asymptotiques
ρ(infin) est naturellement deacutecroissant avec Pmax Les agents ayant une probabi-liteacute maximale drsquoecirctre informeacutes au cours de la simulation (certains agents peuventne jamais entrer en contact avec des voisins informeacutes) on a eacutegalement lrsquoineacutega-liteacute ρ(infin) le (λ + (1minus λ)Pmax) qui devient une eacutegaliteacute pour Pmax = 1
La vitesse de convergence est eacutegalement drsquoautant plus rapide que Pmax aug-mente et ceci indeacutependamment du modegravele de transmission choisi Pour les Pmax
importants le modegravele TM eacutechoue agrave reconstruire de faccedilon satisfaisante la dyna-mique de diffusion reacuteelle (RM) tandis que le modegravele CM srsquoen rapproche plus fidegrave-lement On a repreacutesenteacute figure 610 lrsquoerreur relative entre la dynamique observeacuteeavec lrsquohypothegravese RM TM ou CM (calculeacutee selon la formule ρRMminusρTMρRM etρRMminusρCMρRM respectivement) Lrsquohypothegravese agrave seuil TM a le taux drsquoerreur leplus important pour des valeurs de Pmax importantes tandis que lrsquohypothegravese cas-cade est de plus en plus proche de la reacutealiteacute avec Pmax croissant TM semble neacutean-moins ecirctre la meilleure approximation possible pour Pmax = 004 (qui est prochede la valeur empirique observeacutee dans les donneacutees de Leskovec et al (2007b))
Drsquoautres ameacuteliorations des modegraveles agrave seuil et agrave cascade sont sans doute envi-
204 Chapitre 6 Du rocircle de la topologie des reacuteseaux sur la diffusion
FIGURE 610 Erreurs relatives entre les modegraveles agrave seuil (TM) et agrave cascade (CM) compareacutesau modegravele empirique
sageables 12 mais il pourrait eacutegalement srsquoaveacuterer que certains processus de trans-mission ne puissent pas ecirctre modeacuteliseacutes ni par un modegravele agrave seuil ni un modegravele agravecascade (par exemple les courbes de probabiliteacute drsquoachat de livres P (n) en fonc-tion drsquoun nombre de recommandations n calculeacutees par Leskovec et al (2007b) in-diquent de faccedilon surprenante une deacutecroissance de la probabiliteacute pour des valeursimportantes de n suggeacuterant que lrsquohypothegravese drsquoune succession de probabiliteacute p(n)
ne serait pas pertinente dans ce cadre 13
12 Entre autres possibiliteacutes drsquoameacutelioration on pourrait deacutefinir une probabiliteacute drsquoadoption deacute-croissante avec le nombre drsquointeractions (Kempe et al 2003)) Les modegraveles TM et CM sont sansdoute eacutegalement perfectibles en attribuant respectivement agrave chaque agent ou agrave chaque lien entreagents un seuil ou une probabiliteacute drsquoinfection diffeacuterente comme le suggegravere Valente (1996)
13 il faut neacuteanmoins rester prudent quant agrave ce point les courbes en question agreacutegeant un en-semble de produits et drsquoagents auxquels pourraient simplement correspondre des classes de com-portements contrasteacutes
63 Rocircle des regravegles de transmission 205
Reacutesumeacute du chapitre
Ce chapitre nous a permis agrave lrsquoaide drsquoun protocole de simulation tregraves simple eten comparant systeacutematiquement nos reacutesultats sur une seacuterie de reacuteseaux dontla topologie reproduit un certain nombre de caracteacuteristiques structurelles dedeux reacuteseaux de terrain de mettre en eacutevidence des proprieacuteteacutes topologiquesagrave mecircme drsquoinfluer de maniegravere significative sur la vitesse de diffusion Acontrario des observations classiques dans la litteacuterature la distribution dedegreacute du reacuteseau ne semble avoir qursquoune importance tregraves mineure vis-agrave-visde notre protocole de diffusion La coheacutesion locale ou de faccedilon plus large lastructure naturellement modulaire des reacuteseaux sociaux pourrait jouer un rocircleprimordial
Dans tous les cas de figure quelle que soit la nature du reacuteseau envisageacute(social infrastructure biologique etc) et indeacutependamment de lrsquohypothegravese detransmission retenue on peut srsquoattendre agrave ce que le caractegravere modulaire des reacute-seaux agisse comme un obstacle agrave la diffusion drsquoune entiteacute On pourrait mecircmedire que les reacuteseaux doteacutes drsquoune structure communautaire tendent agrave limiterla diffusion de lrsquoinformation en creacuteant un nombre important de liens ldquoredon-dantsrdquo qui compartimentent les informations Cette redondance peut neacutean-moins srsquoaveacuterer beacuteneacutefique lorsque lrsquoadoption drsquoune information implique unprocessus drsquoeacutevaluation qui peut neacutecessiter un recoupement ou une confiancedans les sources De faccedilon plus geacuteneacuterale les reacutesultats de ce chapitre engagent agraveune certaine prudence et humiliteacute dans la modeacutelisation de reacuteseaux aleacuteatoiresAlors que la grande majoriteacute des eacutetudes drsquoeacutepideacutemiologie ou de diffusion surles reacuteseaux srsquoappuient sur des reacuteseaux styliseacutes on constate que les reacutesultatsdynamiques peuvent diffeacuterer tregraves sensiblement entre des reacuteseaux aleacuteatoiresclassiques et des reacuteseaux reacuteels
CHAPITRE 7
Cascades informationnelles
Sommaire
71 Cascades informationnelles et diffusion 208
711 Jeu de donneacutees empirique 208
712 Distance attentionnelle 209
713 Sous-graphes de diffusion 212
72 Relais drsquoinformation et attention 214
721 Premiegraveres transmissions 214
722 Petits-Fils 215
723 Secondes transmissions et attention 216
73 Courts-circuits informationnels 217
731 Secondes transmissions et edge range 217
732 Effets coupleacutes 219
733 Conclusion 220
Nous avons jusqursquoagrave maintenant abordeacute la question de la diffusion drsquoinfor-mation dans un reacuteseau social en postulant un processus de transmission inter-individuelle ou une topologie a priori Cette approche nous a notamment permisde mettre en eacutevidence un certain nombre de paramegravetres topologiques influenccedilantou non la vitesse de diffusion en fonction drsquoune hypothegravese de transmission don-neacutee
Plus preacuteciseacutement nous avons donc testeacute des modegraveles styliseacutes de reacuteseau ou deprocessus de transmission inter-individuelle en les comparant agrave leur contrepartieldquoreacuteellerdquo Neacuteanmoins nous nrsquoavons pas pu pousser cette comparaison des modegravelesstyliseacutes agrave un pheacutenomegravene de diffusion reacuteel dont (i) on puisse effectuer le recueil lon-gitudinal de lrsquoensemble des eacuteveacutenements de transmission interindividuelle tout en(2) ayant connaissance de la topologie du reacuteseau sous-jacent Agrave notre connaissanceagrave lrsquoexception de (Adar et al 2004a) il nrsquoexiste pas drsquoeacutetudes portant sur un pheacuteno-megravene de diffusion reacuteel avec un suivi exhaustif et longitudinal de la propagationdrsquoune information incluant un releveacute de lrsquoensemble des eacuteveacutenements de transmis-sion doubleacute drsquoune connaissance explicite du reacuteseau social sur lequel se deacuteploie ladiffusion
Or la compreacutehension de tels processus est capitale agrave plusieurs titres Drsquoune partil srsquoagit de mieux saisir la faccedilon dont eacutevolue la distribution des connaissances au
208 Chapitre 7 Cascades informationnelles
sein de ces systegravemes la reprise drsquoune information ou lrsquoimitation drsquoun agent voi-sin eacutetant un moteur essentiel dans la dynamique des communauteacutes de savoirsLa compreacutehension drsquoun processus de diffusion empirique peut eacutegalement eacuteclairersous un autre jour les structures meacutesoscopiques et positions des agents au seindu reacuteseau social Comment lrsquoenvironnement relationnel drsquoun agent le rendra plusou moins exposeacute agrave une information se propageant et comment la position qursquoiloccupe dans le reacuteseau rendra cet agent plus ou moins influent vis-agrave-vis de ses voi-sins Plus geacuteneacuteralement crsquoest la question de la co-eacutevolution des contenus et dela topologie du reacuteseau entre dynamiques sociales et seacutemantiques qui est investi-gueacutee Nous avions une posture macroscopique dans le chapitre preacuteceacutedent et nouseacutetions concentreacutes sur une observable globale du reacuteseau le taux de diffusion nousprivileacutegierons cette fois-ci une approche plus locale fondeacutee sur lrsquoanalyse des com-portements individuels vis-agrave-vis de la diffusion
Pratiquement nous nous inteacuteresserons agrave un processus de diffusion dans la blo-gosphegravere en tachant de suivre la transmission drsquoURLs au sein drsquoun reacuteseau de blogsLes billets produits par les blogueurs contiennent souvent un certain nombre deliens vers des ressources exteacuterieures (une videacuteo une publication heacutebergeacutee par unsite institutionnel etc) Ces ressources srsquoaccompagnent freacutequemment drsquoune reacutefeacute-rence agrave un blog tiers ayant eacutegalement pointeacute vers ces ressources Nous ferons lrsquohy-pothegravese que ces liens de citation permettent de reconstruire le chemin reacuteellementemprunteacute par lrsquoinformation Cette hypothegravese semble raisonnable dans le cas desblogs citoyens ougrave la norme veut que lrsquoon cite ses sources Nous nous appuieronssur deux jeux de donneacutees les eacutechantillons de la blogosphegravere franccedilaise ameacutericainedeacutejagrave preacutesenteacutes dans le chapitre 2 Ce travail sur les cascades informationnelles esten grande partie extrait drsquoune publication avec Camille Roth (Cointet and Roth2009)
71 Cascades informationnelles et diffusion
Dans un premier temps nous introduisons un certain nombre drsquoeacuteleacutements deformalisme et drsquooutils de mesure sur le reacuteseau afin de caracteacuteriser agrave la fois le pheacute-nomegravene de propagation et le reacuteseau social sous-jacent
711 Jeu de donneacutees empirique
Les deux reacuteseaux de blogs que nous eacutetudierons sont constitueacutes de lrsquoensemblede liens dynamiques de citation entre blogs C deacutejagrave introduits dans le chapitre 2Pour rappel on a extrait 11 552 billets dans le cas franccedilais et 71 376 dans le casameacutericain Les blogs franccedilais ont eacuteteacute suivis sur une peacuteriode de 6 mois entre le 1er
janvier 2007 et le 30 juin 2007 les blogs ameacutericains pendant 4 mois du 1er no-vembre 2007 au 29 feacutevrier 2008 Le reacuteseau (B P ) est constitueacute de lrsquoensemble desblogs B (|B| = 120 dans le cas de la blogosphegravere franccedilaise et |B| = 1 066 dans
71 Cascades informationnelles et diffusion 209
le cas de la blogosphegravere ameacutericaine) et de lrsquoensemble des liens de citation da-teacutes entre blogs formaliseacutes gracircce agrave la matrice drsquoadjacence dynamique P Pt(i j) =
1 si le blog i cite le blog j au temps t On srsquoappuiera eacutegalement sur le reacuteseau dy-namique agreacutegeacute lieacute agrave la matrice drsquoadjacence Pt =
sum
tprimelet Ptprime (les variables rendantcompte de lrsquoagreacutegation temporelle sont en gras) qui permet drsquoappreacutecier agrave un tempst donneacute le poids des relations qursquoentretiennent les blogs les uns avec les autres Oncompte 2 229 liens dans le cas franccedilais (dont 850 sont non reacutepeacuteteacutes) et 229 736 dansle cas ameacutericain (pour agrave peine 15 032 liens uniques)
Drsquoautre part on deacutefinit pour chaque jeu de donneacutees lrsquoensemble des URLsmentionneacutees dans lrsquoensemble des billets extraits sur lrsquoensemble de la peacuteriode drsquoob-servation dans les deux reacuteseaux Cet ensemble drsquoURLs est noteacute U On exclut na-turellement de cet ensemble les liens de citation vers des blogs appartenant agrave noseacutechantillons de blogosphegraveres et les URLs comportant moins de 10 caractegraveres Ondeacutenombre respectivement 3 140 et 96 637 URLs dans nos deux systegravemes On deacutefi-nit eacutegalement lrsquoensemble des matrices Ut dont les coordonneacutees Ut(i u) valent 1 sile blog i mentionne la ressource u isin U au temps t 1
Nous deacutefinissons maintenant un certain nombre de mesures sur les nœuds dureacuteseau social agrave mecircme de nous eacuteclairer sur la faccedilon dont certaines caracteacuteristiquesstructurelles des agents peuvent ecirctre lieacutees agrave la dynamique des eacutepisodes de diffu-sion empiriques que nous souhaitons observer
712 Distance attentionnelle
Nous souhaitons deacutecrire les pheacutenomegravenes drsquoinfluence au niveau individuel etnotamment la faccedilon dont certains paramegravetres structurels sont pertinents pour preacute-dire la longeacuteviteacute drsquoun eacutepisode de diffusion transitant agrave travers un nœud donneacute Agravece titre lrsquoattention qursquoexerce un blog sur son environnement nous paraicirct crucialepour comprendre les dynamiques drsquoinfluence
Etant donneacute le reacuteseau agreacutegeacute Pt on deacutefinit lrsquoattention a en normalisant chaquecolonne de Pt selon la formule suivante
at(i j) =Pt(i j)
sum|B|j=1 Pt(i j)
Lrsquoattention at(i j) drsquoun blog i vis-agrave-vis drsquoun blog j est donc simplement deacutefinieau temps t comme la proportion de liens de i vers j parmi tous les liens sortantsde i observeacutes jusqursquoagrave t Lrsquoattention permet de quantifier ldquolrsquoimportancerdquo de j pouri indeacutependamment du profil drsquoactiviteacute de i (la distribution des degreacutes sortantseacutetant fortement heacuteteacuterogegravene une mesure brute du nombre de liens sortants auraittendance agrave rendre incommensurable les attentions de deux blogs drsquoactiviteacute tregraves
1 Ce sont ces donneacutees relationnelles et drsquousage Ut et Pt qui ont servi dans le chapitre 6paragraphe 632 agrave calculer les probabiliteacute drsquoadoption drsquoune URL en fonction de sa preacutesence dans levoisinage drsquoun blog
210 Chapitre 7 Cascades informationnelles
d
b
c
a
1
3 2
2
1
3
f
e
3
2
2
1
1
1
1
d
b
c
a
16
34 23
26
15
36
f
e
35
23
22
13
14
13
15
d
b
c
a
6
43 32
3
5
2
f
e
53
32
1
3
4
3
5
Attention a Deacutetachement d
FIGURE 71 Agrave gauche Un exemple de reacuteseau de citation pondeacutereacute P (on a omis la deacutepen-dance temporelle par souci de clarteacute) les poids des liens correspondent simplement aunombre de liens produits entre deux blogs au temps t Au centre et agrave gauche les liens sontrespectivement eacutetiqueteacutes par les valeurs drsquoattention et de deacutetachement correspondantesPar exemple le blog b a citeacute c deux fois sur un total de 1 + 2 + 3 = 6 liens de citationson attention vis-agrave-vis de c est donc a(b c) = 2
6 le deacutetachement d(b c) est eacutegal agrave lrsquoinverse delrsquoattention entre b et c soit 3 Lrsquoattention totale α(c) exerceacutee par la blog c agregravege lrsquoensembledes attentions des blogs b a d e et f vis-agrave-vis de c et vaut 245 La distance attention-nelle entre les blogs b et c correspond au chemin de distance minimale dans le reacuteseau dedeacutetachement ainsi part(b e) = d(b d) + d(d e) = 11
3
diffeacuterente) Une valeur importante de lrsquoattention de i vis-agrave-vis de j indique quej focalise une grande part de lrsquoattention de i Une notion similaire la ldquomatricedrsquoinfluencerdquo a reacutecemment eacuteteacute introduite par Java et al (2006)
On peut eacutegalement deacutefinir lrsquoattention totale exerceacutee par un blog j comme lasomme des attentions qursquoil exerce sur lrsquoensemble des blogs
αt(j) =sum
i
at(i j)
Nous deacutefinissons maintenant la notion inverse de lrsquoattention que nous appel-lerons deacutetachement en consideacuterant simplement les valeurs inverses de a On peutinterpregraveter le deacutetachement dt(i j) de i vis-agrave-vis de j comme le coucirct relatif agrave la cir-culation drsquoune information de i vers j Par convention le deacutetachement entre deuxblogs non connecteacutes vaut lrsquoinfini Ces mesures de deacutetachement nous permettent deconstruire le graphe de deacutetachement dont les blogs constituent les nœuds et dontles liens (i j) sont pondeacutereacutes par les valeurs de deacutetachement dt(i j)
Enfin nous deacutefinissons la notion de distance de deacutetachement comme la dis-tance minimale (que lrsquoon calcule avec lrsquoalgorithme de dijkstra (Dijkstra 1959))
71 Cascades informationnelles et diffusion 211
d
b
c
a
6
43 32
5
2
f
e
53
32
1
3
4
3
5
FIGURE 72 Calcul du ldquoedge-rangerdquo pour calculer lrsquoedge-range r(b c) on supprime drsquoabordle lien de b vers c avant de calculer le chemin de coucirct minimum entre b et c en utilisantles valeurs de deacutetachement d comme poids sur les arecirctes du graphe P Sur cet exemple lechemin (bminusdminuseminusc) a une distance r(b c) = 31
6 Des chemins avec moins drsquointermeacutediairescomme (bminus aminus c) ont en fait un coucirct attentionnel plus grand (distance 10 dans ce cas)
dans le graphe de deacutetachement On note partt(i j) cette distance on peut lrsquointerpreacute-ter comme une mesure drsquoeacuteloignement au sens attentionnel entre deux blogs i et jUne distance attentionnelle importante entre deux blogs signifie que le coucirct neacuteces-saire pour faire transiter une information drsquoun blog agrave un autre est important Ellepeut-ecirctre consideacutereacutee comme une forme de quantification drsquoun ldquotempsrdquo caracteacuteris-tique neacutecessaire au transit drsquoune information drsquoun bog agrave un autre La figure 71illustre par un exemple lrsquoensemble des mesures introduites attention (a) atten-tion total (α) deacutetachement (d) et enfin distance attentionnelle (part)
ldquoEdge-rangerdquo distance La notion drsquoedge range a eacuteteacute introduite par Watts (1999)pour un lien (i j) comme la distance entre deux nœuds i et j apregraves suppressiondu lien entre i et j Elle a notamment eacuteteacute utiliseacutee reacutecemment dans des eacutetudes dediffusion par Kossinets et al (2008)
Nous eacutetendons cette notion au cas drsquoun graphe pondeacutereacute dont les poids sontconstitueacutes par les valeurs de deacutetachement Formellement nous deacutefinissons lrsquoedge-range pondeacutereacute r(i j) du lien (i j) comme la distance pondeacutereacutee minimale dans legraphe de deacutetachement dont le lien (i j) a eacuteteacute supprimeacute (ou de faccedilon eacutequivalenteen remplaccedilant la valeur dt(i j) par infin) En drsquoautres termes crsquoest la somme mini-male des valeurs de deacutetachement le long du plus court chemin indirect de i vers jcrsquoest agrave dire lrsquoattention totale requise pour faire transiter une information de j versi si le lien de i vers j eacutetait omis (la circulation de lrsquoinformation ldquoremonterdquo les liens
212 Chapitre 7 Cascades informationnelles
f
b
c
a
1802
1902
2202
2202
2402
d
e
2302
2402
FIGURE 73 Illustration drsquoun sous-graphe de diffusion σu0 Les eacutetiquettes temporelles in-
diquent la date agrave laquelle les blogs ont simultaneacutement mentionneacute u0 et citeacute un blog de Bayant deacutejagrave mentionneacute u0 NB Les sous-graphes de diffusion ne forment pas neacutecessaire-ment un arbre comme en atteste le blog f sur cet exemple qui cite simultaneacutement c et e
comme sources
de citation) Naturellement lrsquoedge-range pondeacutereacute r(i j) nrsquoest deacutefini que sur lrsquoen-semble des paires de nœuds (i j) deacutejagrave connecteacutees dans P ie telles que P(i j) gt 0Un exemple de calcul de r(i j) est preacutesenteacute figure 72
Lrsquoensemble de ces mesures sur nos reacuteseaux de blogs est par la suite consideacutereacuteen tenant compte de la totaliteacute des citations creacuteeacutees sur lrsquointeacutegraliteacute de la peacuteriodedrsquoobservation ie agrave tf = 181 pour la blogosphegravere politique franccedilaise et agrave tf = 121
dans le cas de la blogosphegravere ameacutericaine Par la suite on notera donc nos mesuresans mentionner le paramegravetre temporel Ainsi r(i j) = rtf (i j) et α(i) = αtf (i)
713 Sous-graphes de diffusion
Nous nous concentrons sur les eacutepisodes de diffusion lieacutes agrave une ressource miseen circulation au sein drsquoun reacuteseau social Nous introduisons la notion de sous-graphe de diffusion pour deacutefinir les motifs creacuteeacutes par la circulation de ressourcesUn sous-graphe de diffusion regroupe lrsquoensemble des agents ayant mentionneacute uneressource donneacutee - une URL dans un billet - et eacutetant relieacutes les uns aux autres autravers de lrsquoensemble des liens dirigeacutes (i j) tels que i a mentionneacute dans un mecircmebillet la ressource en question et citeacute un agent j ayant mentionneacute la ressource an-teacuterieurement
La figure 73 propose un exemple de sous-graphe de diffusion Dans cetexemple une URL u0 est en premier lieu mentionneacutee par le blog a le 18 feacutevrierElle est ensuite mentionneacutee par b le 19 feacutevrier qui cite a concomitamment u0 dif-fuse ensuite vers d depuis b et vers c depuis a le 22 feacutevrier etc
Plus formellement eacutetant donneacutee une ressource u isin U on deacutefinit le sous-graphede diffusion de u σu isin P(B)times P(B times B) comme la combinaison
71 Cascades informationnelles et diffusion 213
Blogosphegravere franccedilaise Blogosphegravere ameacutericaine
100
101
100
101
102
103
size of diffusion subgraphs
num
ber
of
diff
usi
on
subgra
phs
linksnodes
100
101
102
100
101
102
103
104
size of diffusion subgraphs
num
ber
of
diff
usi
on
subgra
phs
linksnodes
FIGURE 74 Distributions des tailles des sous-graphes de diffusion en nombre de nœuds(carreacutes rouges) et en nombre de liens (triangles bleus) dans nos deux cas drsquoeacutetude
ndash des agents mentionnant u
ndash des liens dirigeacutes (i j) dans P tels que i cite simultaneacutement j et u dans unmecircme billet apregraves que j a citeacute u
On peut eacutegalement eacutecrire que les sous-graphes de diffusion σu sont constitueacutesde lrsquoensemble des liens dirigeacutes (i j) et des nœuds associeacutes tels que
ndash Pt(i j) gt Ptminus1(i j) (ie il existe un nouveau lien dans Pt de i vers j au tempst)
ndash Ut(i u)=1 (i mentionne la ressource u au temps t)ndash existtprime le t Utprime(j u) = 1 (j a mentionneacute u anteacuterieurement)Un sous-graphe de diffusion est consideacutereacute comme trivial srsquoil ne contient aucun
lien ie si la ressource correspondante nrsquoest impliqueacutee dans aucun eacuteveacutenement detransmission explicite entre deux agents Sur les 3 140 URLs de la blogosphegraverefranccedilaise seules 381 correspondent agrave des sous-graphes de diffusion non-triviauxDans le cas de la blogosphegravere ameacutericaine ces chiffres sont naturellement plus eacutele-veacutes on deacutenombre 11 709 sous-graphes de diffusion non triviaux diffeacuterents soiteacutegalement un peu plus de 10 des ressources deacutenombreacutees Dans la suite nousnous concentrerons uniquement sur lrsquoensemble des sous-graphes non triviaux
Nous avons repreacutesenteacute la distribution des tailles de lrsquoensemble des sous-graphes de diffusion figure 74 Les distributions de taille sont sensiblement heacute-teacuterogegravenes aussi bien en terme de nombre de liens que de nombre de nœuds Cetteobservation est coheacuterente avec lrsquoobservation faite sur la distribution des tailles decascades par Leskovec et al (2007a) mecircme si la deacutefinition des cascades adopteacuteepar ces auteurs est tregraves diffeacuterente de la nocirctre 2 La majoriteacute des sous-graphes ne
2 Dans ces travaux les cascades sont des sous-graphes du reacuteseau de billets indeacutependamment de
214 Chapitre 7 Cascades informationnelles
contient donc qursquoun unique eacuteveacutenement de transmission sur un total de 631 (respec-tivement 39 540) eacuteveacutenements de transmissions Ces sous-graphes les plus simplesrepreacutesentent environ 14 (resp 16) du nombre total de liens de transmission ob-serveacutes dans nos deux systegravemes (blogosphegravere franccedilaise et ameacutericaine)
72 Relais drsquoinformation et attention
La capaciteacute drsquoun blog agrave ecirctre une source de diffusion privileacutegieacutee est souventconsideacutereacutee comme directement lieacutee agrave la quantiteacute de ses liens entrants (Gill 2004Java et al 2006) les blogueurs ayant la plus large audience eacutetant consideacutereacutescomme les plus influents Cette hypothegravese peut ecirctre simplement veacuterifieacutee en exa-minant la correacutelation existante entre la tendance drsquoun blog agrave accaparer lrsquoattentionde blogs tiers et sa capaciteacute de diffusion reacuteelle
721 Premiegraveres transmissions
Dans une premiegravere approche nous eacutevaluons la correacutelation entre lrsquoattention to-tale drsquoun blogueur et les eacuteveacutenements de transmission qursquoil geacutenegravere La figure 75(courbes rouges) repreacutesente la distribution du nombre moyen de transmissionsprovenant drsquoun blog ayant une attention totale α donneacutee dans le reacuteseau de cita-tion 3
On observe que les valeurs associeacutees agrave de forts α sont effectivement correacuteleacuteesavec un plus grand nombre drsquoeacuteveacutenements de transmission
Cette observation peut paraicirctre tautologique mdash les liens de transmission consti-tuant par nature un sous-ensemble du reacuteseau de citation Neacutenamoins cette obser-vation reste stable si lrsquoon calcule les attentions sur le reacuteseau des commentaires oude blogroll de la blogosphegravere franccedilaise ce qui indiquerait que ce sont bien deseffets drsquoaudience qui induisent cette correacutelation les blogs plus ldquoinfluentsrdquo sontbasiquement ceux ayant un lectorat actif plus eacutetendu
La notion de lectorat actif qui est lieacutee agrave la reacutegulariteacute des relations entre blogspourrait bien ecirctre deacutecisive ici lrsquoaudience brute drsquoun site (en terme de lecteurs blo-gueurs et non blogueurs ou plus simplement en nombre de ldquohitsrdquo soit le nombrede visiteurs drsquoun site) nrsquoeacutetant pas neacutecessairement une mesure fiable de son in-fluence Ainsi Iribarren and Moro (2007) suggegraverent drsquoapregraves des donneacutees de diffu-sion lieacutees agrave la recommandation drsquoun produit que le nombre de recommandations
toute transmission de ressource3 Bien que non preacutesenteacutees ici nous avons observeacute des correacutelation similaires entre le nombre de
liens de transmissions induits et une mesure drsquoaudience au sens large mesureacutee directement par lenombre de liens entrants dans lrsquoensemble des reacuteseaux Nous consideacuterons cependant que lrsquo attentiontotale mesure plus preacuteciseacutement les effets drsquoaudience car elle est baseacutee sur les profils attentionels desindividus qui permettent de remplacer le nombre de liens reccedilus par un blog par lrsquo importance relativeqursquoil repreacutesente pour les blogueurs srsquoy reacutefeacuterant
72 Relais drsquoinformation et attention 215
Blogosphegravere franccedilaise Blogosphegravere ameacutericaine
10minus1
100
101
10minus1
100
101
102
Total Attention α
Num
ber
of
transm
issi
ons
10minus2
10minus1
100
101
102
10minus1
100
101
102
Total Attention α
Num
ber
of
tranm
issi
ons
FIGURE 75 Nombres moyens de premiegraveres (points rouge) et secondes (points bleus)transmissions initieacutees par un blog drsquoattention totale α accompagneacutes par leurs intervallesde confiance respectifs (NB les distributions ont eacuteteacute traceacutees avec une eacutechelle logarith-mique et en utilisant respectivement 4 et 8 quantiles des valeurs de α compte tenu delrsquoheacuteteacuterogeacuteneacuteiteacute de leur distribution)
envoyeacutees par un individu agrave son entourage nrsquoest pas neacutecessairement lieacutee au nombrede ses contacts Friggeri et al (2009) preacutesentent des donneacutees de diffusion drsquouneapplet sur le web qui montrent lrsquoabsence de correacutelation entre la capaciteacute de trans-mission drsquoun site (nombre de transmissions effectives de lrsquoapplet depuis ce site) etson audience mesureacutee comme un nombre de hits sur sa page De faccedilon connexeLento et al (2006) insistent dans une eacutetude sur des communauteacutes de blogueursheacutebergeacutes sur une plateforme drsquoeacutedition de blogs (Wallop) sur la nature des liensqui lient les nouveaux arrivants aux anciens utilisateurs ainsi le nombre de lienssemble moins deacuteterminant pour preacutedire lrsquoactiviteacute futur drsquoun utilisateur que sondegreacute drsquoengagement dans la communauteacute mesureacute agrave travers la force des liens (ausens ougrave ils sont reacutepeacuteteacutes et symeacutetriques) qursquoil entretient avec drsquoautres utilisateursactifs
722 Petits-Fils
Si les blogs les plus lus induisent un plus grand nombre drsquoeacuteveacutenements de trans-mission nous restons toujours ignorants quant agrave la structure des sous-graphes dediffusion au delagrave drsquoune perspective purement locale Nous abordons maintenantune autre caracteacuterisation de plus longue porteacutee de ces sous-graphes agrave savoir lenombre de petits-fils Plus preacuteciseacutement nous aimerions savoir si une informationtransmise agrave partir drsquoun blog et transitant par un relais aura plus ou moins ten-dance agrave ecirctre agrave nouveau ldquodiffuseacuteerdquo en fonction de paramegravetres structurels lieacutes aublog agrave lrsquoorigine du premier lien de transmission Autrement dit eacutetant donneacute unblog i nous cherchons agrave deacuteterminer si certaines caracteacuteristiques topologiques por-tant sur i sont agrave mecircme drsquoinduire un nombre plus ou moins eacuteleveacute drsquoeacuteveacutenementsdits de ldquosecondes transmissionsrdquo soit de motifs du type i larr j larr k dans les sous-
216 Chapitre 7 Cascades informationnelles
Blogosphegravere franccedilaise Blogosphegravere ameacutericaine
0 2 4 6 810
0
101
102
103
r2 = 2nd transmissions number
card
(r2)
0 2 4 6 8 10 1210
0
101
102
103
104
105
r2 = 2nd transmissions number
card
(r2)
FIGURE 76 Distribution du nombre 2 de petits-fils associeacutes agrave chaque transmission
graphes de diffusion (comme le triplet a larr b larr d a larr c larr f ou a larr c larr e surnotre exemple figure 73)
Les destinataires de la ressource agrave distance 2 seront appeleacutes les petits-fils dublog source i (toujours dans notre exemple d e et f sont les petit-fils de a) La dis-tribution du nombre moyen de secondes transmissions provoqueacutees agrave la suite dechaque eacuteveacutenement de transmission noteacute r2 est repreacutesenteacutee figure 76 (dans notreexemple lrsquoeacuteveacutenement de transmission alarr b induit un petit-fils d soit un r2 de 1 latransmission alarr c induit deux petits-fils r2 = 2) Cette distribution est fortementdeacutecroissante (apparemment exponentiellement dans le cas de la blogosphegravere ameacute-ricaine les donneacutees sont trop bruiteacutees dans le cas de la blogosphegravere franccedilaise pourpouvoir conclure) on constate que plus de la moitieacute des eacuteveacutenements de transmis-sion sont sans suite (pourtant les sous-graphes de diffusion avec un seul lien mecircmesrsquoils sont majoritaires dans la population des sous-graphes repreacutesentent agrave peine 15
du total des liens de transmissions) ce qui semble indiquer que les sous-graphes dediffusion sont de faible longueur 4 Contrairement agrave Leskovec et al (2007ba) nousne nous inteacuteressons pas ici agrave la topologie preacutecise de ces cascades de diffusion maisbien agrave la mesure et la compreacutehension de lrsquoinfluence locale exerceacutee par les blogs surleur environnement
723 Secondes transmissions et attention
Pour appreacutehender cette influence agrave plus longue distance nous avons calculeacutele nombre total de petits-fils ldquocontamineacutesrdquo par une ressource provenant drsquoun blogdoteacute drsquoune attention totale α donneacutee La distribution de cette observable en fonc-tion de lrsquoattention totale des blogs est traceacutee figure 75 (courbes bleues) Les reacutesul-tats sont extrecircmement bruiteacutes pour la blogosphegravere franccedilaise Neacuteanmoins nous nenotons pas de variation significative entre la distribution du nombre de ldquofilsrdquo (pre-
4 Les sous-graphes de diffusion nrsquoeacutetant pas des arbres mais des graphes orienteacutes acycliques ilserait plus correct de parler drsquoun faible diamegravetre
73 Courts-circuits informationnels 217
miegraveres transmissions en rouge) et la distribution de ldquopetits-filsrdquo Dans les deuxcas nous observons une augmentation meacutecanique du nombre de descendants enfonction de lrsquoattention totale du blog sans que le passage drsquoune geacuteneacuteration agrave lrsquoautrene montre que lrsquoattention totale α du blog source joue un rocircle particulier sur lessecondes transmissions
73 Courts-circuits informationnels
Des mesures purement locales semblent peu propices pour nous eacuteclairer surla dynamique globale des cascades informationnelles Quels paramegravetres topolo-giques sont agrave mecircme drsquoexpliquer qursquoune information se propagera agrave plus ou moinslongue distance dans un environnement donneacute Existe-t-il des deacuteterminants struc-turels propres au reacuteseau qui augmentent localement la probabiliteacute drsquoune infor-mation agrave ecirctre reprise par la suite Pour aller au-delagrave de la caracteacuterisation drsquoeffetssimplement lieacutes agrave lrsquoaudience ou au lectorat drsquoun blog nous nous sommes pencheacutessur la faccedilon dont certaines proprieacuteteacutes dyadiques telles que le edge range pouvaientecirctre correacuteleacutees agrave la probabiliteacute de relayer une information Nous nous concentre-rons donc sur les ldquosecondes transmissionsrdquo dans les sous-graphes de diffusionPour rappel les secondes transmissions correspondent aux transmissions depuis unblog qui est deacutejagrave un relais pour une ressource Autrement dit les secondes trans-missions sont lieacutees agrave la longeacuteviteacute drsquoun eacutepisode de diffusion La question que nousposons est la suivante une fois une ressource transmise drsquoun blog source agrave unblog relais comment se poursuit la diffusion de la ressource dans la blogosphegraveredepuis ce blog relais
Nous utilisons notre mesure drsquoedge-range pour caracteacuteriser la nature du premierlien de transmission entre le blog source et le blog relais Une valeur drsquoedge-rangeimportante met en contact deux blogs qui seraient tregraves distants en terme de tempsde circulation de lrsquoinformation si ce lien eacutetait absent Un edge-range important si-gnale donc un lien faible (Granovetter 1973) au sens ougrave il joue le rocircle drsquoun raccourciinformationnel entre deux zones du reacuteseau relativement deacuteconnecteacutees
731 Secondes transmissions et edge range
Nous souhaitons veacuterifier lrsquohypothegravese selon laquelle une information transitantagrave travers un lien faible pourrait se propager agrave plus de blogs par la suite le lienfaible faisant figure de raccourci informationnel Pour tester cette hypothegravese nousmesurons le nombre de liens de transmission dans chaque sous-graphe de dif-fusion en fonction du edge-range du lien par lequel la ressource a initialementtransiteacute Autrement dit eacutetant donneacute un blog i qui participe agrave un sous-graphe σu
(on appellera i lrsquoinitiateur) un second blog j isin σu qui cite lrsquoinitiateur i tout enmentionnant u (j joue le rocircle du blog relais) on examine alors le nombre de blogs
218 Chapitre 7 Cascades informationnelles
Blogosphegravere franccedilaise Blogosphegravere ameacutericaine
0 10 20 30 400
01
02
03
04
05
06
07
edge range r
Mea
nnu
mbe
rof
2nd
tran
smis
sion
s
0 20 40 60 80 1000
02
04
06
08
1
edge range r
Mea
nnu
mbe
rof
2nd
tran
smis
sion
s
FIGURE 77 Nombre moyen de secondes transmissions (k j) en fonction de la valeurdrsquoedge range pondeacutereacute r(j i) de la premiegravere transmission Pour pallier le manque de don-neacutees nous avons diviseacute les diffeacuterentes valeurs de r en 6 quantiles pour les deux reacuteseaux
k dans σu tel que (k j) isin σu en fonction de la faiblesse du lien entre le blog re-lais et lrsquoinitiateur r(j i) Ainsi et toujours en suivant notre exemple figure 73 oncherche agrave correacuteler le nombre de petits fils induits par a agrave travers les blogs relais b
et c (respectivement r2 = 1 et r2 = 2) aux valeurs drsquoedge-range respectives r(b a)
et r(c a)
On a repreacutesenteacute figure 77 le nombre moyen de secondes transmissions in-duites par une information ayant transiteacute par un lien drsquoun edge-range donneacute (lesvaleurs de r ont eacuteteacute regroupeacutees en 6 quantiles) Les intervalles de confiance ob-tenus dans le cas de la blogosphegravere franccedilaise rendent deacutelicate toute interpreacuteta-tion deacutefinitive mais les reacutesultats sont plus concluants concernant notre second jeude donneacutees Les ressources ayant transiteacute agrave travers des liens dont les r sont plusimportants tendent agrave diffuser vers un nombre plus grand de petits-fils Les liensfaibles agiraient ainsi comme des catalyseurs pour la diffusion Neacuteanmoins cetteobservation doit ecirctre nuanceacutee pour les tregraves fortes valeurs de edge-range pour les-quelles on constate un deacutecrochage du nombre de secondes transmissions 5
Ce reacutesultat est eacutegalement coheacuterent avec le fait qursquoune information qui transitepar un lien fort entre un blog i et j (r(j i) faible) a eacutegalement de fortes chancesdrsquoecirctre directement et rapidement accessible agrave des blogs tiers dans le voisinage im-meacutediat de j (qui ont une forte probabiliteacute drsquoappartenir eacutegalement au voisinage dei) directement agrave la source i Le ldquocoucirct de circulation de lrsquoinformationrdquo pour desvoisins de j est clairement supeacuterieur dans le cas ougrave celle-ci a emprunteacute un lienfaible car les blogs agrave mecircme de propager lrsquoinformation dans le voisinage de j sontalors plus distants de i Le blog j a ainsi produit un court-circuit informationnelentre ses voisins et i La notion de court-circuit informationnel peut eacutegalement ecirctre
5 Les ressources ayant eacuteteacute relayeacutees agrave travers un lien particuliegraverement faible pourraient manquerde pertinence dans lrsquoenvironnement relationnel et theacutematique du blog relais
73 Courts-circuits informationnels 219
rapprocheacutee du concept de trous structuraux (Burt 1992) Dans cette perspectivele capital social drsquoun agent nrsquoest pas mesureacute agrave lrsquoaune du nombre de ses relationsmais en fonction de sa capaciteacute agrave creacuteer des ponts de part et drsquoautre de trous struc-turaux Cette theacuteorie recoupe eacutegalement le concept drsquointermeacutediariteacute deacuteveloppeacute parFreeman (1979) visant agrave mesurer la capaciteacute drsquoun agent dans une position cleacute agraveconstituer un point de passage obligeacute pour lrsquoensemble des chemins drsquoun reacuteseauDe nombreuses eacutetudes empiriques ont montreacute lrsquoimportance de cette notion rocircledes liens faibles pour trouver un travail (Granovetter 1973) analyse de lrsquoaccroisse-ment de lrsquoinfluence et de la centraliteacute de la famille Meacutedicis agrave travers une ldquostrateacutegierdquosysteacutematique drsquooccupation des trous structuraux gracircce aux mariages (Padgett andAnsell 1993) creacuteativiteacute accrue de managers en situation drsquointermeacutediaires (broke-rage) entre plusieurs groupes dans une compagnie drsquoeacutelectronique (Burt 2004) etc
Ici nous pouvons donner une mesure quantitative de lrsquoavantage pour un blogdrsquoecirctre connecteacute agrave un blog par un lien faible (ou suffisamment faible ie un lienmoyen) Les ressources transitant par ce type de lien ont tendance agrave ecirctre plus sou-vent reprises par des blogs tiers et augmentent ce faisant lrsquoinfluence du blog re-lais
732 Effets coupleacutes
Nous avons mis en eacutevidence le rocircle de lrsquoattention totale dans la production deliens de transmissions et avons constateacute qursquoune information ayant preacutealablementtransiteacute via un ldquolien moyenrdquo avait plus de chance de se propager (drsquoun facteursupeacuterieur agrave 2 lorsqursquoon compare dans le cas de la blogosphegravere ameacutericaine lesdeux configurations ldquoextrecircmesrdquo suivantes r lt 20 ou r asymp 40)
Nous pouvons illustrer les effets combineacutes de α et r en repreacutesentant figure 78le nombre moyen de secondes transmissions observeacutees en fonction de la valeurdrsquoedge-range r de la premiegravere transmission et de lrsquoattention α du blog relais Cescourbes montrent agrave nouveau lrsquoimportance de lrsquoattention totale drsquoun blog vis-agrave-visde son influence Nous observons eacutegalement que le edge range peut tregraves sensible-ment catalyser ou contrecarrer lrsquoeffet de lrsquoattention du blog relais en augmentantsensiblement le nombre de petits-fils apregraves qursquoune information a transiteacute agrave traversun ldquolien moyenrdquo
Si lrsquoinfluence drsquoun agent peut reacuteellement ecirctre mesureacutee agrave travers le nombre detransmissions dont il est la source alors on peut conclure au regard de cette der-niegravere figure (et principalement agrave lrsquoaide du profil de la blogosophegravere ameacutericaine)que lrsquoinfluence drsquoun blog est agrave la fois fonction de lrsquoattention qursquoil suscite dans sonenvironnement - simple capital social agreacutegeacute - et de sa capaciteacute agrave servir de relaisdrsquoinformation entre des zones relativement eacuteloigneacutees du reacuteseau Cette derniegravere ca-racteacuterisation de lrsquoinfluence nous rapproche de la vison du capital social de Burt(2000 2004) Nous avions eacutegalement deacutejagrave signaleacute dans le chapitre preacuteceacutedent lapertinence de la notion connexe de liens faibles dans la compreacutehension de la dy-
220 Chapitre 7 Cascades informationnelles
Blogosphegravere franccedilaise Blogosphegravere ameacutericaine
1011
1013
1015
1001
1003
1005
1007
10minus3
10minus2
10minus1
100
edge range rtotal Attention α
Num
ber
of
2n
dtr
ansm
issi
ons
1013
1015
1017
1019
100
101
102
10minus08
10minus06
10minus04
10minus02
100
1002
edge range rtotal Attention α
Num
ber
of
2n
dtr
ansm
issi
ons
FIGURE 78 Nombre moyen de secondes transmissions j larr k en fonction de la valeurdrsquoedge-range r(j i) de la premiegravere transmission et de lrsquoattention du blog relais α(j) Lesvaleurs de α et de r correspondent agrave nouveau aux quantiles de leur distribution respective
namique drsquoune diffusion sur un reacuteseau social (section 621)
733 Conclusion
Nous avons montreacute comment la circulation drsquoinformation pouvait ecirctre affecteacuteepar des paramegravetres locaux (microscopiques) du reacuteseau social supportant la diffu-sion au niveau eacutego-centreacute lrsquoattention totale qursquoexerce un blog sur son environne-ment augmente son influence Identifier les blogs les plus influents est notammentune question strateacutegique pour le marketing viral dont lrsquoapproche classique (large-ment heacuteriteacute du ldquo2-step flow modelrdquo de Katz and Lazarsfeld (1955) consiste agrave ciblerdes ldquoleaders drsquoopinionrdquo censeacutes relayer le message initial au plus grand nombre)Cette vision a eacuteteacute fortement critiqueacutee notamment par Watts and Dodds (2007) carelle met uniquement en exergue le deacutebut du pheacutenomegravene complexe que consti-tue le processus diffusion Ainsi drsquoautres proprieacuteteacutes mesureacutees agrave un niveau moinseacutegocentreacute et tenant compte de la structure environnante du reacuteseau et des trans-missions ulteacuterieures telles que la correacutelation apparente entre edge-range et se-condes transmissions offrent une illustration quantitative de la capaciteacute des ldquoliensmoyensrdquo agrave significativement augmenter les capaciteacutes de diffusion drsquoune ressourcedans ces communauteacutes en ligne Lrsquoinfluence drsquoun blogueur ne peut donc pas ecirctrereacuteduite agrave son audience active la structure du reacuteseau lrsquoenvironnant et mecircme lrsquoori-gine des informations qursquoil veacutehicule semblent avoir un effet tout aussi capital sursa capaciteacute drsquoinfluence
Au delagrave de la caracteacuterisation plus ou moins complexe de lrsquoinfluence des blogsen fonction de proprieacuteteacutes structurelles nous avons laisseacute de cocircteacute une questionprimordiale dans la compreacutehension de ces dynamiques drsquoinfluence la coeacutevolu-tion entre la structure du reacuteseau social et les motifs drsquoinfluence entre blogs Nous
73 Courts-circuits informationnels 221
avons en premiegravere approximation dans cette eacutetude mesureacute lrsquoensemble des pro-prieacuteteacutes structurelles des agents en fonction drsquoun reacuteseau agreacutegeacute sur lrsquoensemble dela peacuteriode drsquoobservation Pourtant ce reacuteseau est dynamique les eacutepisodes de diffu-sion font par nature eacutevoluer le reacuteseau social des blogs Diffusion et dynamique dureacuteseau sont en quelque sorte co-constitutifs il faudrait degraves lors eacutetudier non seule-ment la faccedilon dont lrsquoinfluence drsquoun acteur sur son environnement eacutevolue dansle temps en fonction de la dynamique du reacuteseau mais aussi la faccedilon dont cetteinfluence est susceptible de deacuteformer agrave plus ou moins longue distance le reacuteseauautour de cet acteur
Nous pouvons eacutegalement nous interroger sur la stabiliteacute de ces reacutesultats enfonction du type de reacuteseau sur lequel la diffusion se deacuteroule ainsi qursquoen fonctiondu type de ressource qui y transite Nous nous attendons agrave observer une certainesvariabiliteacute dans les comportements individuels selon que lrsquoon observe la diffusiondrsquoune recommandation drsquoune innovation ou mecircme drsquoune nouvelle Certains pro-prieacuteteacutes structurelles des reacuteseaux sociaux pourraient donc srsquoaveacuterer plus ou moinsldquopropicesrdquo en fonction du type de diffusion et un agent influent vis-agrave-vis drsquounecateacutegorie pourrait srsquoaveacuterer peu influent vis-agrave-vis drsquoune autre
On peut eacutegalement srsquointerroger sur le rocircle des processus de diffusion dans lacirculation drsquoideacutees et de concepts en Science Malheureusement comme on lrsquoa deacutejagravesignaleacute les reacuteseaux sociaux que lrsquoon peut reconstruire agrave partir de lrsquoactiviteacute scienti-fique sont relativement pauvres on ne peut pour lrsquoinstant que reconstruire desreacuteseaux de collaboration ou des reacuteseaux de citation qui ne traduisent pas lrsquoen-semble des influences intellectuelles auxquelles les scientifiques sont soumis (quipeuvent transiter via des lectures des confeacuterences auxquelles les chercheurs parti-cipent etc) Et mecircme si nous consideacuterons ce type de reacuteseau sans doute lacunairedeux obstacles importants se dressent pour deacutefinir des protocoles expeacuterimentauxsusceptibles de retracer des eacutepisodes de diffusion empiriques tels que nous lesavons observeacutes dans la blogosphegravere
Drsquoune part il faut identifier des drsquoentiteacutes suffisamment stables et atomiques(le pendant de nos URLs) afin de pouvoir eacutetablir sans ambiguiumlteacute le moment ougraveun individu adopte Drsquoautre part il srsquoagit de repeacuterer les eacuteveacutenements de transmis-sion entre individus afin de pouvoir retracer la circulation de cette entiteacute agrave tra-vers le reacuteseau social Mecircme si la citation peut parfois jouer ce rocircle de marqueurdrsquoune transmission drsquoinformation il sera sans doute neacutecessaire drsquoemployer desmeacutethodes drsquoinfeacuterence pour reconstruire lrsquointeacutegraliteacute du parcours drsquoune informa-tion Concernant la neacutecessiteacute de deacutefinir des entiteacutes atomiques traccedilables le lan-gage naturel aussi technique soit-il et hormis quelques exceptions assez limiteacuteessemble pour lrsquoinstant relativement peu propice agrave cet exercice Il est sans doute neacute-cessaire dans ce cas drsquoen appeler agrave une modeacutelisation de la diffusion diffeacuterente fai-sant appel non pas agrave la circulation de concepts mais agrave des observables drsquoun autreordre En deacuteplaccedilant quelque peu notre ambition on pourrait ainsi examiner dansce type de communauteacute de savoirs la faccedilon dont la participation agrave une confeacuterence
222 Chapitre 7 Cascades informationnelles
se propage au sein drsquoun reacuteseau de collaboration ou encore la faccedilon dont les in-dividus adoptent ou non les marqueurs textuels propres agrave un champ eacutepisteacutemique(tel qursquoon les a deacutecrit dans le chapitre 4) en fonction de leur environnement social
Lrsquoavantage de telles approches est qursquoelle nous permettent eacutegalement de quan-tifier le ldquocoucirctrdquo des deacuteplacements opeacutereacutes Alors qursquoil est a prioiri peu eacutevidenten lrsquoeacutetat de quantifier la pertinence drsquoune information (ou drsquoune URL) dans unesphegravere informationnelle donneacutee (en somme drsquoeacutevaluer sa fitness pour reprendre levocabulaire de la mimeacutetique) la meacutetrique que nous avons deacutefinie lors de notretravail de cartographie des sciences pourrait ecirctre drsquoune grande aide pour quan-tifier les deacuteplacements individuels (section 462) Degraves lors on pourrait mesurerlrsquoinfluence qursquoun individu exerce sur un autre non pas comme une mesure brutedu nombre de ressources qui transitent de lrsquoun agrave lrsquoautre mais de faccedilon plus geacuteo-meacutetrique en quantifiant directement les deacuteplacements opeacutereacutes par chacun au seindrsquoun paysage conceptuel
73 Courts-circuits informationnels 223
Reacutesumeacute du chapitre
Dans ce chapitre nous nous sommes attacheacutes agrave deacutefinir un protocole ex-peacuterimental drsquoobservation de cascades informationnelles En suivant la reprisedrsquoURLs au sein drsquoune communauteacute de blogueurs nous avons pu mettreen eacutevidence un certain nombre de correacutelations entre la structure locale dureacuteseau qui supporte le processus de diffusion et la longeacuteviteacute drsquoun eacutepisode dediffusion
Globalement notre objectif a eacuteteacute de trouver les deacuteterminants structurelsde lrsquoinfluence qursquoexerce un blog sur son environnement Nous avons observeacutedans un premier temps que les blogs les plus populaires au sens ougrave ils attirentnaturellement une plus grande attention sont eacutegalement les plus agrave mecircme drsquoin-duire un grand nombre de transmissions
Au delagrave de ces effets de lectorat actif nous avons eacutegalement mesureacute quan-titativement le rocircle des liens faibles dans la propagation drsquoune ressource Uneressource ayant transiteacute via un lien faible (ou plus preacuteciseacutement un lien moyen)a une probabiliteacute plus importante drsquoecirctre agrave nouveau propageacutee que si elle avaittransiteacute via un lien fort Lrsquoinfluence drsquoun blog deacutepend donc agrave la fois de son au-dience active et de sa capaciteacute agrave produire des ldquocourts-circuits informationnelsrdquoentre deux zones du reacuteseau ldquodistantesrdquo lrsquoune de lrsquoautre
Conclusion
NOUS avons au cours de cette thegravese exploreacute les dynamiques sociales socio-seacutemantiques et seacutemantiques des communauteacutes de savoirs Celles-ci ont eacuteteacute
deacutefinies comme des espaces hybrides Elles mettent en jeu drsquoune part des indivi-dus qui interagissent au sein drsquoun reacuteseau social et qui produisent des contenus lieacutesagrave un domaine donneacute et drsquoautre part des entiteacutes seacutemantiques lieacutees au sein drsquounreacuteseau seacutemantique doteacute drsquoune structure autonome Les dynamiques des dimensionssociale et seacutemantique sont soumises agrave des couplages agrave diffeacuterents niveaux et enpremier lieu au niveau micro via le reacuteseau socio-seacutemantique qui deacutecrit lrsquousage desconcepts par les individus Les trois reacuteseaux que nous venons de mentionner sontregroupeacutes au sein drsquoun reacuteseau eacutepisteacutemique qui nous a permis de modeacuteliser les com-munauteacutes de savoirs en inteacutegrant agrave notre analyse lrsquoensemble des interactions exis-tant entre les diffeacuterentes entiteacutes Agrave ce titre le reacuteseau eacutepisteacutemique permet drsquoappreacute-hender les dynamiques sociales et culturelles drsquoune faccedilon aussi symeacutetrique quepossible tout en offrant les conditions neacutecessaires agrave leur couplage
Deux terrains drsquoeacutetude nous ont permis drsquointerroger ces dynamiques entremecirc-leacutees des communauteacutes scientifiques dont les membres produisent individuelle-ment et collectivement des eacutenonceacutes scientifiques au sein de publications ainsi quedes communauteacutes de blogueurs formant une aregravene de discussion virtuelle la blo-gosphegravere politique qui se deacutefinit agrave la fois comme un territoire drsquoexpression danslrsquoespace public et comme un lieu drsquoeacutechanges et de mises en relation entre blo-gueurs Ces deux communauteacutes peuvent ecirctre deacutefinies comme des systegravemes socio-cognitifs distribueacutes ie les dynamiques qui les animent mdash qursquoelles mobilisent desentiteacutes sociales seacutemantiques ou les deux mdash sont toujours drsquoordre local Pour au-tant ces systegravemes ne sont pas deacutenueacutes de proprieacuteteacutes structurelles eacutemergentes
Notre exploration de ces communauteacutes de savoirs srsquoest appuyeacutee sur la collectedes traces textuelles reacutesultant de lrsquoactiviteacute des individus qui animent ces espaces Agravepartir de ces traces empiriques notre objectif a eacuteteacute de reconstruire la pheacutenomeacutenolo-gie de ces communauteacutes de savoirs en nous efforccedilant drsquoanalyser leurs dynamiquesagrave diffeacuterents niveaux Nous avons ainsi distingueacute au niveau micro les dynamiquesindividuelles qui modifient les arrangements locaux du reacuteseau eacutepisteacutemique et auniveau macro les dynamiques des motifs eacutemergeant des interactions locales et quistructurent le reacuteseau eacutepisteacutemique En plus de ces interrogations portant sur la mor-phogenegravese du reacuteseau eacutepisteacutemique nous avons eacutegalement appreacutehendeacute les proprieacute-teacutes dynamiques eacutemergentes de ces communauteacutes en tentant de mieux saisir lesprocessus de diffusion drsquoinformation qursquoelles supportent
226 Conclusion
Morphogenegravese des reacuteseaux Les questions de morphogenegravese (partie II) se sontarticuleacutees en deux approches selon que nous prenions comme point de deacutepartles dynamiques micros ou macros de nos communauteacutes de savoirs Agrave partir delrsquoobservation des blogosphegraveres politiques ameacutericaine et franccedilaise (chapitre 3) nousavons caracteacuteriseacute la morphogenegravese des communauteacutes de savoirs en nous focali-sant au niveau micro sur les reacutegulariteacutes auxquelles sont soumises les dynamiqueslocales du reacuteseau eacutepisteacutemique Nous avons pu identifier certains comportementsindividuels reacuteguliers pouvant participer agrave la stabilisation de certains motifs eacutemer-gents dont nous avons eacutegalement eacutevalueacute la stabiliteacute Ainsi nous avons montreacuteque le capital social mais eacutegalement le capital seacutemantique des agents augmententleur attractiviteacute vis-agrave-vis de nouveaux liens de citation cette proprieacuteteacute eacutetant sus-ceptible drsquoexpliquer la distribution heacuteteacuterogegravene du capital social dans ces espacesainsi que sa stabiliteacute On a eacutegalement observeacute une tendance agrave lrsquohomophilie seacuteman-tique ainsi qursquoune propension agrave interagir avec des agents proches dans le reacuteseausocial qui peuvent tendre agrave renforcer lrsquohomogeacuteneacuteiteacute des agreacutegats sociaux (transi-tiviteacute) et socio-seacutemantiques existants Au delagrave de ces effets de ldquoseacutelectionrdquo nousavons eacutegalement mis en eacutevidence de faccedilon quantitative les conseacutequences de pro-cessus locaux drsquoinfluence sociale sur les profils seacutemantiques des blogueurs Lrsquoen-semble de ces observations a donc permis drsquoillustrer la richesse des correacutelationsexistantes entre dimensions sociale et seacutemantique accreacuteditant notre thegravese drsquouneco-eacutevolution entre tissu relationnel inter-individuel et production de contenus
Lrsquooriginaliteacute de ces reacutesultats tient agrave la faccedilon dont ils montrent combien les dyna-miques individuelles sont intimement lieacutees agrave des paramegravetres ne rentrant pas clas-siquement dans le cadre de lrsquoanalyse des reacuteseaux sociaux Tout en restant fidegraveles agravelrsquoimpeacuteratif anticateacutegorique qui caracteacuterise cette approche nous avons montreacute quelrsquointroduction drsquoune dimension seacutemantique plutocirct que de complexifier la descrip-tion du systegraveme lrsquoa simplifieacutee Comparativement agrave un examen inheacuterent agrave la seulesphegravere sociale le cadre des reacuteseaux eacutepisteacutemiques en nous permettant drsquoidentifierces reacutegulariteacutes drsquoordre socioseacutemantique dans le comportement des acteurs a per-mis de rendre les dynamiques micros plus preacutedictibles
Phylogenegravese des reacuteseaux Au niveau macro (chapitre 4) nous nous sommes ef-forceacutes de caracteacuteriser les motifs structurels que constituent les agreacutegats drsquoentiteacutesdenseacutement interconnecteacutees La structure et lrsquoarticulation de ces ensembles meacuteso-scopiques qui eacutemergent des dynamiques individuelles (dans les reacuteseaux socialsocio-seacutemantique et seacutemantique) reacutevegravelent lrsquoorganisation de haut-niveau de noscommunauteacutes de savoirs Nous nous sommes pencheacutes tout particuliegraverement surla reconstruction des dynamiques multi-eacutechelles des communauteacutes scientifiquesagrave partir de statistiques drsquooccurrences et de cooccurrences de termes extraites degrands corpus de publications Nous avons proposeacute un ensemble de meacutethodo-logies qui nous a permis de reconstruire de faccedilon statique drsquoabord agrave diffeacuterenteseacutechelles des cartes des sciences structureacutees prenant la forme de reacuteseaux de champs
227
eacutepisteacutemiques puis de faccedilon dynamique le reacuteseau phylogeacuteneacutetique de ces champseacutepisteacutemiques reacuteveacutelant les dynamiques meacutesoscopiques de transformations concep-tuelles et de fertilisation croiseacutee entre champs qui font eacutevoluer ces paysages seacute-mantiques La structure de ces reacuteseaux phylogeacuteneacutetiques semble eacutegalement richedrsquoinformation et fait apparaicirctre un certain nombre de motifs dynamiques robustesremarquables Enfin nous avons proposeacute une meacutethode de reprojection des indi-vidus immergeacutes dans ces espaces Nous avons ainsi pu montrer comment la to-pologie formeacutee par un paysage seacutemantique pouvait reacutetroagir du niveau macro auniveau micro en ldquoorientantrdquo le deacuteplacement des individus plongeacutes dans ce pay-sage
Ces meacutethodes de reconstruction ouvrent la voie vers une eacutepisteacutemologie quanti-tative qui permettra agrave terme drsquoobserver et de questionner les dynamiques scienti-fiques avec des outils drsquoune preacutecision ineacutedite La deacutetection automatique de lrsquoor-ganisation interne de ces espaces permet drsquoen simplifier grandement la repreacute-sentation Nous pouvons maintenant imaginer de nouveaux modes de naviga-tion nous permettant drsquoeacutevoluer agrave travers la structure multi-eacutechelle et mouvantede tregraves grands corpus de textes Ces meacutethodes pourront naturellement eacutequiperdes theacuteoriciens des sciences des gestionnaires ou mecircme des chercheurs deacutesireuxde mieux comprendre les creux et les reliefs des paysages seacutemantiques dans les-quels ils sont immergeacutes Doteacutes de ce type drsquooutils les agents drsquoun systegraveme serontagrave mecircme drsquoobserver les conseacutequences parfois insoupccedilonneacutees de leurs propres ac-tions Il semble alors pertinent drsquointerroger les effets de cette opeacuteration reacuteflexivesur les dynamiques futures des agents et du systegraveme dans son entier
A plus long terme ces reconstructions pourraient aussi servir de laboratoiredrsquoexpeacuterimentation pour eacuteclairer certaines questions que posent le domaine delrsquoeacutevolution culturelle Ainsi la trajectoire drsquoun champ eacutepisteacutemique peut tregraves biense lire comme la manifestation drsquoun pheacutenomegravene culturel transitoire la reconstruc-tion de ses dynamiques mais eacutegalement la connaissance de ses ldquo traits drsquohis-toire de vierdquo offrent de nombreuses opportuniteacutes pour en interroger les deacutetermi-nants Quels sont les critegraveres de viabiliteacute drsquoun champ eacutepisteacutemique Peut-on rendrecompte de la dynamique drsquoun paysage conceptuel et des individus qui srsquoy deacute-placent avec des modegraveles eacutevolutionnistes ou meacutemeacutetiques Au-delagrave de lrsquointerroga-tion des dynamiques scientifiques ces questions peuvent et doivent ecirctre eacutetenduesagrave drsquoautres espaces de production de connaissance Observerons-nous les mecircmeslois drsquoeacutevolution la mecircme richesse dynamique si nous appliquons par exempleces meacutethodes agrave des corpus de textes leacutegaux ou agrave des corpus textuels collecteacutes dansles media sociaux
Dynamiques drsquoinfluence et diffusion des contenus Enfin nous nous sommesfocaliseacutes dans la partie III sur les processus de diffusion qui animent nos com-munauteacutes de savoirs et qui forment une des modaliteacutes de couplage possible entredimensions sociale et seacutemantique Nous avons adopteacute deux approches pour com-
228 Conclusion
prendre les pheacutenomegravenes de diffusion dans les communauteacutes de savoirsDans un premier temps chapitre 5 nous nous sommes attacheacutes agrave la question
de lrsquoinfluence entre diffeacuterents groupes de blogs marqueacutes politiquement et expo-seacutes au flux drsquoactualiteacutes provenant de la presse Nous avons chercheacute agrave deacutetecter desmotifs inter-temporels systeacutematiques de reprise de tel ou tel concept agrave partir delrsquoanalyse longitudinale des contenus produits par ces sources Nous avons ainsipu reacutesumer au sein drsquoun diagramme drsquoinfluence syntheacutetique lrsquoensemble des correacute-lations liant dynamiquement les activiteacutes de production drsquoun groupe de sources agravelrsquoactiviteacute de production future drsquoun autre groupe de sources Lrsquooriginaliteacute de cetteanalyse reacuteside dans le fait qursquoelle a permis de reconstruire une grande varieacuteteacute demodaliteacutes de mise sous influence entre groupes de sources ne se limitant pas agrave descorreacutelations classiques deux agrave deux
Dans un second temps chapitres 6 et 7 nous avons envisageacute la question dela diffusion sur un reacuteseau social en nous interrogeant sur lrsquoinfluence des struc-tures (locales et globales) du reacuteseau social vis-agrave-vis des processus de diffusionDans une perspective macroscopique nous avons proposeacute un protocole simula-toire (chapitre 6) afin de comprendre en quoi la topologie drsquoun reacuteseau affecte ladynamique globale de cette diffusion En comparant systeacutematiquement les dyna-miques observeacutees sur une seacuterie de reacuteseaux dont la topologie reproduit un certainnombre de proprieacuteteacutes structurelles de deux reacuteseaux de terrain reacuteels nous avonsidentifieacute les proprieacuteteacutes topologiques agrave mecircme drsquoinfluer de maniegravere significative surla vitesse de diffusion Nous avons ainsi montreacute que pour une hypothegravese de trans-mission inter-individuelles donneacutee la vitesse de diffusion est indeacutependante de laforme de la distribution de degreacute du reacuteseau support du processus de diffusion Acontrario la coheacutesion locale ou de faccedilon plus large la structure naturellement mo-dulaire des reacuteseaux sociaux joue un rocircle primordial vis-agrave-vis de la diffusion Leszones denseacutement connecteacutes du reacuteseau isoleacutees du reste du reacuteseau tendront soit agraveemprisonner lrsquoinformation qursquoelle deacutetiennent soit agrave ne participer que plus tardi-vement agrave la diffusion De faccedilon geacuteneacuterale nous avons observeacute que les reacuteseaux reacuteelseacutetaient vis-agrave-vis du meacutecanisme de transmission simuleacute beaucoup plus lents quedrsquoautres reacuteseaux aleacuteatoires posseacutedant la mecircme densiteacute de liens
Enfin nous avons analyseacute dans le chapitre 7 un processus de diffusion reacuteel agraveun niveau plus micro gracircce au suivi in-vivo drsquoeacutepisodes de diffusion drsquoURLs obser-veacutes au sein des blogosphegraveres politiques franccedilaise et ameacutericaine Notre protocoleexpeacuterimental nous a permis de construire lrsquoun des premiers jeux de donneacutees per-mettant drsquoobserver simultaneacutement un reacuteseau social et le deacuteroulement deacutetailleacute descascades de diffusion qui srsquoy deacuteploient Cette analyse nous a permis de mettre eneacutevidence un certain nombre de correacutelations entre la structure locale du reacuteseau etla longeacuteviteacute drsquoun eacutepisode de diffusion Nous avons ainsi montreacute que lrsquoinfluencedrsquoun agent deacutepend agrave la fois de son audience active et de sa capaciteacute agrave produiredes ldquocourts-circuits informationnelsrdquo entre des zones distantes du reacuteseau
Les observations que nous avons tireacutees de cette partie consacreacutee aux proces-
229
sus de diffusion dans les reacuteseaux sociaux nous ramegravenent aux questions de mor-phogenegravese traiteacutees dans la partie preacuteceacutedente La ldquoreacutesistancerdquo qursquoopposent les reacute-seaux reacuteels aux processus de diffusion eacutetudieacutes est-elle la conseacutequence drsquoun prin-cipe drsquooptimisation de la structure du reacuteseau vis-agrave-vis de ces types de processus Si la structure globale des reacuteseau sociaux est effectivement optimale vis-agrave-vis decertaines proprieacuteteacutes quels meacutecanismes locaux de morphogenegravese peuvent alors enexpliquer lrsquoeacutemergence Cette question est peut-ecirctre lieacutee aux ldquostrateacutegiesrdquo locales(conscientes ou inconscientes) que peuvent deacuteployer les acteurs pour se position-ner au sein drsquoun espace social donneacute afin de maximiser leur influence vis-agrave-visde leur environnement Agrave ce titre il serait inteacuteressant drsquoeacutetendre notre eacutetude surles cascades informationnelles agrave un cadre co-eacutevolutionnaire plus large permettantde coupler les dynamiques de diffusion aux dynamiques du reacuteseau social afin dechercher agrave deacuteterminer si ces derniegraveres tendent vers une optimisation locale de lrsquoin-fluence des acteurs ou vers une optimisation globale de la forme des cascades dediffusion
Une sociologie quantitative des traces Plus largement cette thegravese a permisdrsquoentrouvrir les potentialiteacutes offertes par un travail systeacutematique de reconstruc-tion des dynamiques soicoseacutemantiques agrave partir des traces de la vie sociale Lesperspectives ouvertes par lrsquoobservation des systegravemes sociaux in-vivo sur Interneten particulier nous rapprochent drsquoune sociologie quantitative des traces dont Tardeeacutetait lrsquoannonciateur Neacuteanmoins la disponibiliteacute de ces donneacutees massives ne ga-rantit pas en soi un chemin direct vers la compreacutehension des faits sociaux Ilsrsquoagit eacutegalement drsquoapprendre agrave deacutecrire deacutetecter modeacuteliser les structures remar-quables que revecirctent ces traces agrave travers un travail de reconstruction pheacutenomeacuteno-logique ardu qui appelle au concours de nombreuses compeacutetences (modeacutelisationmatheacutematiques informatique mais eacutegalement eacuteconomie histoire anthropologiesociologie)
Lrsquoanalyse des systegravemes sociaux in-vivo offre eacutegalement lrsquoopportuniteacute drsquointer-roger les opeacuterations de cognition sociale au sens large La cognition sociale est unprocessus de traitement de lrsquoinformation qui par comparaison agrave la cognition indi-viduelle srsquoapplique de maniegravere distribueacutee sur lrsquoensemble des membres drsquoune com-munauteacute en interaction au sein drsquoun reacuteseau social Ce traitement distribueacute mecircmesrsquoil peut agir comme une contrainte permet de reacutealiser des tacircches inaccessibles agraveune traitement cognitif purement individuel Le traitement des informations preacute-sentes dans lrsquoenvironnement par le reacuteseau social est susceptible de produire denouvelles configurations seacutemantiques mais aussi de catalyser la creacuteation ou ladisparition de certaines interactions inter-individuelles Crsquoest donc lrsquoopeacuteration decognition sociale qui transforme simultaneacutement les reacuteseaux social et seacutemantiqueNotre travail durant cette thegravese peut donc ecirctre lu comme une mise en eacutevidencedes lois et motifs remarquables que laisse apparaicirctre cette opeacuteration de cognitionsociale sur les deux types de systegravemes envisageacutes
230 Conclusion
Interroger plus globalement les processus de cognition sociale qui srsquoappliquentagrave drsquoautres types de systegravemes appelle au deacuteveloppement de protocoles drsquoobserva-tion originaux Les diffeacuterentes reconstructions possibles de ces dynamiques pour-raient maintenant ecirctre confronteacutees agrave lrsquoaide de protocoles srsquoappuyant sur des don-neacutees drsquoobservation communes et srsquoaccordant sur des critegraveres de validiteacute partageacutesAu-delagrave de lrsquoenjeu purement eacutepisteacutemique il srsquoagit eacutegalement de concevoir des in-frastructures de communication et de gestion des connaissances susceptibles parexemple de rendre plus robustes ces processus de cognition sociale Quel que soitla nature de ces systegravemes les media digitaux constituent certainement vis-agrave-visde la cognition sociale une opportuniteacute pour collecter des donneacutees massives agrave lafois sur les processus et les produits qursquoelle geacutenegravere La connaissance et lrsquoanalyseconjointe du reacuteseau social support de toute opeacuteration de cognition sociale et descontenus et deacutecisions eacutelaboreacutees localement et collectivement peut agrave ce titre cata-lyser un tournant cognitif qui engage lrsquoensemble des sciences sociales
ANNEXE A
Liste des termes associeacutes agrave la
blogosphegravere politique franccedilaise
A1 Liste des 190 syntagmes utiliseacutes deacutefinir le bagage seacute-
mantique des blogs politiques franccedilais
35 heures action publique aide au deacuteveloppement Allemagne alter-mondialisme antiseacutemitisme baisse des preacutelegravevements baisses drsquoimpocircts banlieue Banque europeacuteenne Bayrou blogosphegravere blogueurs bouclierfiscal Boveacute bravitude budget de la recherche budget de lrsquoEtat capi-talisme financier carte scolaire chiffres du chocircmage Chirac chocircmage classes moyennes CO2 collectiviteacutes locales eacutecolo eacutecologie communau-tarisme comptes publics Conseil drsquoanalyse eacuteconomique contrat de tra-vail contribuables criminaliteacute croissance deacutebat public dette publique deacuteficit budgeacutetaire DIABOLISER dialogue social discrimination positive deacutemocratie participative deacutemocratie sociale Don Quichotte deacutepense pu-blique drapeau franccedilais droit au logement eacuteducation deacuteveloppementdurable effet de serre emploi encadrement militaire endettement en-seignement supeacuterieur entreprises EPR Eric Besson Etats membres Europe finances publiques financier fiscal fiscaliteacute FN fonction pu-blique fonctionnaires Franccedilois Bayrou Franccedilois Hollande gauche antili-beacuterale gaz agrave effet de serre hausse des prix hausse des salaires haussedu smic heures suppleacutementaires Hollande identiteacute franccedilaise identiteacutenationale impocirct sur les successions inseacutecuriteacute internautes Internet in-teacuterecirct geacuteneacuteral islam islamisme Jacques Chirac Jean-Marie Le Pen Jos-pin jurys citoyens justice sociale Kaumlrcher Kyoto leacutegislatives LionelJospin logement logement opposable logements sociaux LOLF maicirc-trise des deacutepenses MoDem monde agricole mondialisation NicolasSarkozy Olivier Besancenot pacte eacutecologique pacte preacutesidentiel pau-vreteacute petites retraites peuple PIB plein emploi pouvoir drsquoachat preacute-legravevements obligatoires productiviteacute protection sociale preacutevention de ladeacutelinquance PS ps udf reacutechauffement climatique recettes fiscales re-cherche reacuteforme des retraites reacutegimes de retraite reacutegimes speacuteciaux reacute-forme reacutefeacuterendum sur la Constitution reacutegularisation Royal rural rura-liteacute salaire minimum salarieacutes sans-abri Sarkozy Seacutecuriteacute sociale ser-
232 Annexes
vice minimum service public Seacutegolegravene Royal socialiste solidariteacute son-dages taux de chocircmage temps de travail territoire terrorisme TonyBlair traiteacute constitutionnel travail TVA sociale UDF UMP Union eu-ropeacuteenne valeur travail Valeacuterie Peacutecresse Verts vieillissement ville vio-lences urbaines vote utile Xavier Bertrand zones rurales porte-avions homosexuel eacutegaliteacute des chances CSG droit de gregraveve CNRS Gollnisch George Bush dialogue social contrat unique assurance maladie johnny technologies anti-Sarkozy troisiegraveme homme deacutelocalisations preacutecariteacute Freacutedeacuteric Nihous Marseillaise Darfour chiffrage deacutebats participatifs Vil-lepinte Clearstream mai-68 outre-mer eacuteleacutephants gare du Nord Iran Irak
A2 Liste des termes associeacutes agrave la blogosphegravere politique
ameacutericaine
Liste des 79 syntagmes utiliseacutes deacutefinir le bagage seacutemantique des blogs poli-tiques ameacutericains
iran global warming climate change primaries china dollar michigan john edwards gaza gay financial crime terror democracy british muslim faith palestin blog internet terrorist israel threat soldier iraq violen california afghan energy islam justice al qaeda clintons huckabee peace pakistan christian weapon immigrati woman mittromney giuliani nuclear economy barack obama john mccain hillaryclinton black security military democrats republicans money foreignpolicy jewish bush september abortion technology super tuesday na-tional security middle east europe supreme court mexico human right kerry environment veterans george w bush war gun recession mu-sharraf french tax cuts wall street vietnam africa
ANNEXE B
Corpus de termes des bases des
domaines scientifiques exploreacutes
B1 Systegravemes complexes
abduction accidents acid soils acoustics action Action observation adaptive
control admissible controls admissible trajectory agent aggregate agriculture al-
gorithms altruism analysis animal culture anticipations antisurvenance applied
epistemology approximation algorithms architecture argumentation theory Artifi-
cial cell artificial intelligence assembly atmospheric physics automatic control au-
tomatic imitation autonomous agents avatar bayesian bayesian computing baye-
sian statistics behavioral economics behavioural theory belief best practice bi-
furcations biochemistry bioinformatics biosystems biotechnology border boun-
ded rationality brain carbon dioxide cartography categorization category cau-
sal cell cellular networks chaos chemical chemical equilibria climatology coevo-
lution cognitive economics cognitive ethology cognitive hierarchy cognitive psy-
chology cognitive therapy collective collective action Collective Behaviours col-
lective discovery collective intelligence collective memory collective rationality
combinatorial optimisation communication community complex system complex
systems complexity computational computational chemistry computer computer
software computerized simulation concurrent engineering conformism conscious-
ness constraints consumer behavior consumer sovereignty consumers contact
contact geometry context continuity control critical phenomena cultural anthro-
pology cultural evolution cultural learning cultural trait cultural traits cultural
transmission cybernetics data acquisition data bases data Management data mi-
ning data modelling data security democracy density deontic logic dependabi-
lity design development disasters distributed systems drosophila dynamic dy-
namic modelling dynamic reasoning dynamics ecological rationality ecology eco-
nomic models econophysics electroencephalography embedded systems embo-
died agent embodied cognition emergence of cooperation emergent semantics em-
pathy emulation enaction endogenous endogenous dynamics endogenous net-
work endogenous networks endogenous preference energy energy consumption
energy management system energy policy energy saving energy sources environ-
ment environment protection environmental technology epidemiology epilepsy
epistemic authority ethnography evaluation evolution evolution of culture evolu-
234 Annexes
tionary epistemology evolutionary games experimental development experimental
economics finance finite element first person fitness forecasting techniques for-
mal methods fossil fuels fractal framing effect freeware functional architecture
functional programming fuzzy logic Galois lattices game theory gene expression
general equilibrium genetic genetic algorithms geometry global network graph
theory health herding behaviour heterogeneous agents heterogeneous networks
heterogenous agents heuristic hiv human factors human modeling hybrid algo-
rithms imitation immunogenetics inconsistency in reasoning individual inductive
logic inference infinite dimensional informatics information system innovation
integration integrative intelligence intelligent robot intentional action intentiona-
lity interactivity interface intersubjective relation intersubjectivity interview me-
thod intuitive experience invariant knowledge discovery knowledge managment
learning life sciences logistics machine machine learning management manifold
mapping mathematical models mathematical sociology maximizator measuring
instruments meme memes memetics mereotopology metacognition mimetism
mining technology minority game mirror neuron modeling modelling molecu-
lar monogenic monte carlo morphodynamic morphodynamics morphogenesis
N400 nanotechnology nash natural language processing network formation net-
work management networks neural network neural networks neurobiology neu-
rolinguistics neuron neuroscience neurosciences noise non deterministic nonli-
near control nuclear oil online open systems operational closure operations re-
search optimisation optoelectronics ordinary differential equations organizational
theory ozone P600 paleoclimatology parallel computing parallel processing pa-
rallel systems parallelism parameter convergence pareto participatory pattern for-
mation percolation performance evaluation petroleum technology phase transi-
tion phenomenology phylogeny planning policy pollen population power ge-
neration power law prediction predictions preference pretend play priming pri-
sonerrsquos dilemma probability theory procedural invariance procedural rationality
process management process quality processing product quality programming
project management proof theory propagation prosociality prototyping Public
Goods public services qualitative reasoning quantum physics radioactive waste
rational imitation reasoning reconstruction reflective reflectivity reflexive regu-
lons reliability religion renewable renormalization repair resource allocation
resources substitution reverse engineering risk management risky choice ritual
robotics robustness sacrifice scaling scientific discovery scientometrics second
person security selfish sensors side effects sign signal processing signification
simulation singularity situated agent small world social social aspects social be-
lief social cognition social correlations social differenciation social dilemma so-
cial learning social networks software software engineering solar energy space
spatial games stability state constraints statistical data statistical physics statisti-
cal testing stigmergic stochastic game stochastic game theory stochastic processes
stochastic stability structuralism structure structuring principle subjective expe-
B2 La meacutetaphore reacuteseau en biologie 235
rience substantial rationality supervenience survenance sustainability sustainable
development swarm intelligence symbiosis symbolic computation synthesis taxo-
nomies theory of mind theory of uncertainty theory theory therapy thermodyna-
mics topology traceability traffic simulation transfer functions transgenic trust
tychastic Ultimatum Game uncertainty modelling verification viability victimary
mechanism violence virtual vision vision system visual sensor visualisation
waste management wavelets wiki wind energy workflow world wide web ze-
brafish
B2 La meacutetaphore reacuteseau en biologie
ability absorption accumulation acid residues actin action potentials activate ac-
tivated protein active site activity adaptation addition adhesion affinity aggre-
gation algorithm allele alpha amino acid amplification anaphase annotation
antibodies antibody antigen apoptosis approximation arabidopsis architecture
arp2 array artificial neural network association atom attractor autonomous au-
toregulation auxin average axon bacillus background bacterium bank base
bayesian bayesian network behavior bifurcation bind binding protein binding
site biochemical pathways biodiversity bioinformatics biological data biological
functions biological networks biological process biological systems biology bio-
mass biomolecular biosynthesis blood flow body bond bond network brain
branching budding budding yeast building bulk burst calcium cancer can-
didate capabilities capacity carbon carbon dioxide cardiac cascade catalysis
cause cdc14 cdna cell cell cycle cell death cell differentiation cell division cell
fate cell growth cell migration cell motility cell surface cell wall cellular cellu-
lar functions cellular networks cellular process center central nervous cerevisiae
chain channel checkpoint chemistry chip chromatin chromosome circadian cir-
cadian clock circadian rhythms circuit circulation class classification clathrin cli-
mate clock clone cluster clustering code codon coexpression cofactor cogni-
tive coherent coli collagen combine community comparing competition com-
plete complex complex network complex systems complexes complexity com-
ponent composition computation computational method computational model
computer computing concentration conformation conformational change connec-
ting connectivity conservation constraint construct control convergence co-
oling cooperative cooperativity coordination core correlation cortex coupling
cross validation crystal structure cycle cyclin cycling cytochrome cytokine cy-
tokinesis cytoplasm cytoskeleton data bank data mining data set database de-
cay defective deformation degradation degrees c dehydrogenase density de-
pendence detect determinants determine developing development dictyoste-
lium differential equation differentiation diffraction diffusion dimer dioxide
discrete discrimination disease disruption distribution diverse diversity divi-
236 Annexes
sion dna binding dna damage dna interactions dna microarray dna repair dna
replication dna sequence dopamine downstream drosophila drosophila mela-
nogaster dynamical systems dynamics simulations ecology ecosystem edge ef-
fective effector efficient electron microscopy elegans elegans embryo emerge
emergence encode endocytosis endogenous endoplasmic reticulum energy en-
gineering enhancement entropy environment environmental conditions enzyme
epidermal growth epistasis epithelial cells equation escherichia escherichia coli
eukaryotes eukaryotic cells event evolution evolvability evolve exchange excita-
tion exon experiment experimental evidence expressed genes expression expres-
sion data expression level expression pattern expression profiling extinction ex-
tracellular families feedback feedback control feedback inhibition feedback loop
feedback mechanism feedback regulation feedforward fibroblasts filament firing
fission fission yeast flexibility flexible flow fluorescent flux fold food web
form formalism framework frequencies function functional annotation functio-
nal genomics functional modules fusion fuzzy gain galaxy gaussian genbank
gene gene duplication gene expression gene expression data gene expression le-
vels gene expression patterns gene expression profiles gene function gene inter-
actions gene network gene ontology gene products gene regulation gene regu-
latory network gene transcription genes encoding genetic algorithm genetic in-
teractions genetic network genetic regulatory network genetic variation genome
genome scale genome sequence genome wide genomic data genotype germ glo-
bal network globular glutamate golgi golgi network gradient graph growth
growth rate gtpase helix heterogeneity heterogeneous hidden markov hierarchi-
cal clustering hierarchy high resolution high throughput high throughput data
higher order hippocampus histone hiv homeostasis homogeneous homologous
homology hormone host hub hubble hubble space hubble space telescope hu-
man human brain human genome human protein hybrid hybridization hydro-
gen bond network hydrogen bonding image imaging immune immune response
immunity implementation in vitro inactivation independent indirect infection
influences information information processing inhibitor input instability insu-
lin integrate integrative interact interacting interaction interaction data interac-
tion map interaction network interactive intercellular interface interference in-
termolecular interneurons interplay intracellular intracellular signaling involve
kappa kappa b kinase knockout large scale laser lattice layer learning level li-
gand ligand binding limb lineage linear link linkage lipid liver local structure
localization locomotor locus long range loop lymphocytes machine learning
machinery macromolecular magnetic resonance mammalian management map-
ping marker markov mass spectrometry mathematical model mating matrix
maturation mechanism melanogaster membrane messenger messenger rna me-
tabolic control metabolic network metabolic pathway metabolite methane mice
microarray microarray data microarray datasets microarray experiments microar-
ray gene microscopy microtubule migration mitochondria mitosis model mo-
B2 La meacutetaphore reacuteseau en biologie 237
delling modification modular modulate modulation module molecular mole-
cular basis molecular biology molecular dynamics molecular interaction molecu-
lar level molecular networks molecule monitoring monte carlo morphogenesis
morphology motif motility motor mouse mrna multicellular multicellular or-
ganisms mutagenesis mutant mutation myosin natural selection negative feed-
back nematoda nervous network network architecture network model network
motifs network structure network topology networking neural network neuron
neurotransmitter neutron nf kappa nf kappa b niche nitrogen node noise non
coding nonlinear notch nuclear nucleation nucleotide nucleotide sequence nu-
cleus nutrient occurrence oligonucleotide ontology open operate operon op-
timization organism organization organizing oscillation output overexpression
overlapping oxygen pairwise paradigm parameter participate pathogen path-
way pattern pattern formation pattern recognition patterning peptide perform
performance persistence perturbation petri phage phase phenotype phospha-
tase phosphate phosphorylation physics physiology plant plasma membrane
plasmodium plasticity polar polarity polymer polymerase polymerization po-
lymorphisms pool population position positive positive feedback power law
predicting prediction prediction accuracy prediction methods presence probabi-
lity process produce profiling program progression project prokaryotes proli-
feration promote promoter sequence propagation property protein protein com-
plex protein complexes protein data protein data bank protein dna protein do-
main protein folding protein function protein interaction protein interaction data
protein interaction network protein kinase protein network protein protein inter-
action protein sequence protein structure proteome pulse putative qualitative
quantify quantitative quantitative trait quantum random reaction reaction net-
works rearrangement receptor recognition recombinant recombination recons-
truction recruitment recurrent reduction redundant region regression regulate
regulated genes regulation regulatory elements regulatory genes regulatory inter-
actions regulatory mechanisms regulatory network regulatory pathways regula-
tory proteins regulatory relationships regulon relationship reliability repair re-
plication representation repression resistance resource response retina reverse
engineering reversible rhythm rhythmicity ribosome rna binding rna polyme-
rase robust robustness root rrna saccharomyces saccharomyces cerevisiae salt
sampling scaffold scale scale free scoring screening secondary structure seg-
mentation segregation selection selective selectivity self organizing sense sen-
sitive sensitivity sensor sequence sequence alignment sequence data sequence
database sequencing serine signal transduction signaling signaling molecules si-
gnaling network signaling pathway signalling significance silico simulating si-
mulation simultaneous single cell site small world software species specifica-
tion specificity spectrometry spectroscopy spectrum spike spindle splice spon-
taneous stability stabilization state statistics steady state stem stem cell stimu-
lation stimulus storage strain strand strategy stream strength stress structu-
238 Annexes
ral basis structural features structural genomics structural information structure
structure prediction subcellular subcellular localization subgraphs subnetworks
subset substrate subunit support vector machine suppressor surface susceptibi-
lity switch synapse synaptic plasticity synchronization system systems biology
t cell target target gene targeting telomere temperature thaliana theories ther-
mostability threshold time time scales time series time series data timing tissue
tolerance topology trafficking trait trans trans golgi trans golgi network trans-
cription transcription networks transcriptional regulation transcriptome transduc-
tion transduction pathways transfer transformation transient transition transi-
tion state translocation transmembrane transmission transport tuberculosis tu-
mor turnover tyrosine uncertainty unique universe upstream variability va-
riance variation variety vascular vegetation velocity vertebrate vesicle vessels
virulence virus visual cortex wide range wild x ray yeast yeast cell yeast sac-
charomyces yeast saccharomyces cerevisiae zebrafish
B3 Deacuteveloppement durable - CAB
Electricity rural areas risk assessment river water intensification cost analysis
reports topography classification nitrates damage methodology technical pro-
gress zoning grasslands population density production soil types residential
areas sugarcane drought international comparisons rice trade relations econo-
mic theory carbon angling human activity grazing botanical composition floo-
ding ownership species diversity local population water allocation biomass pro-
duction groundwater sociology nitrate satellite imagery development aid rota-
tions social impact protection of forests accounting models irrigation manures
fuel crops soil fertility cattle farming monitoring small farms seasonal variation
natural resources coastal areas institution building rural tourism economic deve-
lopment human ecology government policy irrigation water bioremediation in-
ternational trade technology bioenergy world tropical forests nutrients indus-
try water availability plant pests renewable resources temporal variation pollu-
ted water economic growth pollutants water distribution greenhouse gases air
pollution forestry development hunting mathematical models investment emis-
sion forest products information mapping ethics refuse remote sensing conser-
vation areas weeds carbon dioxide research innovation adoption directives land-
sat salinity access spatial distribution ecological disturbance migration drinking
water water quality carrying capacity groundwater pollution composting inter-
national organizations population dynamics optimization cropping systems che-
mical composition plant water relations harvesting projects yields multipurpose
trees gender relations vegetation types wildlife animal husbandry shifting culti-
vation parity mountain forests econometric models range management land
pastoral society pig farming resources biomass biodiversity rehabilitation land
B3 Deacuteveloppement durable - CAB 239
ownership political power woodlands economic impact animal manures tradi-
tional society agriculture development programmes mangrove forests water re-
sources environmental factors outdoor recreation atmosphere public health euro-
pean union geographical distribution taxes hydrology use efficiency streams pas-
toralism medicinal plants forest recreation diversification animal production sup-
ply balance forecasts waste water government degraded land biology data ana-
lysis seeds roads valuation social participation environmental protection forests
fuelwood tourism development wetlands tourist industry support measures pro-
duction structure settlement soil water poverty transition economies environ-
mental management right of access flood control private ownership forest fires
law drainage systems heritage areas coffee feeds land diversion land resources
farming economic policy economic viability biogas projections techniques co-
operation local government climate agricultural trade property ethnic groups
rain resettlement watershed management farming systems aquatic environment
cadastres participation water harvesting marketing legislation conservation wa-
ter systems indigenous knowledge project implementation dynamic models forest
fragmentation non-governmental organizations change knowledge welfare eco-
nomics spatial variation organizations cap subsidies water conservation com-
munity involvement nitrogen transgenic plants alternative farming environmen-
tal policy climatic change households common lands human diseases visitor be-
haviour insect pests world trade organization equipment farm size agricultu-
ral research farm management grassroots organizations genetic engineering lear-
ning stand structure economic analysis soil geological sedimentation livestock
carbon sequestration agricultural economics farmersrsquo associations water flow se-
miarid zones food supply privatization wheat eu regulations agricultural situa-
tion wild animals production costs community action arable land losses capi-
tal water use rangelands solid wastes agricultural policy history marine parks
mangroves soil management partnerships afforestation estuaries herbicides so-
cial change pollution control nature tourism ecotourism silvopastoral systems
nitrogen fertilizers comparisons trickle irrigation energy sources trees culture
horticulture production possibilities dams maintenance polluted soils less favou-
red areas conflict trends dairy farms public domain lakes farm surveys simu-
lation landscape conservation cotton transport grassland management visits re-
gulations farms acreage economic situation non-market benefits canals eutro-
phication control stream flow crop yield quality decision making management
energy conservation tourists introduced species property rights fuels common
property resources databases land classification resource conservation leases effi-
ciency estimation expenditure statistical analysis habitats development projects
savannas energy policy macroeconomics networking regression analysis cost be-
nefit analysis waste water treatment waste management phosphorus demand
crops land markets groundwater recharge incentives economics forest products
industries willingness to pay landscape training community forestry globaliza-
240 Annexes
tion tourist attractions plant diseases forest ecology industrial wastes low input
agriculture catchment hydrology logging natural resource economics plant gene-
tic resources villages resource management information systems data collection
mining agricultural households forest policy environmental degradation uncer-
tainty womanrsquos status application rates milk production ecosystems crop pro-
duction saline water empowerment land management islands open spaces trade
policy profits environmental assessment forest plantations water costs agrofores-
try population pressure water pollution irrigation equipment arid zones reviews
cultural values upland areas deforestation membership fish farming tillage po-
licy water use efficiency finance production functions rural development land
evaluation fishery resources economic evaluation tourism impact trade liberaliza-
tion certification contracts environmental education wildlife management water
policy infrastructure intellectual property rights suburban areas forecasting non-
wood forest products innovations thematic mapper floodplains air pollutants pro-
duction economics resource utilization decentralization demography drainage
research projects aquaculture land reform pastures regional development social
forestry modernization consumer preferences industrialization energy resources
agricultural land land use planning silviculture maps energy funding evalua-
tion structural change agricultural structure air quality costs services marine en-
vironment public services pest control land capability contingent valuation land
productivity supply recycling environmental legislation development planning
land transfers prices development global warming technology transfer educa-
tion erosion control precipitation arable farming land consolidation pollution
amenity and recreation areas pesticides nature conservation case studies forest
economics recreation rivers fishery policy organic farming operating costs fo-
rest trees regions simulation models price policy agricultural entomology farm
structure constraints barley compensation wildlife conservation parks leaching
terms of trade watersheds forest management contamination indicators sanita-
tion cereals productivity administration socioeconomics water recreation rural
environment tropical rain forests vegetables community development regional
planning forestry biotechnology land development risk rural communities me-
thane guidelines profitability ethanol soil conservation assessment tenure sys-
tems algorithms farm income tourism potatoes water balance development po-
licy soil pollution agricultural development roles urban development private sec-
tor cultural heritage resource allocation water management fishery management
urban areas commercialization international cooperation fallow natural disasters
surface water farm inputs forest resources urbanization household surveys lan-
downers animal welfare waste disposal cultivation waste utilization farmersrsquo at-
titudes erosion effluents agricultural production environment standards water
food safety national parks linear programming theory surveys returns irriga-
ted farming landscape ecology waste treatment rent computer software inva-
sions visitors energy consumption trade floods farmers tourism policy dairy
B3 Deacuteveloppement durable - CAB 241
farming social development soyabeans consumer attitudes plant communities
soil degradation irrigation systems salinization tariffs mountain areas commu-
nication food production politics land use forest ownership trade agreements
design attitudes plant breeding behaviour runoff fresh water markets infor-
mation services opportunity costs geographical information systems cooperatives
communities agricultural sector nature reserves health wild birds public opinion
fees temperature utilization endangered species abandoned land motivation im-
ports institutions externalities soil organic matter labour cultivars environmental
impact ecology livestock farming diffusion of information land prices ranching
multiple use riparian vegetation fisheries international agreements weed control
reservoirs income population growth water supply rural economy agroforestry
systems conservation tillage consumption women highlands tropics rain forests
maize timbers destinations food security agrarian reform vegetation human po-
pulation habitat destruction planning sediment genetic resources private fores-
try marine areas reserved areas land policy water table exports aquifers water
reuse fishing usage feasibility studies reclamation growth employment land de-
gradation species richness extension regional policy wilderness weather deserti-
fication heavy metals biosafety fertilizers
ANNEXE C
Requecircte deacuteveloppement durable
La requecircte preacutecise construite par Marc Barbier et Andreiuml Mogoutov est la sui-vante
(farming systems OR farming system) OR TS=(croppingsystems OR cropping system) OR TS=(agricultural systemsOR agricultural system) OR TS=(agricultural knowledge) ORTS=(farmers participation) OR TS=(natural resource management)OR TS=(nature conservation) OR TS=(small scale farm OR small-holder farm OR family farm) OR TS=(livestock systems OR live-stock system) OR TS=(organic agriculture) OR TS=(livestock far-ming system OR livestock farming systems) OR TS=(rural sys-tem OR rural systems) OR TS=(agrarian system OR agrarian sys-tems) OR TS=(local food OR local foods) OR TS=(pluriactivityOR pluriactivities) OR TS=(social learning OR social learnings)OR TS=(Farm management)) OR TS=((livelihood or livelihoodsor system approach or systems approachor household or house-holds or RampD or research developement or extensions systems orextension system) AND TS=(agricult farm or farming or rural)
Bibliographie
Abrahamson E Rosenkopf L 1997 Social network effects on the extent of inno-vation diffusion A computer simulation Organization Science 8 (3) 289ndash309
Adamic L A Adar E 2005 How to search a social network Social Networks27 (3) 187ndash203
Adamic L A Glance N 2005a The political blogosphere and the 2004 us elec-tion divided they blog Proceedings of the 3rd international workshop on Linkdiscovery 36ndash43
Adamic L A Glance N 2005b The political blogosphere and the 2004 us elec-tion divided they blog Proceedings of the 3rd international workshop on Linkdiscovery 36ndash43
Adar E Zhang L Adamic L A Lukose R 2004a Implicit structure and thedynamics of blogspace Workshop on the Weblogging Ecosystem 13th Interna-tional World Wide Web Conference
Adar E Zhang L Adamic L A Lukose R M 2004b Implicit structure and thedynamics of blogspace Proceedings
Albert R Jeong H Barabaacutesi A-L 2000 Error and attack tolerance of complexnetworks Nature
Ali-Hasan N F A-H N F Adamic L A 2007 Expressing social relationshipson the blog through links and comments
Almaas E Barabaacutesi A 2005 Power laws in biological networks Power lawsscalefree networks and genome biology Landes Bioscience
Amblard F Deffuant G 2004 The role of network topology on extremism pro-pagation with the relative agreement opinion dynamics Physica A 343 725ndash738
Amin A Roberts J 2006 Communities of practice Varieties of situated learningDynamics of Institutions and Markets in Europe research paper
Amin A Roberts J 2008 Knowing in action Beyond communities of practiceResearch Policy 37 (2) 353ndash369
Archer M S 1996 Culture and agency The place of culture in social theoryCambridge Univ Pr
244 Bibliographie
Axelrod R 1997a The Complexity of Cooperation Agent-Based Models of Com-petition and Collaboration Princeton University Press bouquin drsquoaxelrod dis-seminating culture
Axelrod R 1997b The dissemination of culture A model with local convergenceand global polarization Journal of conflict resolution 203ndash226
Backstrom L Huttenlocher D Kleinberg J M Lan X 2006a Group formationin large social networks membership growth and evolution Proceedings 44ndash54
Backstrom L Huttenlocher D Kleinberg J M Lan X 2006b Group formationin large social networks membership growth and evolution Proceedings ofthe 12th ACM SIGKDD international conference
Bala V Goyal S 1998 Learning from neighbours Review of Economic Studies65 (3) 595ndash621
Balog K Mishne G de Rijke M 2006 Why are they excited identifying and ex-plaining spikes in blog mood levels Proceedings 11th Meeting of the EuropeanChapter of the Association for Computational Linguistics (EACL 2006) April
Bar-Yossef Z Rajagopalan S 2002 Template detection via data mining and itsapplications Proc 11th Intl World-Wide Web Conferencebdquo 580ndash591
Barabaacutesi A-L 2005 The origin of bursts and heavy tails in human dynamicsNature 435 (7039) 207ndash11
Barabaacutesi A-L Albert R 1999 Emergence of scaling in random networks Science286 (5439) 509
Barabaacutesi A-L Albert R Jeong H 1999 Mean-field theory for scale-free randomnetworks Physica A 272 173ndash187
Barbier M Garandel-Batifol V Bompart M 2008 A textual analysis and sciento-metric mapping of the dynamic of knowledge in and around the ifsa communityThe 8th IFSA European Symposium 6-10 July 2008 Clermont Ferrand ndashFrance1ndash20
Barbour A Mollison D 1990 Epidemics and random graphs Stockholm Uni-versity 86ndash89
Barrat A Bartheacuteleacutemy M Pastor-Satorras R Vespignani A 2004 The architec-ture of complex weighted networks PNAS 101 (11) 3747ndash3752
Bartheacuteleacutemy M Barrat A Pastor-Satorras R et al 2005 Dynamical patterns ofepidemic outbreaks in complex heterogeneous networks Journal of TheoreticalBiology
Bibliographie 245
Batagelj V Mrvar A 1998 Pajek-program for large network analysis Connec-tions 21 (2) 47ndash57
Bearman P S Moody J Stovel K 2004 Chains of affection The structure of ado-lescent romantic and sexual networks 1 American Journal of Sociology 110 (1)44ndash91
Beck U 1992 Risk society towards a new modernity Sage Publications Ltd
Bentley R A Ormerod P 2009 Were people imitating others or exercising ratio-nal choice in on-line searches forrsquoswine flursquo arxiv
Blondel V D Guillaume J-L Lambiotte R Lefebvre E 2008 Fast unfolding ofcommunities in large networks J Stat Mech 10008
Boguna M Pastor-Satorras R 2002 Epidemic spreading in correlated complexnetworks Physical Review E 66 047104
Bollobaacutes B 1985 Random Graphs Cambridge University Press
Boltanski L Theacutevenot L 1991 De la justification les eacuteconomies de la grandeurGallimard Paris
Bonaccorsi A 2008 Search regimes and the industrial dynamics of science Mi-nerva 46 (3) 285ndash315
Bonneuil C Joly P-B Marris C 2008 Disentrenching experiment The construc-tion of gmndashcrop field trials as a social problem Science Technology amp HumanValues 33 (2) 201
Borgatti S P Mehra A Brass D J Labianca G 2009 Network analysis in thesocial sciences Science 323 (5916) 892
Boumlrner K Scharnhost A 2009 Visual conceptualizations and models of scienceJournal of Informetrics
Bourigault D Fabre C Freacuterot C Jacques M-P Ozdowska S Recourceacute G2005 Syntex analyseur syntaxique de corpus Actes des 12egravemes journeacutees sur leTraitement
Boyack K W Klavans R Boumlrner K 2005 Mapping the backbone of scienceScientometrics 64 (3) 351ndash374
Braam R R Moed H F van Raan A F J 1991 Mapping of science by combinedcocitation and word analysis ii dynamical aspects Journal American SocietyInformation Science 42 (4) 252ndash266
246 Bibliographie
Breiger R L 1974 The duality of persons and groups Social Forces 53 (2) 181ndash190
Bryant S Forte A Bruckman A 2005 Becoming wikipedian transformationof participation in a collaborative online encyclopedia Proceedings of the 2005international ACM SIGGROUP conference on Supporting group work
Burk W J Kerr M Stattin H 2008 The co-evolution of early adolescent friend-ship networks school involvement and delinquent behaviors Revue franccedilaisede sociologie 3 (49) 499 agrave 522
Burt R S 1978 Cohesion versus structural equivalence as a basis for networksubgroups Sociological Methods and Research 7 189ndash212
Burt R S 1987 Social contagion and innovation Cohesion versus structural equi-valence American Journal of Sociology 92 (6) 1287ndash1335
Burt R S 1992 Structural holes The social structure of competition HarvardUniv Pr
Burt R S 1997 A note on social capital and network content Social Networks19 (4) 355ndash373
Burt R S 2000 The network structure of social capital Research in organizationalbehavior 22 (2) 345ndash423
Burt R S 2004 Structural holes and good ideas American Journal of Sociology110 (2) 349ndash399
Buter R Noyons E C M 2002 Using bibliometric maps to visualise term dis-tribution in scientific papers Sixth International Conference on Information Vi-sualisation (IVrsquo02) 697ndash702
Callaway D Newman M E J Strogatz S H Watts D J 2000 Network robust-ness and fragility Percolation on random graphs Physical Review Letters E 855468ndash5471
Callon M 1994 Is science a public good fifth mullins lecture virginia polytech-nic institute 23 march 1993 Science Technology amp Human Values 19 (4) 395
Callon M 2006 Can methods for analysing large numbers organize a productivedialogue with the actors they study Eur Manage Rev 3 (1) 7ndash16
Callon M Courtial J-P Laville F 1991 Co-word analysis as a tool for describingthe network of interaction between basic and technological research The caseof polymer chemistry Scientometrics 22 (1) 155ndash205
Bibliographie 247
Callon M Courtial J-P Turner W A Bauin S 1983 From translations to pro-blematic networks An introduction to co-word analysis Social Science Infor-mation 22 (2) 191ndash235
Callon M Ferrary M 2006 Les reacuteseaux sociaux agrave lrsquoaune de la theacuteorie de lrsquoacteur-reacuteseau Sociologies Pratiques 13 37ndash43
Callon M Latour B 1981 Unscrewing the big leviathan how actors macro-structure reality and how sociologists help them to do so Advances in So-cial Theory and Methodology Toward an Integration of Micro-and Macro-sociologies Knorr-Cetina K and Cicourel AV Routledge 277ndash303
Callon M Law J Rip A 1986 Mapping the dynamics of science and technologyLondon Macmillan
Cambrosio A Limoges C Courtial J-P Laville F 1993 Historical scientome-trics mapping over 70 years of biological safety research with coword analysisScientometrics
Capocci A Servedio V Caldarelli G Colaiori F 2005 Detecting communitiesin large networks Physica A Statistical Mechanics and its Applications
Cardon D Delaunay-Teterel H 2006 La production de soi comme techniquerelationnelle Reacuteseaux 138 (20064) 15ndash71
Cattuto C 2006 Semiotic dynamics in online social communities The EuropeanPhysical Journal C-Particles and Fields
Cha M Mislove A Adams B Gummadi K P 2008 Characterizing social cas-cades in flickr Proceedings of the first workshop on Online social networks13ndash18
Chateauraynaud F Trabal P 2003 Internet agrave lrsquoeacutepreuve de la critique
Chavalarias D Cointet J-P 2008 Bottom-up scientific field detection for dyna-mical and hierarchical science mapping - methodology and case study Sciento-metrics 75 (1)
Chavalarias D Cointet J-P 2009 The reconstruction of science phylogeny Arxivpreprint arXiv 09043154
Chen C 2004 Searching for intellectual turning points Progressive knowledgedomain visualization PNAS
Chen C 2006 Citespace ii Detecting and visualizing emerging trends and tran-sient patterns in scientific literature Journal of the American Society for Infor-mation Science 57 (3) 359ndash377
248 Bibliographie
Chen C Cribbin T Macredie R Morar S 2002 Visualizing and tracking thegrowth of competing paradigms Two case studies Journal of the AmericanSociety for Information Science 53 (8) 678ndash689
Chi Y Zhu S Song X Tatemura J Tseng B L 2007 Structural and temporalanalysis of the blogosphere through community factorization Proceedings ofthe 13th ACM SIGKDD international conference on Knowledge discovery anddata mining 163ndash172
Christakis N A Fowler J H 2007 The spread of obesity in a large social networkover 32 years The New England Journal of Medicine 10
Christakis N A Fowler J H 2008 The collective dynamics of smoking in a largesocial network New England Journal of Medicine 358 (21) 2249
Chubin D E 1976 The conceptualization of scientific specialties The sociologicalquarterly 17 (4) 448ndash476
Clauset A Newman M E J Moore C 2004 Finding community structure invery large networks Physical Review E
Cohendet P Creacuteplet F Dupouet O 2003 Innovation organisationnelle com-munauteacutes de pratique et communauteacutes eacutepisteacutemiques le cas de linux Revuefranccedilaise de gestion 146 (20035) 99ndash121
Cointet J-P 2008 Reconstruction multi-echelle des dynamiques scientifiquesJourneacutees Jeunes Chercheurs du Deacutepartement des Sciences Sociales de lrsquoINRAMontpelier 1ndash17
Cointet J-P Chavalarias D 2008 Multi-level science mapping with asymmetricco-occurrence analysis Methodology and case study NETWORKS AND HE-TEROGENEOUS MEDIA 3 (2) 267ndash276
Cointet J-P Faure E Roth C 2007 Intertemporal topic correlations in onlinemedia Proceedings of the International Conference on Weblogs and Social Me-dia (ICWSM 2007)
Cointet J-P Roth C 2007 How realistic should knowledge diffusion models be Journal of Artificial Societies and Social Simulation
Cointet J-P Roth C 2009 Socio-semantic dynamics in a blog network Social-Com09 1ndash8
Coleman J S 1988 Social capital in the creation of human capital American Jour-nal of Sociology 94 S95ndashS120
Coleman J S Katz E Menzel H 1957a The diffusion of an innovation amongphysicians Sociometry 20 (4) 253ndash270
Bibliographie 249
Coleman J S Katz E Menzel H 1957b The diffusion of an innovation amongphysicians Sociometry
Conein B 2003 Communauteacute eacutepisteacutemique et reacuteseaux cognitifs coopeacuteration etcognition distribueacutee Internet Une utopie limiteacutee Nouvelles reacutegulations nou-velles solidariteacutes Conein Bernard Massit-Folleacutea Franccediloise et Proulx Serge(dir)
Conein B 2004 Cognition distribueacutee groupe social et technologie cognitive Reacute-seaux 124 53ndash79
Cowan R David P Foray D 2000 The explicit economics of knowledge codifi-cation and tacitness Industrial and corporate change 9 (2) 211ndash253
Cowan R Jonard N 2004a Network structure and the diffusion of knowledgeJournal of Economic Dynamics and Control
Cowan R Jonard N 2004b Network structure and the diffusion of knowledgeJournal of Economic Dynamics and Control 28 1557ndash1575
Crandall D Cosley D Huttenlocher D Kleinberg J M Suri S 2008a Feed-back effects between similarity and social influence in online communities ACMNew York NY USA
Crandall D Cosley D Huttenlocher D Kleinberg J M Suri S 2008b Feed-back effects between similarity and social influence in online communities ACMNew York NY USA
Crane D 1972 Invisible Colleges Diffusion of Knowledge in Scientific Commu-nities University of Chicago Press
Creacutepey P Alvarez F P Bartheacuteleacutemy M 2006 Epidemic variability in complexnetworks Physical Review E 73 (4) 046131
Crutchfield J P Young J 1989 Inferring statistical complexity Physical ReviewLetters 63 (2) 105ndash108
Danon L Diaz-Guilera A Duch J Arenas A 2005 Comparing communitystructure identification Journal of Statistical Mechanics Theory and Expe-riment
Davis J A 1963 Structural balance mechanical solidarity and interpersonal re-lations American Journal of Sociology 444ndash462
Davis J A Leinhardt S 1972 The structure of positive interpersonal relations insmall groups J Berger (Ed) Sociological Theories in Progress Vol 2 Boston-Houghton Mifflin
250 Bibliographie
de Solla Price D 1965 Networks of scientific papers Science
de Solla Price D 1976 A general theory of bibliometric and other cumulativeadvantage processes Journal of the American Society for Information Science27 (4) 292ndash306
Deffuant G 2006 Comparing extremism propagation patterns in continuous opi-nion models Journal of Artificial Societies and Social Simulation 9 (3) 8
Deffuant G Amblard F Weisbuch G Faure T 2002 How can extremism pre-vail a study based on the relative agreement interaction model Journal of Ar-tificial Societies and Social Simulation 5 (4) 1
Deroian F 2002 Formation of social networks and diffusion of innovations Re-search Policy 31 835ndash846
Dijkstra E W 1959 A note on two problems in connexion with graphs Nume-rische Mathematik 269ndash271
Dillenbourg P Poirier C Carles L 2003 Communauteacutes virtuelles drsquoapprentis-sage e-jargon ou nouveau paradigme in A Taurisson et A Sentini Peacutedago-giesnet Montreacuteal Presses
Dorat R Latapy M Conein B Auray N 2007 Multi-level analysis of an inter-action network between individuals in a mailing-list Annales des teacuteleacutecommu-nications
Dorogovtsev S N Goltsev A V Mendes J F F 2007 Critical phenomena incomplex networks arxiv cond-matstat-mech
Dorogovtsev S N Mendes J F F 2003 Evolution of Networks From BiologicalNets to the Internet and WWW Oxford University Press USA
Dupuy J-P 2004 Vers lrsquouniteacute des sciences sociales autour de lrsquoindividualisme meacute-thodologique complexe Revue du MAUSS 24 (20042) 310ndash328
Eguiluz V M Klemm K 2002 Epidemic threshold in structured scale-free net-works Physical Review Letters 89 108701
Eisenberg E Levanon E Y 2003 Preferential attachment in the protein networkevolution Journal reference Phys Rev Lett Phys Rev Lett 91 138701
Ellison G Fudenberg D 1995 Word-of-mouth communication and social lear-ning Quarterly Journal of Economics 110 (1) 93ndash125
Emirbayer M Goodwin J 1994 Network analysis culture and the problem ofagency American Journal of Sociology 99 (6) 1411ndash1454
Bibliographie 251
Erdoumls P Reacutenyi A 1959 On random graphs Publicationes Mathematicae 6 290ndash297
Farkas I J Aacutebel D Palla G Vicsek T 2007 Weighted network modules NewJournal of Physics
Fischer G 2001 Communities of interest Learning through the interaction ofmultiple knowledge systems 24th Annual Information Systems Research Semi-nar In Scandinavia (IRISrsquo24) 1ndash14
Flichy P 2000 Internet or the ideal scientific community Reacuteseaux 7 (2) 155ndash182
Flichy P 2008 laquointernet un outil de la deacutemocratie raquo La vie des ideacutees
Freeman L C 1979 Centrality in social networks Conceptual clarification SocialNetworks 1 (3) 215ndash239
Freeman L C 2004 The Development of Social Network Analysis A Study inthe Sociology of Science Empirical Press
Friedberg E 1997 Le pouvoir et la regravegle Dynamiques de lrsquoaction organiseacutee ParisSeuil
Friggeri A Cointet J-P Latapy M 2009 A real-world spreading experiment inthe blogosphere happyflucom
Funabashi M Chavalarias D Cointet J-P 2009 Order-wise correlation dyna-mics in text data Complex Networks Results of the 1st International Workshopon Complex Networks (CompleNet 2009) 161
Gallos L K Song C Havlin S Makse H A 2007 Scaling theory of transportin complex biological networks PNAS 104 (19) 7746
Ganesh A Massoulieacute L Towsley D 2005 The effect of network topology on thespread of epidemics Proceedings 2 1455ndash1466
Garas A Argyrakis P 2008 A network approach for the scientific collaborationin the european framework programs arxiv physicssoc-ph
Garfield E 2004 Historiographic mapping of knowledge domains literatureJournal of Information Science 30 (2) 119ndash145
Giddens A 1981 Agency insitution and time-space analysis Advances in So-cial Theory and Methodology Toward an Integration of Micro-and Macro-sociologies Knorr-Cetina K and Cicourel AV Routledge 8
Gilbert M 2003 Marcher ensemble Essais sur le fondements des pheacutenomegravenescollectifs Paris PUF
252 Bibliographie
Gilbert N Pyka A Ahrweiler P 2001 Innovation networks ndash a simulation ap-proach Journal of Artificial Societies and Social Simulation 4 (3) 8
Gill K E 2004 How can we measure the influence of the blogosphere WWW2004 Workshop on the Weblogging Ecosystem Aggregation Analysis and Dy-namics
Girvan M Newman M E J 2002 Community structure in social and biologicalnetworks PNAS 99 7821ndash7826
Glance N Hurst M Tomokiyo T 2004 Blogpulse Automated trend discoveryfor weblogs WWW 2004 Workshop on the Weblogging Ecosystem Aggrega-tion
Goldenberg J Libai B Muller E 2001 Talk of the network A complex systemslook at the underlying process of word-of-mouth Marketing Letters 12 (3) 211ndash223
Goldman A I 2008 The social epistemology of blogging Information Technologyand Moral Philosophy
Goodman L A 1964 Mathematical methods for the study of systems of groupsAmerican Journal of Sociology
Gotz M Leskovec J McGlohon M Faloutsos C 2009 Modeling blog dyna-mics Proceedings of the Third International ICWSM Conference (2009)
Granovetter M S 1973 The strength of weak ties The American Journal of Socio-logy 78 (6) 1360ndash1380
Granovetter M S 1978a Threshold models of collective behavior American Jour-nal of Sociology 83 (6) 1420ndash1443
Granovetter M S 1978b Threshold models of collective behavior The AmericanJournal of Sociology
Granovetter M S 1985 Economic action and social structure The problem ofembeddedness The American Journal of Sociology 91 (3) 481ndash510
Gruhl D Guha R Kumar R Novak J Tomkins A 2005 The predictive po-wer of online chatter Proceedings of the eleventh ACM SIGKDD internationalconference on Knowledge discovery in data mining 78ndash87
Gruhl D Guha R Liben-Nowell D Tomkins A 2004 Information diffusionthrough blogspace Proceedings of the 13th international conference on WorldWide Web 491ndash501
Bibliographie 253
Guillaume J-L Latapy M 2004 Bipartite structure of all complex networks In-formation Processing Letters 90 (5) 215ndash221
Gulati R 1995 Social structure and alliance formation patterns A longitudinalanalysis Administrative Science Quarterly 40 (4)
Haas P M 1992 Introduction epistemic communities and international policycoordination International Organization 46 (1) 1ndash35
He Q 1999 Knowledge discovery through co-word analysis Library Trends
Herring S C Kouper I Paolillo J C Scheidt L A Tyworth M Welsch PWright E Yu N 2005 Conversations in the blogosphere An analysis ldquofromthe bottom uprdquo Proceedings of the 38th Hawaii International Conference onSystem Sciences (HICSSrsquo05)
Hethcote H W 2000 The mathematics of infectious diseases SIAM Review 42 (4)599ndash653
Heylighen F Heath M Overwalle F V 2004 The emergence of distributedcognition a conceptual framework Proceedings of Collective Intentionality IVSiena (Italy)
Hindman M Tsioutsiouliklis K Johnson J 2003 Googlearchy How a fewheavily-linked sites dominate politics on the web Annual Meeting of the Mid-west Political Science Association 4
Hine C 2005 Virtual methods Issues in social research on the Internet BergPublishers
Holland P W Leinhardt S 1976 Local structure in social networks SociologicalMethodology 1ndash45
Holme P Edling C Liljeros F 2004 Structure and time evolution of an internetdating community Social Networks 26 (2) 155ndash174
Holme P Kim B J 2002 Growing scale-free networks with tunable clusteringPhysical Review E 65 (2) 1ndash4
Hopcroft J Khan O Kulis B Selman B 2004a Tracking evolving communitiesin large linked networks PNAS 101 Suppl 1 5249ndash53
Hopcroft J Khan O Kulis B Selman B 2004b Tracking evolving communitiesin large linked networks PNAS 101 (1) 5249ndash5253
Huberman B A Romero D M Wu F 2008 Social networks that matter Twitterunder the microscope arxiv
254 Bibliographie
Huelsenbeck J P Rannala B 1997 Phylogenetic methods come of age Testinghypotheses in an evolutionary context Science
Hull D L 1988 Science as a process an evolutionary account of the social andconceptual development of science University of Chicago Press
Hull D L 2001 Science and Selection Essays on Biological Evolution and thePhilosophy of Science Cambridge University Press
Hutchins E 1996 2 learning to navigate Understanding practice Perspectiveson activity and context 35
Iribarren J L Moro E 2007 Information diffusion epidemics in social networksarxiv
Java A Kolari P Finin T Oates T 2006 Modeling the spread of influence onthe blogosphere Proceedings of the 15th International World Wide Web 7
Java A Song X Finin T Tseng B 2007 Why we twitter understanding mi-croblogging usage and communities Proceedings of the 9th WebKDD and 1stSNA-KDD 2007 workshop on Web mining and social network analysis 56ndash65
Jeong H Neda Z Barabaacutesi A-L 2003a Measuring preferential attachment forevolving networks Europhys Lett
Jeong H Neacuteda Z Barabaacutesi A-L 2003b Measuring preferential attachment forevolving networks Europhysics Letters 61 (4) 567ndash572
Johnson D H Sinanovic S 2001 Symmetrizing the kullback-leibler distanceIEEE Transactions on Information Theory
Johnson J 2006 Hypernetworks for reconstructing the dynamics of multilevelsystems submitted to the European Conference on Complex Systems Oxford
Jones B Wuchty S Uzzi B 2008 Multi-university research teams Shifting im-pact geography and stratification in science Science
Jones J H Handcock M S 2003 An assessment of preferential attachment asa mechanism for human sexual network formation Proceedings of the RoyalSociety B Biological Sciences 270 (1520) 1123ndash1128
Kadushin C 1966 The friends and supporters of psychotherapy on social circlesin urban life American Sociological Review 786ndash802
Katz E Lazarsfeld P F 1955 Personal influence Free Press
Keller E F 2005 Revisiting ldquoscale-freerdquo networks Bioessays 27 (10) 1060ndash1068
Bibliographie 255
Kempe D Kleinberg J M 2002 Protocols and impossibility results for gossip-based communication mechanisms Proceedings 471ndash480
Kempe D Kleinberg J M Tardos E 2003 Maximizing the spread of influencethrough a social network Proceedings 137ndash146
Kempe D Kleinberg J M Tardos E 2005 Influential nodes in a diffusion modelfor social networks Proceedings 3580 1127ndash1138
Kleinberg J M 1999 Authoritative sources in a hyperlinked environment Journalof the ACM
Kleinberg J M 2000 Navigation in a small world Nature 406 (6798) 845ndash845
Kleinberg J M 2003 Bursty and hierarchical structure in streams Data Miningand Knowledge Discovery 7 (4) 373ndash397
Kleinberg J M 2005 Temporal dynamics of on-line information streams DataStream Management Processing High-Speed Data Streams Springer
Klemm K Eguiluz V M 2001 Highly clustered scale-free networks the Ameri-can Physical Society 65 1231ndash12352002
Klemm K Eguiluz V M Toral R Miguel M S 2005 Globalization polariza-tion and cultural drift Journal of Economic Dynamics and Control 29 321ndash334
Knorr-Cetina K D 1982 Scientific communities or transepistemic arenas of re-search a critique of quasi-economic models of science Social Studies of Science12 (1) 101ndash130
Knorr-Cetina K D 1995 Laboratory studies The cultural approach to the studyof science Handbook of Science and Technology Studies 140ndash166
Kossinets G Kleinberg J M Watts D J 2008 The structure of information pa-thways in a social communication network arxiv physicssoc-ph
Kossinets G Watts D J 2006 Empirical analysis of an evolving social networkScience
Kuhn T S 1970a The Structure of Scientific Revolutions University of ChicagoPress
Kuhn T S 1970b The Structure of Scientific Revolutions Postscript Universityof Chicago Press
Kullback S Leibler R 1951 On information and sufficiency The Annals of Ma-thematical Statistics 79ndash86