de Gargantext Présentation · Présentation de Gargantext. Mon Parcours Doctorat en Sciences de...
Transcript of de Gargantext Présentation · Présentation de Gargantext. Mon Parcours Doctorat en Sciences de...
Présentation
de Gargantext
Mon Parcours
Doctorat en Sciences de l’Information et la
Communication
1er start-up (2000)
Chercheur sous contrat
1er smart-up coopérative
(2013)
Je suis Mylène Leitzelman
Vous pouvez me suivre sur @myleitz et me contacter à l’adresse suivante : [email protected]
Veille, Cycle de l’information
1. Contexte
Pyramide DIKW
Monde
Données (éléments abstraits)
Information(éléments liés)
Connaissance(info. organisée)
Sagesse(conn.
appliquée)
Réduire l’abstraction du
monde
Traiter et organiser les
données
Analyser et interpréter les
informations
Appliquer les connaissances
“« L’art de repérer, collecter, traiter, stocker des informations et
des signaux pertinents (faibles, forts) qui vont irriguer l’entreprise à tous les niveaux de rentabilité, permettre
d’orienter le futur (technologique, commercial, …) et également de protéger le présent et l’avenir face aux attaques de la
concurrence »
Rouach 1996
Définition de la veille :
Les cinq forces de PORTER
ENTRANTS POTENTIELS
FOURNISSEURS
SUBSTITUTS
CLIENTS
CONCURRENTS DU SECTEUR
Rivalité entre les firmes existantesPouvoir de
négociation des clientsMenace des produits
ou services substituables
Pouvoir de négociation des
fournisseurs
Menace de nouveaux entrants
Les différents types de veille
ENTRANTS POTENTIELS
FOURNISSEURS
SUBSTITUTS
CLIENTS
CONCURRENTS DU SECTEUR
Pouvoir de négociation des
clientsMenace des produits ou services
substituables
Pouvoir de négociation des
fournisseurs
Menace de nouveaux entrants
Veille environnementale
Veille concurrentielle
Veille commerciale
Veille technologique
Veille commerciale
Veille produit
La veille technologique - scientifique
Elle s'appuie sur l'observation et l'analyse de l'information scientifique, technique et technologique, et de son impact sur l'environnement économique, commercial et financier, dans le but de détecter les menaces et de saisir les opportunités de développement.
-> Recherche fondamentale et appliquée,
-> Veille brevet (Espacenet, USPTO, WIPO)
Le cycle de l’information
• DONNÉES
Evaluation
• INFORMATION
Analyse
• CONNAISSANCE
Interprétation
Recueil
Traitement
INTE
NTI
ON
Le cycle de l’information permet : 1. de transformer un ensemble de données en information2. de construire une connaissance opérationnelle, pertinente,
transférable et opérante
Actionable knowledge
« La connaissance ce
n’est pas l’accumulation de connaissances »
Edgar Morin
Les Publications Scientifiques
2. L’Information Scientifique et
Technique
Les grandes bases de données de
recherche incontournables
Analyse des champs pour :
○ Auteurs et affiliations => sources institutionnelles et collaborations
○ Date et Journal => inscription temporelle dans des périodiques de prestige + ou – grand
○ Les champs textuels (titre, mots clés, résumé, texte intégral) => thématique, contexte, indexation
○ Références citées => position dans le graphe des dépendances scientifiques et cartographies de la science
Recherche à l’intérieur du corpus de résultats
Facettes pour cibler les résultats à partir des champs de la référence (année, type de doc, auteur, affiliation,..)
Visualisation du résumé de l’article directement dans la liste
Accès à des analyses statistiques et graphiques sur les résultats (possibilité d’export)
Filtrage des résultats par date, source, auteurs ….
Accès à l’article complet en cliquant sur le titre
Web of Knowledge
L'archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion d'articles scientifiques de niveau recherche, publiés ou non, et de thèses, des établissements d'enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Moteur de recherche ISIDORE
Portail des SHS
Outil de cartographie des connaissances
3. Processus
d’analyse de Gargantext
“Le processus d'analyse de l'information est un mélange d'exploration informelle intuitive et d'exploitation méthodique de l'information
élaborée par différents outils d'analyse
Luc Grivel 2003
Gargantext est un environnement de cartographie conçu pour interagir avec de grandes masses de données textuelles non structurées.
Gargantext est un outil d’aide à la découverte de connaissances.
Gargantext produit des cartes vivantes qui évoluent au fur et à mesure que l’on travaille avec elles et les mots-clés.
Cartographier un domaine de connaissance ?
● avoir une vue d'ensemble et une
première approche du sujet de
recherche,
● suivre et analyser l'évolution
thématique, identifier les relations
intra et inter-thèmes non explicites,
● repérer l'émergence de nouvelles technologies, de nouveaux thèmes
de recherche,
● identifier et regrouper les acteurs et leurs institutions par thèmes,
● repérer les pôles d’excellence et évaluer le positionnement
thématique d'acteurs, d'institutions ou de pays...
Les 3 phases du processus de traitement de Gargantext
● le nettoyage du corpus au moyen de techniques avancées de text-mining
et de traitement automatique du langage naturel,
● l’indexation et l’analyse des termes au moyen de techniques de
datamining et de traitements statistiques,
● la représentation graphique et visuelle des données traitées obtenues.
Phase 1 : nettoyage du texte
✓ tokenisation / stemming : détection des phrases dans les textes et de mots dans les phrases et parcours de tous les mots pour les rassembler par famille, suppression des pluriels, recherche de la forme générique des mots
✓ post-tagging / chunking : détection et analyse des formes grammaticales (sujet, verbe, adjectifs) pour regrouper les groupes nominaux et groupes verbaux de plusieurs mots (n-grams)
Corpus bibliographique avec textes non structurés (résumé,
titres, mots-clés…)
Extraction des termes candidats pour créer les cartes
Phase 2 : analyse des termes
✓ Stop words : élimination des mots vides, utilisation de dictionnaires pour sélectionner les termes
✓ Indexation : des termes candidats pour la création des cartes (main list et Map list)
=> Intervention humaine pour la sélection des termes
Liste des termes retenus
Ajout, changement ou suppression des termes
candidats
Intervention humaine sur le choix des termes
✓ Calculs statistiques / Social Network Analysis : batterie d’analyse des termes candidats
✓ Clustering / Détection de communautés : comprendre la structure des liens dans le réseau des termes
=> Intervention humaine pour l’organisation des termes dans les cartes
Phase 3 : représentation cartographique
① Sélection avec la souris d’un noeud du graphe
② Les termes sélectionnés apparaissent dans le cadre supérieur droit de l’écran. Suppression des termes
directement partir du graphe
③ Liste des noeuds associés aux termes sélectionnés (termes voisins). Ces termes sont cliquables et le
graphe interagit.
④ Liste des publications les plus significatives concernant les termes sélectionnés (le titre ouvre une fenêtre
sur la fiche descriptive de la référence avec les termes sélectionnés en surbrillance jaune).
Outil itératif : importance de l’humain
Exemple d’application du processus d’analyse de Gargantext