Comment l'intelligence artificielle améliore la recherche documentaire
Transcript of Comment l'intelligence artificielle améliore la recherche documentaire
Comment l’intelligence artificielle améliore la recherche documentaire
Meetup Lyon Data Science – 9 juin 2016Pierre Col – Directeur Marketing Antidot @PierreCol – @AntidotNet
2 @AntidotNet
Agenda●Antidot (en 2 slides)●Où en est la recherche documentaire ?●Comment enrichir les documents ?
●Text Mining et IA - créer des métadonnées●Linked (Open) Data – lier les documents
●Exemples
3
Antidot en 2 slides
4 @AntidotNet
Antidot @AntidotNet●Editeur de logiciels
● moteurs de recherche | enrichissement des données● depuis 1999 | Paris, Lyon, Aix-en-Provence● 47 collaborateurs | +150 clients
●Mission : fournir des solutions innovantes qui créent de la valeur à partir des données et augmentent la performance opérationnelle de nos clients
5 @AntidotNet
Parmi nos clients● Production de contenus
● Industries
● E-Commerce
● Santé
6 @AntidotNet
Pierre Col @PierreCol
1978
1963
1983
1986
1996
2007
2010
7
Où en est la recherche documentaire ?
8 @AntidotNet
Question :
Que s’est-il passé ces 10 dernières années dans le monde du moteur de recherche documentaire ?
Notre réponse :
Rien de bien passionnant…
9 @AntidotNet
3 types de moteurs de recherche
10 @AntidotNet
Comment un moteur trouve-t-il ?●Il recherche dans les documents
les mots-clés renseignés●Il filtre les résultats trouvés selon les
critères demandés : type de document, taille, fourchette de prix…
●Et enfin, le plus important : il ordonne les document dans l’ordre « le plus pertinent »
11 @AntidotNet
Qu’est-ce que la pertinence ?
MotMot
MotMot
Mot
Mot
Mot
Mot
1
Mot
12 @AntidotNet
Qu’est-ce que la pertinence ?●Cette méthode de pondération s’appelle
TF-IDF (Term Frequency - Inverse Document Frequency)
●Elle a été inventée en 1970 par Gerry Salton, appelé le père de la recherche d’information
13 @AntidotNet
Pertinence des moteurs spécialisés
14 @AntidotNet
Pertinence des moteurs spécialisés
15 @AntidotNet
Pertinence des moteurs spécialisés
16 @AntidotNet
Pertinence des moteurs Web●Étape 1 - 90s : algorithmes TF-IDF●Étape 2 - 2000 : Google invente le Page
Rank●Étape 3 - 2005 : explosion du nombre de
paramètres de pondération●Étape 4 - 2010 : le Machine Learning
pour trouver la meilleure pertinence pour chacun
17 @AntidotNet
Pertinence des moteurs d’entreprise
●TF-IDF est toujours implémenté dans tous les moteurs de recherche documentaires,via les algorithmes appelés Best Match ou Vector Space Model
●L’état de l’art scientifique de ces moteurs de recherche a 45 ans !
18
Comment améliorer l’efficacité de la recherche ?
19 @AntidotNet
Disposer d’un contexte riche●Les résultats sont d’autant plus
pertinents que le moteur de recherche dispose, pour chaque document, de métadonnées riches
20 @AntidotNet
Disposer d’un contexte riche●Si nécessaire, avant indexation des
documents, créer des métadonnées pour ●caractériser finement chaque document●lier les documents entre eux
●Des outils précieux : ●Text Mining / Machine Learning●Linked Data
21 @AntidotNet
Qu’est-ce que le Text Mining ?●Fouille de textes : ensemble de
traitements informatiques consistant à extraire des connaissances dans des textes produits par des humains pour des humains.
●Disciplines scientifiques : ●linguistique calculatoire, traitement automatique
des langues, ●apprentissage automatique, intelligence artificielle, ●statistique
22 @AntidotNet
Qu’est-ce que le Machine Learning ?●Définition : faculté donnée à
un ordinateur d’apprendre un comportement à partir d’exemples
●Discipline scientifique : ●Intelligence Artificielle ●approche probabiliste ≠ approches par règles
23 @AntidotNet
Disposer d’un contexte riche●En exploitant les métadonnées, on peut
créer des liens entre documents issus de silos différents
●Pour cela, on dispose de l’approche et des standards du web de données : Linked Data
24 @AntidotNet
L’approche globale d’Antidot
Access
SearchSemantic &
Complex
Enrich
Text MiningMachine Learning
Doc Graph & Linked Data
25
Classification automatiquede documents
26 @AntidotNet
Classification automatique de texte
Droit de la familleDroit fiscalDroit pénal
27 @AntidotNet
Principe de fonctionnement
Corpus d’entrainemen
t
Base d’apprentissag
eTraitement statistique
28 @AntidotNet
Etape 1 : Constitution du corpus d’apprentissage
29 @AntidotNet
Etape 1 : Constitution du corpus d’apprentissage
30 @AntidotNet
Etape 1 : Constitution du corpus d’apprentissage
31 @AntidotNet
Etape 2 : Lancer le Machine Learning
32 @AntidotNet
Etape 3 : Mesurer le niveau de qualité du ML
33 @AntidotNet
Etape 4 : Itérer pour amélioration de la qualité
Base d’apprentissag
eBase d’apprentissag
e
34 @AntidotNet
Etape 4 : Mesurer l’amélioration de la qualité
35 @AntidotNet
En résumé
36
Exemple :www.rechercheisidore.fr
37 @AntidotNet
www.rechercheisidore.fr●2010
●750 sources ●1,8 M publications scientifiques en SHS●dont 100.000 classées par les
documentalistes
●2016●3700 sources ●4,2 M publications classées automatiquement
38 @AntidotNet
Classification automatique
39 @AntidotNet
Classification automatique
40
Exemple :www.caij.qc.ca
41 @AntidotNet
www.caij.qc.ca●L’information pour les avocats du Québec●Une information « en vrac »
●1,7 M documents sans classement à la source●10.000 nouveaux docs chaque mois●Plan de classement : 600 domaines du droit
●Classer : une tâche surhumaine●10 à 15 minutes par document ?●Un travail évalué à plus de 200 années
hommes !
42 @AntidotNet
Classification automatique
43 @AntidotNet
Atelier d’entraînement
44 @AntidotNet
Atelier d’entraînement
45 @AntidotNet
Atelier d’entraînement
46 @AntidotNet
Boucle d’amélioration continue
47 @AntidotNet
48 @AntidotNet
Mesurer la qualité des résultats
49 @AntidotNet
Mesurer la qualité des résultats
50 @AntidotNet
Précision inégalée
51 @AntidotNet
Un projet mené en 3 mois●3 personnes ont travaillé itérativement
pour constituer le corpus d’entraînement : ≈ 20 docs x 600 domaines ≈ 12.000 docs
●1,7M de documents classés en 10 h, à raison de 23 ms par document
52
Extraction d’entités nommées
53 @AntidotNet
Extraction d’entités nommées
54 @AntidotNet
Extraction d’entités
55 @AntidotNet
Extraction d’entités
56
Linked (Open) Data
57 @AntidotNet
Exploiter la variété des documents●Tirer profit de l’énorme gisement de
valeur des données non structurées : ●documents bureautiques, courriels ●GED – gestion électronique de documents●CRM – gestion de la relation clients●ERP – outils de gestion d’entreprise●…et de leur richesse
sémantique !
58 @AntidotNet
Changer de paradigme●Ne plus considérer les applications mais
SEULEMENT LES DONNÉES
59 @AntidotNet
Relier les données●Mettre les données de l’entreprise en
commun, les mailler au niveau le plus fin
60 @AntidotNet
Faire émerger l’implicite
61
Exemple :www.rechercheisidore.fr
62 @AntidotNet
On recherche par mots clés
63 @AntidotNet
On filtre via les facettes
64 @AntidotNet
On sélectionne un document
65 @AntidotNet
On rebondit via les métadonnées
66 @AntidotNet
Modèle de données public
67 @AntidotNet
Accès normalisé RDF / SPARQL
68
Conclusion
69 @AntidotNet
Enrichir et contextualiser pour trouver vite
Des questions ?Merci de votre attention
Meetup Lyon Data Science – 9 juin 2016Pierre Col – Directeur Marketing Antidot @PierreCol – @AntidotNet