Comment l'intelligence artificielle améliore la recherche documentaire

Comment l’intelligence artificielle améliore la recherche documentaire

Meetup Lyon Data Science – 9 juin 2016Pierre Col – Directeur Marketing Antidot @PierreCol – @AntidotNet

2 @AntidotNet

Agenda●Antidot (en 2 slides)●Où en est la recherche documentaire ?●Comment enrichir les documents ?

●Text Mining et IA - créer des métadonnées●Linked (Open) Data – lier les documents

●Exemples

3

Antidot en 2 slides

4 @AntidotNet

Antidot @AntidotNet●Editeur de logiciels

● moteurs de recherche | enrichissement des données● depuis 1999 | Paris, Lyon, Aix-en-Provence● 47 collaborateurs | +150 clients

●Mission : fournir des solutions innovantes qui créent de la valeur à partir des données et augmentent la performance opérationnelle de nos clients

5 @AntidotNet

Parmi nos clients● Production de contenus

● Industries

● E-Commerce

● Santé

http://www.lemoniteur.fr/

http://www.ameli.fr/

6 @AntidotNet

Pierre Col @PierreCol

1978

1963

1983

1986

1996

2007

2010

7

Où en est la recherche documentaire ?

8 @AntidotNet

Question :

Que s’est-il passé ces 10 dernières années dans le monde du moteur de recherche documentaire ?

Notre réponse :

Rien de bien passionnant…

9 @AntidotNet

3 types de moteurs de recherche

10 @AntidotNet

Comment un moteur trouve-t-il ?●Il recherche dans les documents

les mots-clés renseignés●Il filtre les résultats trouvés selon les

critères demandés : type de document, taille, fourchette de prix…

●Et enfin, le plus important : il ordonne les document dans l’ordre « le plus pertinent »

11 @AntidotNet

Qu’est-ce que la pertinence ?

MotMot

MotMot

Mot

Mot

Mot

Mot

1

Mot

12 @AntidotNet

Qu’est-ce que la pertinence ?●Cette méthode de pondération s’appelle

TF-IDF (Term Frequency - Inverse Document Frequency)

●Elle a été inventée en 1970 par Gerry Salton, appelé le père de la recherche d’information

https://en.wikipedia.org/wiki/Gerard_Salton

https://en.wikipedia.org/wiki/Gerard_Salton

13 @AntidotNet

Pertinence des moteurs spécialisés

14 @AntidotNet


15 @AntidotNet


16 @AntidotNet

Pertinence des moteurs Web●Étape 1 - 90s : algorithmes TF-IDF●Étape 2 - 2000 : Google invente le Page

Rank●Étape 3 - 2005 : explosion du nombre de

paramètres de pondération●Étape 4 - 2010 : le Machine Learning

pour trouver la meilleure pertinence pour chacun

17 @AntidotNet

Pertinence des moteurs d’entreprise

●TF-IDF est toujours implémenté dans tous les moteurs de recherche documentaires,via les algorithmes appelés Best Match ou Vector Space Model

●L’état de l’art scientifique de ces moteurs de recherche a 45 ans !

18

Comment améliorer l’efficacité de la recherche ?

19 @AntidotNet

Disposer d’un contexte riche●Les résultats sont d’autant plus

pertinents que le moteur de recherche dispose, pour chaque document, de métadonnées riches

20 @AntidotNet

Disposer d’un contexte riche●Si nécessaire, avant indexation des

documents, créer des métadonnées pour ●caractériser finement chaque document●lier les documents entre eux

●Des outils précieux : ●Text Mining / Machine Learning●Linked Data

21 @AntidotNet

Qu’est-ce que le Text Mining ?●Fouille de textes : ensemble de

traitements informatiques consistant à extraire des connaissances dans des textes produits par des humains pour des humains.

●Disciplines scientifiques : ●linguistique calculatoire, traitement automatique

des langues, ●apprentissage automatique, intelligence artificielle, ●statistique

22 @AntidotNet

Qu’est-ce que le Machine Learning ?●Définition : faculté donnée à

un ordinateur d’apprendre un comportement à partir d’exemples

●Discipline scientifique : ●Intelligence Artificielle ●approche probabiliste ≠ approches par règles

23 @AntidotNet

Disposer d’un contexte riche●En exploitant les métadonnées, on peut

créer des liens entre documents issus de silos différents

●Pour cela, on dispose de l’approche et des standards du web de données : Linked Data

24 @AntidotNet

L’approche globale d’Antidot

Access

SearchSemantic &

Complex

Enrich

Text MiningMachine Learning

Doc Graph & Linked Data

25

Classification automatiquede documents

26 @AntidotNet

Classification automatique de texte

Droit de la familleDroit fiscalDroit pénal

27 @AntidotNet

Principe de fonctionnement

Corpus d’entrainemen

t

Base d’apprentissag

eTraitement statistique

28 @AntidotNet

Etape 1 : Constitution du corpus d’apprentissage

29 @AntidotNet


30 @AntidotNet


31 @AntidotNet

Etape 2 : Lancer le Machine Learning

32 @AntidotNet

Etape 3 : Mesurer le niveau de qualité du ML

33 @AntidotNet

Etape 4 : Itérer pour amélioration de la qualité

Base d’apprentissag

eBase d’apprentissag

e

34 @AntidotNet

Etape 4 : Mesurer l’amélioration de la qualité

35 @AntidotNet

En résumé

36

Exemple :www.rechercheisidore.fr

37 @AntidotNet

www.rechercheisidore.fr●2010

●750 sources ●1,8 M publications scientifiques en SHS●dont 100.000 classées par les

documentalistes

●2016●3700 sources ●4,2 M publications classées automatiquement

38 @AntidotNet

Classification automatique

39 @AntidotNet


40

Exemple :www.caij.qc.ca

41 @AntidotNet

www.caij.qc.ca●L’information pour les avocats du Québec●Une information « en vrac »

●1,7 M documents sans classement à la source●10.000 nouveaux docs chaque mois●Plan de classement : 600 domaines du droit

●Classer : une tâche surhumaine●10 à 15 minutes par document ?●Un travail évalué à plus de 200 années

hommes !

42 @AntidotNet


43 @AntidotNet

Atelier d’entraînement

44 @AntidotNet


45 @AntidotNet


46 @AntidotNet

Boucle d’amélioration continue

47 @AntidotNet

48 @AntidotNet

Mesurer la qualité des résultats

49 @AntidotNet

Mesurer la qualité des résultats

50 @AntidotNet

Précision inégalée

51 @AntidotNet

Un projet mené en 3 mois●3 personnes ont travaillé itérativement

pour constituer le corpus d’entraînement : ≈ 20 docs x 600 domaines ≈ 12.000 docs

●1,7M de documents classés en 10 h, à raison de 23 ms par document

52

Extraction d’entités nommées

53 @AntidotNet

Extraction d’entités nommées

54 @AntidotNet

Extraction d’entités

55 @AntidotNet

Extraction d’entités

56

Linked (Open) Data

57 @AntidotNet

Exploiter la variété des documents●Tirer profit de l’énorme gisement de

valeur des données non structurées : ●documents bureautiques, courriels ●GED – gestion électronique de documents●CRM – gestion de la relation clients●ERP – outils de gestion d’entreprise●…et de leur richesse

sémantique !

58 @AntidotNet

Changer de paradigme●Ne plus considérer les applications mais

SEULEMENT LES DONNÉES

59 @AntidotNet

Relier les données●Mettre les données de l’entreprise en

commun, les mailler au niveau le plus fin

60 @AntidotNet

Faire émerger l’implicite

61

Exemple :www.rechercheisidore.fr

62 @AntidotNet

On recherche par mots clés

63 @AntidotNet

On filtre via les facettes

64 @AntidotNet

On sélectionne un document

65 @AntidotNet

On rebondit via les métadonnées

66 @AntidotNet

Modèle de données public

67 @AntidotNet

Accès normalisé RDF / SPARQL

68

Conclusion

69 @AntidotNet

Enrichir et contextualiser pour trouver vite

Des questions ?Merci de votre attention

Meetup Lyon Data Science – 9 juin 2016Pierre Col – Directeur Marketing Antidot @PierreCol – @AntidotNet

Comment l'intelligence artificielle améliore la recherche documentaire

Software

Transcript of Comment l'intelligence artificielle améliore la recherche documentaire