Comment l'intelligence artificielle améliore la recherche documentaire

70
Comment l’intelligence artificielle améliore la recherche documentaire Meetup Lyon Data Science 9 juin 2016 Pierre Col Directeur Marketing Antidot @PierreCol @AntidotNet

Transcript of Comment l'intelligence artificielle améliore la recherche documentaire

Page 1: Comment l'intelligence artificielle améliore la recherche documentaire

Comment l’intelligence artificielle améliore la recherche documentaire

Meetup Lyon Data Science – 9 juin 2016Pierre Col – Directeur Marketing Antidot @PierreCol – @AntidotNet

Page 2: Comment l'intelligence artificielle améliore la recherche documentaire

2 @AntidotNet

Agenda●Antidot (en 2 slides)●Où en est la recherche documentaire ?●Comment enrichir les documents ?

●Text Mining et IA - créer des métadonnées●Linked (Open) Data – lier les documents

●Exemples

Page 3: Comment l'intelligence artificielle améliore la recherche documentaire

3

Antidot en 2 slides

Page 4: Comment l'intelligence artificielle améliore la recherche documentaire

4 @AntidotNet

Antidot @AntidotNet●Editeur de logiciels

● moteurs de recherche | enrichissement des données● depuis 1999 | Paris, Lyon, Aix-en-Provence● 47 collaborateurs | +150 clients

●Mission : fournir des solutions innovantes qui créent de la valeur à partir des données et augmentent la performance opérationnelle de nos clients

Page 5: Comment l'intelligence artificielle améliore la recherche documentaire

5 @AntidotNet

Parmi nos clients● Production de contenus

● Industries

● E-Commerce

● Santé

Page 6: Comment l'intelligence artificielle améliore la recherche documentaire

6 @AntidotNet

Pierre Col @PierreCol

1978

1963

1983

1986

1996

2007

2010

Page 7: Comment l'intelligence artificielle améliore la recherche documentaire

7

Où en est la recherche documentaire ?

Page 8: Comment l'intelligence artificielle améliore la recherche documentaire

8 @AntidotNet

Question :

Que s’est-il passé ces 10 dernières années dans le monde du moteur de recherche documentaire ?

Notre réponse :

Rien de bien passionnant…

Page 9: Comment l'intelligence artificielle améliore la recherche documentaire

9 @AntidotNet

3 types de moteurs de recherche

Page 10: Comment l'intelligence artificielle améliore la recherche documentaire

10 @AntidotNet

Comment un moteur trouve-t-il ?●Il recherche dans les documents

les mots-clés renseignés●Il filtre les résultats trouvés selon les

critères demandés : type de document, taille, fourchette de prix…

●Et enfin, le plus important : il ordonne les document dans l’ordre « le plus pertinent »

Page 11: Comment l'intelligence artificielle améliore la recherche documentaire

11 @AntidotNet

Qu’est-ce que la pertinence ?

MotMot

MotMot

Mot

Mot

Mot

Mot

1

Mot

Page 12: Comment l'intelligence artificielle améliore la recherche documentaire

12 @AntidotNet

Qu’est-ce que la pertinence ?●Cette méthode de pondération s’appelle

TF-IDF (Term Frequency - Inverse Document Frequency)

●Elle a été inventée en 1970 par Gerry Salton, appelé le père de la recherche d’information

Page 13: Comment l'intelligence artificielle améliore la recherche documentaire

13 @AntidotNet

Pertinence des moteurs spécialisés

Page 14: Comment l'intelligence artificielle améliore la recherche documentaire

14 @AntidotNet

Pertinence des moteurs spécialisés

Page 15: Comment l'intelligence artificielle améliore la recherche documentaire

15 @AntidotNet

Pertinence des moteurs spécialisés

Page 16: Comment l'intelligence artificielle améliore la recherche documentaire

16 @AntidotNet

Pertinence des moteurs Web●Étape 1 - 90s : algorithmes TF-IDF●Étape 2 - 2000 : Google invente le Page

Rank●Étape 3 - 2005 : explosion du nombre de

paramètres de pondération●Étape 4 - 2010 : le Machine Learning

pour trouver la meilleure pertinence pour chacun

Page 17: Comment l'intelligence artificielle améliore la recherche documentaire

17 @AntidotNet

Pertinence des moteurs d’entreprise

●TF-IDF est toujours implémenté dans tous les moteurs de recherche documentaires,via les algorithmes appelés Best Match ou Vector Space Model

●L’état de l’art scientifique de ces moteurs de recherche a 45 ans !

Page 18: Comment l'intelligence artificielle améliore la recherche documentaire

18

Comment améliorer l’efficacité de la recherche ?

Page 19: Comment l'intelligence artificielle améliore la recherche documentaire

19 @AntidotNet

Disposer d’un contexte riche●Les résultats sont d’autant plus

pertinents que le moteur de recherche dispose, pour chaque document, de métadonnées riches

Page 20: Comment l'intelligence artificielle améliore la recherche documentaire

20 @AntidotNet

Disposer d’un contexte riche●Si nécessaire, avant indexation des

documents, créer des métadonnées pour ●caractériser finement chaque document●lier les documents entre eux

●Des outils précieux : ●Text Mining / Machine Learning●Linked Data

Page 21: Comment l'intelligence artificielle améliore la recherche documentaire

21 @AntidotNet

Qu’est-ce que le Text Mining ?●Fouille de textes : ensemble de

traitements informatiques consistant à extraire des connaissances dans des textes produits par des humains pour des humains.

●Disciplines scientifiques : ●linguistique calculatoire, traitement automatique

des langues, ●apprentissage automatique, intelligence artificielle, ●statistique

Page 22: Comment l'intelligence artificielle améliore la recherche documentaire

22 @AntidotNet

Qu’est-ce que le Machine Learning ?●Définition : faculté donnée à

un ordinateur d’apprendre un comportement à partir d’exemples

●Discipline scientifique : ●Intelligence Artificielle ●approche probabiliste ≠ approches par règles

Page 23: Comment l'intelligence artificielle améliore la recherche documentaire

23 @AntidotNet

Disposer d’un contexte riche●En exploitant les métadonnées, on peut

créer des liens entre documents issus de silos différents

●Pour cela, on dispose de l’approche et des standards du web de données : Linked Data

Page 24: Comment l'intelligence artificielle améliore la recherche documentaire

24 @AntidotNet

L’approche globale d’Antidot

Access

SearchSemantic &

Complex

Enrich

Text MiningMachine Learning

Doc Graph & Linked Data

Page 25: Comment l'intelligence artificielle améliore la recherche documentaire

25

Classification automatiquede documents

Page 26: Comment l'intelligence artificielle améliore la recherche documentaire

26 @AntidotNet

Classification automatique de texte

Droit de la familleDroit fiscalDroit pénal

Page 27: Comment l'intelligence artificielle améliore la recherche documentaire

27 @AntidotNet

Principe de fonctionnement

Corpus d’entrainemen

t

Base d’apprentissag

eTraitement statistique

Page 28: Comment l'intelligence artificielle améliore la recherche documentaire

28 @AntidotNet

Etape 1 : Constitution du corpus d’apprentissage

Page 29: Comment l'intelligence artificielle améliore la recherche documentaire

29 @AntidotNet

Etape 1 : Constitution du corpus d’apprentissage

Page 30: Comment l'intelligence artificielle améliore la recherche documentaire

30 @AntidotNet

Etape 1 : Constitution du corpus d’apprentissage

Page 31: Comment l'intelligence artificielle améliore la recherche documentaire

31 @AntidotNet

Etape 2 : Lancer le Machine Learning

Page 32: Comment l'intelligence artificielle améliore la recherche documentaire

32 @AntidotNet

Etape 3 : Mesurer le niveau de qualité du ML

Page 33: Comment l'intelligence artificielle améliore la recherche documentaire

33 @AntidotNet

Etape 4 : Itérer pour amélioration de la qualité

Base d’apprentissag

eBase d’apprentissag

e

Page 34: Comment l'intelligence artificielle améliore la recherche documentaire

34 @AntidotNet

Etape 4 : Mesurer l’amélioration de la qualité

Page 35: Comment l'intelligence artificielle améliore la recherche documentaire

35 @AntidotNet

En résumé

Page 36: Comment l'intelligence artificielle améliore la recherche documentaire

36

Exemple :www.rechercheisidore.fr

Page 37: Comment l'intelligence artificielle améliore la recherche documentaire

37 @AntidotNet

www.rechercheisidore.fr●2010

●750 sources ●1,8 M publications scientifiques en SHS●dont 100.000 classées par les

documentalistes

●2016●3700 sources ●4,2 M publications classées automatiquement

Page 38: Comment l'intelligence artificielle améliore la recherche documentaire

38 @AntidotNet

Classification automatique

Page 39: Comment l'intelligence artificielle améliore la recherche documentaire

39 @AntidotNet

Classification automatique

Page 40: Comment l'intelligence artificielle améliore la recherche documentaire

40

Exemple :www.caij.qc.ca

Page 41: Comment l'intelligence artificielle améliore la recherche documentaire

41 @AntidotNet

www.caij.qc.ca●L’information pour les avocats du Québec●Une information « en vrac »

●1,7 M documents sans classement à la source●10.000 nouveaux docs chaque mois●Plan de classement : 600 domaines du droit

●Classer : une tâche surhumaine●10 à 15 minutes par document ?●Un travail évalué à plus de 200 années

hommes !

Page 42: Comment l'intelligence artificielle améliore la recherche documentaire

42 @AntidotNet

Classification automatique

Page 43: Comment l'intelligence artificielle améliore la recherche documentaire

43 @AntidotNet

Atelier d’entraînement

Page 44: Comment l'intelligence artificielle améliore la recherche documentaire

44 @AntidotNet

Atelier d’entraînement

Page 45: Comment l'intelligence artificielle améliore la recherche documentaire

45 @AntidotNet

Atelier d’entraînement

Page 46: Comment l'intelligence artificielle améliore la recherche documentaire

46 @AntidotNet

Boucle d’amélioration continue

Page 47: Comment l'intelligence artificielle améliore la recherche documentaire

47 @AntidotNet

Page 48: Comment l'intelligence artificielle améliore la recherche documentaire

48 @AntidotNet

Mesurer la qualité des résultats

Page 49: Comment l'intelligence artificielle améliore la recherche documentaire

49 @AntidotNet

Mesurer la qualité des résultats

Page 50: Comment l'intelligence artificielle améliore la recherche documentaire

50 @AntidotNet

Précision inégalée

Page 51: Comment l'intelligence artificielle améliore la recherche documentaire

51 @AntidotNet

Un projet mené en 3 mois●3 personnes ont travaillé itérativement

pour constituer le corpus d’entraînement : ≈ 20 docs x 600 domaines ≈ 12.000 docs

●1,7M de documents classés en 10 h, à raison de 23 ms par document

Page 52: Comment l'intelligence artificielle améliore la recherche documentaire

52

Extraction d’entités nommées

Page 53: Comment l'intelligence artificielle améliore la recherche documentaire

53 @AntidotNet

Extraction d’entités nommées

Page 54: Comment l'intelligence artificielle améliore la recherche documentaire

54 @AntidotNet

Extraction d’entités

Page 55: Comment l'intelligence artificielle améliore la recherche documentaire

55 @AntidotNet

Extraction d’entités

Page 56: Comment l'intelligence artificielle améliore la recherche documentaire

56

Linked (Open) Data

Page 57: Comment l'intelligence artificielle améliore la recherche documentaire

57 @AntidotNet

Exploiter la variété des documents●Tirer profit de l’énorme gisement de

valeur des données non structurées : ●documents bureautiques, courriels ●GED – gestion électronique de documents●CRM – gestion de la relation clients●ERP – outils de gestion d’entreprise●…et de leur richesse

sémantique !

Page 58: Comment l'intelligence artificielle améliore la recherche documentaire

58 @AntidotNet

Changer de paradigme●Ne plus considérer les applications mais

SEULEMENT LES DONNÉES

Page 59: Comment l'intelligence artificielle améliore la recherche documentaire

59 @AntidotNet

Relier les données●Mettre les données de l’entreprise en

commun, les mailler au niveau le plus fin

Page 60: Comment l'intelligence artificielle améliore la recherche documentaire

60 @AntidotNet

Faire émerger l’implicite

Page 61: Comment l'intelligence artificielle améliore la recherche documentaire

61

Exemple :www.rechercheisidore.fr

Page 62: Comment l'intelligence artificielle améliore la recherche documentaire

62 @AntidotNet

On recherche par mots clés

Page 63: Comment l'intelligence artificielle améliore la recherche documentaire

63 @AntidotNet

On filtre via les facettes

Page 64: Comment l'intelligence artificielle améliore la recherche documentaire

64 @AntidotNet

On sélectionne un document

Page 65: Comment l'intelligence artificielle améliore la recherche documentaire

65 @AntidotNet

On rebondit via les métadonnées

Page 66: Comment l'intelligence artificielle améliore la recherche documentaire

66 @AntidotNet

Modèle de données public

Page 67: Comment l'intelligence artificielle améliore la recherche documentaire

67 @AntidotNet

Accès normalisé RDF / SPARQL

Page 68: Comment l'intelligence artificielle améliore la recherche documentaire

68

Conclusion

Page 69: Comment l'intelligence artificielle améliore la recherche documentaire

69 @AntidotNet

Enrichir et contextualiser pour trouver vite

Page 70: Comment l'intelligence artificielle améliore la recherche documentaire

Des questions ?Merci de votre attention

Meetup Lyon Data Science – 9 juin 2016Pierre Col – Directeur Marketing Antidot @PierreCol – @AntidotNet