Comment l'intelligence artificielle améliore la recherche documentaire

Comment l’intelligence artificielle améliore la recherche documentaire

Meetup Lyon Data Science – 9 juin 2016Pierre Col – Directeur Marketing Antidot @PierreCol – @AntidotNet

2 @AntidotNet

Agenda●Antidot (en 2 slides)●Où en est la recherche documentaire ?●Comment enrichir les documents ?

●Text Mining et IA - créer des métadonnées●Linked (Open) Data – lier les documents

●Exemples

Antidot en 2 slides

4 @AntidotNet

Antidot @AntidotNet●Editeur de logiciels

● moteurs de recherche | enrichissement des données● depuis 1999 | Paris, Lyon, Aix-en-Provence● 47 collaborateurs | +150 clients

●Mission : fournir des solutions innovantes qui créent de la valeur à partir des données et augmentent la performance opérationnelle de nos clients

5 @AntidotNet

Parmi nos clients● Production de contenus

● Industries

● E-Commerce

● Santé

6 @AntidotNet

Pierre Col @PierreCol

Où en est la recherche documentaire ?

8 @AntidotNet

Question :

Que s’est-il passé ces 10 dernières années dans le monde du moteur de recherche documentaire ?

Notre réponse :

Rien de bien passionnant…

9 @AntidotNet

3 types de moteurs de recherche

10 @AntidotNet

Comment un moteur trouve-t-il ?●Il recherche dans les documents

les mots-clés renseignés●Il filtre les résultats trouvés selon les

critères demandés : type de document, taille, fourchette de prix…

●Et enfin, le plus important : il ordonne les document dans l’ordre « le plus pertinent »

11 @AntidotNet

Qu’est-ce que la pertinence ?

MotMot

12 @AntidotNet

Qu’est-ce que la pertinence ?●Cette méthode de pondération s’appelle

TF-IDF (Term Frequency - Inverse Document Frequency)

●Elle a été inventée en 1970 par Gerry Salton, appelé le père de la recherche d’information

13 @AntidotNet

Pertinence des moteurs spécialisés

14 @AntidotNet

15 @AntidotNet

16 @AntidotNet

Pertinence des moteurs Web●Étape 1 - 90s : algorithmes TF-IDF●Étape 2 - 2000 : Google invente le Page

Rank●Étape 3 - 2005 : explosion du nombre de

paramètres de pondération●Étape 4 - 2010 : le Machine Learning

pour trouver la meilleure pertinence pour chacun

17 @AntidotNet

Pertinence des moteurs d’entreprise

●TF-IDF est toujours implémenté dans tous les moteurs de recherche documentaires,via les algorithmes appelés Best Match ou Vector Space Model

●L’état de l’art scientifique de ces moteurs de recherche a 45 ans !

Comment améliorer l’efficacité de la recherche ?

19 @AntidotNet

Disposer d’un contexte riche●Les résultats sont d’autant plus

pertinents que le moteur de recherche dispose, pour chaque document, de métadonnées riches

20 @AntidotNet

Disposer d’un contexte riche●Si nécessaire, avant indexation des

documents, créer des métadonnées pour ●caractériser finement chaque document●lier les documents entre eux

●Des outils précieux : ●Text Mining / Machine Learning●Linked Data

21 @AntidotNet

Qu’est-ce que le Text Mining ?●Fouille de textes : ensemble de

traitements informatiques consistant à extraire des connaissances dans des textes produits par des humains pour des humains.

●Disciplines scientifiques : ●linguistique calculatoire, traitement automatique

des langues, ●apprentissage automatique, intelligence artificielle, ●statistique

22 @AntidotNet

Qu’est-ce que le Machine Learning ?●Définition : faculté donnée à

un ordinateur d’apprendre un comportement à partir d’exemples

●Discipline scientifique : ●Intelligence Artificielle ●approche probabiliste ≠ approches par règles

23 @AntidotNet

Disposer d’un contexte riche●En exploitant les métadonnées, on peut

créer des liens entre documents issus de silos différents

●Pour cela, on dispose de l’approche et des standards du web de données : Linked Data

24 @AntidotNet

L’approche globale d’Antidot

Access

SearchSemantic &

Complex

Enrich

Text MiningMachine Learning

Doc Graph & Linked Data

Classification automatiquede documents

26 @AntidotNet

Classification automatique de texte

Droit de la familleDroit fiscalDroit pénal

27 @AntidotNet

Principe de fonctionnement

Corpus d’entrainemen

Base d’apprentissag

eTraitement statistique

28 @AntidotNet

Etape 1 : Constitution du corpus d’apprentissage

29 @AntidotNet

30 @AntidotNet

31 @AntidotNet

Etape 2 : Lancer le Machine Learning

32 @AntidotNet

Etape 3 : Mesurer le niveau de qualité du ML

33 @AntidotNet

Etape 4 : Itérer pour amélioration de la qualité

Base d’apprentissag

eBase d’apprentissag

34 @AntidotNet

Etape 4 : Mesurer l’amélioration de la qualité

35 @AntidotNet

En résumé

Exemple :www.rechercheisidore.fr

37 @AntidotNet

www.rechercheisidore.fr●2010

●750 sources ●1,8 M publications scientifiques en SHS●dont 100.000 classées par les

documentalistes

●2016●3700 sources ●4,2 M publications classées automatiquement

38 @AntidotNet

Classification automatique

39 @AntidotNet

Exemple :www.caij.qc.ca

41 @AntidotNet

www.caij.qc.ca●L’information pour les avocats du Québec●Une information « en vrac »

●1,7 M documents sans classement à la source●10.000 nouveaux docs chaque mois●Plan de classement : 600 domaines du droit

●Classer : une tâche surhumaine●10 à 15 minutes par document ?●Un travail évalué à plus de 200 années

hommes !

42 @AntidotNet

43 @AntidotNet

Atelier d’entraînement

44 @AntidotNet

45 @AntidotNet

46 @AntidotNet

Boucle d’amélioration continue

47 @AntidotNet

48 @AntidotNet

Mesurer la qualité des résultats

49 @AntidotNet

Mesurer la qualité des résultats

50 @AntidotNet

Précision inégalée

51 @AntidotNet

Un projet mené en 3 mois●3 personnes ont travaillé itérativement

pour constituer le corpus d’entraînement : ≈ 20 docs x 600 domaines ≈ 12.000 docs

●1,7M de documents classés en 10 h, à raison de 23 ms par document

Extraction d’entités nommées

53 @AntidotNet

Extraction d’entités nommées

54 @AntidotNet

Extraction d’entités

55 @AntidotNet

Extraction d’entités

Linked (Open) Data

57 @AntidotNet

Exploiter la variété des documents●Tirer profit de l’énorme gisement de

valeur des données non structurées : ●documents bureautiques, courriels ●GED – gestion électronique de documents●CRM – gestion de la relation clients●ERP – outils de gestion d’entreprise●…et de leur richesse

sémantique !

58 @AntidotNet

Changer de paradigme●Ne plus considérer les applications mais

SEULEMENT LES DONNÉES

59 @AntidotNet

Relier les données●Mettre les données de l’entreprise en

commun, les mailler au niveau le plus fin

60 @AntidotNet

Faire émerger l’implicite

Exemple :www.rechercheisidore.fr

62 @AntidotNet

On recherche par mots clés

63 @AntidotNet

On filtre via les facettes

64 @AntidotNet

On sélectionne un document

65 @AntidotNet

On rebondit via les métadonnées

66 @AntidotNet

Modèle de données public

67 @AntidotNet

Accès normalisé RDF / SPARQL

Conclusion

69 @AntidotNet

Enrichir et contextualiser pour trouver vite

Des questions ?Merci de votre attention

Meetup Lyon Data Science – 9 juin 2016Pierre Col – Directeur Marketing Antidot @PierreCol – @AntidotNet

Comment l'intelligence artificielle améliore la recherche documentaire

Software

Transcript of Comment l'intelligence artificielle améliore la recherche documentaire

Retour d'expérience sur l'enseignement de l'intelligence ...

pyramide natron pierre artificielle

L'INTELLIGENCE COLLECTIVE À L'ÈRE DU NUMÉRIQUE

Comment exploiter l'intelligence d'Internet

L'intelligence des dauphins

Le Cahier des Ponts L'INTELLIGENCE ARTIFICIELLE

Cours nutr artificielle

Sensibilisation à l'IA - Business & Decision...Sensibilisation à l'Intelligence Artificielle Ici, L’agent va essayer de construire lui-même la fonction de score. On attribue une

Laboratoire d’étude participatif des futurs souhaités … Mag - L...L'intelligence artificielle, et FANTASME Dès les années 30, Alan Turing, I'homme qui a décrypté Enigma,

Infographie Comprendre l'Intelligence Artificielle by EnjoyDigitAll

INTELLIGENCE ARTIFICIELLE & ARCHITECTURE

Cossi 2014 - Article sur l'Intelligence Collective

Introduction à l'Intelligence Artificielle · 2020. 9. 27. · Introduction à l'Intelligence Artificielle avec des illustrations en langage Python René Ebel Orange Labs Services

3I026 - Introduction à l'Intelligence Artificielle et Data Science*10pt

© Getty / Dong Wenjie Intelligence Artificielle · 2018. 8. 20. · Intelligence Artificielle - Stuart Russel - Peter Norvig Intelligence Artificielle Notion de base / Approche scientifique.

Notes du cours “Introduction `a l'Intelligence Artificielle”

2018 lignes directrices sur l'intelligence artificielle et ...

INTELLIGENCE ARTIFICIELLE - AFNeT

Un dispositif de prévisualisation qui améliore la ...

Du logiciel libre aux théories de l'intelligence collective · Du logiciel libre aux th eories de l’intelligence collective Sebastien Broca ... d’intelligence artificielle du