7e édition des journées Big Data Mining and Visualization...

36
7 e édition des journées Big Data Mining and Visualization LIASD - Université Paris 8 Focus sur les usages du Big Data 28 et 29 juin 2018 Maison des Sciences de l'Homme Paris Nord 20, avenue George Sand 93210 La Plaine Saint-Denis

Transcript of 7e édition des journées Big Data Mining and Visualization...

Page 1: 7e édition des journées Big Data Mining and Visualization ...eric.univ-lyon2.fr/~gt-fdc/journees/wp-content/uploads/2018/03/... · d’information et de connaissances et la visualisation)

7e édition des journéesBig Data Mining and Visualization

LIASD - Université Paris 8

Focus sur les usages du Big Data

28 et 29 juin 2018Maison des Sciences de l'Homme Paris Nord20, avenue George Sand93210 La Plaine Saint-Denis

Page 2: 7e édition des journées Big Data Mining and Visualization ...eric.univ-lyon2.fr/~gt-fdc/journees/wp-content/uploads/2018/03/... · d’information et de connaissances et la visualisation)

0

Page 3: 7e édition des journées Big Data Mining and Visualization ...eric.univ-lyon2.fr/~gt-fdc/journees/wp-content/uploads/2018/03/... · d’information et de connaissances et la visualisation)

1

7èmeéditiondesjournées

"BigDataMiningandVisualization"

FocussurlesusagesduBigData

LIASD–UniversitéParis828-29juin2018

http://eric.univ-lyon2.fr/~gt-fdc/journees/

Page 4: 7e édition des journées Big Data Mining and Visualization ...eric.univ-lyon2.fr/~gt-fdc/journees/wp-content/uploads/2018/03/... · d’information et de connaissances et la visualisation)

2

Page 5: 7e édition des journées Big Data Mining and Visualization ...eric.univ-lyon2.fr/~gt-fdc/journees/wp-content/uploads/2018/03/... · d’information et de connaissances et la visualisation)

3

PRESENTATION

Lesgroupesde travailde l’associationEGC–«FouilledeDonnéesComplexes » (GT-FDC), « Fouille de Grands Graphes » (GT-FGG), «Visualisation d’informations, interaction et fouille de données » (GT-VIF, commun avec l’AFIHM) et « Gestion et Analyse de donnéesSpatialesetTemporelles»(GT-GAST,communavecl’actionprospectiveEXCES, GDR MAGIS) - organisent la 7èmeédition des journéesthématiquesvisantd’unepartàpoursuivrelesactivitésdesgroupesetd’autre part à développer des axes communs autour de la prise encompte, la gestion, l’analyse, le traitement et la visualisation desdonnéesmassives(BigData).

Les problématiques abordées lors de ces deux journées peuventconcerner les processus (acquisition, structuration, extractiond’information et de connaissances et la visualisation) ou les donnéeselles-mêmes. L’objectif de ces journées est, d’une part, de rassemblerl’ensemble des acteurs de la communauté scientifique intéressés parcesnouvellesapprochesdegestiondedonnéesmassivesainsiqueparles conceptsmanipulés autour de ces données. D’autre part, l’objectifest d’animer et de dynamiser une communauté scientifiquepluridisciplinaire. Pour ce faire, un appel à communications est donclancé,etdespersonnesspécialistesdecesquestionsserontégalementinvitéesàprésenterleurstravaux.

Pour cettenouvelle édition, un focus est fait sur les usagesduBigDatadans lemonde industriel afinde répondreàdesproblématiquesréelles (Maintenance prédictives, Détection des tendances, Cybersécurité,Analysedessentiments,Systèmesderecommandation,etc.)àtravers des approches pluridisciplinaires (Informatique, Sciences del’Information, Mathématiques, Sciences du langage, Analyse d’images,etc.)dansdifférentsdomainesd’application.

Ces journées permettront de proposer un espace de rencontres etd’échanges, tout d’abord sur les concepts manipulés autour desdonnées,etensuitesurlesproblématiquesd’analyseetdevisualisationde données massives dans leurs différentes aspects (open data, Bigdata, smart data, …) et sur différents domaines d’application. Unesessiondedémonstrationentechnologieetinnovationestprévue.

Page 6: 7e édition des journées Big Data Mining and Visualization ...eric.univ-lyon2.fr/~gt-fdc/journees/wp-content/uploads/2018/03/... · d’information et de connaissances et la visualisation)

4

COMMITTEES

Comitéd’organisation• RakiaJAZIRI(LIASD,UniversitéParis8)• LarbiBOUBCHIR(LIASD,UniversitéParis8)• AnnaPAPPA(LIASD,UniversitéParis8)• NedraNAUWYCNK(LIASD,UniversitéParis8)• FaresBELHADJ(LIASD,UniversitéParis8)• SylviaCHALENCON(LIASD,UniversitéParis8)ComitédecoordinationCorrespondantEGCaveclesgroupesdetravail:• MustaphaLebbah(LIPN,UniversitéParis13)GT-FDC:• CécileFavre(ERIC,UniversitéLyon2)• GermainForestier(MIPS,UniversitédeHauteAlsace)• CamilleKurtz(LIPADE,UniversitéParisDescartes)• AlexandreBlansché(LITA–UniversitédeLorraine)GT-GAST:• ThomasGuyet(IRISA,AgrocampusOuest)• EricKergosien(GERIICO,UniversitéLille3)• Cyril de Runz (CReSTIC, Université de Reims Champagne-

Ardenne)GT-VIF:• HaneneAzzag(LIPN,UniversitéParis13)• David Bihanic (CALHISTE, Université de Valenciennes et du

Hainaut-Cambrésis)• MoniqueNoirhomme(FUNDP,Namur,Belgique)• FabienPicarougne(LINA,UniversitédeNantes)• PierrickBruneau(LIST,Luxembourg)

Page 7: 7e édition des journées Big Data Mining and Visualization ...eric.univ-lyon2.fr/~gt-fdc/journees/wp-content/uploads/2018/03/... · d’information et de connaissances et la visualisation)

5

CONFERENCIERSINVITES

David Doukhan est ingénieur de recherche àl’Institut national de l’audiovisuel (INA) depuis2016. Il a auparavantété chercheurpostdoctoralauLIMSI-CNRSetàl’IRCAM,etresearchassistantauMIT. Ilest titulairedepuis2013d’undoctoratde l’Université Paris Sud portant sur l’analyseautomatique du langage écrit et oral pour lasynthèsedeparole.Ilestégalementtitulaired’undiplômed’ingénieurEPITAspécialiséenapprentissageautomatique,etd’un master recherche ATIAM (Acoustique, Traitement du signal etInformatique Appliqué à la Musique). Ses travaux de recherche ontporté sur l’analyse automatique du signal audio (parole, musique,locuteur,prosodie,son3D),l’apprentissageautomatique,leshumanitésnumériques(égalitéhomme/femmedanslesmédias),lalinguistiquedecorpusetlagestiondescollectionsaudiovisuelles.

Alexandre Aussem est ingénieur diplômé del’Institut National des Télécom, docteur eninformatique l’universitéParis5, etProfesseureninformatiqueàl’UniversitéClaudeBernardLyon1depuis2004.Ilestco-responsabledel’équipeDataMining&Machine Learning (DM2L) qui regroupeune dizaine de chercheurs au sein du laboratoireLIRIS, également responsable du nouveauMaster“Data Science” de l’université Lyon1.Sesrecherches portent - au sens large - sur la conception demodèles etd’algorithmesd’apprentissagestatistique(machinelearning)àdesfinsprédictivesetexplicatives. Ilestco-auteurd’unecentained’articlesderevues et de conférences internationales en machine learning aveccomitédelecture.

Page 8: 7e édition des journées Big Data Mining and Visualization ...eric.univ-lyon2.fr/~gt-fdc/journees/wp-content/uploads/2018/03/... · d’information et de connaissances et la visualisation)

6

PROGRAMME

Jeudi28juin20189h30:Accueiletcafé10h00:Ouverturedesjournées10h30:Conférencierinvité:AlexandreAUSSEM

TutorielsurlesagentsconversationnelsneuronauxLIRIS-Lyon

11H30:FouillededonnéestextuellesmassivesModélisationd’unsystème«intelligent»d’aideà ladécisionetconseilpourdedonnéestextuellesmassivesMarouaBOUDABOUS,AnnaPAPPANovagenConseil–LIASD/UniversitéParis8BigText,compréhensionetinférenceavancéessurlestextesPatrickLAFFITTE,RajaHADDADetYassinCHABEBPaloITLabs

12h30:Repas14h00 :Démonstration 1: Peut-on quantifier l'influence de notreenvironnementsurnotrebienêtre?Dumatinenserendantsurnotrelieudetravailauretourlesoir,noussommessujets à de multiples facteurs et intempéries indépendants de notre volontémaisquivontnousimpactermoralement.Nousavonsdonccherchéàmesurercesenvironnementsinterneetexterneàl'entreprise.Pourcefaire,nousavonsàlafoistiréprofitdel'IoTenplaçantdiverscapteursauseindel'entreprise,età la fois des APIs concernant la ville de Paris, avec notamment des donnéesmétéorologiques. Aussi, nous avons effectué une première analyse de tweetsrelatifsauxtransports,lebutétantdemieuxcernerl'impactdesretardsetdesgrèves sur l'humeur. Nous avons également réalisé des visualisations avecl'outilTableauafindedéceler lescorrélationsentre lebien-êtredesemployéset lesdifférents facteursdenotre étude telsque l'ensoleillement, lamétéo, laqualité de l'air et le niveau de bruit. Ces visualisations font office d'étudepréliminairepermettantdemieuxorienternotre rechercheafinde cerner lesélémentsliésaubien-êtredesemployésdanslebutdemieuxcomprendreleursbesoinsetainsileurproposersurlelongtermeunenvironnementplussain.

NadiaELHAKIM,SimontCOULETJemsGroup

Page 9: 7e édition des journées Big Data Mining and Visualization ...eric.univ-lyon2.fr/~gt-fdc/journees/wp-content/uploads/2018/03/... · d’information et de connaissances et la visualisation)

7

14h30 :Démonstration 2: «Capico: Innover, transformer etpersonnaliserlaformation»SansBigData,pasd’avenirpourl’apprentissageenligne:encréantnotreoutil,nousavonspris consciencede ladifficulté à collecter et analyser lesdonnéesnécessaires pour pouvoir proposer de vrais parcours d’apprentissageindividualisésetadaptésauxdifférentsprofilsd’élèves.Danscetteconférence,nousaborderonslesgrandsdéfisàreleveravantdepouvoirimaginersepriverdel’apportdel’enseignant.

FabriceREBYExcilys

15h00:RéseauxprofondsLesforêtsaléatoiresprofondespourladétectiondesanomaliesAbdelkaderBERROUACHEDI,RakiaJAZIRIetGillesBERNARDLIASD-UniversitéParis8Howtoimproveresearchengineswithdeeplearning?NabilFEGAIEREAtypicalSkills

16h00:PauseCafé16h15:Interactivitéetvisualisation

Cas pratique d’élaboration d’une solution de visualisation dedonnéesmassivespourlesportprofessionneldehautniveauSimon CHALUMEAU, Amine AÏT-YOUNES,FrédéricBLANCHARDCReSTIC-UniversitédeReimsChampagne-Ardenne"HappinessManagement":l’IoTauservicedelaRHFouratMASTOURI,NadiaELHAKIM,SimonCOULETetNouhaOMRANEJemsGroup

17h15:Findejournée

Vendredi29juin2018

9h30:Accueiletcafé10h00:Conférencierinvité:DavidDOUKHAN

Description automatique du taux d'expression des femmesdanslesfluxaudiovisuels:Analysede8ansdefluxTVet17ansdefluxradiosINA-BrysurMarne

Page 10: 7e édition des journées Big Data Mining and Visualization ...eric.univ-lyon2.fr/~gt-fdc/journees/wp-content/uploads/2018/03/... · d’information et de connaissances et la visualisation)

8

11h00:AnalyseetdétectiondemotifsAffectation de support minimum multiple guidée par lesdonnéespourl’extractionderèglesd’association:applicationàlaprédictiondel’évolutionterritorialeAsmaGHARBI,CyrilDERUNZ,HermanAKDAGetSamiFAIZCReSTIC-SIC/IUT de Reims – LIASD/Université Paris 8 –ISAMM/TunisQualitédelafouilledesdonnéesdejournalisationWebAmineGANIBARDI,ArabALICHERIFLIASD-UniversitéParis8

12h15:Repas14h00:Démonstration3:«BigData:quelrapportdansl’analysedescomportementshumains?»Siunechosesembleencorerésisterà lamodélisationstatistique,c’estbien lecomportementhumain.Nosémotionsparexemple,qu’onlesmontresurnotrevisageoudansnotrevoix.Ouencore,lasincéritédenosparoles.Pourtant,avecles dernières avancées en statistiques, ces derniers verrous égalementsemblent sauter. Dans cette conférence, nous présenterons nos dernièrestechnologiesdedétectiondesémotionshumaines,etcequ’ellespermettentdeprédire, du mensonge à la déclaration d’assurance à celui en interrogatoirepolicier.

ValentinBECMEUROthello

15h00:Systèmederecommandationetd’appariementProcessusdematchingdumeilleurtalentàuneoffred’emploiMarouaLAABIDI,SondèsFAYECHetRimFAIZIHECCarthage,TunisieTeamBuilder, Vers un Moteur de Recommandation de CVScorésetRankésPatrice DARMON, Rabah MAZOUZI, Otman MANAD, MehdiBENTOUNSIetSalemBERKANIUmanis

16h:Clôturedesjournées

Page 11: 7e édition des journées Big Data Mining and Visualization ...eric.univ-lyon2.fr/~gt-fdc/journees/wp-content/uploads/2018/03/... · d’information et de connaissances et la visualisation)

Actesdesjournées

Page 12: 7e édition des journées Big Data Mining and Visualization ...eric.univ-lyon2.fr/~gt-fdc/journees/wp-content/uploads/2018/03/... · d’information et de connaissances et la visualisation)

TeamBuilder, Vers un Moteur de Recommandation de CV

Scorés et Rankés

Patrice Darmon, Rabah Mazouzi, Otman Manad, Mehdi Bentounsi, Salem Berkani

Umanis, Levallois-Perret, France{pdarmon;rmazouzi;omanad;mebentounsi;sberkani}@umanis.com

1 Introduction

De nombreuses sociétés et en particulier les Entreprises de Services du Numériques (ESN)sont confrontées à l’enjeu de l’adéquation optimisée des Curriculum Vitae (CV) aux formatsmultiples à une fiche de mission. Teambuilder propose un moteur de recommandation scalableet sécurisé de CV scorés et rankés (muti-labels) incluant des fonctions de désambiguïsationsémantique à base d’ontologies (compétences avec alias catégorisés, clients sectorisés, ...etc).

2 Architecture Générale

Teambuilder est basé sur une architecture Big Data conteneurisée de type Data Lake àbase de micro services. Pour une expérience utilisateur d’appariement sémantique optimisée,le document « fiche de mission » est la requête (en mode Drag en Drop »).

mongoDB

CVthèque

RH BDDFiche demission

Score Dynamique

Score Statique

Pseudonymisation

Utilisateur IHM

Moteur deRecommandation

Ontologies

FIG. 1 – Architecture de TeamBuilder.

Comme indiqué dans la Figure 1, Teambuilder dispose des fonctionnalités suivantes :

1. Scoring : Le processus de préparation des données consiste à calculer des scores pourtoutes les compétences extraites d’un CV (et leurs catégories de rattachement dansl’ontologie). On distingue entre le Score Statique calculé à partir des données obtenuespar l’annotation de chaque CV, notamment la fréquence et la position de la compé-tence dans le document ; Et le Score Dynamique calculé et utilisé lorsqu’un utilisateurlance une recherche (qui peut être multi critères : compétences requises, compétences

Page 13: 7e édition des journées Big Data Mining and Visualization ...eric.univ-lyon2.fr/~gt-fdc/journees/wp-content/uploads/2018/03/... · d’information et de connaissances et la visualisation)

TeamBuilder

optionnelles,...). Dans ce cas, une pondération des scores statiques est calculé afin d’ob-tenir un nouveau “score dynamique” permettant de trier les résultats et de retourner àl’utilisateur les n meilleurs profils.

2. Moteur de recommandation : TeamBuilder permet de faire un rapprochement multi-critères entre une fiche de mission insérée par un utilisateur, avec les CV préalablementstockés et scorés dans une collection mongoDB. Dans un premier temps, les compé-tences demandées sont extraites, automatiquement, à partir de la fiche de mission. Cesdernières sont ensuite comparées avec les compétences des CV existants en utilisantdes techniques de “Clustering par matching” (Manad (2018)). Enfin, les CV obtenussont rankés par ordre de correspondance (du plus au moins pertinent).

3. Privacy by Design : La valeur des informations contenues dans les CVthèques et lesfiches de missions oblige les ESN à la prise en charge de la confidentialité des données,et ce afin de faire face aux conséquences des brèches de sécurité. La “Privacy by De-

sign” apporte une nouvelle approche de la sécurité informatique permettant de gérer etde traiter la donnée sensible de manière anonyme (Bentounsi (2015)). Dans cet objectif,Teambuilder intégre la pseudonymisation à base de chiffrement reversible (Bentounsiet Deme (2017)) afin de préserver la confidentialité des collections mongoDB tout enpermettant les traitements nécessaires à son fonctionnement.

3 Perspectives

La prochaine version de TeamBuilder permettra l’exploitation de la plateforme avec (i) priseen compte du contenu entier des CV, afin d’en extraire toutes les informations permettantd’améliorer la fiabilité lors du rapprochement fiche de mission profils. Pour cela, des modèlesconstruits en utilisant des techniques d’apprentissage supervisé combinées à un moteur d’in-dexation (Solr) afin de calculer le re-ranking (Learning to rank, Li (2011)). (ii) Gestion desdroits des personnes dans le cadre du réglement général sur la protection des données (RGPD).

Références

Bentounsi, M. (2015). Les processus métiers en tant que services - BPaaS : sécurisation des

données et des services. Thèse de doctorat, Sorbonne Paris Cité, France.

Bentounsi, M. et C. S. Deme (2017). Procédé sécurisé d’analyse externe de données d’exploi-

tation d’une infrastructure de traitement de données. Brevet fr3043809.

Li, H. (2011). A short introduction to learning to rank. IEICE Transactions 94-D(10).

Manad, O. (2018). Nettoyage de corpus web pour le traitement automatique des langues.Thèse de doctorat, Université Paris 8, France.

Summary

Teambuilder is a prototype of a recommendation engine based on a Big Human ResourcesData platform, allowing to securely retrieve the best candidates (resume) for a specific mission.

Page 14: 7e édition des journées Big Data Mining and Visualization ...eric.univ-lyon2.fr/~gt-fdc/journees/wp-content/uploads/2018/03/... · d’information et de connaissances et la visualisation)

Qualité de la fouille des données de journalisation Web

Amine Ganibardi, Doctorant* Chérif Arab Ali, Directeur de Thèse** [email protected]* [email protected]*

Laboratoire d’Informatique Avancée à Saint-Denis Université Vincennes à Saint-Denis

http://www.ai.univ-paris8.fr/

1 Contexte et problèmes

1.1 Fouille des données de journalisation Web

La fouille de l’usage du Web est l’application des techniques de fouille de données aux données de journalisation des serveurs Web pour l’extraction de connaissance servant les besoins des applications Web, e.g., optimisation, recommandation, personnalisation, placement publicitaire sur le Web. Les données d'utilisation Web, appelées données de journalisation Web ou données Log, sont les données, enregistrées par les serveurs et les caches des navigateurs, décrivant les requêtes des utilisateurs, e.g., l’adresse IP, heure de la requête, page Web demandée (Pabarskaite and Raudys, 2007). Les techniques d'analyse les plus référencées relèvent de la statistique descriptive, les règles d'association et séquentielles, la classification, le clustering et la modélisation des processus. Ces techniques sont utilisées séparément ou combinées pour découvrir des connaissances utiles sur les utilisateurs ainsi que sur le système. Le processus de fouille des données Log comprend trois étapes principales, i.e., le prétraitement, la découverte de motifs et l'analyse de motifs découverts. L'étape de prétraitement vise à nettoyer, structurer et transformer les données en fonction des techniques de fouilles envisagées. La découverte de motifs consiste en l'application de techniques de fouille de données pour identifier des motifs utiles en fonction des objectifs visés. L'analyse des motifs vise à filtrer le modèle découvert pour garder ceux utiles pour le problème adressé (Srivastava et al., 2000, 2014).

1.2 Caractéristiques des données et problèmes

La journalisation Web enregistre les requêtes des utilisateurs finaux et d’autres agents dans des fichiers Log dans un ordre chronologique indépendamment de leurs sources, type, ou objet. Les ressources Web objets de ces requêtes sont les URI (html) des pages Web demandées par les utilisateurs ainsi que leurs composantes d’affichage (média) chargées par les agents (Pabarskaite and Raudys, 2007). A l’exception des recommandations de la W3C, il n’y a aucun standard obligatoire de format de ressources Web en matière de pages web et leurs composantes. Ainsi, des ressources média peuvent être demandées directement par click des utilisateurs finaux en dehors du format html. Avec le Web adaptative et dynamique doté de système de recommandation et de personnalisation, les ressources sont indexées sans extension de format et change en permanence (Pabarskaite, 2002).

Dans ce contexte, la fouille des données de l’usage Web est intéressées par le comportement des utilisateurs finaux. Ainsi, les requêtes formulées par les agents sont considérées comme du bruit à nettoyer avant la fouille des données. A ce titre, le fait que les ressources Web peuvent être demandées interchangeablement par les utilisateurs finaux et les agents, il n’est pas évident de distinguer les requêtes des utilisateurs finaux de celles des agents. Aussi, dans le cas d’utilisateurs réticents à l’égard de l’authentifications et l’acceptations des cookies, la journalisation séquentielle constitue une difficulté majeure à la structuration des requêtes par utilisateurs et sessions. La pertinence du nettoyage et de la structuration des données de journalisation conditionne la fiabilité des motifs d’usage découverts au titre des objectifs de la fouille des données de l’usage Web.

2 Contributions visées et résultats

2.1 Nettoyage des données

Les méthodes actuelles -de nettoyage des données Log- sont le nettoyage conventionnel et avancé (Pabarskaite, 2002; Srivastava et al., 2000). Les deux méthodes reposent sur une heuristique qui filtre les ressources sur la base de connaissance apriori sur les ressources

Page 15: 7e édition des journées Big Data Mining and Visualization ...eric.univ-lyon2.fr/~gt-fdc/journees/wp-content/uploads/2018/03/... · d’information et de connaissances et la visualisation)

destinées aux utilisateurs finaux et agents. Ces deux méthodes nécessitent une connaissance apriori sur le contenu des sites web des données Log à nettoyer. Ainsi, elles ne sont pas généralisables et sont consommatrice en ressources pour le maintien à jours d’une base de connaissance apriori exhaustive. Aussi, la qualité des résultats de ces méthodes demeure fortement perturbée par les contraintes du Web Dynamic et Adaptatif. A cet égard, deux méthodes centrées sur la structure de la journalisation ont été proposées pour surmonter les difficultés des deux méthodes centrées sur le contenu. Les résultats obtenus démontrent l’avantage des méthodes proposées en matière de pertinence, de contraintes et de couts d’application.

2.2 Structuration des données

La structuration des données Log, dans le cas d’absences d’authentification ou acceptation de cookies, qualifiée d’approche réactive, vise à identifier les requêtes par utilisateurs singuliers et leurs sessions successives de visites. Cette structuration est nécessaire pour l’identification des transactions. Trois méthodes réactives de structuration sont souvent référencées, i.e., orientée sur le temps, la topologie du site, le graph du site. Les sessions générées par ces méthodes ne sont jamais identiques aux sessions réelles et nécessitent toujours des améliorations (Spiliopoulou et al., 2003). La méthode proposée pour l’amélioration de la qualité des sessions produites repose sur l’enrichissement de leurs heuristiques par des contraintes de pertinences. La méthode proposée a été implémentée via une fonction-objectif qui maximise le nombre de sessions pertinentes. La qualité des sessions obtenues et significativement supérieur aux méthodes réactives génériques.

2.3 Découverte de motifs pour l’optimisation de l’usage Web

L'optimisation de l'utilisation du Web basée sur les données Log aborde séparément trois dimensions, à savoir, l'optimisation du trafic, de la structure, et des chemins traversés. Ces dimensions sont négativement corrélées et dépendent de trois facteurs, à savoir, le temps d’accès aux ressources, leur volume, et la longueur du chemin parcouru (Spiliopoulou, 2000; Spiliopoulou and Pohle, 2001; Zahran et al., n.d.). Les analyses de la statistique conventionnelle peuvent donner un aperçu explicatif/prédictif de la valeur du produit symbiotique/croisé de l'optimisation globale. Cependant, comme le facteur temps est hors de contrôle, elles ne fournissent pas une solution pour équilibrer/contrôler le produit symbiotique de l'optimisation. La contribution ciblée vise à fournir une méthode d'apprentissage semi-supervisée pour équilibrer/contrôler la valeur symbiotique de l'interaction. Références

Pabarskaite, Z., 2002. Implementing advanced cleaning and end-user interpretability technologies in web log mining, in: Information Technology Interfaces, 2002. ITI 2002. Proceedings of the 24th International Conference On. IEEE, pp. 109–113.

Pabarskaite, Z., Raudys, A., 2007. A process of knowledge discovery from web log data: Systematization and critical review. Journal of Intelligent Information Systems 28, 79–104. https://doi.org/10.1007/s10844-006-0004-1

Spiliopoulou, M., 2000. Web usage mining for Web site evaluation. Communications of the ACM 43, 127–134. https://doi.org/10.1145/345124.345167

Spiliopoulou, M., Mobasher, B., Berendt, B., Nakagawa, M., 2003. A framework for the evaluation of session reconstruction heuristics in web-usage analysis. Informs journal on computing 15, 171–190.

Spiliopoulou, M., Pohle, C., 2001. Data mining for measuring and improving the success of web sites, in: Applications of Data Mining to Electronic Commerce. Springer, pp. 85–114.

Srivastava, J., Cooley, R., Deshpande, M., Tan, P.-N., 2000. Web usage mining: Discovery and applications of usage patterns from web data. Acm Sigkdd Explorations Newsletter 1, 12–23.

Srivastava, M., Garg, R., Mishra, P.K., 2014. Preprocessing techniques in web usage mining: A survey. International Journal of Computer Applications 97.

Zahran, D.I., Al-Nuaim, H.A., Rutter, M.J., Benyon, D., n.d. A COMPARATIVE APPROACH TO WEB EVALUATION AND WEBSITE EVALUATION METHODS 2014, 20.

Page 16: 7e édition des journées Big Data Mining and Visualization ...eric.univ-lyon2.fr/~gt-fdc/journees/wp-content/uploads/2018/03/... · d’information et de connaissances et la visualisation)

Processus de matching du meilleur talent à une offre

d’emploi

Maroua Laabidi∗, Sondès Fayech∗∗, Rim Faiz∗∗∗

[email protected] ∗∗ [email protected] ∗∗∗ [email protected]

1 Introduction et Problématique

L’ensemble des données existantes sur le web a quadruplé dans les trois dernières années,cela a engendré une grande masse de données. La plupart d’entre elles sont souvent non structu-rées (post facebook, image instagram, vidéo, publication sur linkedin, etc) ou semi structurées(fichier log, document pdf, etc) et difficiles ainsi à traiter. Ce volume de données constitue unemine pour les recruteurs qui y passent plusieurs jours pour trouver certains profils de candi-dats difficiles à retrouver. En effet, il n’existe actuellement aucun processus de recrutementautomatique permettant de parcourir les différentes sources de données disponibles sur le webselon Kumar et al. (2017), les traiter et détecter d’une façon automatique, intelligente et rapidele meilleur candidat. Notre travail s’intéresse donc au problème de l’automatisation de la re-cherche des profils adéquats à partir d’une masse de données importante extraite des réseauxsociaux professionnels et des différents sites d’emploi. Nous proposons ainsi un processusde matching permettant de faire correspondre les profils des candidats détectés du web auxattentes des ressources humaines en se basant sur les techniques du Big Data.

2 Processus de Matching (MP)

Notre processus, illustré par la FIG. 1, comporte principalement 4 étapes. Il débute parl’élaboration d’un modèle de compétences, puis une étape de collecte des données de diffé-rentes sources. Une troisième étape de stockage et de prétraitement des données collectées..Par la suite, une quatrième étape cruciale d’analyse s’impose pour affecter le profil adéquat àune offre de travail. Les résultats obtenus permettent ainsi de répondre aux attentes des recru-teurs, «chasseurs de têtes».

Lors la quatrième étape, nous extrayons à partir des données publiées sur le web certainesinformations pertinentes pour construire un modèle de profil professionnel. Ces informationsconcernent les compétences de chaque candidat : ses connaissances (formations académiques,langues, certifications obtenues, etc) et son savoir faire (expériences, publications, projets réa-lisés). Ce modèle sera utilisé lors de la prochaine étape pour cibler l’extraction des données.L’objectif de cette deuxième étape d’extraction est de parcourir les pages web et de collecter lesdonnées pertinentes qui constituent les profils professionnels publics. La complexité de cette

Page 17: 7e édition des journées Big Data Mining and Visualization ...eric.univ-lyon2.fr/~gt-fdc/journees/wp-content/uploads/2018/03/... · d’information et de connaissances et la visualisation)

Affectation des talents à une offre d’emploi

FIG. 1 – Processus de Matching des talents

étape, réside d’une part, dans le fait que Linkedin ne fournit pas une API (Application Pro-gramming Interface) pour extraire des données directement à partir du serveur. D’autre part,l’absorption des données de différents formats à partir de plusieurs sites web nécessitent unscanning visuel distribué. Par la suite, l’ensemble des données stockées seront traitées selonleur nature en utilisant plusieurs outils de traitement Batch (Pig, Hive, Impala) ou temps réel(Storm, Spark, Flink). Selon Zaharia et al. (2010), Spark et Flink réalisent actuellement lesmeilleurs résultats avec ces deux types de traitements à la fois. L’objectif de cette phase estd’obtenir une masse de données traitées d’une façon distribuée et synthétisées. Au niveau de laderniére étape, nous allons utiliser les techniques de Machine Learning dans un contexte BigData (Spark ML, Flink ML, TensorFlow, etc) pour classer les candidats déterminés selon lescritères de filtrage préalablement fixés par les recruteurs.

3 Conclusion

Dans cet article, nous avons présenté un processus de Matching, permettant la recherchedes talents à travers des données extraites du web. Plus précisément, nous avons identifié unensemble de compétences nécessaires pour répondre aux exigences d’un poste offert. Pourcela, nous avons décrit un modèle de compétences pour déterminer les caractéristiques d’unprofessionnel. Par la suite, nous avons extrait les données à partir de LinkedIn et des sites Webet nous avons appliqué un prétraitement et une transformation sur ces données en se basant surles techniques du Big Data. Enfin, nous avons extrait les bonnes connaissances et analyser lesrésultats afin d’affecter la bonne personne au bon endroit et au bon moment. Un tel processusautomatique et intelligent d’affectation des talents aux offres d’emploi simplifie la tâche desrecruteurs, la rend plus rapide et plus efficace. Il constitue une source de richesse pour lesentreprises, qui permet de gagner en termes de temps et d’argent.

Page 18: 7e édition des journées Big Data Mining and Visualization ...eric.univ-lyon2.fr/~gt-fdc/journees/wp-content/uploads/2018/03/... · d’information et de connaissances et la visualisation)

Maroua Laabidi et al.

Références

Kumar, R., S. De Abreu, et M. Arshad (2017). A methodology for mining linkedin data forextracting and visualizing professional profiles. International Journal of Latest Trends in

Engineering and Technology, 275–280.

Zaharia, M., M. Chowdhury, M. J. Franklin, S. Shenker, et I. Stoica (2010). Spark: Clustercomputing with working sets. 4th USENIX Workshop on Hot Topics in Cloud Computing

(CFP), 1–7.

Summary

The wealth of the web in information has caused the expansion of large amounts of datadifficult to process through a classic manual process for the talent matching to appropriate jobopportunities.

Page 19: 7e édition des journées Big Data Mining and Visualization ...eric.univ-lyon2.fr/~gt-fdc/journees/wp-content/uploads/2018/03/... · d’information et de connaissances et la visualisation)

Cas pratique d’élaboration d’une solution de visualisation de

données massives pour le sport professionnel de haut niveau

Simon Chalumeau∗,∗∗, Amine Aït-Younes∗, Frédéric Blanchard∗

∗CReSTIC, Université de Reims Champagne-Ardennes∗∗BeForStats, Reims

1 Contexte

Les clubs sportifs professionnels de haut niveau sont des structures complexes, impliquanttout un ensemble de personnes spécialisées interagissant dans le but d’optimiser les résultatsen compétition. Comme dans toute organisation concentrée autour d’un projet commun, lesoutils informatiques sont alors un des meilleurs moyens pour augmenter leur efficacité, no-tamment, par exemple, grâce aux solutions de communication, de partage d’information, decentralisation de données ou encore de planification.

Plus particulièrement, un des enjeux actuels du domaine consiste à rendre intelligiblel’énorme masse de données issue du nombre croissant de mesures et d’objets connectés, d’amé-liorer la perception des décideurs sur les déterminants de la réussite du projet et de mettre enévidence les choix les plus probablement optimisés par rapport à un contexte donné. Dansun club sportif, ces choix portent principalement sur l’organisation et la composition des en-traînements à effectuer, la tactique à employer, le recrutement des compétiteurs ainsi que leurenvironnement et leur accompagnement.

Pour concevoir un service répondant à cette problématique, il faut tout d’abord récupérerdes données décrivant au mieux les situations, les nettoyer et les assembler, les analyser afin deproposer des indicateurs les plus pertinents possibles et les présenter de façon non seulementintelligible mais aussi fertile pour la pensée. Ce service doit être adapté aux utilisateurs. Eneffet, à aucun moment cela ne doit représenter un effort supplémentaire pour ce dernier et celadoit donc être parfaitement intégré aux processus de perception et de décision des expertisescorrespondantes mais aussi, plus généralement, de la pensée humaine.

2 Choix des représentations du domaine d’étude

Habituellement, une des premières questions qu’il convient de trancher lorsqu’il s’agit deconcevoir une solution de visualisation de données est le niveau de généricité des outils d’ana-lyse mis à disposition. En effet, un outil de représentation très générique permet de s’adapterà beaucoup de cas d’utilisation et ainsi de s’adapter à des utilisateurs d’intérêts et d’habitudesdifférents. Cependant, cela a un coût : l’augmentation du niveau d’abstraction et la multiplica-tion des réglages avancés disponibles et souvent nécessaires pour les cas les plus précis. Cette

Page 20: 7e édition des journées Big Data Mining and Visualization ...eric.univ-lyon2.fr/~gt-fdc/journees/wp-content/uploads/2018/03/... · d’information et de connaissances et la visualisation)

Solution de visualisation de données massives pour le sport professionnel

complexité suffit à constituer un frein pour des utilisateurs non analystes et peu enclins à inves-tir du temps dans l’appropriation des outils. À l’inverse, une solution d’analyse de données trèsspécifique à un sujet d’étude réduit évidemment sa polyvalence mais permet souvent une utili-sation plus simple notamment en permettant de manipuler des concepts plus familiers pour lesutilisateurs ciblés. Pour s’insérer dans le secteur sportif professionnel de haut niveau, souventhésitant lorsqu’il s’agit de transformation numérique, il convient assez nettement de favoriserla solution la moins perturbante, la plus adaptée aux habitudes en place. Ainsi sommes-noustentés par une approche ultra spécifique à ce domaine.

La démarche même de concevoir une interface utilisateur met presque toujours ce dernierau centre des attentions. Ainsi nous prêtons notre attention à le comprendre, à apprendre sesreprésentations ou encore à explorer ses habitudes afin que l’expérience que procure la solutionen question lui soit la plus simple et agréable. Selon les cas, il peut s’agir de se représenter lescaractéristiques et processus mentaux propres à notre espèce ou notre culture, ou encore des’approprier les codes et le fonctionnement du domaine ciblé. Pour le cas d’une approche trèsspécifique au sport professionnel de haut niveau, cette phase d’étude doit donc se concentrersur la représentation et les concepts propres aux décideurs sportifs.

Pourtant, l’approche retenue ici ne suit pas cette logique. En effet, dans le cadre d’uneapplication de visualisation de données, l’objectif est avant tout de permettre à l’utilisateurd’approfondir sa réflexion. Or, une solution reproduisant la représentation utilisées dans undomaine a moins de chance de permettre à l’utilisateur déjà expert d’accéder à des anglesd’analyse soutenant l’approfondissement sa pensée. Pire, la représentation manipulée a deschances d’être déformée par la compréhension imparfaite du domaine par les concepteurs. Eneffet, l’élicitation des experts est souvent un exercice difficile. Cela mène à ce que la solutionproposée soit parfois rejetée paraissant trop déconnectée de la réalité pour l’utilisateur.

3 Une solution fondée sur un modèle personnalisé et évolutif

des représentations

Le développement de la solution présentée ici s’appuie donc sur le parti pris qu’une solu-tion de visualisation de données spécifique à une expertise doit éviter au maximum d’imposersa propre représentation du domaine d’étude tout en préservant un sentiment de familiaritéauprès de l’utilisateur. Pour ce faire, une réflexion approfondie est menée pour modéliser unsystème compatible avec les représentation à priori de l’utilisateur et évoluant au gré de sesexplorations, de ses hypothèses ou encore des confrontations aux données et aux points de vuedes autres utilisateurs.

Références

Fister, I., K. Ljubic, P. N. Suganthan, M. Perc, et I. Fister (2015). Computational intelligence insports : Challenges and opportunities within a new research domain. Applied Mathematics

and Computation 262, 178–186.

Mitchell Page, A. V. M. (2006). Towards Classifying Visualization in Team Sports. pp. 24–29.IEEE.

Page 21: 7e édition des journées Big Data Mining and Visualization ...eric.univ-lyon2.fr/~gt-fdc/journees/wp-content/uploads/2018/03/... · d’information et de connaissances et la visualisation)

Chalumeau et al.

Stein, M., H. Janetzko, D. Seebacher, A. Jäger, M. Nagel, J. Hölsch, S. Kosub, T. Schreck,D. Keim, et M. Grossniklaus (2017). How to Make Sense of Team Sport Data: FromAcquisition to Data Modeling and Research Aspects. Data 2.

Summary

The aim of this presentation is to think about how to handle expert user representations ina massive data visualization application for high level professional sports.

Page 22: 7e édition des journées Big Data Mining and Visualization ...eric.univ-lyon2.fr/~gt-fdc/journees/wp-content/uploads/2018/03/... · d’information et de connaissances et la visualisation)

"Happiness Management" : l’IoT au service de la RH

Fourat Mastouri∗, Nadia El Hakim∗∗, Simon Coulet∗∗∗

Nouha Omrane∗∗∗∗

[email protected] ∗∗[email protected] ∗∗∗[email protected]∗∗∗∗[email protected]

1 Introduction

Aujourd’hui, un employé heureux se voit augmenter sa productivité de 37% et sa créativitéde 300% (Achor (2012)). Aussi, un individu heureux a tendance à toucher un meilleur salaire,à vivre plus longtemps et en meilleur santé voire même à vivre un mariage plus heureux (Linley(2008)). Ainsi l’individu comme son employeur ont tout intérêt à maximiser son bien-être.

C’est dans ce cadre que nous avons mis en place notre solution "Happiness Management",une plateforme qui propose de quantifier le bien être à partir de l’étude des éléments des en-vironnements internes et externes de l’employé. Le but du projet étant de pouvoir créer unbenchmark qui permettra d’évaluer le bien-être des employés dans les entreprises.

2 Architecture générale

FIG. 1 – Architecture fonctionnelle du projet

Une première phase d’idéation à l’aide d’une méthode de Design Thinking nous a ini-tialement permis d’éclairer des points de douleur chez une personne par rapport à ses envi-ronnements de travail mais aussi extérieur, nous permettant d’établir un premier persona type.Nous avons cherché à mesurer à l’aide d’objets connectés des facteurs qui peuvent impacterdirectement l’employé dans son travail, tels que la température, la qualité de l’air ou encore levolume sonore. Aussi, nous vons établi un réseau IoT au sein des bureaux de Jems commu-niquant grâce à la technologie Zwave+ et interagissant avec le logiciel Jeedom installé sur un

Page 23: 7e édition des journées Big Data Mining and Visualization ...eric.univ-lyon2.fr/~gt-fdc/journees/wp-content/uploads/2018/03/... · d’information et de connaissances et la visualisation)

Raspberry Pi. Il est important de noter que ces capteurs restent fixes dans un environnement detravail donné. Les données ainsi générées sont indépendants du type de travail qu’effectuentles individus présents.

Aussi, nous recourons à des APIs nous remontant des données nous renseignant sur l’envi-ronnement extérieur à l’entreprise. De ce fait nous avons pu recueillir des données telles que lamétéo, le climat, l’ensoleillement, les horaires de passage des transports, mais aussi les tweetsdes personnes qui réagissent en temps réel au réseau parisien (notamment via #InfoTrafic) quenous analysons sémantiquement.

Toutes ces données sont ingérées à l’aide de notre hub vers une plateforme Big Data sousdistribution Hortonworks. Elles sont ensuite stockées dans un Datalake géré par le systèmede fichiers distribués HDFS, puis nettoyées et transformées avant d’être enfin stockées dansnotre base de données. À partir de là, et dans le but de pouvoir mieux orienter notre études etidentifier les facteurs liés entre eux, nous pouvons visualiser les éventuelles corrélations et lestendances des données recueillies.

3 Perspectives

Dans le but de compléter notre jeu de données, nous remonterons des données non plusseulement de Jems, mais aussi de tout le campus de l’Université Paris-Est Créteil, où nousavons développé un partenariat avec le laboratoire LISSI, spécialisé dans le traitement du sig-nal et le machine learning. Dans l’optique d’affiner et de diversifier nos indicateurs, nousdéveloppons un outil nous servant à évaluer la satisfaction d’un individu, à l’arrivée et à lasortie de son lieu de travail ou d’étude. Pour compléter cette métrique, nous mettrons en placeun rapide questionnaire pour suivre le bien-être d’une personne au fil du temps, et en se basantdavantage sur ses critères sociaux.

Aussi, il a été montré que les réseaux sociaux tels que twitter sont un sérieux indicateurde dépression (De Choudhury et al. (2013)). Nous avons donc pour but de mesurer l’impactdu réseau de transports en commun parisien via l’analyse sémantique de tweets figuratifs (hu-moristiques, ironiques ou sarcastiques)

L’objectif a court terme est donc de pouvoir mieux cerner les caractéristiques du bien-être de l’employé par le traitement et la visualisation de tout les types de données mentionnésci-dessus, mais aussi de pouvoir mettre en exergue des corrélations et surtout des causalitésentre les différents facteurs. En découlera un benchmark que les entreprises pourront prendreen compet afin d’assurer l’épanouissement de leurs employés et améliorer leur productivitétout en limitant le turn-over. Cet outil pourra être dans un deuxième temps adapté à d’autrescas d’usage pour ne pas se limiter seulement au cadre professionnel, permettant une mesureglobale de l’épanouissement d’une personne quelconque.

References

Achor, S. (2012). Positive intelligence. Harvard Business Review 90(1), 100–102.

De Choudhury, M., M. Gamon, S. Counts, and E. Horvitz (2013). Predicting depression viasocial media. ICWSM 13, 1–10.

Linley, A. (2008). The how of happiness: A scientific approach to getting the life you want.

Page 24: 7e édition des journées Big Data Mining and Visualization ...eric.univ-lyon2.fr/~gt-fdc/journees/wp-content/uploads/2018/03/... · d’information et de connaissances et la visualisation)

Modélisation d’un système «intelligent» d’aide à la décision

et conseil pour des données textuelles massives 1

Maroua BOUDABOUS∗ Anna PAPPA∗∗

[email protected] ∗∗[email protected]

Résumé. Dans l’ère de la BigData et de la transformation numérique, le besoind’acquérir un système intelligent capable d’analyser des gros volumes de don-nées textuelles multi-sources et multi-langues selon les besoins métier, devientnécessaire en vue d’améliorer la qualité des conseils fournis aux clients.

1 Déscription du projet

Le contrôle des processus métiers représente l’une des activités les plus importantes pourla survie de toute organisation. Il s’agit d’un processus complexe qui s’appuie sur la qualitédes conseils fournis pour guider le conseil et l’aide à la décision et qui repose sur deux fac-teurs majeurs : l’intelligence et l’expertise humaine dans le domaine d’activité et le capitalinformationnel que détient l’organisation.

Face à l’émergence des données numériques disponibles, notre projet vise à modéliser unsystème qui permettra d’améliorer le métier du conseil tout en automatisant le processus d’ana-lyse sémantique et prédictive à partir d’un gros corpus de données le plus souvent expriméessous format texte en différentes langues et issues de diverses sources.

Effectivement, nous allons nous focaliser sur l’analyse des données textuelles disponiblessous format numérique qui émanent d’un contexte client. Nous manipulerons à titre d’exempleun corpus construit à base des réponses utilisateurs aux questionnaires de satisfaction vis-à-visd’un service, d’un produit ou d’une expérience consommateur, des corpus construits à partird’un mécanisme de web crawling Dref et Pappa (2016) guider la fouille des opinions parrapport à un sujet précis ou encore explorer un corpus qui recueille les rapports d’activité quisont des documents structurés qui servent pour décrire une activité dans un domaine métierprécis par exemple l’aéronautique et la gestion des vols.

Pour ce faire, nous distinguons trois étapes nécessaires : le recueil des données Medrouket al. (2016), l’analyse qualitative de ces données et la prédiction via les techniques d’appren-tissage automatique. En effet, la première étape consiste à non seulement collecter les donnéespertinentes pour l’objectif cible mais également à leur appliquer une suite de pré-traitementsqui servent pour nettoyer et homogénéiser les données brutes fournies en entrée en utilisantune panoplie de technologies servant à crawler les données via le web ainsi que les technolo-gies provenant de l’écosystème BigData favorisant le traitement des données massives à savoirApache Spark. Cette étape est cruciale et sera gage d’une meilleure qualité d’apprentissage etde prédiction.

Une fois le corpus construit et homogénéisé, nous nous procèderons à l’analyse "qualita-tive" des données dans la mesure où nous nous focaliserons l’analyse sur l’aspect sémantique

Page 25: 7e édition des journées Big Data Mining and Visualization ...eric.univ-lyon2.fr/~gt-fdc/journees/wp-content/uploads/2018/03/... · d’information et de connaissances et la visualisation)

Modélisation d’un système "intelligent" d’aide à la décision

du traitement pour permettre à la machine de "comprendre" au mieux le contexte, la finalitéet le sens véhiculés par les données fournies pour lancer l’apprentissage et la prédiction par lasuite. Lors de cette étape, nous soulignerons également si l’information pertinente sera totale-ment présente au niveau des données ou bien la mise en place d’un système de question/réponseest requise.

La prédiction représente la dernière étape du traitement et repose sur la mise en place d’unmodèle d’apprentissage pour la classification et la catégorisation sémantique tout en introdui-sant l’analyse contextuelle et l’exploitation des "patterns" trouvés dans les données pré-traitéesMedrouk et Pappa (2017) Medrouk et Pappa (2018). Au cours de l’apprentissage, nous al-lons nous servir des réseaux de neurones profonds de convolution Kim (2014) Zhang et al.(2015) ou récurrents pour augmenter l’intelligence des classifieurs en introduisant le contextesémantique au niveau des hyper paramètres et des descriptifs. La définition d’une architectureprofonde sera assurée en ayant recours à des frameworks dédiés à l’instar de TensorFlow etKeras.

Références

Dref, M. et A. Pappa (2016). An interaction approach between services for extracting relevantdata from tweets corpora. In CILC2016. 8th International Conference on Corpus Linguis-

tics, Volume 1, pp. 97–110.

Kim, Y. (2014). Convolutional neural networks for sentence classification. arXiv preprint

arXiv :1408.5882.

Medrouk, L. et A. Pappa (2017). Deep learning model for sentiment analysis in multi-lingualcorpus. In International Conference on Neural Information Processing, pp. 205–212. Sprin-ger.

Medrouk, L. et A. Pappa (2018). Do deep networks really need complex modules for multilin-gual sentiment polarity detection and domain classification? In International Joint Confe-

rence on Neural Networks.

Medrouk, L., A. Pappa, et J. Hallou (2016). Review web pages collector tool for thematic cor-pus creation. In CILC2016. 8th International Conference on Corpus Linguistics, Volume 1,pp. 274–282.

Zhang, X., J. Zhao, et Y. LeCun (2015). Character-level convolutional networks for text clas-sification. In Advances in neural information processing systems, pp. 649–657.

Summary

At BigData Era, acquiring an intelligent tool able to analyze huge amounts of textual data isbecoming increasingly urgent in order to guide and improve domain driven consulting process.

1. Projet thèse CIFRE, LIASD et NOVAGEN Conseil

RNTI - X - 2

Page 26: 7e édition des journées Big Data Mining and Visualization ...eric.univ-lyon2.fr/~gt-fdc/journees/wp-content/uploads/2018/03/... · d’information et de connaissances et la visualisation)

BigText, compréhension et inférence avancées sur les textes Patrick Laffitte, Raja Haddad, Yassin Chabeb

Palo IT Labs, Paris, France {plaffitte;rhaddad;ychabeb}@ palo-it.com

1 Introduction Aujourd’hui, le volume des données textuelles échangées par les systèmes numériques est

en croissance continue. L’exploitation de ces données offre de nombreuses perspectives de développement de nouveaux services pour les particuliers comme pour les professionnels. Cependant, pour exploiter cette richesse, il est indispensable d’extraire et de produire des connaissances à partir de ce type de données. BigText vise à développer un système de questions ouvertes sur des ensemble de textes comme Wikipédia ou l’ensemble des contrats qui lient une personne morale à l’ensemble de leurs clients ou encore l’ensemble des échanges entre un support téléphonique et les utilisateurs. A l’issue de cette phase d’interrogation, le système doit raisonner sur les connaissances préalablement acquises et injecter le résultat dans le système d’apprentissage des questions ouvertes. Le système sera ensuite capable de répondre à des questions formulées en langage naturel dans cette langue. Puis de raisonner sur cette connaissance pour formuler des inférences ou des incohérences sur le texte en fonction du contexte du texte et du contexte de la question.

2 Architecture Générale

BigText est organisé autour d’un processus à deux phases. La première assure :

1. La reconnaissance des entités nommées (named entity recognition) en utilisant des exemples bien formés : Le choix s’est porté naturellement sur les outils réalisés par l’université de Stanford que nous connaissons bien. CoreNLP est un framework écrit en Java qui permet en autre, de faire du NER sur des phrases en Anglais..

2. Un réseau de neurone capable de répondre aux questions ouvertes sur l’ensemble du texte pour chaque entité nommées (Ou, quand, qui, comment, pourquoi) : R-NET [MICROSOFT, 2017] est un des modèles de réseau de neurone qui a donné de bons résultats sur le jeu de donnée de SQuAD. Il nous a fallu implémenter ce modèle en Tensor Flow et vérifier sur le jeu de donnée d’apprentissage que on obtient une qualité supérieure à 79% sur la mesure EM (exact match).

3. Comparaison entre une question et un ensemble de texte pour trouver les textes qui semblent répondre à la question. Nous avons choisi une méthode connu le TF-Idf bien implémenté dans le module python Scikit-learn. Ces textes sont ensuite lus par le réseau de neurone pour obtenir la ou les réponses possibles

Le mécanisme active dans une deuxième phases un “Reasoner” en logique naturelle pour réaliser l’inférence et la mise en phrase des résultats. Ceci prend en considération ce qui suit :

1. La logique dite naturelle a été décrite par Gabor Angeli et Christopher D. Manning [GABOR, 2014]. La première méthode a été proposé par les travaux disponible sous https://github.com/facebookresearch/SentEval de facebookResearch. Une 2ème approche originale a été décrite par Stergios Chatzikyriakidis [STERGIOS, 2015]. Elle utilise le formalisme de COQ (INRIA) donc la puissance de la théorie des types. L’objectif est de comparer ces deux approches et de choisir la plus efficace.

2. Développement de l’outil qui permet d’inférer en fonction du résultat de l’étude précédente. A ce stade, nous ne pouvons rien présager de la qualité des résultats.

Page 27: 7e édition des journées Big Data Mining and Visualization ...eric.univ-lyon2.fr/~gt-fdc/journees/wp-content/uploads/2018/03/... · d’information et de connaissances et la visualisation)

3. Développement de l’outil de génération du texte qui exprime les inférences ou les incohérences calculées par le moteur d'inférence. Dans un premier temps, nous resterons sur un développement qui utilise une grammaire anglaise simple. Il faudra par la suite essayer d’utiliser des techniques plus génériques comme décrite par Lei Sha. [LEI, 2017]

3 Prototype : Répondre à des questions ouvertes sur le RGPD

Il est développé au cours de l’année 2018 a tiré parti du travail réalisé sur la phase 1. Il a pris la forme d’un bot semi-intelligent, capable de répondre à des questions ouvertes en Anglais sur le RGPD. (Le Règlement Général Européen sur la Protection des Données). Ce travail nous a permis de tester la capacité du système de “lire” des textes très spécialisés à partir d’un apprentissage réalisé avec un jeu de données générique. Le cadre technologique est le suivant : Langage python et bibliothèques Django, Tensorflow, Gensim, Scikit-learn et CoreNLP pour l’apprentissage et la réponse aux questions ouvertes. Le prototype est composé : (1) d’un analyseur permettant de décomposer et comprendre les phrases simples fournies en entrée au prototype. Il est réalisé sur la base de l’outil coreNLP ; (2) d’un système d’extraction des zones de textes qui semblent similaire à la question basé sur un calcul du type TF-Idf ; (3) d’un réseau de neurones basés sur du LSTM avec point d’attention capable de lire les textes choisis par le système d’extraction et de pointer sur les mots qui répondent à la question en donnant en plus un niveau de qualité ; et (4) d’un bot capable de répondre à une question par les 3 meilleures réponses.

4 Perspectives Seul l’anglais, ou plutôt l’américain, est utilisé dans les compétitions des différents modèles d’analyse de texte, en particulier la compétition Stanford Question Answering Dataset (SQuAD) déjà évoquée plus haut, dont quelques modèles-candidats de calculs sont rendus publics. En apprenant à les appliquer, nous les améliorons et nous permettons leur utilisation quel que soit le contexte du corpus documentaire.

Références

Microsoft Research Asia (2017) R-NET: MACHINE READING COMPREHENSION WITH

SELF-MATCHING NETWORKS.

Gabor Angeli et Christopher D. Manning (2014) NaturalLI: Natural Logic Inference for common sense reasoning. EMNLP.

Stergios Chatzikyriakidis (2015) Natural Language Reasoning using Coq: Interaction and Automation.

Lei Sha, Lili Mou, Tianyu Liu, Pascal Poupart, Sujian Li, Baobao Chang, Zhifang Sui (2017) Order-Planning Neural Text Generation From Structured Data.

Summary

BigText is a semantic resoner engine based on a NLP analyzer and LSTM neuronal network, allowing to infer the 3 best answer available in a textual corpus for a specific question.

Page 28: 7e édition des journées Big Data Mining and Visualization ...eric.univ-lyon2.fr/~gt-fdc/journees/wp-content/uploads/2018/03/... · d’information et de connaissances et la visualisation)

Affectation de support minimum multiple guidée par lesdonnées pour l’extraction de règles d’association :

application à la prédiction de l’évolution territoriale

Asma Gharbi∗, Cyril De Runz∗∗

Herman Akdag∗

, Sami Faiz∗∗∗

∗Laboratoire d’informatique Avancé de Saint Denis EA 4383 2 rue de la Liberté93526 SaintDenis Cedex France

[email protected]∗∗CReSTIC-SIC IUT de ReimsChâlonsCharleville Chemin des Rouliers

CS30012 51687 REIMS CEDEX [email protected]

∗∗∗ISAMM Campus Universitaire 2010 La Manouba [email protected]

RÉSUMÉ

Quel que soit le domaine d’application, chaque entité physique ou morale peut très souventêtre associée à une localisation dans l’espace et certains de ses attributs peuvent varier avec letemps. Par conséquent, il est utile de développer des techniques qui résument efficacement cesdonnées et qui découvrent leurs tendances spatio-temporelles, dans le cadre d’un modèle qui,ainsi, aide à la prise de décision (Cheng et al., 2014). Ces modèles doivent saisir, entre autres,le comportement évolutif de ces entités au fil du temps et donc fournir un aperçu utile pour lesuivi, l’explication et la prédiction d’éventuelles occurrences d’évènements qui lui sont liés.

Dans un cadre applicatif lié à l’explication et la prédiction de l’évolution territoriale, nousexplorons les évènements de changement de fonctions des entités spatio-temporelles et noustentons de définir une approche permettant le suivi, l’explication et l’anticipation de ceux-ci.Ainsi, nous partons de l’hypothèse que les dynamiques spatiales et les évolutions des usagesdes objets géographiques peuvent, en partie, être expliquées ou anticipées par leurs historiquesde changements de fonctions et de co-localisations. Nous proposons d’exploiter la recherchedes motifs fréquents et des règles d’associations pour en extraire des règles régissant ces dyna-miques. Ce travail adapte également le processus de fouille de données pour tenir compte dela spécificité des données spatio-temporelles utilisées, notamment, leur asymétrie.

En effet, en appliquant un algorithme classique de recherche de règles d’association –Apriori – seules des règles impliquant exclusivement des relations de voisinage sont généréesce qui s’explique par la domination des items correspondant à ces relations par rapport auxitems correspondant aux autres types de relations (e.g. relations temporelles de changement de

Page 29: 7e édition des journées Big Data Mining and Visualization ...eric.univ-lyon2.fr/~gt-fdc/journees/wp-content/uploads/2018/03/... · d’information et de connaissances et la visualisation)

fonctions). Dans ce contexte un ensemble de propositions sont faites afin de traiter l’asymétrieinhérente aux attributs d’apprentissage (N, SPF, S) : soit, l’algorithme MSApriori avec affec-tation de seuils à base de clustering (MS :ClusterBased), MSApriori avec affectation de seuilsà base de quartiles (MS :QuartilesBased), leurs variantes considérant la sémantique des items(MS :ClusterBasedSem et MS :QuartilesBasedSem) et l’algorithme BERA.

Parmi ses avantages, l’approche que nous proposons tend vers un traitement complet, auto-matisé et générique des problèmes liés au suivi, l’explication et la prédiction des phénomènesspatio-temporels tel que l’évolution territoriale. En effet, elle tente de couvrir au mieux toutesles étapes de résolution du problème allant du chargement de données, à leurs modélisation,leurs prétraitement et préparation à l’apprentissage, l’étape d’apprentissage tenant compte desspécificités des données (asymétrie) et leur évaluation.

Tenant à évaluer notre approche ainsi que nos différentes propositions algorithmiques, nousles avons appliquées aux données Corine Land Cover sur Paris. L’étude expérimentale quenous avons menée vise à évaluer leur capacité à extraire des règles dont la structure fait échoaux hypothèses premières de notre travail – la fonction d’un objet géographique dépend de lasuccession de celles de ses antécédents ainsi que de celles de leurs voisins – et également àévaluer les règles obtenues. Dans ce contexte, nous avons présenté le dispositif expérimentalSAFFIET (Gharbi et al., 2016) mettant en oeuvre nos propositions, et nous procurant les résul-tats à évaluer. En effet, les modèles issus des différents algorithmes proposés ont été évaluésselon trois volets : leurs capacités à gérer le problème de l’asymétrie de données, la richessedes motifs et des règles qu’ils génèrent, et la qualité de ces dernières en termes de pertinencede la prédiction et de l’explication.

Références

Cheng, T., J. Haworth, B. Anbaroglu, G. Tanaksaranond, et J. Wang (2014). Spatiotemporal

Data Mining, pp. 1173–1193. Berlin, Heidelberg : Springer Berlin Heidelberg.

Gharbi, A., C. de Runz, S. Faiz, et H. Akdag (2016). Saffiet : un système d’extraction derègles d’associations spatiales et fonctionnelles dans les séries de données géographiques.In Extraction et Gestion des Connaissances (EGC), Reims, France. Hermann.

Page 30: 7e édition des journées Big Data Mining and Visualization ...eric.univ-lyon2.fr/~gt-fdc/journees/wp-content/uploads/2018/03/... · d’information et de connaissances et la visualisation)

Les forêts aléatoires profondes

Abdelkader Berrouached∗, Rakia Jaziri∗, Gilles Bernard∗

∗LIASD, Saint-Denis, Franceabdelkader.berrouachedi, rjaziri, [email protected]

http://www.ai.univ-paris8.fr

Résumé. Le succès des réseaux de neurones profonds a amené de nombreuxchercheurs à explorer d’autres algorithmes pour bénéficier d’architectures encouches profondes. Dans cet article, nous proposons une extension profonde desforêts aléatoires avec des performances très compétitives par rapport aux réseauxde neurones profonds. Les résultats expérimentaux sur différentes données dansplusieurs domaines montrent l’efficacité du modèle proposé.

1 Introduction

Les réseaux de neurones profonds sont devenus une force dominante dans plusieurs do-maines notamment la reconnaissance d’image, la reconnaissance de la parole et le traitementdu langage naturel (Schmidhuber (2015) et Goodfellow et al. (2016)). Bien qu’ils soient puis-sant, ceci représente plusieurs inconvénient. En effet, il utilise une forte capacité de mémoirerendant l’apprentissage complexe sur un seul CPU. De plus, les réseaux de neurones profonds(LeCun et al. (1998)) sont hautement sensible et nécessitent à la fois de grandes quantités dedonnées et une phase de paramètrage. Par ailleurs, les ressources de calcul nécessaires pourformer un réseaux de neurones profonds dépasse celle des méthodes d’apprentissages automa-tiques classiques telles que les forêts aléatoires qui sont aussi efficaces pour certaines problé-matiques .Nous proposons dans cet article, une extension profonde des forêts aléatoires , appelée DRF,avec des fortes performances comparables aux réseaux de neurones profonds. Contrairementaux réseaux neuronaux profonds qui nécessitent des données d’entraînement à grande échelle,DRF peut bien fonctionner même sur des petits échantillon de données.

2 Extension profondes des forêts aléatoires

L’apprentissage dans les réseaux neuronaux profonds repose principalement sur un ap-prentissage couche par couche. Inspiré par cette reconnaissance, RDF utilise une structure encascade (figure 1), où chaque couche de cascade reçoit des informations traitées par la coucheprécédente, et transmet son résultat de à la couche suivante. Chaque couche est un ensemble deforêts aléatoires appris sur des sous échantillons de données. Avec une instance, chaque forêtproduira une estimation de la distribution des classes, en comptant le pourcentage de diffé-rentes classes d’exemples d’apprentissage au niveau de la feuille, puis en calculant la moyennesur tous les arbres de la même forêt.

Page 31: 7e édition des journées Big Data Mining and Visualization ...eric.univ-lyon2.fr/~gt-fdc/journees/wp-content/uploads/2018/03/... · d’information et de connaissances et la visualisation)

Forêt profonde

FIG. 1 – Architecture de

TAB. 1 – Comparaison de la précision sur les données "ALIO"Deep ExtraTrees (DRF) 98.76%

Forêt aléatoire 97.14%

MLP 97.26%

Gaussian Naive Bayes 76.72%

AdaBoost 97.00%

3 Résultats

Nous évaluons notre approche sur la table ALIO. Cet ensemble de données est une collec-tion d’images fournies par Geusebroek et al. (2005) et a été utilisé pour la détection des valeursaberrantes. Le tableau 1 montre que notre approche fournis des résultats meilleurs.

Références

Geusebroek, J.-M., G. J. Burghouts, et A. W. Smeulders (2005). The amsterdam library ofobject images. International Journal of Computer Vision 61(1), 103–112.

Goodfellow, I., Y. Bengio, A. Courville, et Y. Bengio (2016). Deep learning, Volume 1. MITpress Cambridge.

LeCun, Y., L. Bottou, Y. Bengio, et P. Haffner (1998). Gradient-based learning applied todocument recognition. Proceedings of the IEEE 86(11), 2278–2324.

Schmidhuber, J. (2015). Deep learning in neural networks : An overview. Neural networks 61,85–117.

Summary

The success of deep neural networks has brought many researchers to search if otherlearners could benefit from deep layered architectures. In this paper, we propose Deep Ex-tremely Randomized Trees, an extremly randomized decision tree set approach with perfor-mance highly competitive compared to deep neural networks in a broad range of tasks. Inopposition to deep neural networks which need heavy hyper-parameter tuning and large-scaletraining data, our approach is much easier to train. Experimental results on different data acrossdifferent domains demonstrate the effectiveness of the proposed model.

Page 32: 7e édition des journées Big Data Mining and Visualization ...eric.univ-lyon2.fr/~gt-fdc/journees/wp-content/uploads/2018/03/... · d’information et de connaissances et la visualisation)

HowtoimproveresearchengineswithDeepLearning?NabilFEGAIERE,AtypicalSkillsCEO&Founder

[email protected]

1. Introduction:Manycompaniesproducingandmanagingbibliographicaldatabasesordocumentsdatabasesareshiftingfromlegacysystemstonewmodernopensourcesoftware.Thosesoftwarearenowcalledsearchengines.ThemostusedmaybeisElasticsearch.Legacysystems,likeMinisisforexample,hadbeenusedtoprocessstructured,semi-structuredandunstructureddata.Theyarebasedontheprincipleofnon-normalizedtables(N1NF:Non-FirstNormalForm).Theymainlylackstatisticalmodelsandscalability.Intheothersidetheyusemanydictionaryandrulesfornaturallanguageprocessing.Themostfamousarestopwordsdictionaryandthesauriusetomanagerelationshipbetweenwords.

2. Searchenginescontextusage:Oneofimportantdifferencesbetweenlegacysystemsandthenewsearchenginesisthedataorigins.Legacyisusedonlytoprocessdataproducedinternalbycompanies.Searchenginesareusedtoprocessandmanagedataproducedininternalandalsofromexternal.Themostimportantusecaseisprocessingdatacomingfromsocialmedia.Processingdatafromsocialmediaimpliesthefollowingproperties:

- Volume:inthemostcaseweingestahugevolumeofdata- Variety:documenttoingestcouldbeworddocuments,PDFfiles,Jsonrecordsetc.- Terminology:agreatnumberofterms,chosenbydocumentproducersandnotknowninadvance.- Veracity:Origindocumentsmaycontainmanysyntacticerrorsandmanyabbreviationsthatarenot

previouslyknownbycompanies.

3. SearchEnginescapabilities:Mostsearchenginesprovidethefollowingcapabilities:

- Indexing:thisisthemaincapabilities,thosesystemscouldindexveryquicklyagreatnumberofdocuments

- Queries:userscouldquerycreatedindexes,usingsometerms,inordertoretrievedocumentscontainingtermsofthequery.

- Probabilisticmodels:whenindexingeachtermareassignedweightsusingsomeprobabilisticmodels.Themostusedaretf/idfandBM25.

- Analysers:Textualdataareanalysedusingnaturallanguageprocessing(NLP).Ingeneral,theyarelimitedtomorphologicalanalysisandtheanalyserwillgeneratealistofnormalizedorun-normalizedtokens.Thoseanalysersdonotgobeyondthislevelandwedonotobtaininformationaboutgrammaticalcategories,northetaggersandpartofspeech(POS).

- Reformulation:isthecapabilitytodeclaresomedictionariescontainingclustersofwordshavingsomerelationshipsandcouldbeaddedorsubstitutingsometermsfiguringinthequery.

4. TheHardwork:Whichtermshavetobeusedbyinqueries?Thereisagreatnumberofdocumentsanddonothaveanideaaboutusedterms.Iftheuserputsomesimilartermsthesystemwillnotbeabletoretrievethecorrespondingdocuments.So,wewillabadrateofrecall.Fortunately,searchenginesprovidethepossibilitytocreateandusesynonymfiles.Butthequestionis:Howtocreatethosefiles?

- Manually:itwillbeahardwork.Wehadtolistallterms(aboutMillionsorbillions)andcreateclusters- Automatically:Howtodoit?Whichtechnologytouse?

5. NLP&DeepLearning:ManydeeplearningmodelstraininghavebeenproposedandusedinNLPdomains.Oneofthefamousandlatestis“wordembedding”.Thefirstalgorithmproposedbygoogleiscalled“word2vec”.ThanFollowedbyStanford“glove”andyahoo“fastText”.

Page 33: 7e édition des journées Big Data Mining and Visualization ...eric.univ-lyon2.fr/~gt-fdc/journees/wp-content/uploads/2018/03/... · d’information et de connaissances et la visualisation)

6. Pre-trainedmodels:Somepre-trainedmodelscouldbedownloadedfrominternetsites.Itisdodownloadthegoogle,Stanfordandyahoomodels.

- Googlecreateamodelcontaining3millionwordstrainedonacorpusof300billionwordsfromgooglenews.

- Stanfordcreatesamodelcontaining400000wordstrainedoninternalcorpus.- YahoocreatesamodeltrainedonWikipediadocuments.

Theprocessoftrainingamodelisalongrunningprocess.First,wehavetocleanandnormalizethedata.Second,wehadtotrainthemodelonahugecorpus.Wehadtospendmanydaysjustfortrainingthemodel.

7. Pre-trainedmodels&synonymfiles:TocreatesynonymfilesandusethemwithsearchengineslikeElasticsearch,wedesignedanddevelopedanalgorithmusingasinputoneormorepre-trainedmodelsandgenerateasoutputacommaseparatedfilesinwhicheachlinecorrespondstoaclustercontainingsynonymwords.Forthispurpose,weuseGensim.Itisapythonlibrarythatcouldbeusedtoreadpre-trainedmodels.Thereisalsoasimilarityfunctionthat,givenaword,couldreturnalistoftopnmostsimilarwords.Eachwordofthislisthasaweightindicatingthedegreeofsimilarity.Andthelistissortedindescendingordersothefirstisthemostsimilarwordandthelastistheleastsimilarword.Wedefinedtoparameterstoadjusttheefficiencyofthealgorithm:

- Maximumclustersize(MCS):thenumberofmostsimilarwordsreturnedbythesimilarityfunction.- Similaritylevel(SL):theminimumoftheweightvalueusedtofiltersimilarwordtobeaddedtothe

cluster.Infact,similarwordsreturnedbythesimilarityfunctionofGensimtheywillnotbeconsideredsynonymsiftheydonothaveaweightgreaterthanSL.

8. Trainedmodels&synonymfiles:Pre-trainedmodelsarenotsuitableforspecificdomains.Toimproveoursystem,wealsotrainmodelsusingwordembeddingalgorithmsdefinedpreviously.Butthemajorissueisaboutthedatabasesize.Wemusthavealargenumberofdocumentsinourdatabase.Theadvantageofpre-trainedmodels,thattheyaretrainedonahugevolumeofdocuments.

9. Conclusion:Wearetryingtoimprovesystemperformancebyusingmoresyntacticandsemanticinformation.Wordembeddinguseaconvolutionwithonedimension,wearedesigninganextensionusingCNNwithmulti-dimensionconvolutionusingtags,grammaticalcategories,partofspeech(POS),syntacticandlexicalrelationshipsbetweenwords,namedentities(NER).ForthisweareusingspaCy,averygoodpythonlibraryfornaturallanguageprocessing(NLP).

10. Bibliography:1. HobsonL.,ColeH.,HannesM.H2018.NaturalLanguageProcessinginAction.ManningPublication2. BrownleeJ.2018.DeepLearningforNaturalLanguageProcessing.MachineLearningMastery3. CholletF.2018.DeepLearningwithPython.ManningPublication4. BrownleeJ.2018.DeepLearningwithPython.MachineLearningMastery

Page 34: 7e édition des journées Big Data Mining and Visualization ...eric.univ-lyon2.fr/~gt-fdc/journees/wp-content/uploads/2018/03/... · d’information et de connaissances et la visualisation)

10

SPONSORSETPARTENAIRESNousremercionsnossponsorsetpartenaires

Page 35: 7e édition des journées Big Data Mining and Visualization ...eric.univ-lyon2.fr/~gt-fdc/journees/wp-content/uploads/2018/03/... · d’information et de connaissances et la visualisation)

11

Page 36: 7e édition des journées Big Data Mining and Visualization ...eric.univ-lyon2.fr/~gt-fdc/journees/wp-content/uploads/2018/03/... · d’information et de connaissances et la visualisation)