LB_Smile_Decisionnel.pdf

download LB_Smile_Decisionnel.pdf

of 96

Transcript of LB_Smile_Decisionnel.pdf

  • Page 1

    Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    WW

    W.S

    MIL

    E.FR

    Prambule

  • Page 2

    Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    WW

    W.S

    MIL

    E.FR

    PREAMBULE

    SMILE

    Smile est une socit dingnieurs experts dans la mise en uvre de solutions open source et lintgration de systmes appuys sur lopen source. Smile est membre de lAPRIL, lassociation pour la promotion et la dfense du logiciel libre, du PLOSS le rseau des entreprises du Logiciel Libre en Ile-de-France et du CNLL le conseil national du logiciel libre.

    Smile compte plus de 700 collaborateurs dans le monde, dont plus de 550 en France (avril 2013), ce qui en fait le premier intgrateur franais et europen de solutions open source.

    Depuis 2000, environ, Smile mne une action active de veille technologique qui lui permet de dcouvrir les produits les plus prometteurs de lopen source, de les qualifier et de les valuer, de manire proposer ses clients les produits les plus aboutis, les plus robustes et les plus prennes.

    Cette dmarche a donn lieu toute une gamme de livres blancs couvrant diffrents domaines dapplication. La gestion de contenus (2004), les portails (2005), la business intelligence (2006), la virtualisation (2007), la gestion lectronique de documents (2008), les PGIs/ERPs (2008), les VPN open source (2009), les Firewall et Contrle de flux (2009), les Middleware orients messages (2009), lecommerce et les Rseaux Sociaux d'Entreprise (2010), le Guide de lopen source et NoSQL (2011), et plus rcemment Mobile et Recensement et audit (2012). Chacun de ces ouvrages prsente une slection des meilleures solutions open source dans le domaine considr, leurs qualits respectives, ainsi que des retours dexprience oprationnels.

    Au fur et mesure que des solutions open source solides gagnent de nouveaux domaines, Smile sera prsent pour proposer ses clients den bnficier sans risque. Smile apparat dans le paysage informatique franais comme le prestataire intgrateur de choix pour accompagner les plus grandes entreprises dans ladoption des meilleures solutions open source.

    Ces dernires annes, Smile a galement tendu la gamme des services proposs. Depuis 2005, un dpartement consulting accompagne nos clients, tant dans les phases davant-projet, en recherche de solutions, quen accompagnement de projet. Depuis 2000, Smile dispose dun studio graphique, devenu en 2007 Smile Digital agence interactive, proposant outre la cration graphique, une expertise e-marketing, ditoriale, et interfaces riches. Smile dispose aussi dune agence spcialise dans la TMA (support et lexploitation des applications) et dun centre de formation complet, Smile Training. Enfin, Smile est implant Paris, Lille, Lyon, Grenoble, Nantes, Bordeaux, Marseille et Montpellier. Et prsent galement en Espagne, en Suisse, au Benelux, en Ukraine, au Maroc et en Cte dIvoire.

  • Page 3

    Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    WW

    W.S

    MIL

    E.FR

    QUELQUES REFERENCES DE SMILE

    ERP et Dcisionnel

    Veolia, LaPoste, ChristianLouboutin, Eveha, SunR, HomeCineSolutions, PubAudit, Effia,

    France24, Publicis, iCasque, Nomadvantage, Gets, NouvellesFrontires, Anevia, Jus de Fruits

    de Moora, EspaceLoggia, Bureau Veritas, Skyrock, Lafarge, Cadremploi, Meilleurmobile.com,

    Groupe Vinci, IEDOM (Banque de France), Carrefour, Jardiland, Trsorerie Gnrale du

    Maroc, Ville de Genve, ESCP, Sofia, Faiveley Transport, INRA, Deloitte, Yves Rocher, ETS,

    DGAC, Generalitat de Catalunya, Gilbert Joseph, Perouse Mdical, Socit Gnrale,

    Solucom, Corsairfly, Virgin, Nexway, Sagem

    Gestion documentaire

    Generali, HEC, JCDecaux, Serimax, Pierre Audoin Consultant, Alstom Power services, NetasQ, CS informatique, SNCF - Direction du matriel, Mazars, EDF R&D, EDF Nuclaire, Conseil Rgional du Centre, Leroy Merlin, Primagaz, Renault F1, INRIA, Ministre belge de la Communaut Franaise, APAVE, CNIL, Services du Premier Ministre...

    Sites Internet

    EMI Music, Salon de lAgriculture, Mazars, Areva, Socit Gnrale, Gtes de France, Patrice

    Pichet, Groupama, Eco-Emballage, CFnews, CEA, Prisma Pub, Volia, NRJ, JCDecaux, 01

    Informatique, Spie, PSA, Boiron, Larousse, Dassault Systmes, Action Contre la Faim, BNP

    Paribas, Air Pays de Loire, Forum des Images, IFP, BHV, ZeMedical, Gallimard, Cheval Mag,

    Afssaps, Bnteau, Carrefour, AG2R La Mondiale, Groupe Bayard, Association de la

    Prvention Routire, Secours Catholique, Canson, Veolia, Bouygues Telecom, CNIL

    Portails, Intranets et Systmes dInformation

    HEC, Bouygues Telecom, Prisma, Veolia, Arjowiggins, INA, Primagaz, Croix Rouge, Eurosport, Invivo, Faceo, Chteau de Versailles, Eurosport, Ipsos, VSC Technologies, Sanef, Explorimmo, Bureau Veritas, Rgion Centre, Dassault Systmes, Fondation dAuteuil, INRA, Gaz Electricit de Grenoble, Ville de Niort, Ministre de la Culture, PagesJaunes Annonces

    E-Commerce

    Krys, La Halle, Gibert Joseph, De Dietrich, Adenclassifieds, Macif, Furet du Nord, Gtes de

    France, Camif Collectivit, GPdis, Projectif, ETS, Bain & Spa, Yves Rocher, Bouygues

  • Page 4

    Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    WW

    W.S

    MIL

    E.FR

    Immobilier, Nestl, Stanhome, AVF Primdical, CCI, Pompiers de France, Commissariat

    lEnergie Atomique, Snowleader, Darjeeling

    Infrastructure et Hbergement

    Agence Nationale pour les Chques Vacances, Pierre Audoin Consultants, Rexel, Motor

    Presse, OSEO, Sport24, Eco-Emballage, Institut Mutualiste Montsouris, ETS, Ionis, Osmoz,

    SIDEL, Atel Hotels, Cadremploi, SETRAG, Institut Franais du Ptrole, Mutualit Franaise

    Consulter nos rfrences, en ligne, ladresse : http://www.smile.fr/clients.

  • Page 5

    Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    WW

    W.S

    MIL

    E.FR

    CE LIVRE BLANC

    Aprs avoir pris lascendant sur des marchs entiers, tels que la gestion de contenus, les portails, ou les frameworks de dveloppement, lopen source gagne des parts de march dans les solutions daide la dcision, avec des solutions aujourdhui trs comptitives.

    Comme les autres livres blancs publis par Smile, cet ouvrage sefforce de runir :

    Une approche gnrale de linformatique dcisionnelle, ses concepts, ses champs dapplication, ses besoins spcifiques.

    Un recensement des meilleurs outils open source dans le domaine du dcisionnel.

    Une prsentation assez complte de ces outils, de leurs forces, de leurs limites, de leur maturit et de leur aptitude satisfaire des besoins oprationnels.

    Une prsentation des offres de supports professionnels existantes en accompagnement de ces outils.

    Cette tude, ralise par notre quipe de consultants dcisionnels, a t fonde sur plusieurs annes de travail de recherche, de dploiements effectifs, et est optimise en permanence par le biais des mises en uvre oprationnelles pour nos clients.

  • Page 6

    Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    WW

    W.S

    MIL

    E.FR

    VERSION 2013

    Depuis la premire publication de ce livre blanc en Juin 2006, chaque anne a vu une nouvelle version, fruit du travail sur les projets et de veille sur les outils.

    Cette version 2013 permet de prendre en compte les apports des nouvelles versions de solutions open source :

    SpagoBI 3.6,

    Pentaho 4.8,

    JasperSoft BI 5.0,

    Jedox 4.0,

    Talend 5.2,

    BIRT 4.2.

    De nouvelles solutions font galement leur apparition dans ce livre blanc : Saiku et CTools, deux projets open source ports par des communauts de plus en plus fortes.

    Le sujet du Big Data, pour le stockage et lanalyse de grandes masses de donnes, a galement t mis jour.

  • Page 7

    Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    WW

    W.S

    MIL

    E.FR

    SOMMAIRE

    PREAMBULE ..................................................................................................................... 2

    SMILE ....................................................................................................................................................................... 2 QUELQUES REFERENCES DE SMILE ................................................................................................................................... 3 CE LIVRE BLANC ........................................................................................................................................................... 5 VERSION 2013 ............................................................................................................................................................ 6

    SOMMAIRE ....................................................................................................................... 7

    PRINCIPES ......................................................................................................................... 9

    LAIDE A LA DECISION .................................................................................................................................................... 9 GENERATEUR DE RAPPORTS OU REPORTING ..................................................................................................................... 10 ANALYSE A LA DEMANDE OU AD HOC ............................................................................................................................ 10 LANALYSE MULTIDIMENSIONNELLE OU OLAP.................................................................................................................. 11 LA CONSOLIDATION DES DONNEES ................................................................................................................................. 14 LES PRINCIPES DE LETL ............................................................................................................................................... 16 LE TABLEAU DE BORD .................................................................................................................................................. 17 LE DATA MINING ........................................................................................................................................................ 17 LE MASTER DATA MANAGEMENT (MDM) ....................................................................................................................... 18 LANALYSE DE DONNEES EN MASSE : BIG DATA ................................................................................................................ 20 TENDANCES .............................................................................................................................................................. 21

    LES COMPOSANTS DECISIONNELS ................................................................................... 22

    PENTAHO DATA INTEGRATION ...................................................................................................................................... 23 TALEND ETL ............................................................................................................................................................. 29 BIRT ....................................................................................................................................................................... 33 JASPERREPORTS / IREPORT .......................................................................................................................................... 37 PENTAHO REPORT DESIGNER........................................................................................................................................ 40 PENTAHO ANALYSIS / MONDRIAN ................................................................................................................................. 44 JPIVOT ..................................................................................................................................................................... 45 PALO ....................................................................................................................................................................... 47 WEKA ...................................................................................................................................................................... 50 LANGAGE R ............................................................................................................................................................... 52 SAIKU ...................................................................................................................................................................... 54 C*TOOLS ................................................................................................................................................................. 58 TALEND MDM .......................................................................................................................................................... 60

    LES SUITES DECISIONNELLES ............................................................................................ 65

    PENTAHO BI SUITE ..................................................................................................................................................... 65 SPAGOBI .................................................................................................................................................................. 77 JASPERSOFT BI SUITE .................................................................................................................................................. 84 PALO BI SUITE ........................................................................................................................................................... 90

  • Page 8

    Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    WW

    W.S

    MIL

    E.FR

    SERVICES PROPOSES PAR LES EDITEURS .......................................................................... 94

    CONCLUSION .................................................................................................................. 95

    REMERCIEMENTS ............................................................................................................ 96

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 9

    WW

    W.S

    MILE.F

    R

    PRINCIPES

    LAIDE A LA DECISION

    Vous sortez de la runion trimestrielle de prsentation des rsultats commerciaux. Le chiffre daffaires a baiss en octobre. Pour y remdier, des dcisions sont prendre. Mais pour prendre la bonne dcision, il faut savoir pourquoi le chiffre daffaires a baiss, et dabord comment il a baiss. Dans quelle gamme de produits ? Dans quels pays, quelles rgions ? Dans le portefeuille de clientle de quels commerciaux ? Dans quel segment de distribution ? Navait-on pas une baisse semblable en octobre chaque anne ?

    Les questions sont nombreuses, auxquelles il faut savoir rpondre avant de prendre la bonne dcision.

    On appelle aide la dcision , ou bien le dcisionnel , ou encore business intelligence , un ensemble de solutions informatiques permettant lanalyse et le requtage des donnes de lentreprise, afin den dgager les informations qualitatives nouvelles qui vont fonder des dcisions, quelles soient tactiques ou stratgiques.

    Une entreprise moderne brasse dans son systme dinformation dimmenses volumes de donnes rpartis dans plusieurs silos applicatifs. Mais bien souvent, du fait mme de ces volumes trop importants et de lhtrognit des sources de donnes, il est trs difficile de donner un sens ces donnes, de comprendre ce quelles expriment : des tendances sous-jacentes, des faiblesses ou des forces caches, toutes choses que lon doit connatre afin de prendre de bonnes dcisions.

    La BI, aprs rconciliation et consolidation des donnes sources, permet de restituer une vision large et unifie de l'information d'entreprise.

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 10

    WW

    W.S

    MILE.F

    R

    Ainsi, les outils daide la dcision, avant daider la prise de dcision, aident dabord analyser les donnes afin didentifier les informations macroscopiques pertinentes caches dans de grands volumes de donnes.

    GENERATEUR DE RAPPORTS OU REPORTING

    Un rapport est une prsentation synthtique et lisible de donnes, gnralement des fins dimpression ou dutilisation interactive.

    Le rapport fait apparatre des tableaux de chiffres avec en-ttes, pieds de pages, (sous-totaux) et des graphiques illustrant une composition ou une tendance.

    Un gnrateur de rapports est un programme qui permet de dfinir un rapport selon ses besoins, avec un minimum de programmation, uniquement au moyen dune interface interactive. Une fois dfini, le rapport peut tre gnr chance rgulire.

    Un rapport peut tre paramtrable : lanne, le mois, la rgion, la branche dactivit, etc. Ainsi, un mme rapport qui aura t dfini une fois, pourra tre gnr avec diffrentes variantes, selon le contexte dexcution et les valeurs de paramtres.

    Les paramtres du rapport pourront tre renseigns par lutilisateur selon ses souhaits, et il pourra galement faire varier ces paramtres afin daffiner sa recherche.

    Dans dautres cas, les paramtres sont dfinis automatiquement par des rgles de gestion, par exemple pour adresser chaque commercial le rapport de ses propres ventes du mois. On parle ici de rapports en rafale ou de bursting .

    On peut distinguer deux phases dans la gnration dun rapport :

    Une phase de conception initiale, qui requiert le plus souvent une expertise spcifique, et qui nest pas entre les mains de lutilisateur final ;

    Une phase de paramtrage et de production, qui ne requiert plus dexpertise et qui peut tre mise entre les mains de lutilisateur final.

    Bien sr, on aimerait limiter la premire phase, qui est la plus coteuse, et mettre directement des outils de conception entre les mains des utilisateurs finaux. Lexprience montre que cest possible avec lapport des outils de requtage Ad hoc, dans la limite de restitutions peu complexes.

    ANALYSE A LA DEMANDE OU AD HOC

    Depuis 2007, des outils de reporting destins aux utilisateurs finaux et dits Ad hoc sont apparus au sein des solutions BI open source. Ils permettent aux utilisateurs finaux de raliser rapidement et simplement des rapports simples, sans connaissance technique, sans requrir de connaissance du langage SQL notamment.

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 11

    WW

    W.S

    MILE.F

    R

    Ces outils sont trs pratiques pour raliser des rapports simples ou pour rpondre un besoin ponctuel dinformation.

    Les outils de restitution ad hoc permettent d'obtenir rapidement l'information prsente dans un dictionnaire de donnes en langage naturel, et avec autonomie, apportant ainsi une abstraction au langage SQL de requtage des bases de donnes que les utilisateurs ne sont pas censs connatre.

    Enfin, lanalyse interactive ou ad hoc requiert dexcellents temps de rponse, afin de permettre lutilisateur daffiner petit petit sa requte partir des rsultats obtenus.

    LANALYSE MULTIDIMENSIONNELLE OU OLAP

    Lanalyse multidimensionnelle permet lanalyse en masse de mesures suivant diffrents aspects mtiers appels dimensions ou axes danalyse.

    Considrons lentit lmentaire quest la ligne de facture de vente. Cest souvent une entit cl dans une entreprise, linformation la plus fine dont on dispose par rapport aux processus de vente.

    La ligne de facture porte sur la vente dun produit un client une date (axes danalyse ; contexte danalyse), dans une quantit, des prix unitaires et totaux donns (mesures).

    Sur le client lui-mme, on possde dautres informations : pays, rgion, type de client, secteur de mtier, etc. Par ailleurs, le client est peut-tre affect un commercial.

    Linformation des axes peut tre hirarchise :

    jour mois trimestre anne

    produit catgorie de produit

    client secteur de mtier.

    Nous nous arrterons ici pour cet exemple, mais lon voit bien que lon peut pousser trs loin cette collecte dinformation gravitant autour de lentit la plus lmentaire quest la ligne de facture.

    Lignes de factures Quantit, prix unitaire, prix total

    Client Pays, rgion, secteur de mtier, commercial

    affect,

    Produit SKU, libell, catgorie,

    Date de facturation Jour, mois, trimestre, anne,

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 12

    WW

    W.S

    MILE.F

    R

    La premire tape est donc lidentification des informations ncessaires nos analyses. Ici, elles sont par exemple :

    Date (anne, mois, jour,),

    Produit (SKU, catgorie,),

    Client (secteur de mtier, pays, commercial attitr...),

    Lignes de commandes : Quantit, PU, CA.

    Les premires informations constituent les axes danalyse potentiels, la dernire, les grandeurs ou mesures analyser.

    Dans lanalyse multidimensionnelle, la modlisation relationnelle applicative des sources oprationnelles nest pas la plus pertinente, ni la plus efficace. On prfre gnralement une modlisation en toile et dnormaliser les axes, cest dire travailler sur des tables dans lesquelles ont t rassembles toutes les informations utiles.

    Dans notre cas, on obtient :

    Client Pays Commercial

    Castorama France Lepaul

    LeroyMerlin France Legrand

    On remarque bien sr quil y a de la redondance dans ce tableau, mais finalement il est plus utile ici de grer de linformation redondante mais simple et performante slectionner, et lon ne soccupe pas ici des problmes de cohrence et dintgrit qui sont du domaine des systmes dinformation oprationnels ou des systmes dintgration de donnes (ETL).

    Ltape suivante consiste raliser un premier niveau dagrgation, cest dire runir certaines lignes.

    Dans notre cas, on peut faire par exemple lhypothse que les donnes ne seront pas utilises au niveau de la rfrence produit, mais uniquement par segment. Dans ce cas, on runira toutes les lignes identiques pour la cl (date, segment, famille, client, pays, commercial), et lon pourra cumuler les grandeurs quantit et CA.

    La dernire tape est celle de lanalyse multidimensionnelle proprement dite, qui consiste slectionner des axes danalyse.

    Parmi ces axes, on peut distinguer :

    Des axes valeurs discrtes, ou discontinues, cest dire qui portent un nombre fini de valeurs, par exemple un code postal, un segment CSP.

    Des axes valeurs continues, typiquement une date, un prix. On peut les ramener un nombre discret de valeurs en dfinissant des tranches : tranches de prix, tranches dges.

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 13

    WW

    W.S

    MILE.F

    R

    On distingue galement :

    Des grandeurs cumulables, par exemple un montant, un nombre ditems.

    Des grandeurs non cumulables, par exemple lge ou la date.

    Les grandeurs cumulables sont celles quil est pertinent dagrger, cest dire dont on peut calculer la somme, (ou la moyenne ou dautres fonctions mathmatiques), pour un sous-ensemble de lignes, par exemple pour chaque thmatique.

    Lanalyse multidimensionnelle consiste donc :

    Dfinir les axes danalyse que lon utilisera, et lordre dans lesquels on les utilise. Par exemple : par rgion, puis par anne, puis par vendeur, puis par gamme de produits. On nutilisera pas toujours tous les axes possibles.

    Dfinir la ou les mesures qui sont tudies, et ventuellement la fonction dagrgation quon applique ces grandeurs (somme, moyenne, comptage).

    Chaque hirarchisation des axes danalyse correspond une question que lon se pose.

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 14

    WW

    W.S

    MILE.F

    R

    Par exemple une analyse par anne, par vendeur vise reprsenter lvolution du chiffre daffaires, puis comparer les vendeurs chaque anne coule. Une analyse par vendeur, par anne vise avant tout comparer les vendeurs ().

    LA CONSOLIDATION DES DONNEES

    Principes

    Les informations, les donnes, qui seront la base du systme dcisionnel, proviennent souvent de multiples systmes dinformation de lentreprise. Une application dcisionnelle sappuie le plus souvent sur un entrept de donnes, un datawarehouse , en puisant les donnes de plusieurs sources dans lentreprise.

    Il y a de nombreuses raisons cette tape de consolidation :

    La centralisation : il serait trs difficile, et parfois impossible, daccder en temps rel aux donnes dans les diffrents systmes o elles se trouvent : problmes dinterconnexions rseaux, de dbits, mais galement de disparits de protocoles et dinterfaces.

    Lunification : le datawarehouse runit les donnes dans un systme unique, avec un rfrentiel et une terminologie communs, une modlisation unifie, et des interfaces daccs identiques. Il permet de crer des liens entre des donnes lorigine htrognes.

    Les ressources informatiques : les applications dcisionnelles peuvent tre gourmandes en CPU, disque, mmoire, et les systmes en place ne sont pas dimensionns pour supporter ces nouveaux traitements.

    La spcialisation : les applications dcisionnelles ont des besoins spcifiques qui ne pourront tre satisfaits par les systmes en place dans lentreprise.

    Le datawarehouse est une base de donnes de consolidation, souvent une base relationnelle relativement standard, mais qui doit accueillir et manipuler de gros volumes dinformation. Cela peut tre une base de donnes open source (MySQL, PostgreSQL, ) ou une base propritaire (Oracle, SQL-Server).

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 15

    WW

    W.S

    MILE.F

    R

    Le datawarehouse concentre de linformation dcisionnelle issue de diffrents systmes dinformation de lentreprise.

    Organisation

    Comme voqu prcdemment, cette nouvelle base de donnes au sein de lentreprise nest pas cre pour les bienfaits dune application oprationnelle directement lie lactivit de lentreprise (ex : systme comptable, base de donnes RH, base de donnes des commerciaux). Le datawarehouse ne va stocker que les informations clefs de lentreprise et ne sera ddi quaux requtes danalyse et de reporting.

    Lentreprise pourra ainsi analyser ces donnes sans diminuer les performances de ses outils de production courants.

    La base dcisionnelle va tre modlise dans le but de faciliter les requtes . On parle de modlisation dcisionnelle en flocon ou en toile.

    Les tables ne vont tre relies que par un seul champ clef afin daider aux performances de requtes et certaines informations de type liste de valeurs vont tre rptes de multiples fois dans les tables de dimension.

    Comme toute modlisation de base de donnes, cette tape est cruciale dans la russite dun projet dcisionnel. La modlisation doit tre volutive afin de facilement recevoir de nouveaux domaines fonctionnels ( datamarts ) lavenir et assurer une relle prennit lentreprise en historisant un grand nombre dinformations.

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 16

    WW

    W.S

    MILE.F

    R

    Le datawarehouse se doit davoir une dure de vie plus longue que les outils de production. En effet, eux peuvent voluer, voire tre remplacs. Dans ce cas, le datawarehouse assure la mmoire de lentreprise, et seules les interfaces de chargement de ce datawarehouse seront mises jour.

    LES PRINCIPES DE LETL

    Afin dalimenter le datawarehouse partir des diffrentes applications de lentreprise, on utilise une gamme doutils appels ETL, pour Extract, Transform, Load . Comme le nom lindique, ces outils permettent dextraire des donnes partir de diffrentes sources, de les transformer (format, dnomination), et de les charger dans la base de donnes cible, ici le datawarehouse.

    Les transformations confies un ETL sont souvent simples, mais elles peuvent, dans certains cas, inclure des traitements procduraux, de vritables programmes spcifiques.

    Un ETL permet dviter la ralisation de programmes batch rptitifs, souvent semblables, dont il faudra galement assurer la maintenance. Le principe est que lintgration dun nouveau flux de donnes ne requiert aucun dveloppement, et sopre par une simple configuration interactive : on choisit les lments de donnes dans le rfrentiel source, on indique les transformations simples quils doivent subir, et on prcise la destination de la donne dans le datawarehouse.

    LETL peut prendre en charge diffrentes natures de sources de donnes, tant en entre quen sortie, les principales tant bien sr les SGBD relationnels, les flux XML, les fichiers formats fixes ou avec sparateurs (CSV), mais il peut sagir galement de Web Services, de fichiers Excel, dannuaires,...

    Une fois quun flux dextraction-transformation-chargement a t dfini, il est gnralement dclench de manire rgulire, ceci sous le contrle dun outil de planification de tches, ou bien dordonnancement.

    Un ETL traite gnralement des flux de point point, cest dire entre une source unique et une destination unique.

    LETL a vocation travailler en diffr, souvent la nuit. Un datawarehouse enregistrant par nature une succession de photos de lactivit de lentreprise, lETL va permettre dalimenter le datawarehouse dune photo supplmentaire. Une fois lalimentation termine, les donnes ainsi charges deviennent statiques et sont alors mises la disposition des utilisateurs.

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 17

    WW

    W.S

    MILE.F

    R

    LE TABLEAU DE BORD

    Un tableau de bord est une forme particulire de rapport :

    particulirement synthtique : tout doit tenir sur une feuille A4, ou sur un cran dordinateur ;

    le plus souvent composite, cest dire prsentant plusieurs indicateurs, qui ensemble offrent une reprsentation complte de lactivit de lentreprise ;

    souvent personnalis, cest dire que chaque acteur consulte un tableau de bord qui concerne son activit.

    On parle de Key Performance Indicators (KPI), des indicateurs cls. Ce sont les indicateurs qui sont prsents ds la page daccueil dun portail dcisionnel.

    Selon les cas, le tableau de bord peut se suffire lui-mme, ou bien tre le point dentre vers des analyses affines, des tableaux de bord secondaires, ou bien des accs en drill-down.

    On utilise parfois galement le terme de Executive Information System, ou EIS, pour faire rfrence un systme dcisionnel spcifiquement destin la Direction Gnrale, et donc prsentant des informations stratgiques trs consolides.

    LE DATA MINING

    Le data mining consiste rechercher des informations statistiques utiles caches dans un grand volume de donnes.

    Dans le reporting et lanalyse multidimensionnelle, lutilisateur sait ce quil cherche : il cherche par exemple la dcomposition du chiffre daffaires par rgion. Il ne sait pas encore quelle est cette dcomposition, mais il sait du moins en quoi elle consiste, et quelle est une connaissance pertinente pour son travail.

    Dans le data mining, lutilisateur est la recherche dune information statistique cache quil nidentifie pas encore : tendance, corrlation, similitude, etc. Typiquement, une analyse des tickets de caisse dun hypermarch peut faire apparatre des corrlations

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 18

    WW

    W.S

    MILE.F

    R

    entre achats de produits. Certaines auront une explication simple (rasoirs et mousse raser par exemple), dautres seraient insouponnes.

    Il convient bien sr de valider de tels rsultats, car la corrlation observe peut ne pas traduire une relation de cause effet, mais tre fortuite, ou bien rsulter dune cause cache, ayant lun et lautre des phnomnes comme consquences conjointes.

    Les outils de data mining recherchent donc, de manire semi-automatise, des corrlations, des rgles statistiques, au travers de grands volumes de donnes, en saidant parfois dune restitution graphique de ces rgles, qui fera apparatre par exemple des nuages de points sur une reprsentation axiale des donnes.

    LE MASTER DATA MANAGEMENT (MDM)

    Les systmes dinformations sont gnralement composs de plusieurs applications, de conception htrognes.

    Le maintien d'une cohrence des donnes rfrentielles dans plusieurs sources d'informations diffrentes peut s'avrer complexe, notamment dans de grandes organisations.

    La gestion des donnes rfrentielles, le master data management, vise assurer la cohrence des donnes de rfrence manant de diffrentes sources de donnes au sein d'une organisation.

    Le MDM a pour objectif d'amliorer la qualit et de prenniser les donnes rfrentielles dans l'entreprise tous les niveaux du systme d'information.

    Concrtement, ceci passe par la rduction du risque d'erreur (contrle de la qualit, de l'unicit et de la fiabilit de l'information) en mettant en place un rfrentiel et en centralisant la gestion du cycle de vie de la donne.

    Le MDM est particulirement pertinent pour les entreprises du secteur de l'industrie et de la distribution. En effet, la gestion des rfrentiels produits et tiers sont deux cas typiques o la mise en place d'une solution MDM est adapte.

    Les outils de MDM, qu'ils soient open source ou pas, impliquent des vritables projets de mise en place d'un rfrentiel d'entreprise, relativement complexe mettre en place car faisant intervenir diffrents services de l'entreprise qu'il va falloir faire dialoguer.

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 19

    WW

    W.S

    MILE.F

    R

    Mme si les solutions open source existantes sont encore relativement jeunes, il est fort parier que celles-ci vont se dvelopper dans les prochaines annes tant la problmatique de maintien d'un rfrentiel est au cur de l'exploitation et de la prennisation de l'information, base du dcisionnel.

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 20

    WW

    W.S

    MILE.F

    R

    LANALYSE DE DONNEES EN MASSE : BIG DATA

    Chaque jour, la quantit de donnes cres et manipules ne cesse daugmenter, et ce quel que soit le secteur dactivit concern.

    Ces donnes sont issues de sources multiples : oprations commerciales ou financires, blogs, RFID, rseaux de capteurs, rseaux sociaux, tlphonie, indexation Internet, parcours de navigation, dtails d'appels, e-commerce, dossiers mdicaux, etc.

    Les gestionnaires de base de donnes et les outils BI nont initialement pas t crs afin de manipuler une telle quantit de donnes, et il peut donc devenir compliqu et improductif pour les entreprises daccder ces masses de donnes avec les outils classiques.

    Ces donnes en masse ont une ou plusieurs des caractristiques suivantes :

    une trs grande volumtrie de donnes, gnralement de lordre du traoctet ou ptaoctet,

    une grande varit du niveau de structure des donnes,

    des donnes trs rapides et changeantes.

    Cette nouvelle problmatique a donn naissance aux systmes de gestion de base de donnes appels NoSQL , qui ont fait le choix dabandonner certaines fonctionnalits des SGBD classiques au profit de la simplicit, la performance et de la scalabilit. Des frameworks comme Hadoop ont galement t crs et permettent, dploys en complment des BDD relationnelles ou multidimensionnelles, le requtage et la manipulation de ces donnes en masse.

    Il est donc devenu primordial pour les outils BI de dvelopper des composants permettant de communiquer avec ces nouveaux logiciels.

    Cest notamment les cas des ETL Pentaho Data Integration et Talend qui disposent de connecteurs spcifiques pour les bases suivantes :

    Traitement : Hadoop MapReduce, Hive,

    Stockage : Cassandra, HBase, MongoDB.

    Cest galement le cas des outils de reporting ou danalyse avec des connecteurs spcifiques. Vous trouverez notamment nos articles sur notre blog :

    BIRT et Cassandra1,

    Pentaho Report Designer / iReport et Hive2,

    Pentaho Report Designer / iReport et Hbase3,

    1 http://blog.smile.fr/Elaborer-des-rapports-BIRT-avec-une-base-source-Big-Data-Cassandra-via-JDBC 2 http://blog.smile.fr/Decisionnel/Hive-et-iReport-Hive-et-Pentaho-Report-Designer 3 http://blog.smile.fr/Hbase-et-iReport-Hbase-et-Pentaho-Report-Designer

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 21

    WW

    W.S

    MILE.F

    R

    Pentaho Report Designer / iReport et Cassandra4.

    TENDANCES

    Le dcisionnel open source tait jusquen 2006 constitu de composants crits en Java ddis des fonctions spcifiques : dition de rapports, analyse OLAP, ETL Ces composants open source taient crits et maintenus par des communauts qui se sont progressivement professionnalises.

    La tendance la professionnalisation de lopen source dcisionnel qui s'est dessine ces dernires annes se poursuit aujourdhui.

    Lapproche open source est devenue un business model la fois dj en place et trs prometteur, sur lequel les investisseurs misent, avec la possibilit grce lopen source de crer rapidement des acteurs denvergure mondiale.

    Il est quand mme remarquable de voir quen 2008 et 2012, annes conomiquement perturbes o les financements sont devenus trs rares et trs exigeants, la fois Pentaho et JasperSoft ont pu lever des fonds significatifs.

    Ces diteurs ont vocation proposer des suites dcisionnelles compltes sur lesquels ils ont la matrise de la technologie : le paysage dcisionnel open source sest recompos autour des grandes suites que nous analysons ci-aprs.

    4 http://blog.smile.fr/Cassandra-et-iReport-Cassandra-et-Pentaho-Report-Designer

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 22

    WW

    W.S

    MILE.F

    R

    LES COMPOSANTS DECISIONNELS

    Avant de sorienter vers la cration de solutions dcisionnelles compltes, les projets open source se concentraient chacun sur un point bien prcis du dcisionnel.

    Ainsi, les projets BIRT ou JasperReports permettent de composer et gnrer des rapports, et les projets Mondrian et Saiku permettent de prsenter des donnes sous forme multidimensionnelle.

    Certaines plateformes dcisionnelles open source se basent sur ces composants dj bien rods et les intgrent de faon constituer une solution homogne, dans laquelle toutes les fonctionnalits sont disponibles dans un cadre unique et rendues interoprables.

    Dans cette partie, nous allons prsenter les principaux composants dcisionnels disponibles en open source, que lon peut regrouper dans les catgories suivantes :

    ETL : Pentaho Data Integration (ex Kettle), Talend Open Studio.

    Designer de rapport : BIRT, JasperReport (iReport) et Pentaho Report Designer.

    Analyse : Mondrian, JPivot, Palo, Saiku.

    Data mining : Weka.

    MDM : Talend MDM.

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 23

    WW

    W.S

    MILE.F

    R

    PENTAHO DATA INTEGRATION

    Prsentation

    Pentaho Data Integration (PDI) est un ETL open source qui permet de concevoir et excuter des oprations de manipulation et de transformation de donnes.

    Grce un modle graphique base dtapes, il est possible de crer sans programmation des processus composs dimports et dexports de donnes, et de diffrentes oprations de transformation, telles que des conversions, des jointures, lapplication de filtres, ou mme lexcution de fonctions Javascript.

    PDI, initialement connu sous le nom de Kettle, est devenu open source partir de la version 2.2 et a rapidement intgr le projet de plateforme dcisionnelle Pentaho5 (voir plus loin dans ce livre blanc) qui la renomm depuis en Pentaho Data Integration.

    Au moment o nous crivons ces lignes, Pentaho Data Integration est disponible dans sa version 4.4.0. De nouvelles fonctionnalits sont apparues facilitant notamment le partage dun rfrentiel entre plusieurs dveloppeurs, lutilisation de mtadonnes dans les transformations (afin de personnaliser une transformation rapidement) et permettant de se connecter toujours plus de systmes de bases de donnes ou types de fichiers.

    Dans sa version Entreprise Edition, Pentaho, l'diteur de PDI, propose de suivre lexcution des transformations ETL via la console d'administration, en mode Web. Cette version propose en outre un rfrentiel Entreprise, qui permet le versionnement des dveloppements.

    PDI propose un module appel Agile BI permettant au dveloppeur ETL de valider directement les donnes en affichant des restitutions dans PDI, sous forme de rapports ou danalyses OLAP. Ce module n'est pas libre mais est mis disposition gratuitement par Pentaho. Les analyses OLAP sont bases sur Pentaho Analyzer (le client OLAP disponible en version Enterprise) et les rapports sappuient sur lassistant de cration de rapport du Pentaho Report Designer (le Report Wizard).

    5 www.pentaho.com

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 24

    WW

    W.S

    MILE.F

    R

    Module AgileBI de Pentaho Data Integration

    Afin de rpondre la problmatique du Big Data, PDI propose des composants ddis la solution Apache Hadoop6, qui permettent le traitement de trs gros volumes de donnes de faon parallle, via notamment laccs des bases de donnes de type Amazon S3 et HIVE. Pentaho prend galement en charge nativement les sources de donnes NoSQL mergentes les plus utilises, dont mongoDB, HPCC et les donnes issues de trs grandes sources XML.

    6 http://hadoop.apache.org/

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 25

    WW

    W.S

    MILE.F

    R

    Fonctionnalits

    PDI permet de crer deux types de processus :

    Les transformations : traitements effectus au niveau d'une ou plusieurs bases de donnes comprenant des oprations de lecture, de manipulation et d'criture. Cest ce niveau que sont manipules les donnes.

    Les tches : traitements de plus haut niveau, combinant des actions telles que l'excution d'une transformation PDI, l'envoi d'un mail, le tlchargement d'un fichier ou le lancement d'une application. Il est possible d'excuter des actions diffrentes en fonction de la russite ou de l'chec de chaque tape. Le rle dune tche est donc dorchestrer les diffrents traitements.

    PDI est notamment utilisable avec un rfrentiel partag. Ainsi, plusieurs dveloppeurs peuvent utiliser des objets communs. Ce rfrentiel est stock au sein dune base de donnes relationnelle. Le dveloppeur peut donc facilement s'y connecter et changer de rfrentiel sa guise.

    PDI peut se connecter sur un grand nombre de bases de donnes, dont Oracle, Sybase, MySQL, PostgreSQL, Informix, SQLServer et bien dautres, et peut galement utiliser des donnes provenant de fichiers texte, XML et Excel.

    PDI dispose de :

    dtecteur de prsence de fichier et lecture de rpertoire,

    connecteurs en lecture et criture avec des dimensions/cubes MOLAP Palo,

    connecteur LDAP et lecture fichier LDIF,

    connecteur SalesForce (lecture),

    liste des plug-ins disponibles sur : http://wiki.pentaho.com/display/EAI/List+of+Available+Pentaho+Data+Integration+Plug-Ins.

    Les transformations et les tches sont cres par glisser-dposer des diffrentes tapes du processus. Des assistants sont disponibles chaque tape et permettent par exemple de gnrer automatiquement les requtes de lecture et de cration de tables.

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 26

    WW

    W.S

    MILE.F

    R

    Exemple de transformation

    Les applications

    PDI se compose de 3 applications :

    Spoon : environnement graphique de cration et d'excution de transformations et de tches.

    Pan : application en ligne de commande permettant de lancer l'excution d'une transformation donne.

    Kitchen : application en ligne de commande permettant de lancer l'excution d'une tche donne.

    Pan et Kitchen sont essentiellement utiliss afin de planifier lexcution des transformations et des tches.

    En installant seulement le trs lger outil Pan sur plusieurs serveurs, les traitements lancs par PDI vont pouvoir tre excuts sur plusieurs serveurs simultanment. On parle dans ce cas dexcution en mode grappe. Vous avez ainsi le moyen de maitriser le temps de fonctionnement de vos traitements lorsque vos fentres de nuit sont rduites.

    Planification

    Il est gnralement souhaitable que des transformations ou tches cres avec PDI s'excutent priodiquement. C'est notamment le cas pour les tches de synchronisation ou de cration d'entrepts de donnes.

    PDI, en version entreprise, intgre un planificateur de tche. Avec la version communautaire, l'excution repose alors sur un systme externe, tel que les planificateurs de tches de Windows ou d'Unix.

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 27

    WW

    W.S

    MILE.F

    R

    Utilisation

    Dans le contexte du dcisionnel, PDI va servir constituer un datawarehouse, en ralisant l'import des donnes depuis diffrentes sources, leur consolidation et leur mise en forme.

    L'utilisation de PDI prsente plusieurs avantages par rapport des solutions base de scripts :

    la cration de flux de donnes complexes est extrmement simple,

    la maintenance est beaucoup plus aise car tous les flux de donnes sont visibles d'un simple coup d'il dans une interface unique et centralise.

    PDI pourra galement trouver sa place dans tout projet non dcisionnel qui a besoin d'excuter priodiquement des traitements sur certaines donnes ou des synchronisations entre diffrentes bases.

    Exemple

    Dtaillons les tapes ncessaires pour la cration et le lancement d'une synchronisation entre 2 tables contenues dans des bases diffrentes :

    1. Dposer un objet Extraction depuis table dans l'espace de travail.

    2. diter l'objet Extraction depuis table , choisir la source de donnes et la table concerne. Une requte SQL est gnre automatiquement mais elle peut tre modifie librement.

    3. Dposer un objet Insertion dans table dans l'espace de travail.

    4. Lier ces 2 objets.

    5. diter l'objet Insertion dans table , choisir la source de donnes et le nom de la table. Kettle prend en charge la cration d'une nouvelle table ou la modification d'une table existante, la demande, en utilisant les informations transmises par les tapes prcdentes.

    6. Lancer lexcution de la synchronisation.

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 28

    WW

    W.S

    MILE.F

    R

    Excution d'une Transformation dans Spoon

    Conclusion

    PDI est un outil efficace pour raliser rapidement tout type de traitements sur des bases de donnes. Ncessaire dans la plupart des projets dcisionnels, il sera galement trs utile dans tout projet utilisant des bases de donnes et demandant des oprations de synchronisation ou d'export.

    PDI a lavantage dtre performant, simple dutilisation, entirement open source et dtre intgr la suite dcisionnelle Pentaho prsente plus loin.

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 29

    WW

    W.S

    MILE.F

    R

    TALEND ETL

    Prsentation

    Talend Open Studio7 est un ETL open source, dvelopp par la socit Talend, base en France.

    Talend est un ETL de type gnrateur de code , cest--dire quil permet de crer graphiquement des processus de manipulation et de transformation de donnes puis de gnrer lexcutable correspondant sous forme de programme Java. Ce programme doit ensuite tre dploy sur le serveur dexcution.

    Talend est lETL utilis par les solutions SpagoBI et JasperSoft (o il est renomm en Jasper ETL).

    Au moment o nous crivons ces lignes, Talend Open Studio est disponible dans sa version 5.2.2.

    Dfinition de processus

    Les processus de manipulation de donnes sont crs en utilisant un modle graphique base de glisser-dposer.

    Des connecteurs sont disponibles pour se connecter aux principales bases de donnes, annuaires, Web Services, ainsi que pour traiter diffrents types de fichiers (CSV, Excel, XML).

    Talend dispose de fonctionnalits indites pour un ETL open source :

    les tapes ELT (Extract Load Transform), qui tirent parti de la base de donnes cible pour les diffrentes oprations, ce qui amliore grandement les performances au prix de possibilits plus limites.

    des connecteurs pour des applications de CRM (SugarCRM, SalesForce, Vtiger et CentricCRM ) et des ERP (Sage X3, SAP, Microsoft Dynamics, OpenBravo), ce qui vite de manipuler les modles relationnels de ces outils.

    des composants d'interactions avec des systmes de gestion de workflow et de BPM (Bonita).

    des composants ddis la problmatique Big Data, qui permettent de sinterfacer avec ce type de donnes (systme de fichier Hadoop, base de donnes Hbase, Cassandra, accs Hive et Pig, etc).

    possibilit dajouter simplement de nouvelles fonctions et composants afin de raliser des processus plus complexes, de dvelopper des connecteurs supplmentaires.

    On notera que Talend facilite la construction des requtes sur les bases de donnes en dtectant les relations entre tables grce aux cls trangres et en proposant une interface la Access .

    7 http://www.talend.com/

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 30

    WW

    W.S

    MILE.F

    R

    Exemple de processus dintgration de donnes

    Affectation et modification de valeurs

    Modles mtier

    Talend permet galement de crer un modle mtier (Business Model) afin de modliser les interactions entre les diffrents systmes et bases de donnes.

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 31

    WW

    W.S

    MILE.F

    R

    Les informations de connexion, les mtadonnes, ainsi que des documents, peuvent tre associs chaque lment. Le modle constitue alors une vritable documentation du systme dinformation.

    Modle mtier

    Ce mode est dsormais complt avec un gnrateur de documentation technique permettant aux dveloppeurs de gagner du temps dans ltape souvent nglige des spcifications techniques.

    Gestion des contextes

    Talend permet de grer diffrents contextes dexcutions et de les appliquer aux connexions et transformations.

    Le mme processus peut donc sexcuter en environnement de dveloppement, de test ou de production, avec chaque fois lutilisation des bonnes connexions aux bases de donnes et des bonnes mtadonnes.

    Dploiement des processus

    Une fois le programme gnr, celui-ci est install par un administrateur sur la machine cible et son excution est planifie en utilisant le service cron dUnix ou les tches planifies de Windows selon le cas.

    Avec la version TIS/TEDI (Talend Integration Suite / Talend Enterprise Data Integration), sont proposs un gestionnaire dordonnancement des traitements et une excution distante Distant Run , permettant Talend de parfaitement sintgrer dans des environnements professionnels industrialiss.

    A travers la console de supervision en mode client Java ou en mode Web, les personnes charges de lexploitation des interfaces disposent de tableaux de bord synthtisant la bonne ou mauvaise excution des traitements.

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 32

    WW

    W.S

    MILE.F

    R

    Conclusion

    Talend Open Studio est un produit complet. Talend a nou des partenariats avec de nombreuses socits ditrices de solutions dcisionnelles ou de bases de donnes, ce qui renforce sa position de leader sur le march.

    Depuis 2012, Talend a complt son offre avec un nouvel outil Talend ESB . Ce nouvel outil vient complter l'offre de l'diteur avec un bus dentreprise bas sur des technologies Open Source. Son offre s'articule donc aujourd'hui autour de cinq domaines :

    L'intgration de donnes, Data Integration et Big Data,

    La qualit de donnes, Data Quality,

    LEnterprise Service Bus, Talend ESB,

    Moteur de workflow, Talend BPM.

    La gestion de donnes rfrentielles, Master Data Management.

    Notons que Talend propose une suite Talend Plateform for Enterprise Integration , soumise souscription annuelle, qui comprend des fonctionnalits trs avances comme la gestion des dploiements complexes, la supervision des excutions et la gestion de rfrentiels partags.

    Comme PDI, Talend sera avantageusement utilis dans des projets dcisionnels mais trouvera galement sa place dans des projets durbanisation de systmes dinformation, permettant duniformiser les modes dchanges entre les diffrentes applications de lentreprise.

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 33

    WW

    W.S

    MILE.F

    R

    BIRT

    Prsentation

    BIRT8 (The Business Intelligence and Reporting Tool) est un projet de la communaut Eclipse comprenant un gnrateur de graphiques, un gnrateur de rapport et un environnement de conception.

    Au moment o nous crivons ces lignes, BIRT est disponible dans sa version 4.2.2.

    Le projet a t initi par la socit Actuate9, qui commercialise une offre de business intelligence intgrant BIRT et qui a adopt la licence open source pour BIRT.

    Gnrateur de rapports

    Le moteur de BIRT est une bibliothque qui permet de gnrer des rapports (paramtrs ou non) au format HTML, PDF, XLS, DOC ou PPT.

    Ces rapports peuvent tre complexes et contenir plusieurs tableaux, graphiques avancs et images. BIRT propose galement la ralisation de tableaux croiss. Les donnes affiches peuvent provenir de bases et de requtes diffrentes.

    Exemple de rapport BIRT

    Le moteur de BIRT peut tre intgr dans toute application dveloppe avec le langage Java, que ce soit dans une application Web ou dans une application de type client lourd .

    Il est notamment possible d'intgrer nativement les rapports BIRT aux plateformes BI Pentaho et SpagoBI.

    8 http://www.eclipse.org/birt 9 http://www.actuate.com

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 34

    WW

    W.S

    MILE.F

    R

    Excution d'un rapport BIRT dans Pentaho

    Excution d'un rapport BIRT dans SpagoBI

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 35

    WW

    W.S

    MILE.F

    R

    Conception des rapports

    Cration de rapport BIRT

    BIRT dispose d'un outil de conception de rapports, qui permet de crer et modifier les rapports de faon graphique, en dposant des lments (tableaux, tableaux croiss, graphiques) dans un rapport vierge. Cet outil s'intgre sous forme de plug-in dans l'outil de dveloppement Eclipse10 mais peut tre galement utilis comme une application autonome.

    La dfinition d'un rapport tant au final simplement un fichier XML, il est galement possible, mais beaucoup plus long et peu conseill, de crer des rapports sans passer par cet outil. Seuls les bilingues XML/franais s'y risqueront.

    La cration d'un rapport passe par plusieurs tapes :

    La dfinition des sources de donnes : une ou plusieurs sources de donnes (bases de donnes compatibles JDBC, fichiers texte, fichier xls) peuvent tre ajoutes au rapport.

    La dfinition des jeux de donnes : un jeu de donnes est un ensemble d'informations destines tre mises en forme par un tableau ou un graphique. C'est concrtement le rsultat d'une requte SQL plus ou moins complexe sur une source de donnes. L'utilisateur dispose d'un assistant afin de faciliter la cration de cette requte, et il peut de plus combiner diffrentes sources de donnes htrognes en les liant sur une cl commune.

    Le placement des lments : les lments de base (tableaux, listes, graphiques, images, ...) sont insrs dans le rapport par glisser-dposer .

    10 http://www.eclipse.org

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 36

    WW

    W.S

    MILE.F

    R

    La configuration : un jeu de donnes est associ chaque lment et les paramtres de rendu sont modifis.

    La prvisualisation : une option de prvisualisation permet de lancer la gnration du rapport.

    Public vis

    L'outil de conception de rapports de BIRT s'adresse en premier lieu des dveloppeurs, car il est ncessaire de crer des jeux de donnes en utilisant des requtes SQL.

    Il est cependant possible de rendre BIRT accessible des utilisateurs finaux ayant un profil moins technique , en utilisant certaines fonctionnalits qui permettent de contourner les tapes les plus complexes.

    Dans un premier temps, il est possible de crer des bibliothques de ressources contenant les lments de base permettant de crer un nouveau rapport : les sources de donnes, la feuille de style de l'entreprise et un ensemble de jeux de donnes. Ces lments peuvent tre incorpors dans un nouveau rapport par un simple glisser-dposer.

    L'utilisateur pourra par la suite crer ses propres jeux de donnes en ralisant des jointures de jeux de donnes existants. Par exemple, si la bibliothque contient les jeux de donnes clients (liste dtaille des clients) et ventes (liste des ventes incluant une rfrence vers le client, le produit), l'utilisateur pourra facilement crer un jeu de donnes 'ventes par client' (liste dtaille des ventes pour chaque client). Il pourra ensuite ajouter des colonnes calcules et filtrer les rsultats via un assistant.

    Conclusion

    BIRT est un outil de reporting trs complet, qui permet de crer rapidement des rapports complexes et de matriser sa mise en page. Il bnficie du support de la trs active communaut Eclipse.

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 37

    WW

    W.S

    MILE.F

    R

    JASPERREPORTS / IREPORT

    Prsentation

    JasperReports11 est un moteur de rapport dvelopp par la socit JasperSoft12 et distribu sous une licence open source. iReport est l'diteur de rapport de JasperSoft.

    Au moment o nous crivons ces lignes, JasperSoft et iReport sont disponibles dans leur version 5.0. Les rapports gnrs sont des fichiers XML et peuvent galement tre crs et modifis manuellement. Ces outils existent depuis 2001 et sont dj largement utiliss dans de nombreuses applications mtiers pour leur partie reporting.

    Gnrateur de rapport

    Le moteur JasperReports permet la gnration de rapports au format PDF, HTML, XML, CSV, RTF, XLS et TXT. Il utilise JFreeChart afin de gnrer les graphiques et peut tre intgr dans toute application dveloppe avec le langage Java. Il supporte, en tant que source de donnes, les bases de donnes classiques ainsi que les serveurs danalyse multidimensionnelle, ce qui permet dexploiter les possibilits du serveur Mondrian directement dans un rapport JasperReports.

    Rapport ralis avec JasperReports

    Conception des rapports

    La conception des tats se fait soit par description XML soit par outil graphique (iReport). Bien videmment, nous vous recommandons dutiliser linterface graphique

    11 http://jasperreports.sourceforge.net 12 http://www.jaspersoft.com

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 38

    WW

    W.S

    MILE.F

    R

    Les rapports sont dcomposs en bandes dans lesquelles les lments graphiques sont dposs. Chaque bande a un comportement spcifique et apparat une ou plusieurs fois.

    Un rapport excute une itration sur un jeu de donnes principal. Certaines bandes sont affiches avant ou aprs lensemble des donnes de ltat, dautres le sont une fois pour chaque lment du jeu de donnes.

    Les diffrentes bandes disponibles sont :

    titre du rapport, affich au dbut de la premire page,

    en-tte de la page, affich au dbut de chaque page,

    en-tte des colonnes, affich avant les donnes,

    dtails, rpts pour chaque lment des donnes,

    fin des colonnes, affiche aprs lensemble des donnes,

    pied de page, affiche en bas de chaque page,

    dernire page, affich dans la dernire page,

    page de rsum, conclut le rapport.

    Afin de crer des rapports plus riches, il est possible dutiliser des jeux de donnes secondaires dans certains lments, comme les graphiques et les tableaux, ou dinsrer des tats secondaires, les sous-rapports.

    Interface graphique : iReport

    Il existait plusieurs outils de conception graphique pour les tats JasperReports mais, depuis que lditeur JasperSoft a dvelopp la suite dcisionnelle, iReport, loutil de lditeur, a supplant les autres outils qutaient Jasper Assistant et JasperPal.

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 39

    WW

    W.S

    MILE.F

    R

    iReport13 est donc l'outil de conception dtats officiel de JasperReports et se prsente sous la forme d'une application Java ddie.

    Il supporte la quasi-totalit des fonctionnalits de JasperReports (tableaux, tableaux croiss, graphiques) et dispose galement d'une extension ddie l'administration de la plate-forme dcisionnelle de JasperSoft. L'interface et le mode de fonctionnement des rapports JasperReports destinent principalement iReport des spcialistes.

    iReport 5.0

    Conclusion

    JasperReports est le moteur de gnration dtats le plus rpandu dans le monde open source. On constatera que toutes les plateformes dcisionnelles permettent son utilisation. Son principal dfaut reste un relatif manque dintuitivit des diffrents diteurs graphiques, ce qui limite leur utilisation aux dveloppeurs.

    13 http://ireport.sourceforge.net

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 40

    WW

    W.S

    MILE.F

    R

    PENTAHO REPORT DESIGNER

    Prsentation

    JFreeReport a rejoint le projet Pentaho dbut 2006. Au fur et mesure, le nom JFreeReport a t abandonn au profit de Pentaho Report Designer (PRD).

    PRD permet de dvelopper des rapports complexes et, en association avec la plateforme Pentaho, de les publier directement sur le serveur dcisionnel.

    Au moment o nous crivons ces lignes, PRD est disponible dans sa version 3.8.3.

    Excution de rapports

    PRD supporte les formats PDF, HTML, CSV, Excel, RTF et Texte.

    Notons que les rapports ne sont diffuss et excuts quen mode Web, affichant obligatoirement des donnes jour. Les rapports ne sont jamais diffuss et excuts par les utilisateurs finaux avec le client lourd ; il ne peut donc pas y avoir de problme de rafrachissement des donnes, comme on peut lobserver dans dautres solutions propritaires.

    Depuis la version 3.8 de Pentaho Report Designer, un cache dexcution de rapport existe. Ceci vite de r-excuter la requte qui alimente le rapport chaque fois que l'utilisateur choisit de pr-visualiser le rapport, ce qui augmente grandement la productivit du dveloppeur.

    Rapport ralis avec Pentaho Report Designer

    Pentaho Report Designer est un outil de conception graphique similaire, dans lesprit, iReport ou mme Crystal Report, avec la notion de bandes pour les zones rptes de la page (en-tte, en-tte de groupe, ligne, bas de page, )

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 41

    WW

    W.S

    MILE.F

    R

    Depuis la version 1.7, PRD, maintenant en version 3.8.3, sest considrablement enrichi et sintgre nativement dans la suite avec la publication simplifie sur le Web des rapports conus.

    Les rapports sont dfinis en XML, lisibles et pouvant mme tre manipuls par programmation simple. Ils sont empaquets, avec les requtes et les ventuels sous-rapports, dans une archive dextension .prpt, interprte par le serveur Web de la suite Pentaho.

    Il est par ailleurs possible de gnrer des rapports en masse en utilisant lETL Pentaho Data Integration, dans lequel on retrouve une tape de gnration de rapports faisant appel au fichier prpt conu avec PRD.

    Ds louverture de loutil Pentaho Report Designer, une page daccueil guide lutilisateur vers les tapes indispensables de cration du rapport :

    Un assistant, le Report Wizard, permet dtablir une nouvelle connexion mais galement de se connecter un mtamodle (dictionnaire de donnes) de Pentaho :

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 42

    WW

    W.S

    MILE.F

    R

    Il sagit ici dune avance importante dans les outils de reporting open source et PRD a t le premier, fin 2007, permettre un utilisateur de crer un rapport sans aucune connaissance SQL.

    Plusieurs fonctions sont galement disponibles afin de raliser des oprations courantes comme le comptage doccurrences dans un regroupement ou des fonctions de conversions de format. Ces fonctions sont prsentes, regroupes par thme, dans une bibliothque.

    Chaque attribut de chaque lment peut tre associ une formule, permettant ainsi davoir un contenu totalement dynamique et dpendant de critres que vous avez dfinis : selon tel paramtre jaffiche ou non tel lment, selon telle valeur je colore le fond de mon lment en vert ou en rouge, etc.

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 43

    WW

    W.S

    MILE.F

    R

    Rapport dans Pentaho Report Designer

    Conclusion

    Pentaho Report Designer est un outil simple manipuler, bien intgr la suite dcisionnelle Pentaho pour la gestion des paramtres ou la publication sur la plateforme Web.

    On regrettera cependant que la fonction de tableaux croiss soit absente de PRD. Cette fonctionnalit prsente dans d'autres solutions de reporting est prvue pour la version 4.0 de PRD. Cette future version compltera les fonctionnalits de Pentaho Report Designer pour en faire un outil de reporting abouti.

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 44

    WW

    W.S

    MILE.F

    R

    PENTAHO ANALYSIS / MONDRIAN

    Mondrian14 est un serveur OLAP (On Line Analytical Processing) ou moteur OLAP disponible sous licence open source EPL (Eclipse Public Licence).

    Au moment o nous crivons ces lignes, Pentaho Analysis est disponible dans sa version 3.5.

    Il fait partie de la catgorie des serveurs R-OLAP , c'est--dire qu'il accde des donnes contenues dans une base relationnelle.

    Mondrian excute des requtes utilisant le langage MDX, galement utilis par dautres moteurs OLAP, tel que celui de Microsoft SQL Server. Ce langage permet de crer des requtes dont lquivalent en langue SQL ncessiterait un grand nombre de requtes et des temps dexcution beaucoup plus longs.

    Mondrian est particulirement puissant et permet doptimiser les temps de rponse en utilisant des tables d'agrgats, cres au pralable, mais permet galement de raliser des calculs complexes, en comparant des lments sur la dimension temps ou en grant des hirarchies rcursives dissymtriques.

    Mondrian est utilis avec les clients Saiku, JPivot, JPalo, ou Pentaho Analyzer (prsents ci-aprs), outils qui proposent une interface graphique Web de consultation et manipulation des donnes.

    Pentaho a, il y a plusieurs annes, acquis et intgr une nouvelle interface de navigation OLAP sur Mondrian, nomme Analyzer, se dmarquant clairement au niveau de lergonomie de lancienne interface JPivot.

    Le projet Mondrian ainsi que son fondateur Julian Hyde ont rejoint le projet Pentaho sous le nom de Pentaho Analysis. Mondrian est utilis par Pentaho, JasperSoft et SpagoBI.

    14 http://mondrian.sourceforge.net/

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 45

    WW

    W.S

    MILE.F

    R

    JPIVOT

    JPivot15 est un client OLAP disposant d'une interface Web. Il permet de reprsenter un cube OLAP sous forme de tableau crois multidimensionnel et d'effectuer les oprations classiques d'analyse (drill down, drill up, rotations, filtres ...) de faon interactive.

    JPivot permet galement d'afficher un graphique correspondant aux donnes prsentes en tableau, qui est mis jour au fur et mesure de l'exploration.

    Il est possible dexporter tableau et graphique sous forme de fichier PDF imprimable ou de document Excel afin de rutiliser les donnes obtenues.

    L'interface utilisateur peut tre facilement modifie via l'utilisation de feuilles de styles (CSS et XSL).

    Tableau JPivot (Web)

    JPivot va permettre aux utilisateurs dexplorer les cubes, mais galement de raliser un drill-though, cest--dire dafficher les lignes de donnes lorigine dun chiffre consolid (par exemple les N lignes de factures de janvier du produit A sur la rgion R).

    15 http://jpivot.sourceforge.net/

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 46

    WW

    W.S

    MILE.F

    R

    Drill through dans JPivot

    JPivot est une interface assez ancienne, souvent remplace par Saiku ou des composants fournis dans les versions Enterprise . Le couple Mondrian/JPivot est disponible dans les suites Pentaho Community Edition, JasperSoft et SpagoBI.

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 47

    WW

    W.S

    MILE.F

    R

    PALO

    Palo16 est une base de donnes multidimensionnelle et en mmoire dveloppe en C et distribue sous licence GPL par la socit Jedox17.

    Palo fait partie de la catgorie M-OLAP (Multidimensional OLAP) : toutes les donnes sont charges en mmoire et non dans une base de donnes relationnelle. Les donnes sont calcules la vole, ce qui lui permet d'obtenir de trs bons temps de rponse.

    Au moment o nous crivons ces lignes, Palo est disponible dans sa version 3.2 (Community) et 4.0 SR1 en version Premium. La version 5 est prvue pour le milieu de lanne 2013.

    La base Palo est accessible depuis le tableur Microsoft Excel ou OpenOffice Calc avec un plugin, ce qui permet de naviguer dans les donnes multidimensionnelles directement dans les feuilles de calcul tant apprcies des utilisateurs.

    Navigation dans un cube Palo dans Excel

    Cette intgration permet de tirer parti des fonctionnalits natives de tableurs et graphiques d'Excel pour la couche de prsentation, les donnes affiches tant toujours stockes dans la base Palo et non pas dans Excel.

    16 http://www.Palo.net 17 http://www.jedox.com/fr

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 48

    WW

    W.S

    MILE.F

    R

    Tableau de bord dans MsExcel, constitu avec Palo

    Palo n'est cependant pas limit Excel et dispose d'API vers les langages Java et PHP. Palo peut ainsi tre interrog depuis d'autres applications, telles que Palo Eclipse Client (JPalo) ou bien videment les autres composants de la suite Jedox Palo, tels que Palo Web, un tableur en mode Web.

    Dans le cadre d'un projet dcisionnel, Palo va devoir utiliser les donnes de l'entreprise : contrairement Mondrian qui travaille directement sur une base relationnelle, les donnes doivent tre importes dans la base de donnes Palo. Des API sont fournies et permettent d'crire dans les cubes M-OLAP depuis les langages C, Java, PHP et .NET. De plus, un ETL est fourni par Jedox afin dalimenter cette base, et les ETL open source Pentaho Data Integration et Talend Open Studio disposent de connecteurs vers Palo.

    On notera qu'il est galement possible, depuis Excel, d'importer les donnes partir d'un fichier texte ou d'une connexion ODBC mais cette solution n'est videmment pas adapte l'import automatis d'un grand nombre de donnes.

    Palo propose de plus une fonctionnalit diffrenciante et trs intressante : la possibilit de modifier les valeurs dun cube. Par exemple, les valeurs peuvent tre gres selon diffrents scnarios : valeur budgte, valeur relle, valeur rvise, ce qui permet de construire une application de saisie dcentralise et de consolider le tout in fine, ou linverse de saisir des donnes globales et de les ventiler selon la mthode choisie.

    Conclusion

    Palo nest pas, proprement parler , un outil mtier dlaboration budgtaire, mais toutes les fonctions sont prsentes pour le faire et nous avons eu loccasion de le vrifier pour avoir ralis plusieurs applications de ce type, pour nos clients comme pour Smile, avec les notions de planification budgtaire, de ventilation par service ou par mois, de saisonnalit intgre, de suivi des carts par rapport au rel et de replanification en cours d'anne.

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 49

    WW

    W.S

    MILE.F

    R

    Le cot multi-dimensionnel de Palo s'adapte galement une analyse de type ABC (Activity Based Costing).

    En version Premium, Palo propose galement une brique appele Supervision Server qui permet notamment de capter les vnements/changements sur les cellules d'un cube et de dclencher des actions. Cette brique permet par exemple de garder une trace de tous les changements effectus dans une base de donnes spare.

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 50

    WW

    W.S

    MILE.F

    R

    WEKA

    Weka18 est un outil permettant d'excuter des algorithmes de data-mining sur un ensemble de donnes. Il est ainsi possible disoler des populations ou dextraire des rgles partir des donnes contenues dans le datawarehouse.

    Il se prsente sous la forme dune application indpendante, disposant dune interface utilisateur graphique ou en ligne de commande.

    Au moment o nous crivons ces lignes, Weka est disponible dans sa version 3.7.

    Lutilisateur peut appliquer un un les diffrents algorithmes, ou bien crer, dune faon similaire PDI, un workflow de traitements qui pourra par exemple tre utilis dans une plateforme dcisionnelle afin danalyser priodiquement les donnes.

    Lutilisation de Weka demande de bonnes connaissances du data-mining et des diffrents algorithmes statistiques utiliss.

    WEKA - Prtraitement

    18 http://www.cs.waikato.ac.nz/~ml/index.html

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 51

    WW

    W.S

    MILE.F

    R

    WEKA - Visualisation des donnes

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 52

    WW

    W.S

    MILE.F

    R

    LANGAGE R

    R est un langage de programmation mathmatique, largement rpandu chez les statisticiens mais galement utilis pour raliser du data mining.

    Sous licence GNU GPL, c'est aujourd'hui un projet majeur au sein de la communaut GNU.

    La richesse de R vient des nombreux paquets mis disposition librement par la communaut, qui permettent ainsi d'accder toute sorte d'analyses, modles, et algorithmes statistiques. Ces extensions permettent aussi de se connecter diffrents types de bases de donnes, comme PostgeSQL ou MySQL.

    De nombreuses librairies graphiques sont galement disponibles pour exploiter le rsultat des analyses effectues.

    Enfin, des interfaces graphiques sont disponibles pour exploiter le langage R, notamment RStudio ou Rattle, tous deux open source.

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 53

    WW

    W.S

    MILE.F

    R

    Site web de R : http://www.r-project.org/

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 54

    WW

    W.S

    MILE.F

    R

    SAIKU

    Prsentation

    Saiku est une solution de navigation multidimensionnelle, de cration et de partage de rapports, intgrable au serveur Pentaho BI ds la version communautaire.

    Elle est compose de deux outils :

    Saiku Analytics pour l'analyse OLAP,

    Saiku Reporting pour la cration de rapports en ligne (les rapports Ad-Hoc).

    Dvelopp par Analytical-Labs, Saiku est utilis par une vaste communaut mondiale en pleine croissance.

    Son interface, simple et intuitive, est base sur le glisser-dposer de mtadonnes partir dun dictionnaire en langage naturel.

    Les rsultats de requtes ou danalyse peuvent tre exports dans les formats PDF, Excel, ...

    Les analyses et rapports conus peuvent galement tre enregistrs pour tre r excuts au besoin.

    Saiku-Analytics

    Saiku Analytics propose des fonctionnalits plus riches que celles proposes par l'outil JPivot et constitue un outil d'analyse moderne et flexible sur la plateforme Pentaho.

    Loutil permet de visualiser et analyser les donnes dun cube OLAP dans un tableau crois ou un graphique en glisser-dposer partir du modle OLAP dfini.

    Intgration de Saiku Analytics dans Pentaho BI Server

    Il est mme possible dintgrer des micrographiques au sein du tableau crois afin dillustrer des tendances.

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 55

    WW

    W.S

    MILE.F

    R

    La version de base peut d'ailleurs tre enrichie avec un plugin complmentaire, Saiku Chart Plus19, qui ajoute de nouveaux types d'illustration graphiques Saiku Analytics ainsi que de la cartographie.

    Techniquement, Saiku Analytics utilise le moteur Mondrian et le pilote OLAP4J pour rcuprer les informations partir d'une source de donnes et les restituer dans le navigateur ou les exporter.

    19 http://it4biz.github.com/SaikuChartPlus/

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 56

    WW

    W.S

    MILE.F

    R

    Exemples de visualisations graphiques de donnes avec Saiku Analytics

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 57

    WW

    W.S

    MILE.F

    R

    Saiku-Reporting

    Saiku Reporting20, quant lui, est une interface de cration de rapports en mode Wysiwyg ; lutilisateur visualise directement le rsultat du rapport au fur et mesure de sa construction.

    La composition se fait en glisser-dposer des mtadonnes en langage naturel comme colonnes, regroupements et filtres.

    Loutil permet galement dajouter facilement des totaux et sous-totaux aux mesures.

    Saiku-Reporting utilise le mme moteur de gnration de rapport que la version entreprise de Pentaho.

    Ces diffrentes options permettent aux utilisateurs mtiers de crer leurs rapports Ad-Hoc avec une totale autonomie et de visionner ainsi rapidement leurs donnes.

    Il remplace avantageusement le module WAQR (Web Ad Hoc Query and Reporting) non maintenu par Pentaho.

    Intgration de Saiku Reporting dans Pentaho BI Server

    20 http://blog.smile.fr/Pentaho-et-Saiku-reporting

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 58

    WW

    W.S

    MILE.F

    R

    C*TOOLS

    Prsentation

    Les C*Tools regroupent un ensemble d'outils permettant la mise en place de tableaux de bord sur le serveur Pentaho BI en version communautaire.

    Ces outils sont dvelopps par Pedro Alves (de WebDetails) et Ingo Klose (TimoCom Soft) afin de permettre la cration de tableaux de bord trs riches.

    Avec l'outil d'dition CDE (Community Dashboard Editor), les C*Tools permettent la publication de tableaux de bord trs riches sur le serveur Pentaho BI via un assistant de cration graphique web.

    Il est noter que ces outils dlaboration de tableaux de bord s'adressent essentiellement des utilisateurs techniques, contrairement au Dashboard Designer de la version entreprise.

    Pentaho BI OS enrichi des modules CTools et BIRT permet llaboration et la publication de tableaux de bords modernes et intuitifs.

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 59

    WW

    W.S

    MILE.F

    R

    Exemple de tableau de bord labor avec un module CTools pour Pentaho BI OS

  • Edition avril 2013 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation

    Dcisionnel : le meilleur des solutions open source

    Page 60

    WW

    W.S

    MILE.F

    R

    TALEND MDM

    Prsentation

    Talend Master Data Management est une composante de la suite d'intgration de donnes open source Talend. Elle fournit une plateforme permettant d'intgrer, nettoyer, surveiller et publier les donnes rfrentielles d'une entreprise.

    En s'intgrant dans la suite ETL de Talend, Talend MDM permet de faire de l'change en temps rel entre un rfrentiel de donnes et des bases d'application htrogne.

    D'un point de vue technique, les donnes rfrentielles sont stockes dans une base de donnes XML eXist-db.

    Le serveur MDM Talend est une application J2EE dploye dans un serveur JBoss donnant accs de nombreux services Web. Du point de vue utilisateur, on dispose d'une application Web permettant d'interagir avec la base de donnes rfrentielle.

    Le studio de dveloppement MDM s'intgre au sein du studio Talend. Il permet de modliser ses donnes rfrentielles et d'y affecter des rgles mtiers.

    Studio MDM

    L'application est compose du studio MDM qui permet de modliser les donnes rfrentielles. Talend MDM est un systme de gestion de la donne gnraliste. Il n'est pas spcifiquement orient produit ou t