Data Visualisation avec R - groupe CalculHistorique Wilkinson...
Transcript of Data Visualisation avec R - groupe CalculHistorique Wilkinson...
Data Visualisation avec R
E. Matzner-Løber
ce cours est basé sur des supports de R. Womack,
de nombreuses (très) discussions avec E. Le Pennec, P-A.Cornillon, B. Thieurmel, J. Petit...
Aussois 2015
Outline
1 Introduction2 Historique3 Les classiques
UnivariéReprésentation multivariée
4 Nouveautés ?CartesStructure hiérarchiqueNetworksInteraction dans RAnimationIntéractionBig Data
5 Conclusion
Visualisation avec R
Objectifs de coursReprésentations standards,Principe de “bonnes” représentation,Exemples d’implémentations avec R
Ce n’est pasInfographicsaspect cognitif de la perception...
IntroductionOutline
1 Introduction2 Historique3 Les classiques
UnivariéReprésentation multivariée
4 Nouveautés ?CartesStructure hiérarchiqueNetworksInteraction dans RAnimationIntéractionBig Data
5 Conclusion
IntroductionData Visualisation ?
La dataVis peut :proposer une réelle compréhension des “pattern” des donnéesdétecter des structures cachées dans les donnéesun résumé simple
Anscombe’s quartet example:1 2
3 4
4
8
12
4
8
12
5 10 15 5 10 15x
y
IntroductionData Visualisation ?
La dataVis peut :proposer une réelle compréhension des “pattern” des donnéesdétecter des structures cachées dans les donnéesun résumé simple
Anscombe’s quartet example:1 2
3 4
4
8
12
4
8
12
5 10 15 5 10 15x
y
IntroductionMauvaise DataVis
Sans commentaire !!!
IntroductionMauvaise DataVis
Pas informatif
IntroductionMauvaise DataVis
facteur d’échelle faux !
IntroductionMauvaise DataVis
problème de facteur d’échelle
IntroductionMauvaise DataVis
IntroductionMauvaise DataVis
inversion !
IntroductionMauvaise DataVis
IntroductionMauvaise DataVis
Incidents en fonction de la température
Catastrophe, Challenger 1986 !
IntroductionMauvaise DataVis
HistoriqueOutline
1 Introduction2 Historique3 Les classiques
UnivariéReprésentation multivariée
4 Nouveautés ?CartesStructure hiérarchiqueNetworksInteraction dans RAnimationIntéractionBig Data
5 Conclusion
HistoriquePlayfair
William Playfair (1759-1823) considéré comme l’inventeur desformes communes de graphique pour représenter les données :line plots, bar chart and pie chart
HistoriqueMinard
Charles Minard (1781-1870) a fortement contribué audomaine de l’information graphique et statistique enparticulier avec l’utilisation de cartes.
HistoriqueMinard
HistoriqueNightingale
Florence Nightingale (1820-1910) est connue comme étant la“mère” de la profession d’infirmière moderne. Elle a aussicontribué aux représentations graphiques.
HistoriqueSnow
John Snow (1813–1858) connu pour avoir tracé (détecté) lessources de Choléra à Londres.
HistoriqueFisher et Tuckey
Ronald Fisher (1890-1962) et John Tukey (1915-2000) :méthodes graphiques avancées pour l’analyse des données.Fisher : dessin des données pour comprendre les relationsTukey : promotion de l’analyse de données exploratoires, il acréé en particulier le box plot, le stem plot et le leaf plot.
HistoriqueBertin
Tous les signauxsont perçus comme
DIFFÉRENTSet forment des FAMILLES
N I V E A U D E S V A R I A B L E S R É T I N I E N N E S
TAILLE
VALEUR
GRAIN
COULEUR
ORIENTATION
FORME
ASSOCIATION SÉLECTION ORDRE QUANTITÉO Q
Tous les signauxpeuvent être perçus comme
SEMBLABLES
Tous les signauxsont perçus comme
ORDONNÉS
Tous les signaux sont perçusPROPORTIONNELS
entre aux
4
4
5
3
4
5
2
4
5
7
7
8
4
2
Jacques Bertin, "Sémiologie Graphique", 1973.
Jacques Bertin (1918-2010): sémiologie graphique!Système de signes pour la transmission de l’information.
HistoriqueTufte
Edward Tufte (1942-) a rédigé The Visual Display ofQuantitative InformationImportance de l’aspect mais pas à n’importe quel prix !
HistoriqueTufte
Challenger revisité !
HistoriqueTufte
HistoriqueTufte
HistoriqueTufte
Tufte a développé et popularisé de nombreux principes :Graphics reveal data - show the data without distorting it -“above all else show the data”Small multiple - understanding one slice makes understandingothers easierLie factor - effect shown/effect in realityGraphical Integrity - no lies, let data vary, not designData density - maximize data/ink ratioSparklines - seems they haven’t caught onchartjunk - self-explanatoryPowerpoint is responsible for most of the world’s sorrows [TheCognitive Style of Powerpoint]
HistoriqueCleveland
William Cleveland’s Elements of Graphing Data andVisualizing DataCleveland est connu pour promouvoir le dot plot commealternative aux barres, camembert...Le dot plot permet une certaine clarté et une facilité decomparaison des données.Cleveland est aussi un pionnier dans les treillis et lescomparaisons de panels.
HistoriqueWilkinson
The Grammar of Graphics de Leland Wilkinson (1945-), a euune influence importante sur la facon de penser les graphes.
Grammaire signifie règles mathématiques et esthétiques“Avant” on se focalisait surtout sur le coté esthétique d’uncontenu statiquePar opposition, les graphiques dynamiques demandent uneréflexion plus importante pour pouvoir zoomer, flouter, lier...La Grammar... s’adapte facilement à cette nouvelle approche
ggplot2 (B. Wickham) inspiré par ce formalisme !
HistoriqueWilkinson
DATA - weighting, reshaping, counting, bootstrappingVARIABLES - transform, sort, log, ranking, residuals,quantilesALGEBRA - nesting or blending dataSCALES - nominal, ordinal, interval, ratio must be specifiedSTATISTICS - static methods available to all graph types e.g,mean, sd, smoothingGEOMETRY - line, area, etc., along with modifiers like jitterand dodgeCOORDINATES - refers to the coordinate system of thegraph (cartesian, polar, etc.)AESTHETICS - color, texture, size, position, etc. of the datapoints. Includes using color to classify.FACETS - subgroups, multiway tablesGUIDES - legends, axes, color scales, keys
HistoriqueWilkinson
HistoriqueWilkinson
Data : Les variables à afficherAesthetics mapping : Les dimensions selon lesquelles lesdonnées sont représentéesGeometries : Formes utilisées pour représenter les donnéesFacets : Tableau (lignes et colonnes) de graphesStatistics : Modèles ou transformations statistiques desdonnéesCoordinates : L’espace de représentation (horizontal, vertical,cartésien, polaire)Scales : L’échelle des axes (linéaire, logarithmique, à l’envers),les couleurs de remplissageThèmes : Description de l’arrière plan
Les classiquesOutline
1 Introduction2 Historique3 Les classiques
UnivariéReprésentation multivariée
4 Nouveautés ?CartesStructure hiérarchiqueNetworksInteraction dans RAnimationIntéractionBig Data
5 Conclusion
Les classiquesCamembert ou la tarte
à ne pas utiliser !
Les classiquesBarres barplot ou plot
permet de meilleures comparaisonadapté aux variables qualitatives
Les classiquesBarres barplot ou plot
Les classiquesLes dot plot de Cleveland
Less ink, more pleasant...
Les classiquesHistogramme et estimateur de la densité
facilement interprétableadapté aux variables quantitatives
Les classiquesHistogramme et estimateur de la densité
lissée