Data Visualisation avec R - groupe CalculHistorique Wilkinson...

40
Data Visualisation avec R E. Matzner-Løber ce cours est basé sur des supports de R. Womack, de nombreuses (très) discussions avec E. Le Pennec, P-A. Cornillon, B. Thieurmel, J. Petit... Aussois 2015

Transcript of Data Visualisation avec R - groupe CalculHistorique Wilkinson...

Page 1: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

Data Visualisation avec R

E. Matzner-Løber

ce cours est basé sur des supports de R. Womack,

de nombreuses (très) discussions avec E. Le Pennec, P-A.Cornillon, B. Thieurmel, J. Petit...

Aussois 2015

Page 2: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

Outline

1 Introduction2 Historique3 Les classiques

UnivariéReprésentation multivariée

4 Nouveautés ?CartesStructure hiérarchiqueNetworksInteraction dans RAnimationIntéractionBig Data

5 Conclusion

Page 3: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

Visualisation avec R

Objectifs de coursReprésentations standards,Principe de “bonnes” représentation,Exemples d’implémentations avec R

Ce n’est pasInfographicsaspect cognitif de la perception...

Page 4: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

IntroductionOutline

1 Introduction2 Historique3 Les classiques

UnivariéReprésentation multivariée

4 Nouveautés ?CartesStructure hiérarchiqueNetworksInteraction dans RAnimationIntéractionBig Data

5 Conclusion

Page 5: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

IntroductionData Visualisation ?

La dataVis peut :proposer une réelle compréhension des “pattern” des donnéesdétecter des structures cachées dans les donnéesun résumé simple

Anscombe’s quartet example:1 2

3 4

4

8

12

4

8

12

5 10 15 5 10 15x

y

Page 6: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

IntroductionData Visualisation ?

La dataVis peut :proposer une réelle compréhension des “pattern” des donnéesdétecter des structures cachées dans les donnéesun résumé simple

Anscombe’s quartet example:1 2

3 4

4

8

12

4

8

12

5 10 15 5 10 15x

y

Page 7: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

IntroductionMauvaise DataVis

Sans commentaire !!!

Page 8: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

IntroductionMauvaise DataVis

Pas informatif

Page 9: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

IntroductionMauvaise DataVis

facteur d’échelle faux !

Page 10: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

IntroductionMauvaise DataVis

problème de facteur d’échelle

Page 11: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

IntroductionMauvaise DataVis

Page 12: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

IntroductionMauvaise DataVis

inversion !

Page 13: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

IntroductionMauvaise DataVis

Page 14: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

IntroductionMauvaise DataVis

Incidents en fonction de la température

Catastrophe, Challenger 1986 !

Page 15: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

IntroductionMauvaise DataVis

Page 16: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

HistoriqueOutline

1 Introduction2 Historique3 Les classiques

UnivariéReprésentation multivariée

4 Nouveautés ?CartesStructure hiérarchiqueNetworksInteraction dans RAnimationIntéractionBig Data

5 Conclusion

Page 17: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

HistoriquePlayfair

William Playfair (1759-1823) considéré comme l’inventeur desformes communes de graphique pour représenter les données :line plots, bar chart and pie chart

Page 18: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

HistoriqueMinard

Charles Minard (1781-1870) a fortement contribué audomaine de l’information graphique et statistique enparticulier avec l’utilisation de cartes.

Page 19: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

HistoriqueMinard

Page 20: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

HistoriqueNightingale

Florence Nightingale (1820-1910) est connue comme étant la“mère” de la profession d’infirmière moderne. Elle a aussicontribué aux représentations graphiques.

Page 21: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

HistoriqueSnow

John Snow (1813–1858) connu pour avoir tracé (détecté) lessources de Choléra à Londres.

Page 22: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

HistoriqueFisher et Tuckey

Ronald Fisher (1890-1962) et John Tukey (1915-2000) :méthodes graphiques avancées pour l’analyse des données.Fisher : dessin des données pour comprendre les relationsTukey : promotion de l’analyse de données exploratoires, il acréé en particulier le box plot, le stem plot et le leaf plot.

Page 23: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

HistoriqueBertin

Tous les signauxsont perçus comme

DIFFÉRENTSet forment des FAMILLES

N I V E A U D E S V A R I A B L E S R É T I N I E N N E S

TAILLE

VALEUR

GRAIN

COULEUR

ORIENTATION

FORME

ASSOCIATION SÉLECTION ORDRE QUANTITÉO Q

Tous les signauxpeuvent être perçus comme

SEMBLABLES

Tous les signauxsont perçus comme

ORDONNÉS

Tous les signaux sont perçusPROPORTIONNELS

entre aux

4

4

5

3

4

5

2

4

5

7

7

8

4

2

Jacques Bertin, "Sémiologie Graphique", 1973.

Jacques Bertin (1918-2010): sémiologie graphique!Système de signes pour la transmission de l’information.

Page 24: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

HistoriqueTufte

Edward Tufte (1942-) a rédigé The Visual Display ofQuantitative InformationImportance de l’aspect mais pas à n’importe quel prix !

Page 25: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

HistoriqueTufte

Challenger revisité !

Page 26: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

HistoriqueTufte

Page 27: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

HistoriqueTufte

Page 28: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

HistoriqueTufte

Tufte a développé et popularisé de nombreux principes :Graphics reveal data - show the data without distorting it -“above all else show the data”Small multiple - understanding one slice makes understandingothers easierLie factor - effect shown/effect in realityGraphical Integrity - no lies, let data vary, not designData density - maximize data/ink ratioSparklines - seems they haven’t caught onchartjunk - self-explanatoryPowerpoint is responsible for most of the world’s sorrows [TheCognitive Style of Powerpoint]

Page 29: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

HistoriqueCleveland

William Cleveland’s Elements of Graphing Data andVisualizing DataCleveland est connu pour promouvoir le dot plot commealternative aux barres, camembert...Le dot plot permet une certaine clarté et une facilité decomparaison des données.Cleveland est aussi un pionnier dans les treillis et lescomparaisons de panels.

Page 30: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

HistoriqueWilkinson

The Grammar of Graphics de Leland Wilkinson (1945-), a euune influence importante sur la facon de penser les graphes.

Grammaire signifie règles mathématiques et esthétiques“Avant” on se focalisait surtout sur le coté esthétique d’uncontenu statiquePar opposition, les graphiques dynamiques demandent uneréflexion plus importante pour pouvoir zoomer, flouter, lier...La Grammar... s’adapte facilement à cette nouvelle approche

ggplot2 (B. Wickham) inspiré par ce formalisme !

Page 31: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

HistoriqueWilkinson

DATA - weighting, reshaping, counting, bootstrappingVARIABLES - transform, sort, log, ranking, residuals,quantilesALGEBRA - nesting or blending dataSCALES - nominal, ordinal, interval, ratio must be specifiedSTATISTICS - static methods available to all graph types e.g,mean, sd, smoothingGEOMETRY - line, area, etc., along with modifiers like jitterand dodgeCOORDINATES - refers to the coordinate system of thegraph (cartesian, polar, etc.)AESTHETICS - color, texture, size, position, etc. of the datapoints. Includes using color to classify.FACETS - subgroups, multiway tablesGUIDES - legends, axes, color scales, keys

Page 32: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

HistoriqueWilkinson

Page 33: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

HistoriqueWilkinson

Data : Les variables à afficherAesthetics mapping : Les dimensions selon lesquelles lesdonnées sont représentéesGeometries : Formes utilisées pour représenter les donnéesFacets : Tableau (lignes et colonnes) de graphesStatistics : Modèles ou transformations statistiques desdonnéesCoordinates : L’espace de représentation (horizontal, vertical,cartésien, polaire)Scales : L’échelle des axes (linéaire, logarithmique, à l’envers),les couleurs de remplissageThèmes : Description de l’arrière plan

Page 34: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

Les classiquesOutline

1 Introduction2 Historique3 Les classiques

UnivariéReprésentation multivariée

4 Nouveautés ?CartesStructure hiérarchiqueNetworksInteraction dans RAnimationIntéractionBig Data

5 Conclusion

Page 35: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

Les classiquesCamembert ou la tarte

à ne pas utiliser !

Page 36: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

Les classiquesBarres barplot ou plot

permet de meilleures comparaisonadapté aux variables qualitatives

Page 37: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

Les classiquesBarres barplot ou plot

Page 38: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

Les classiquesLes dot plot de Cleveland

Less ink, more pleasant...

Page 39: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

Les classiquesHistogramme et estimateur de la densité

facilement interprétableadapté aux variables quantitatives

Page 40: Data Visualisation avec R - groupe CalculHistorique Wilkinson DATA-weighting,reshaping,counting,bootstrapping VARIABLES-transform,sort,log,ranking,residuals, quantiles ALGEBRA-nestingorblendingdata

Les classiquesHistogramme et estimateur de la densité

lissée