2 novembre 2016

Setup.

Si l'un de ces packages n'a pas encore été installé sur votre machine, ou que vous en possédez une version ancienne, il faut entrer la commande correspondante après l'avoir dé-commentée.

# Obligatoire
# install.packages("ggplot2")

# Facultatif
# install.packages("RColorBrewer")
# install.packages("hexbin")
# install.packages("maps")

Dans tous les cas, il est nécessaire au lancement de charger le ou les packages.

library(ggplot2)

library(RColorBrewer)
library(hexbin)
library(maps)

Un jeu de données interne à ggplot2

Nous utilisons un jeu de données interne à ggplot2 contenant le prix ainsi que d'autres attributs de 53 940 diamants.

Les commandes suivantes permettent de prendre connaissance du jeu de données.

# help(diamonds)

# View(diamonds)

head(diamonds)
## # A tibble: 6 × 10
##   carat       cut color clarity depth table price     x     y     z
##   <dbl>     <ord> <ord>   <ord> <dbl> <dbl> <int> <dbl> <dbl> <dbl>
## 1  0.23     Ideal     E     SI2  61.5    55   326  3.95  3.98  2.43
## 2  0.21   Premium     E     SI1  59.8    61   326  3.89  3.84  2.31
## 3  0.23      Good     E     VS1  56.9    65   327  4.05  4.07  2.31
## 4  0.29   Premium     I     VS2  62.4    58   334  4.20  4.23  2.63
## 5  0.31      Good     J     SI2  63.3    58   335  4.34  4.35  2.75
## 6  0.24 Very Good     J    VVS2  62.8    57   336  3.94  3.96  2.48

str(diamonds)
## Classes 'tbl_df', 'tbl' and 'data.frame':    53940 obs. of  10 variables:
##  $ carat  : num  0.23 0.21 0.23 0.29 0.31 0.24 0.24 0.26 0.22 0.23 ...
##  $ cut    : Ord.factor w/ 5 levels "Fair"<"Good"<..: 5 4 2 4 2 3 3 3 1 3 ...
##  $ color  : Ord.factor w/ 7 levels "D"<"E"<"F"<"G"<..: 2 2 2 6 7 7 6 5 2 5 ...
##  $ clarity: Ord.factor w/ 8 levels "I1"<"SI2"<"SI1"<..: 2 3 5 4 2 6 7 3 4 5 ...
##  $ depth  : num  61.5 59.8 56.9 62.4 63.3 62.8 62.3 61.9 65.1 59.4 ...
##  $ table  : num  55 61 65 58 58 57 57 55 61 61 ...
##  $ price  : int  326 326 327 334 335 336 336 337 337 338 ...
##  $ x      : num  3.95 3.89 4.05 4.2 4.34 3.94 3.95 4.07 3.87 4 ...
##  $ y      : num  3.98 3.84 4.07 4.23 4.35 3.96 3.98 4.11 3.78 4.05 ...
##  $ z      : num  2.43 2.31 2.31 2.63 2.75 2.48 2.47 2.53 2.49 2.39 ...

On ne va garder qu'une entrée sur dix de ce jeu de données afin de rendre les calculs plus rapides et les graphiques moins chargés.

diam <- diamonds[seq(10, nrow(diamonds), 10),]

Charger les données dans ggplot

Remarque : à partir d'ici, nous parlons principalement de ggplot sans le "2" car il va s'agir de la fonction "ggplot".

Le "2" n'est utilisé que dans le nom du package.

Et oui, ggplot1 existe.

On charge les données

Attention ! L'input doit toujours être un data frame !

g <- ggplot(diam)

g

Contrairement à la fonction plot, qui bricole un visuel lorsqu'on entre la commande plot(diamonds), avec ggplot il ne se passe rien.

Juste un grand carré gris.

Le résultat de plot(diamonds).

La commande de base plot(diamonds) considère toutes les variables du data frame et les croise entre elles - numériques comme ordinales - pour un résultat illisible et inutile.

Qu'obtient-on avec la commande ggplot ?

str(g)
## List of 9
##  $ data       :Classes 'tbl_df', 'tbl' and 'data.frame': 5394 obs. of  10 variables:
##   ..$ carat  : num [1:5394] 0.23 0.3 0.23 0.33 0.29 0.3 0.24 0.26 0.32 0.8 ...
##   ..$ cut    : Ord.factor w/ 5 levels "Fair"<"Good"<..: 3 3 3 5 3 2 4 3 4 4 ...
##   ..$ color  : Ord.factor w/ 7 levels "D"<"E"<"F"<"G"<..: 5 7 3 6 5 6 2 2 6 5 ...
##   ..$ clarity: Ord.factor w/ 8 levels "I1"<"SI2"<"SI1"<..: 5 3 5 2 2 3 7 7 3 3 ...
##   ..$ depth  : num [1:5394] 59.4 62.7 60.9 61.8 60.7 63.2 60.7 62.6 62.9 61.5 ...
##   ..$ table  : num [1:5394] 61 59 57 55 60 55 58 59 58 58 ...
##   ..$ price  : int [1:5394] 338 351 357 403 404 405 553 554 554 2760 ...
##   ..$ x      : num [1:5394] 4 4.21 3.96 4.49 4.33 4.25 4.01 4.06 4.35 5.97 ...
##   ..$ y      : num [1:5394] 4.05 4.27 3.99 4.51 4.37 4.29 4.03 4.09 4.33 5.93 ...
##   ..$ z      : num [1:5394] 2.39 2.66 2.42 2.78 2.64 2.7 2.44 2.55 2.73 3.66 ...
##  $ layers     : list()
##  $ scales     :Classes 'ScalesList', 'ggproto' <ggproto object: Class ScalesList>
##     add: function
##     clone: function
##     find: function
##     get_scales: function
##     has_scale: function
##     input: function
##     n: function
##     non_position_scales: function
##     scales: NULL
##     super:  <ggproto object: Class ScalesList> 
##  $ mapping    : list()
##  $ theme      : list()
##  $ coordinates:Classes 'CoordCartesian', 'Coord', 'ggproto' <ggproto object: Class CoordCartesian, Coord>
##     aspect: function
##     distance: function
##     expand: TRUE
##     is_linear: function
##     labels: function
##     limits: list
##     range: function
##     render_axis_h: function
##     render_axis_v: function
##     render_bg: function
##     render_fg: function
##     train: function
##     transform: function
##     super:  <ggproto object: Class CoordCartesian, Coord> 
##  $ facet      :List of 1
##   ..$ shrink: logi TRUE
##   ..- attr(*, "class")= chr [1:2] "null" "facet"
##  $ plot_env   :<environment: R_GlobalEnv> 
##  $ labels     : list()
##  - attr(*, "class")= chr [1:2] "gg" "ggplot"

On retrouve le data frame contenant nos données, ainsi que les différents éléments propres à l'approche grammaticale des graphiques proposée par ggplot2, pour l'instant vides :

  • layers

  • scales

  • mapping

  • theme

  • coordinates

  • facet

À ce stade, le graphe est vide car nous n'avons défini ni mapping ni géométries (voir figure suivante).

g <- ggplot(diam)
g

Mapping

Avec un mapping mais sans géométrie

cf. figure suivante.

Pour rappel : 'carat' et 'price' sont des variables continues.

ggplot(diam, aes(x = carat, y = price)) 

On remarque que les échelles et les labels des axes sont déjà posés.

ggplot attend maintenant de savoir quoi dessiner.

Avec une géométrie mais sans mapping

Pas de figure…

ggplot(diam) + geom_point()
## Error: geom_point requires the following missing aesthetics: x, y

Cette fois, ggplot n'a pas trouvé de mapping lui indiquant où poser son dessin, d'où l'erreur.

Avec un mapping et une géométrie

ggplot(diam, aes(x = carat, y = price)) + geom_point()

Pour comparaison, la commande la plus simple permettant d'obtenir (à peu près) le même résultat avec le package de base.

plot(diam$carat, diam$price)

Les échelles sont justes et les points sont bien situés, mais c'est tout et c'est moche.

C'est là le principe de ggplot : à partir de maintenant nous pouvons faire varier les éléments graphiques sans avoir à toucher aux données.

Par exemple, une interpolation.

ggplot(diam, aes(x = carat, y = price)) + geom_smooth()

Superposer des layers

Il suffit de les additionner pour les superposer.

Attention au '+' à mettre à la fin de la ligne et pas au début.

ggplot(diam, aes(x = carat, y = price)) + 
  geom_point() + 
  geom_smooth()

Attention, l'ordre des géométries a une influence sur le graphique !

ggplot(diam, aes(x = carat, y = price)) + 
  geom_smooth() + 
  geom_point()

Dans le graphique précédent, la courbe d'interpolation a été dessinée avant les points.

Ainsi, elle apparaît dans la figure cachée sous ces derniers.

Différents mappings

Le mapping peut se faire à plusieurs endroits :

  • Dans ggplot(), ce qui a pour effet d'appliquer le mapping à tous les autres éléments.

  • Dans les éléments graphiques eux-mêmes.

Tout dans ggplot

ggplot(diam, aes(x = carat, y = price)) + geom_point()

Dans les deux

ggplot(diam, aes(x = carat)) + geom_point(aes(y = price))

Tout dans la géométrie

ggplot(diam) + geom_point(aes(x = carat, y = price))

Bref, on peut mapper de nombreuses variables, en une seule fois, directement dans ggplot et elles seront reprises par les autres éléments.

Par exemple, l'attribut color de geom_point.

Remarque : la variable 'clarity' est ordinale.

ggplot(diam, aes(x = carat, y = price, color = clarity)) + 
  geom_point()

Grâce à ce seul mapping, ggplot attribue à chaque modalité une couleur, attribue aux points la couleur correspondante, et génère dans la foulée une légende (une des angoisses lorsqu'on travaille avec les commandes de base).

Pour l'anecdote, nous aurions obtenu le même résultat en faisant le mapping dans geom_point.

ggplot(diam, aes(x = carat, y = price)) + 
  geom_point(aes(color = clarity))

Attention à ne pas oublier de faire le mapping, c'est-à-dire d'utiliser la fonction aes(), sinon ça ne fonctionnera pas !

ggplot(diam, aes(x = carat, y = price)) + 
  geom_point(color = clarity)
## Error in layer(data = data, mapping = mapping, stat = stat, geom = GeomPoint, : object 'clarity' not found

On trouve toutes les géométries disponibles ainsi que de nombreuses autres ressources indispensables dans l'indispensable cheat sheet de ggplot2 !

Variables et transformations, discrètes et continues

C'est hasardeux, mais on peut également appliquer une transformation continue (size) à une variable ordinale (cut).

ggplot(diam, aes(x = carat, y = price, color = clarity, size = cut)) + 
  geom_point()
## Warning: Using size for a discrete variable is not advised.

Toutefois, il est recommandé d'appliquer une transformation continue (size) à une variable continue (par exemple depth) et une transformation discrète comme la couleur ou la forme (shape) à une variable discrète (par exemple cut).

ggplot(diam, aes(x = carat, y = price, color = clarity, shape = cut)) + 
  geom_point()

Détail qui a son importance dans l'exemple suivant : la fonction geom_smooth va hériter du mapping sur la couleur.

Note : "se = FALSE" empêche l'affichage de l'incertitude.

ggplot(diam, aes(x = carat, y = price, color = clarity)) + 
  geom_point() + 
  geom_smooth(se = FALSE)

Pour le mapping sur la forme (au lieu de la couleur), on repassera.

ggplot(diam, aes(x = carat, y = price, shape = cut)) + 
  geom_point() + 
  geom_smooth(se = FALSE)

Et si l'on prend en considération les deux en même temps, ça peut mener à la catastrophe.

ggplot(diam, aes(x = carat, y = price, color = clarity, shape = cut)) + 
  geom_point() + 
  geom_smooth(se = FALSE)
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : span too small. fewer data values than degrees of freedom.
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : pseudoinverse used at 0.5659
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : neighborhood radius 0.4641
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : reciprocal condition number 0
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : There are other near singularities as well. 0.13257
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : span too small. fewer data values than degrees of freedom.
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : pseudoinverse used at 0.315
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : neighborhood radius 0.185
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : reciprocal condition number 0
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : There are other near singularities as well. 0.68062
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : pseudoinverse used at 1.0138
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : neighborhood radius 0.60385
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : reciprocal condition number 0
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : There are other near singularities as well. 0.0025

Le même code que précédemment, avec cette fois le graphique à la place du message d'erreur.

ggplot(diam, aes(x = carat, y = price, color = clarity, shape = cut)) + 
  geom_point() + geom_smooth(se = FALSE)

Il est nécessaire de redistribuer le mapping plus subtilement.

ggplot(diam, aes(x = carat, y = price, color = clarity)) + 
  geom_point(aes(shape = cut)) + 
  geom_smooth(se = FALSE)

D'autres exemples concernant les attributs des éléments géométriques.

Transformation continue, variable continue

ggplot(diam, aes(x = carat, y = price, color = clarity, size = depth)) + 
  geom_point()

Il est possible évidemment de modifier plus subtilement la taille des sommets lorsqu'on fait un mapping dessus, si les valeurs par défaut ne nous plaisent pas.

En général, cela passe par les fonctions scale.

Elles commencent par scale_ (voir la cheat sheet).

Nous reviendrons plus en détail là-dessus.

Dans la figure suivante, nous donnons des valeurs minimales et maximales pour la taille des sommets.

ggplot(diam, aes(x = carat, y = price, color = clarity, size = depth)) + 
  geom_point() + 
  scale_size(range = c(1,3))

Remarque : l'effet est difficile à observer car la variance est très petite.

summary(diam$depth)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   55.00   61.00   61.90   61.74   62.50   73.60
sd(diam$depth)
## [1] 1.436404

Au passage, remarquons que l'on peut aussi utiliser l'attribut size de geom_point sans mapping.

ggplot(diam, aes(x = carat, y = price, color = clarity)) + 
  geom_point(size = 1)

Dans ce cas, la taille des points est considérée hors mapping et donc indépendamment d'une quelconque variable.

Remarquons également l'organisation hiérarchique des mappings et des transformations : dans l'exemple qui suit, la variable depth est tout d'abord mappée sur la taille des sommets.

Puis, dans geom_point, on lui attribue une valeur fixe.

Arrivée ensuite, c'est cette dernière qui l'emporte sur le mapping initial.

ggplot(diam, aes(x = carat, y = price, color = clarity, size = depth)) + 
  geom_point(size = 1)

Au passage, la modification du titre en légende dépend de la fonction scale correspondante (ici scale_size).

C'est logique, mais contre-intuitif pour qui aura passé beaucoup (trop ?) de temps avec les commandes graphiques de base dans R.

ggplot(diam, aes(x = carat, y = price, color = clarity, size = depth)) + 
  geom_point() + 
  scale_size("DEPTH", range = c(1,3))

Bilan intermédiaire

Nous avons vu comment :

  • Charger les données.

  • Faire un mapping.

  • Superposer une ou plusieurs géométries.

Il nous reste à découvrir :

  • Le facettage.

  • Les échelles.

  • Les annotations.

  • Les types de graphiques autres que les scatterplots.

  • Comment sauver un graphique.

  • Comment bien préparer ses données.

Le facettage

Attention ! Ceci s'applique à des variables discrètes.

Le facettage divise le jeu de données en fonction des catégories d'une variable.

Dans un sens…

ggplot(diam, aes(x = carat, y = price)) + 
  geom_point() +
  facet_grid(. ~ cut) 

… et dans l'autre.

(Remarquez la position inversée de la variable cut dans facet_grid().)

ggplot(diam, aes(x = carat, y = price)) + 
  geom_point() +
  facet_grid(cut ~ .) 

En croisant deux variables discrètes.

ggplot(diam, aes(x = carat, y = price)) + 
  geom_point() +
  facet_grid(color ~ clarity) 

Finalement, en croisant deux variables discrètes, avec un mapping sur la couleur.

ggplot(diam, aes(x = carat, y = price, color = cut)) + 
  geom_point() +
  facet_grid(color ~ clarity) 

Il y a une autre option de facettage lorsqu'on n'utilise qu'une seule variable discrète : facet_wrap.

Dans ce cas, remarquez que nous n'utilisons plus le point (.) avant le tilde (~).

ggplot(diam, aes(x = carat, y = price)) + 
  geom_point() +
  facet_wrap(~ clarity) 

Les échelles

Elles commencent toutes par scale_

Ensuite, on complète avec le nom de la variable concernée.

scale_alpha scale_alpha_continuous scale_alpha_discrete scale_alpha_identity scale_alpha_manual scale_color_brewer scale_color_continuous scale_color_discrete scale_color_distiller scale_color_gradient scale_color_gradient2 scale_color_gradientn scale_color_grey scale_color_hue scale_color_identity scale_color_manual scale_colour_brewer scale_colour_continuous scale_colour_date scale_colour_datetime scale_colour_discrete scale_colour_distiller scale_colour_gradient scale_colour_gradient2 scale_colour_gradientn scale_colour_grey scale_colour_hue scale_colour_identity scale_colour_manual scale_continuous scale_date scale_fill_brewer scale_fill_continuous scale_fill_date scale_fill_datetime scale_fill_discrete scale_fill_distiller scale_fill_gradient scale_fill_gradient2 scale_fill_gradientn scale_fill_grey scale_fill_hue scale_fill_identity scale_fill_manual scale_identity scale_linetype scale_linetype_continuous scale_linetype_discrete scale_linetype_identity scale_linetype_manual scale_manual scale_radius scale_shape scale_shape_continuous scale_shape_discrete scale_shape_identity scale_shape_manual scale_size scale_size_area scale_size_continuous scale_size_date scale_size_datetime scale_size_discrete scale_size_identity scale_size_manual scale_x_continuous scale_x_date scale_x_datetime scale_x_discrete scale_x_log10 scale_x_reverse scale_x_sqrt scale_y_continuous scale_y_date scale_y_datetime scale_y_discrete scale_y_log10 scale_y_reverse scale_y_sqrt

Par exemple, si l'on travaille sur la couleur, on pourra faire varier la palette des couleurs en modifiant le nom de l'échelle. Faites le test en écrivant scale_color_ dans la console puis en pressant sur la touche tab pour voir les suggestions…

En gris

ggplot(diam, aes(x = carat, y = price, color = clarity)) + 
  geom_point() +
  scale_color_grey()

La version par défaut.

ggplot(diam, aes(x = carat, y = price, color = clarity)) + 
  geom_point() +
  scale_color_discrete()

ColorBrewer, nommée d'après une de ses auteurs, Cnythia Brewer, est une librairie de couleurs précalculées qui s'accordent bien.

On peut les utiliser ici avec la fonction scale_color_brewer.

ggplot(diam, aes(x = carat, y = price, color = clarity)) + 
  geom_point() +
  scale_color_brewer()

En changeant de palette.

ggplot(diam, aes(x = carat, y = price, color = clarity)) + 
  geom_point() +
  scale_color_brewer(palette = 2)

Attention si vous utilisez la mauvaise échelle : soit il ne se passera rien (comme dans la figure suivante), soit il y aura un message d'erreur.

ggplot(diam, aes(x = carat, y = price, color = clarity)) + 
  geom_point() +
  scale_fill_brewer(palette = 2)

Dans la figure suivante, nous changeons la forme utilisée pour dessiner les points afin qu'il y ait un pourtour (color) et un contenu (fill).

Cette transformation a été effectuée en donnant comme instruction que les points doivent changer de forme (indépendamment de toute variable).

Nous en profitons pour dessiner l'intérieur. Quelle fonction faut-il utiliser ?

ggplot(diam, aes(x = carat, y = price, fill = clarity)) + 
  geom_point(shape = 21) +
  scale_fill_brewer(palette = 2)

Mais les échelles, ça ne concerne pas seulement l'intérieur du graphique.

Nous utilisons également des échelles sur les axes.

ggplot(diam, aes(x = carat, y = price, color = clarity)) + 
  geom_point() + 
  scale_x_continuous(breaks = c(1,3), minor_breaks = c(sqrt(2), pi)) +
  scale_y_continuous(breaks = sample(20000, 10))

Échelle logarithmique FTW.

ggplot(diam, aes(x = carat, y = price, color = clarity)) + 
  geom_point() + 
  scale_y_log10()

Les annotations

Via un mapping, par exemple pour un MDS.

ggplot(diam, aes(x = carat, y = price, label = clarity)) + 
  geom_text()

L'annotation manuelle est possible, à l'ancienne, mais pas forcément recommandée.

ggplot(diam, aes(x = carat, y = price, color = clarity)) + 
  geom_point() +
  annotate("text", x = 3.5, y = 10000, label = "HELLO")

D'autres types de graphiques

C'est la seule fois que nous voyons une transformation statistique dans cette présentation (malheureusement).

Ce sont les fonctions commençant par stat_.

Pour plus d'infos, voir la cheat sheet.

ggplot(diam, aes(price)) +
  geom_area(stat = "bin")
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

ggplot(diam, aes(price)) +
  geom_density(kernel = "gaussian")

ggplot(diam, aes(price)) +
  geom_histogram(binwidth = 30)

Avec une variable discrète, cette fois.

ggplot(diam, aes(color)) +
  geom_bar()

Une variable discrète et une variable continue.

ggplot(diam, aes(x = color, y = price)) +
  geom_boxplot()

Deux variables discrètes.

ggplot(diam, aes(x = cut, y = color)) +
  geom_count()

ggplot(diamonds, aes(x=price, fill=cut)) + 
  geom_histogram()
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Distributions bi-variées.

ggplot(diamonds, aes(carat, price)) +
  geom_bin2d(binwidth = c(0.25, 500))

ggplot(diamonds, aes(carat, price)) +
  geom_hex()

Les thèmes

La fonction ggtitle est utilisée pour choisir un titre.

ggplot(diam, aes(x = carat, y = price, color = clarity)) + 
  geom_point() + 
  ggtitle("Mon joli graphique")

Et, classique pour une fois, xlab et ylab pour changer les noms des axes.

ggplot(diam, aes(x = carat, y = price, color = clarity)) + 
  geom_point() + 
  xlab("Ma jolie abscisse") + 
  ylab("Ma jolie ordonnée")

Pour varier les thèmes : theme_.

ggplot(diam, aes(x = carat, y = price, color = clarity)) + 
  geom_point() +
  theme_bw()

ggplot(diam, aes(x = carat, y = price, color = clarity)) + 
  geom_point() +
  theme_dark()

ggplot(diam, aes(x = carat, y = price, color = clarity)) + 
  geom_point() +
  theme_minimal()

Sauver un graphique

ggsave
## function (filename, plot = last_plot(), device = NULL, path = NULL, 
##     scale = 1, width = NA, height = NA, units = c("in", "cm", 
##         "mm"), dpi = 300, limitsize = TRUE, ...) 
## {
##     dev <- plot_dev(device, filename, dpi = dpi)
##     dim <- plot_dim(c(width, height), scale = scale, units = units, 
##         limitsize = limitsize)
##     if (!is.null(path)) {
##         filename <- file.path(path, filename)
##     }
##     dev(file = filename, width = dim[1], height = dim[2], ...)
##     on.exit(utils::capture.output(grDevices::dev.off()))
##     grid.draw(plot)
##     invisible()
## }
## <environment: namespace:ggplot2>

Par exemple

ggsave("plot.pdf", width = 7, height = 7)

Bien préparer ses données

«Tidy data is a standard way of mapping the meaning of a dataset to its structure.»

«A dataset is messy or tidy depending on how rows, columns and tables are matched up with observations, variables and types.»

«In tidy data:

  1. Each variable forms a column.
  2. Each observation forms a row.
  3. Each type of observational unit forms a table.»

Source :

# library(tidyr)
# vignette("tidy-data")

Le format tidy, ou long form, est fortement recommandé dans ggplot2.

En un schéma, Frederik Aust a très bien résumé les opérations nécessaires pour la mise en forme des données.

Bonus !

  • Réaliser des cartes avec ggplot2.

  • Deux extensions.

Réaliser des cartes

data <- data.frame(murder = USArrests$Murder, state = tolower(rownames(USArrests)))
map <- map_data("state")
k <- ggplot(data, aes(fill = murder))
k <- k + 
  geom_map(aes(map_id = state), map = map) + 
  expand_limits(x = map$long, y = map$lat)

k

gganimate

# devtools::install_github("dgrtwo/gganimate")
# install.packages("gapminder")
library(gganimate)
library(gapminder)
theme_set(theme_bw())
p <- ggplot(gapminder, aes(gdpPercap, lifeExp, size = pop, color = continent, frame = year)) +
  geom_point() +
  scale_x_log10()

(Si ça ne fonctionne, lancer ce code dans R/RStudio.)

gg_animate(p)

Interactivité

Un exemple permettant la consultation de données de films tirées de Rotten Tomatoes.

Un autre exemple, cette fois sur la base de données des diamants utilisée dans ce notebook/ces slides.

Le mot-clé à retenir lorsqu'on veut rendre un graphique de R interactif : shiny. Mais ce sera pour un autre workshop…