Partie 1 Présentation

1.1 À propos de R

R est un langage orienté vers le traitement et l’analyse quantitative de données, dérivé du langage . Il est développé depuis les années 90 par un groupe de volontaires de différents pays et par une large communauté d’utilisateurs. C’est un logiciel libre, publié sous licence GNU GPL.

L’utilisation de R présente plusieurs avantages :

  • c’est un logiciel multiplateforme, qui fonctionne aussi bien sur des sytèmes Linux, Mac OS X ou Windows
  • c’est un logiciel libre, développé par ses utilisateurs, diffusable et modifiable par tout un chacun
  • c’est un logiciel gratuit
  • c’est un logiciel très puissant, dont les fonctionnalités de base peuvent être étendues à l’aide d’extensions développées par la communauté. Il en existe plusieurs milliers
  • c’est un logiciel dont le développement est très actif et dont la communauté d’utilisateurs et l’usage ne cessent de s’agrandir
  • c’est un logiciel avec d’excellentes capacités graphiques

Comme rien n’est parfait, on peut également trouver quelques inconvénients :

  • le logiciel, la documentation de référence et les principales ressources sont en anglais. Il est toutefois parfaitement possible d’utiliser R sans spécialement maîtriser cette langue et il existe de plus en plus de ressources francophones.
  • R n’est pas un logiciel au sens classique du terme, mais plutôt un langage de programmation. Il fonctionne à l’aide de scripts (des petits programmes) édités et exécutés au fur et à mesure de l’analyse. Ce point, qui peut apparaître comme un gros handicap, s’avère après un temps d’apprentissage être un mode d’utilisation d’une grande souplesse.
  • en tant que langage de programmation, R a la réputation d’être difficile d’accès, notamment pour ceux n’ayant jamais programmé auparavant.

Ce document ne demande aucun prérequis en informatique ou en programmation. Juste un peu de motivation pour l’apprentissage du langage et, si possible, des données intéressantes sur lesquelles appliquer les connaissances acquises.

L’aspect langage de programmation et la difficulté qui en découle peuvent sembler des inconvénients importants. Le fait de structurer ses analyses sous forme de scripts (suite d’instructions effectuant les différentes opérations d’une analyse) présente cependant de nombreux avantages :

  • le script garde par ordre chronologique l’ensemble des étapes d’une analyse, de l’importation des données à leur analyse en passant par les manipulations et les recodages
  • on peut à tout moment revenir en arrière et modifier ce qui a été fait
  • il est très rapide de réexécuter une suite d’opérations complexes
  • on peut très facilement mettre à jour les résultats en cas de modification des données sources
  • le script garantit, sous certaines conditions, la reproductibilité des résultats obtenus

1.2 À propos de RStudio

RStudio n’est pas à proprement parler une interface graphique pour R, il s’agit plutôt d’un environnement de développement intégré, qui propose des outils et facilite l’écriture de scripts et l’usage de R au quotidien. C’est une interface bien supérieure à celles fournies par défaut lorsqu’on installe R sous Windows ou sous Mac1.

Pour paraphraser Hadrien Commenges, il n’y a pas d’obligation à utiliser RStudio, mais il y a une obligation à ne pas utiliser les interfaces de R par défaut.

RStudio est également un logiciel libre et gratuit. Une version payante existe, mais elle ne propose pas de fonctionnalités indispensables.

1.3 À propos du tidyverse

Le tidyverse est un ensemble d’extensions pour R (code développé par la communauté permettant de rajouter des fonctionnalités à R) construites autour d’une philosophie commune et conçues pour fonctionner ensemble. Elles facilitent l’utilisation de R dans les domaines les plus courants : manipulation des données, recodages, production de graphiques, etc.

La deuxième partie de ce document est entièrement basée sur les extensions du tidyverse, qui est présenté plus en détail chapitre 6.

1.4 Structure du document

Ce document est composé de deux grandes parties :

  • Une Introduction à R, qui présente les bases du langage R et de l’interface RStudio
  • Une Introduction au tidyverse qui présente cet ensemble d’extensions pour la visualisation, la manipulation des données et l’export de résultats

Les personnes déjà familières avec R “de base” peuvent sauter toute la partie Introduction à R et passer directement à l’Introduction au tidyverse.

1.5 Prérequis

Le seul prérequis pour suivre ce document est d’avoir installé R et RStudio sur votre ordinateur. Il s’agit de deux logiciels libres, gratuits, téléchargeables en ligne et fonctionnant sous PC, Mac et Linux.

Pour installer R, il suffit de se rendre sur une des pages suivantes 2 :

Pour installer RStudio, rendez-vous sur la page suivante et téléchargez la version adaptée à votre système :


  1. Sous Linux R n’est fourni que comme un outil en ligne de commande.

  2. Sous Linux, utilisez votre gestionnaire de packages habituel.