A Ressources

A.1 Aide

A.1.1 Aide de R et RStudio

Il est possible d’obtenir à tout moment de l’aide (en anglais) sur une fonction en tapant help() avec comme argument le nom de la fonction dans la console :

help("mean")

Vous pouvez aussi aller dans l’onglet Help de l’interface de RStudio (dans le quart de l’écran en bas à droite) et utiliser le moteur de recherche intégré.

Chaque page d’aide est très complète mais pas toujours très accessible. Elle est structurée selon différentes sections, notamment :

  • Description : donne un résumé en une phrase de ce que fait la fonction
  • Usage : indique la ou les manières de l’utiliser
  • Arguments : détaille les arguments possibles et leur signification
  • Value : indique la forme du résultat renvoyé par la fonction
  • Details : apporte des précisions sur le fonctionnement de la fonction
  • See Also : renvoit vers d’autres fonctions semblables ou liées, ce qui peut être très utile pour découvrir ou retrouver une fonction dont on a oublié le nom
  • Examples : donne une série d’exemples d’utilisation

Les exemples d’une page d’aide peuvent être exécutés directement dans la console avec la fonction example :

example("mean")

mean> x <- c(0:10, 50)

mean> xm <- mean(x)

mean> c(xm, mean(x, trim = 0.10))
[1] 8.75 5.50

L’onglet Help de RStudio permet d’afficher mais aussi de naviguer dans les pages d’aide de R et dans d’autres ressources :

Onglet Help de Rstudio

Onglet Help de Rstudio

Cette page permet d’accéder aux manuels officiels de R (section Manuals), qui abordent différents aspects plus ou moins techniques du langage et du logiciel, en anglais. On citera notamment les documents An Introduction to R et R Data Import/Export. Elle propose également un lien vers la FAQ officielle.

A.1.2 Aide en ligne

Plusieurs sites proposent une interface permettant de naviguer et rechercher dans l’aide de R et de l’ensemble des extensions existantes.

On notera notamment :

A.1.3 Où poser des questions

Outre l’aide intégrée au logiciel, il existe de nombreuses ressources en ligne, forums, listes de discussions, pour poser ses questions et échanger avec des utilisateurs de R.

A.1.3.1 Discussion instantanée

Grrr (“pour quand votre R fait Grrr”) est un groupe Slack (plateforme de discussion instantanée) francophone dédié aux échanges et à l’entraide autour de R. Il est ouvert à tous et se veut accessible aux débutants, qui disposent d’un salon dédié pour poser leurs questions. Vous pouvez même utiliser un pseudonyme si vous préférez.

Pour rejoindre la discussion, il suffit de suivre le lien d’invitation suivant : https://frama.link/r-grrr

A.1.3.2 Listes de discussion

La liste R-soc est une liste francophone spécialement dédiée aux utilisateurs de R en sciences sociales. Toutes les questions y sont les bienvenues, et les réponses sont en général assez rapides. Il suffit de s’y abonner pour pouvoir ensuite poster sa question :

La liste semin-r est la liste de discussion du groupe des utilisateurs de R animé par le Muséum national d’Histoire naturelle. Elle est ouverte à tous et les questions y sont bienvenues :

Il existe aussi une liste officielle anglophone baptisée R-help. Elle est cependant à réserver aux questions les plus pointues, et dans tous les cas il est nécessaire d’avoir en tête et de respecter les bonnes pratiques avant de poster sur la liste :

A.1.3.3 Sur le Web

Pour les anglophones, la ressource la plus riche concernant R est certainement le site StackOverflow. Sous forme de questions/réponses, il comporte un très grand nombre d’informations sur R et les réponses y sont très rapides. Avant de poster une question il est fortement recommandé de faire une recherche sur le site, car il y a de fortes chances que celle-ci ait déjà été posée :

Pour les francophones, on pourra citer le forum du CIRAD, qui comporte une section questions en cours assez active. Là aussi, pensez à faire une recherche sur le forum avant de poser votre question :

A.2 Ouvrages, blogs, MOOCs…

A.2.1 Francophones

Parmi les ressources en français, on peut citer notamment R et espace, manuel d’initiation à la programmation avec R appliqué à l’analyse de l’information géographique, librement téléchargeable en ligne.

La section Contributed documentation du site officiel de R contient également des liens vers différents documents en français, plus ou moins accessibles et plus ou moins récemment mis à jour.

Le pôle bioinformatique lyonnais (PBIL) propose depuis longtemps une somme très importante de documents, qui comprend des cours complets de statistiques utilisant R :

Plusieurs blogs francophones autour de R sont également actifs, parmi lesquels :

  • ElementR, le blog du groupe du même nom, qui propose de nombreuses ressources sur R en général et en particulier sur la cartographie ou l’analyse de réseaux.
  • R-atique, blog animé par Lise Vaudor, propose régulièrement des articles intéressants et accessibles sur des méthodes d’analyse ou sur des extensions R.

Enfin, le site France Université Numérique propose régulièrement des sessions de cours en ligne, parmi lesquels une Introduction à la statistique avec R et un cours sur l’Analyse des données multidimensionnelles.

A.2.2 Anglophones

Les ressources anglophones sont évidemment très nombreuses.

On citera essentiellement l’ouvrage en ligne R for data science, très complet, et qui fournit une introduction très complète et progressive à R, et aux packages du tidyverse. Il existe également en version papier.

Pour aborder des aspects beaucoup plus avancés, l’ouvrage également en ligne Advanced R, d’Hadley Wickham, est extrêmement bien et fait et très complet.

On notera également l’existence du R journal, revue en ligne consacrée à R, et qui propose régulièrement des articles sur des méthodes d’analyse, des extensions, et l’actualité du langage.

La plateforme R-bloggers agrège les contenus de plusieurs centaines de blogs parlant de R, très pratique pour suivre l’actualité de la communauté.

Enfin, sur Twitter, les échanges autour de R sont regroupés autour du hashtag #rstats.

A.3 Extensions

A.3.1 Où trouver des extensions intéressantes ?

Il existe plusieurs milliers d’extensions pour R, et il n’est pas toujours facile de savoir laquelle choisir pour une tâche donnée.

Si un des meilleurs moyens reste le bouche à oreille, on peut aussi se reporter à la page CRAN Task view qui liste un certain nombre de domaines (classification, sciences sociales, séries temporelles…) et indique, pour chacun d’entre eux, une liste d’extensions potentiellement intéressantes accompagnées d’une courte description. On peut même installer l’ensemble des extensions d’une catégorie avec la fonction install.views().

Une autre possibilité est de consulter la page listant l’ensemble des packages existant. S’il n’est évidemment pas possible de passer en revue les milliers d’extensions une à une, on peut toujours effectuer une recherche dans la page avec des mots-clés correspondant aux fonctionnalités recherchées.

Un autre site intéressant est Awesome R, une liste élaborée collaborativement des extensions les plus utiles ou les plus populaires classées par grandes catégories : manipulation des données, graphiques interactifs, etc.

La page frrrenchies liste des packages pouvant être utiles pour des utilisateurs français (géolocalisation, traitement du langage, accès à des API…), ainsi que des ressources francophones.

Enfin, certaines extensions fournissent des “galeries” permettant de repérer ou découvrir certains packages. C’est notamment le cas de htmlwidgets, qui propose une galerie d’extensions proposant des graphiques interactifs, ou de R Markdown.

A.3.2 L’extension questionr

questionr est une extension utilisée régulièrement dans ce document et comprenant quelques fonctions utiles pour l’utilisation du logiciel en sciences sociales, ainsi que différents jeux de données. Elle est développée en collaboration avec François Briatte et Joseph Larmarange.

L’installation se fait soit via le bouton Install de l’onglet Packages de RStudio, soit en utilisant la commande suivante dans la console :

install.packages("questionr")

Il est possible d’installer la version de développement à l’aide de la fonction install_github de l’extension devtools :

devtools::install_github("juba/questionr")

questionr propose à la fois des fonctions, des interfaces interactives et des jeux de données d’exemple.

A.3.2.1 Fonctions et utilisation

Pour plus de détails sur la liste des fonctions de l’extension et son utilisation, on pourra se reporter au site Web de l’extension, hébergé sur GitHub.

L’onglet Reference liste l’ensemble des fonctions de questionr, tandis que l’onglet Articles propose une présentation des trois interfaces interactives (Addins) visant à faciliter le recodage de certaines variables.

Ces interfaces sont également abordées dans la partie 9.

A.3.2.2 Jeu de données hdv2003

hdv2003 est un extrait comportant 2000 individus et 20 variables provenant de l’enquête Histoire de Vie réalisée par l’INSEE en 2003.

L’extrait est tiré du fichier détail mis à disposition librement (ainsi que de nombreux autres) par l’INSEE. On trouvera une documentation complète à la même adresse.

Les variables retenues ont été parfois partiellement recodées. La liste des variables est la suivante :

Variable Description
id Identifiant (numéro de ligne)
poids Variable de pondération
age Âge
sexe Sexe
nivetud Niveau d’études atteint
occup Occupation actuelle
qualif Qualification de l’emploi actuel
freres.soeurs Nombre total de frères, sœurs, demi-frères et demi-sœurs
clso Sentiment d’appartenance à une classe sociale
relig Pratique et croyance religieuse
trav.imp Importance accordée au travail
trav.satisf Satisfaction ou insatisfaction au travail
hard.rock Écoute du Hard rock ou assimilés
lecture.bd Lecture de bandes dessinées
peche.chasse Pêche ou chasse pour le plaisir au cours des 12 derniers mois
cuisine Cuisine pour le plaisir au cours des 12 derniers mois
bricol Bricolage ou mécanique pour le plaisir au cours des 12 derniers mois
cinema Cinéma au cours des 12 derniers mois
sport Sport ou activité physique pour le plaisir au cours des 12 derniers mois
heures.tv Nombre moyen d’heures passées à regarder la télévision par jour

Comme il s’agit d’un extrait du fichier, la variable de pondération n’a en toute rigueur aucune valeur statistique. Elle a été tout de même incluse à des fins “pédagogiques”.

A.3.2.3 Jeu de données rp2012

rp2012 est un jeu de données issu du recensement de la population de 2012 de l’INSEE. Il comporte une petite partie des résultats pour l’ensemble des communes de plus de 2000 habitants de France métropolitaine, soit au final 5170 communes et 60 variables.

Liste de quelques variables du fichier :

Variable Description
commune nom de la commune
code_insee Code de la commune
pop_tot Population total
pop_act_15p Population active de 15 ans et plus
log_rp Nombre de résidences principales
agric Part des agriculteurs dans la population active
indep Part des artisans, commerçants et chefs d’entreprises
cadres Part des cadres
interm Part des professions intermédiaires
empl Part des employés
ouvr Part des ouvriers
chom Part des chômeurs
etud Part des étudiants
dipl_sup Part des diplômés du supérieur
dipl_aucun Part des personnes sans diplôme
proprio Part des propriétaires parmi les résidences principales
hlm Part des logements HLM parmi les résidences principales
locataire Part des locataires parmi les résidences principales
maison Part des maisons parmi les résidences principales