Annexe A — Ressources

A.1 Aide

A.1.1 Aide de R et RStudio

Il est possible d’obtenir à tout moment de l’aide (en anglais) sur une fonction en tapant help() avec comme argument le nom de la fonction dans la console :

help("mean")

Vous pouvez aussi aller dans l’onglet Help de l’interface de RStudio (dans le quart de l’écran en bas à droite) et utiliser le moteur de recherche intégré.

Chaque page d’aide est très complète mais pas toujours très accessible. Elle est structurée selon différentes sections, notamment :

  • Description : donne un résumé en une phrase de ce que fait la fonction
  • Usage : indique la ou les manières de l’utiliser
  • Arguments : détaille les arguments possibles et leur signification
  • Value : indique la forme du résultat renvoyé par la fonction
  • Details : apporte des précisions sur le fonctionnement de la fonction
  • See Also : renvoie vers d’autres fonctions semblables ou liées, ce qui peut être très utile pour découvrir ou retrouver une fonction dont on a oublié le nom
  • Examples : donne une série d’exemples d’utilisation

Les exemples d’une page d’aide peuvent être exécutés directement dans la console avec la fonction example :

example("mean")

L’onglet Help de RStudio permet d’afficher mais aussi de naviguer dans les pages d’aide de R et dans d’autres ressources :

Onglet Help de Rstudio

Cette page permet d’accéder aux manuels officiels de R (section Manuals), qui abordent différents aspects plus ou moins techniques du langage et du logiciel, en anglais. On citera notamment les documents An Introduction to R et R Data Import/Export. Elle propose également un lien vers la FAQ officielle.

A.1.2 Aide en ligne

Plusieurs sites proposent une interface permettant de naviguer et rechercher dans l’aide de R et de l’ensemble des extensions existantes.

C’est notamment le cas de rdrr.io.

A.1.3 Antisèches

RStudio propose plusieurs cheat sheets (antisèches) en anglais qui proposent sur deux pages une synthèse compacte de fonctions et de leur usage selon différentes thématiques, notamment :

La liste complète est disponible en ligne :

https://www.rstudio.com/resources/cheatsheets/

Ou directement depuis RStudio, via le menu Help, puis Cheatsheets.

A.1.4 Où poser des questions

Outre l’aide intégrée au logiciel, il existe de nombreuses ressources en ligne, forums, listes de discussions, pour poser ses questions et échanger avec des utilisateurs et utilisatrices de R.

Le meilleur moyen d’obtenir une réponse est de poser la question de manière à ce qu’il soit aussi facile que possible d’y répondre. Ce qui implique de donner le maximum d’informations possibles et, si possible, de fournir un exemple de reproductible (un extrait de code et de données permettant de reproduire un problème ou de montrer le résultat qu’on souhaite obtenir). Pour des conseils sur les bonnes pratiques pour poser une question, on pourra se référer au billet Reprex, ou comment demander de l’aide efficacement sur le blog de ThinkR.

A.1.4.1 Discussion instantanée

Grrr (“pour quand votre R fait Grrr”) est un groupe Slack (plateforme de discussion instantanée) francophone dédié aux échanges et à l’entraide autour de R. Il est ouvert à tous et se veut accessible aux débutants. Vous pouvez même utiliser un pseudonyme si vous préférez.

Pour rejoindre la discussion, il suffit de suivre le lien d’invitation suivant :

https://join.slack.com/t/r-grrr/shared_invite/zt-46utbgb9-uvo_bg5cbuxOV~H10YUX8w

A.1.4.2 Listes de discussion

La liste R-soc est une liste francophone spécialement dédiée aux utilisateurs et utilisatrices de R en sciences sociales. Toutes les questions y sont les bienvenues, et les réponses sont en général assez rapides. Il suffit de s’y abonner pour pouvoir ensuite poster sa question :

La liste semin-r est la liste de discussion du groupe des utilisateurs et utilisatrices de R animé par le Muséum national d’Histoire naturelle. Elle est ouverte à tous et les questions y sont bienvenues :

Il existe aussi une liste officielle anglophone baptisée R-help. Elle est cependant à réserver aux questions les plus pointues, et dans tous les cas il est nécessaire d’avoir en tête et de respecter les bonnes pratiques avant de poster sur la liste :

A.1.4.3 Sur le Web

Pour les anglophones, la ressource la plus riche concernant R est certainement le site StackOverflow. Sous forme de questions/réponses, il comporte un très grand nombre d’informations sur R et les réponses y sont très rapides. Avant de poster une question il est fortement recommandé de faire une recherche sur le site, car il y a de fortes chances que celle-ci ait déjà été posée :

Pour les francophones, on pourra citer le forum du CIRAD, qui comporte une section questions en cours assez active. Là aussi, pensez à faire une recherche sur le forum avant de poser votre question :

A.2 Ouvrages, blogs, MOOCs…

A.2.1 Francophones

Parmi les ouvrages en français, on peut citer notamment :

  • Les formations R très complètes développées par les agents de plusieurs ministère.
  • R et espace, manuel d’initiation à la programmation avec R appliqué à l’analyse de l’information géographique, librement téléchargeable en ligne.
  • utilitR, un ouvrage en ligne de formation à R à destination principalement des agents de l’INSEE mais qui aborde un grand nombre de sujets.

Le pôle bioinformatique lyonnais (PBIL) propose depuis longtemps une somme très importante de documents, qui comprend des cours complets de statistiques utilisant R :

Plusieurs blogs francophones autour de R sont également actifs, parmi lesquels :

  • ElementR, le blog du groupe du même nom, qui propose de nombreuses ressources sur R en général et en particulier sur la cartographie ou l’analyse de réseaux.
  • R-atique, blog animé par Lise Vaudor, propose régulièrement des articles intéressants et accessibles sur des méthodes d’analyse ou sur des extensions R.

Pour des formations en ligne, le site France Université Numérique propose régulièrement des sessions de cours, parmi lesquels une Introduction à la statistique avec R et un cours sur l’Analyse des données multidimensionnelles.

Enfin, le projet Rzine effectue un important travail de recensement des ressources sur R en particulier pour les sciences humaines et sociales.

A.2.2 Anglophones

Les ressources anglophones sont évidemment très nombreuses.

On citera essentiellement l’ouvrage en ligne R for data science, très complet, et qui fournit une introduction très complète et progressive à R, et aux packages du tidyverse. Il existe également en version papier.

Pour aborder des aspects beaucoup plus avancés, l’ouvrage également en ligne Advanced R, d’Hadley Wickham, est extrêmement bien et fait et très complet.

On notera également l’existence du R journal, revue en ligne consacrée à R, et qui propose régulièrement des articles sur des méthodes d’analyse, des extensions, et l’actualité du langage.

La plateforme R-bloggers agrège les contenus de plusieurs centaines de blogs parlant de R, très pratique pour suivre l’actualité de la communauté.

Enfin, sur Twitter, les échanges autour de R sont regroupés autour du hashtag #rstats.

A.3 Extensions

A.3.1 Où trouver des extensions intéressantes ?

Il existe plusieurs milliers d’extensions pour R, et il n’est pas toujours facile de savoir laquelle choisir pour une tâche donnée.

Si un des meilleurs moyens reste le bouche à oreille, on peut aussi se reporter à la page CRAN Task view qui liste un certain nombre de domaines (classification, sciences sociales, séries temporelles…) et indique, pour chacun d’entre eux, une liste d’extensions potentiellement intéressantes accompagnées d’une courte description.

Une autre possibilité est de consulter la page listant l’ensemble des packages existant. S’il n’est évidemment pas possible de passer en revue les milliers d’extensions une à une, on peut toujours effectuer une recherche dans la page avec des mots-clés correspondant aux fonctionnalités recherchées.

Un autre site intéressant est Awesome R, une liste élaborée collaborativement des extensions les plus utiles ou les plus populaires classées par grandes catégories : manipulation des données, graphiques interactifs, etc.

La page frrrenchies liste des packages pouvant être utiles pour des utilisateurs et utilisatrices francophones (géolocalisation, traitement du langage, accès à des API…), ainsi que des ressources en français.

Enfin, certaines extensions fournissent des “galeries” permettant de repérer ou découvrir certains packages. C’est notamment le cas de R Markdown ou de htmlwidgets, qui propose une galerie d’extensions proposant des graphiques interactifs.

A.3.2 L’extension questionr

questionr est une extension utilisée régulièrement dans ce document et comprenant quelques fonctions utiles pour l’utilisation du logiciel en sciences sociales, ainsi que différents jeux de données. Elle est développée en collaboration avec François Briatte et Joseph Larmarange.

L’installation se fait soit via le bouton Install de l’onglet Packages de RStudio, soit en utilisant la commande suivante dans la console :

install.packages("questionr")

Il est possible d’installer la version de développement à l’aide de la fonction install_github de l’extension remotes :

remotes::install_github("juba/questionr")

questionr propose à la fois des fonctions, des interfaces interactives et des jeux de données d’exemple.

A.3.2.1 Fonctions et utilisation

Pour plus de détails sur la liste des fonctions de l’extension et son utilisation, on pourra se reporter au site Web de l’extension, hébergé sur GitHub.

L’onglet Reference liste l’ensemble des fonctions de questionr, tandis que l’onglet Articles propose une présentation des trois interfaces interactives (Addins) visant à faciliter le recodage de certaines variables.

Ces interfaces sont également abordées Chapitre 9.

A.3.2.2 Jeu de données hdv2003

hdv2003 est un extrait comportant 2000 individus et 20 variables provenant de l’enquête Histoire de Vie réalisée par l’INSEE en 2003.

L’extrait est tiré du fichier détail mis à disposition librement (ainsi que de nombreux autres) par l’INSEE. On trouvera une documentation complète à la même adresse.

Les variables retenues ont été parfois partiellement recodées. La liste des variables est la suivante :

Variable Description
id Identifiant (numéro de ligne)
poids Variable de pondération
age Âge
sexe Sexe
nivetud Niveau d’études atteint
occup Occupation actuelle
qualif Qualification de l’emploi actuel
freres.soeurs Nombre total de frères, sœurs, demi-frères et demi-sœurs
clso Sentiment d’appartenance à une classe sociale
relig Pratique et croyance religieuse
trav.imp Importance accordée au travail
trav.satisf Satisfaction ou insatisfaction au travail
hard.rock Écoute du Hard rock ou assimilés
lecture.bd Lecture de bandes dessinées
peche.chasse Pêche ou chasse pour le plaisir au cours des 12 derniers mois
cuisine Cuisine pour le plaisir au cours des 12 derniers mois
bricol Bricolage ou mécanique pour le plaisir au cours des 12 derniers mois
cinema Cinéma au cours des 12 derniers mois
sport Sport ou activité physique pour le plaisir au cours des 12 derniers mois
heures.tv Nombre moyen d’heures passées à regarder la télévision par jour
Note

Comme il s’agit d’un extrait du fichier, la variable de pondération n’a en toute rigueur aucune valeur statistique. Elle a été tout de même incluse à des fins “pédagogiques”.

A.3.2.3 Jeu de données rp2018

rp2018 est un jeu de données issu du recensement de la population de 2018 de l’INSEE. Il comporte une petite partie des résultats pour l’ensemble des communes françaises de plus de 2000 habitants, soit au final 5417 communes et 62 variables.

Liste de quelques variables du fichier :

Variable Description
commune nom de la commune
code_insee Code de la commune
pop_tot Population totale
pop_act_15p Population active de 15 ans et plus
log_rp Nombre de résidences principales
agric Part des agriculteurs dans la population active
indep Part des artisans, commerçants et chefs d’entreprises
cadres Part des cadres
interm Part des professions intermédiaires
empl Part des employés
ouvr Part des ouvriers
chom Part des chômeurs
etud Part des étudiants
dipl_sup Part des diplômés de niveau Bac+5 ou plus
dipl_aucun Part des personnes sans diplôme
proprio Part des propriétaires parmi les résidences principales
hlm Part des logements HLM parmi les résidences principales
locataire Part des locataires parmi les résidences principales
maison Part des maisons parmi les résidences principales