-
Notifications
You must be signed in to change notification settings - Fork 19
/
05-organiser.qmd
148 lines (77 loc) · 8.38 KB
/
05-organiser.qmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
# Organiser ses scripts
{{< include _setup.qmd >}}
On l'a vu, le script est l'élément central de toute analyse dans R. C'est lui qui contient l'ensemble des opérations constitutives d'une analyse, dans leur ordre d'exécution : chargement des données, recodages, manipulations, analyses, exports de résultats, etc.
Une conséquence est qu'un script peut rapidement devenir très long, et on peut finir par s'y perdre. Il est donc nécessaire d'organiser son travail pour pouvoir se retrouver facilement parmi les différentes étapes d'un projet d'analyse.
## Les projets dans RStudio {#sec-projets}
La notion de projet est une fonctionnalité très pratique de RStudio, qui permet d'organiser son travail et de faciliter l'accès à l'ensemble des fichiers constitutifs d'une analyse (données, scripts, documentation, etc.).
En pratique, un projet est un dossier que vous avez créé où bon vous semble sur votre disque dur, et dans lequel vous regrouperez tous les fichiers en question. Utiliser des projets procure plusieurs avantages :
- RStudio lance automatiquement R dans le dossier du projet et facilite ainsi grandement l'accès aux fichiers de données à importer (plus besoin de taper le chemin d'accès complet). De même, si vous déplacez votre dossier sur votre disque, le projet continuera à fonctionner.
- L'onglet *Files* de la zone en bas à droite de l'interface de RStudio vous permet de naviguer facilement dans les fichiers de votre projet.
- Vous pouvez très facilement passer d'un projet à l'autre si vous travaillez sur plusieurs jeux de données en parallèle.
Pour créer un projet, il faut aller dans le menu *File* puis sélectionner *New project*.
![Création d'un nouveau projet](resources/screenshots/rstudio_new_project1.png)
Selon que le dossier du projet existe déjà ou pas, on choisira *Existing directory* ou *New directory*. L'étape d'après consiste à créer ou sélectionner le dossier, puis on n'a plus qu'à cliquer sur *Create project*.
À la création du projet, et chaque fois que vous l'ouvrirez, une nouvelle session R est lancée dans la fenêtre *Console* avec le dossier du projet comme répertoire de travail, et l'onglet *Files* affiche les fichiers contenus dans ce dossier.
Une fois le projet créé, son nom est affiché dans un petit menu déroulant en haut à droite de l'interface de RStudio (menu qui permet de passer facilement d'un projet à un autre).
![Menu projets](resources/screenshots/rstudio_project_menu.png)
::: {.callout-note}
Si vous ne retrouvez pas le nom du projet dans ce menu, vous pouvez l'ouvrir en sélectionnant *File* puis *Open Project...* et en allant sélectionner le fichier `.Rproj` qui se trouve dans le dossier du projet à ouvrir.
:::
## Créer des sections dans un script
Lorsqu'un script est long, RStudio permet de créer des "sections" facilitant la navigation.
Pour créer une section, il suffit de faire suivre une ligne de commentaires par plusieurs tirets `-`, comme ceci :
```
## Titre de la section -------------------------------------
```
Le nombre de tirets n'a pas d'importance, il doit juste y'en avoir plus de quatre. RStudio affiche alors dans la marge de gauche du script un petit triangle noir qui permet de replier ou déplier le contenu de la section :
![Section de script dépliée](resources/screenshots/rstudio_section_depliee.png)
![Section de script repliée](resources/screenshots/rstudio_section_repliee.png)
De plus, en cliquant sur l'icône *Show document outline* (la plus à droite de la barre d'outils de la fenêtre du script), ou en utilisant le raccourci clavier `Ctrl+Maj+O`, RStudio affiche une "table des matières" automatiquement mise à jour qui liste les sections existantes et permet de naviguer facilement dans le script :
![Liste dynamique des sections](resources/screenshots/rstudio_toc.png)
## Répartir son travail entre plusieurs scripts
Si le script devient très long, les sections peuvent ne plus être suffisantes. De plus, il est souvent intéressant d'isoler certaines parties d'un script, par exemple pour pouvoir les mutualiser. On peut alors répartir les étapes d'une analyse entre plusieurs scripts.
Un exemple courant concerne les recodages et la manipulation des données. Il est fréquent, au cours d'une analyse, de calculer de nouvelles variables, recoder des variables qualitatives existantes, etc. Il peut alors être intéressant de regrouper tous ces recodages dans un script à part (nommé, par exemple, `recodages.R`). Ce fichier contient alors l'ensemble des recodages "validés", ceux qu'on a testé et qu'on sait vouloir conserver.
Pour exécuter ces recodages, on peut évidemment ouvrir le script `recodages.R` dans RStudio et lancer l'ensemble du code qu'il contient. Mais une méthode plus pratique est d'utiliser la fonction `source` : celle-ci prend en paramètre un nom de fichier `.R`, et quand on l'exécute elle va exécuter l'ensemble du code contenu dans ce fichier.
Ainsi, un début de script `analyse.R` pourra ressembler à ceci :
```{r eval=FALSE}
# Analyse des données Histoire de vie 2003
# Chargement des extensions et des données --------------------------
library(questionr)
data(hdv2003)
source("recodages.R")
# Analyse de l'âge --------------------------------------------------
hist(hdv2003$age)
(...)
```
L'avantage principal est qu'on peut à tout moment revenir à nos données d'origine et aux recodages "validés" simplement en exécutant les deux lignes :
```{r eval=FALSE}
data(hdv2003)
source("recodages.R")
```
L'autre avantage est qu'on peut répartir nos analyses entre différents scripts, et conserver ces deux lignes en haut de chaque script, ce qui permet de "mutualiser" les recodages validés. On pourrait ainsi créer un deuxième script `analyse_qualif.R` qui pourrait ressembler à ceci :
```{r eval=FALSE}
# Analyse des données Histoire de vie 2003 - Qualifications
# Chargement des extensions et des données --------------------------
library(questionr)
data(hdv2003)
source("recodages.R")
# Analyse des qualifications --------------------------------------------------
freq(hdv2003$qualif)
(...)
```
On peut évidemment répartir les recodages entre plusieurs fichiers et faire appel à autant de `source` que l'on souhaite.
::: {.callout-note}
Cette organisation recalcule l'ensemble des recodages à chaque début de script. C'est intéressant et pratique pour des données de taille raisonnable, mais pour des fichiers plus volumineux les calculs peuvent être trop longs. Dans ce cas il est préférable de créer des scripts dédiés qui chargent les données source, effectuent calculs et recodages, et enregistrent les données résultantes dans un fichier de données (voir le chapitre sur l'import/export de données). Et c'est ce fichier résultat qui sera chargé par les scripts d'analyse.
:::
## Désactiver la sauvegarde de l'espace de travail
Vous avez sans doute remarqué qu'au moment de quitter RStudio, une boîte de dialogue semblable à celle-ci s'affiche parfois :
![Dialogue d'enregistrement de l'espace de travail](resources/screenshots/rstudio_save_workspace_dialog.png)
Et il est bien difficile de comprendre de quoi cela parle.
Il s'agit en fait d'une fonctionnalité de R lui-même qui propose d'enregistrer notre espace de travail (*workspace*), c'est-à-dire l'ensemble des objets qui existent actuellement dans notre environnement, dans un fichier nommé `.RData`. La prochaine fois que R est lancé dans le même dossier (par exemple à la réouverture du projet), s'il trouve un fichier `.RData` il va le lire automatiquement et restaurer l'ensemble des objets dans l'état où ils étaient.
Ceci peut sembler pratique, mais c'est en fait une mauvaise idée, pour deux raisons :
- on peut se retrouver avec des objets dont on ne sait plus d'où ils viennent et comment ils ont été calculés
- cette manière de faire casse la logique principale de R, qui est que c'est le script qui est central, et que c'est lui qui retrace toutes les étapes de notre analyse et permet de les reproduire
Il est donc *fortement recommandé*, juste après l'installation de RStudio, de désactiver cette fonctionnalité. Pour cela, aller dans le menu *Tools*, puis *Global Options*, et s'assurer que :
- la case *Restore .RData into workspace at startup* est *décochée*
- le champ *Save workspace to .RData on exit* vaut *Never*
![Options d'enregistrement de l'espace de travail](resources/screenshots/rstudio_save_workspace_options.png)