-
Notifications
You must be signed in to change notification settings - Fork 7
/
Copy path030-import_data.qmd
312 lines (195 loc) · 35.5 KB
/
030-import_data.qmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
# Импорт и экспорт данных {#sec-real_data}
Итак, пришло время перейти к реальным данным. Мы начнем с использования датасета (так мы будем называть любой набор данных) по супергероям. Этот датасет представляет собой табличку, каждая строка которой - отдельный супергерой, а столбик --- какая-либо информация о нем. Например, цвет глаз, цвет волос, вселенная супергероя[^030-import_data-1], рост, вес, пол и так далее. Несложно заметить, что этот датасет идеально подходит под структуру датафрейма: прямоугольная табличка, внутри которой есть разные колонки, каждая из которой имеет свой тип (числовой или строковый).
[^030-import_data-1]: супергерои в комиксах, фильмах и телесериалах часто взаимодействуют друг с другом, однако обычно это взаимодействие происходит между супергероями одного издателя. Два крупнейших издателя комиксов --- DC и Marvel, поэтому принято говорить о вселенной DC и Marvel.
## Рабочая папка и проекты RStudio {#sec-wd}
Для начала скачайте файл по [ссылке](https://raw.githubusercontent.com/Pozdniakov/tidy_stats/master/data/heroes_information.csv)
Он, скорее всего, появился у вас в папке "Загрузки". Если мы будем просто пытаться прочитать этот файл (например, с помощью `read.csv()` --- мы к этой функцией очень скоро перейдем), указав его имя и разрешение, то наткнемся на такую ошибку:
```{r, error=TRUE}
read.csv("heroes_information.csv")
```
Это означает, что R не может найти нужный файл. Вообще-то мы даже не сказали, где искать. Нам нужно как-то совместить место, где R ищет загружаемые файлы и сами файлы. Для этого есть несколько способов.
- Магомет идет к горе: перемещение файлов в рабочую папку.
Для этого нужно узнать, какая папка является рабочей с помощью функции `getwd()` (без аргументов), найти эту папку в проводнике и переместить туда файл. После этого можно использовать просто название файла с разрешением:
```{r, eval = FALSE}
heroes <- read.csv("heroes_information.csv")
```
Кроме того, путь к рабочей папке можно увидеть в RStudio во вкладке с консолью, в самой верхней части (прямо под надписью "Console"):
{width="400px"}
- Гора идет к Магомету: изменение рабочей папки.
Можно просто сменить рабочую папку с помощью `setwd()` на ту, где сейчас лежит файл, прописав путь до этой папки. Теперь файл находится в рабочей папке:
```{r, eval = FALSE}
heroes <- read.csv("heroes_information.csv")
```
Этот вариант использовать [не рекомендуется](https://www.tidyverse.org/blog/2017/12/workflow-vs-script/)! Как минимум, это сразу делает невозможным запустить скрипт на другом компьютере. Ну а если все-таки вдруг повезет и получится, то ваш коллега будет очень недоволен, что ваш скрипт изменяет рабочую директорию.
- Гора находит Магомета по месту прописки: указание полного пути файла.
```{r, eval = FALSE}
heroes <- read.csv("/Users/Username/Some_Folder/heroes_information.csv")
```
Этот вариант страдает теми же проблемами, что и предыдущий, поэтому тоже не рекомендуется!
> Для пользователей Windows есть дополнительная сложность: знак `/` является особым знаком для R, поэтому вместо него нужно использовать двойной `//`.
- Магомет использует кнопочный интерфейс: Import Dataset.
Во вкладке Environment справа в окне RStudio есть кнопка "Import Dataset". Возможно, у Вас возникло непреодолимое желание отдохнуть от написания кода и понажимать кнопочки --- сопротивляйтесь этому всеми силами, но не вините себя, если не сдержитесь.
- Гора находит Магомета в интернете.
Многие функции в R, предназначенные для чтения файлов, могут прочитать файл не только на Вашем компьютере, но и сразу из интернета. Для этого просто используйте ссылку вместо пути:
```{r}
heroes <- read.csv("https://raw.githubusercontent.com/Pozdniakov/tidy_stats/master/data/heroes_information.csv")
```
- Каждый Магомет получает по своей горе: использование проектов в RStudio.
На первый взгляд это кажется чем-то очень сложным, но это не так. Это очень просто и ОЧЕНЬ удобно. При создании проекта создается отдельная папка, где у вас лежат данные, хранятся скрипты, вспомогательные файлы и отчеты. Кроме папки создается файл формата *.Rproj*, в котором хранятся настройки проекта. Если нужно вернуться к другому проекту --- просто открываете другой проект, с другими файлами и скриптами. Можно даже иметь открытыми несколько окон *RStudio* таким образом. Это еще помогает не пересекаться переменным из разных проектов --- а то, знаете, использование двух переменных `data` в разных скриптах чревато ошибками. Поэтому очень удобным решением будет выделение отдельного проекта под этот курс.
> При закрытии проекта все переменные по умолчанию тоже будут сохраняться, а при открытии --- восстанавливаться (а вот пакеты все равно придется подгружать заново). Это очень удобно, хотя некоторые [рекомендуют от этого отказаться](https://r4ds.had.co.nz/workflow-projects.html). Это можно сделать во вкладке `Tool - Global Options...`
## Организация проектов {#sec-project_workflow}
Даже если не пользоваться проектами RStudio (но я настоятельно рекомендую, это очень удобно), то все равно имеет смысл разделять различные свои проекты по отдельным папкам. Для небольших проектов этого уже может быть достаточно, но я рекомендую делать немного более сложную структуру папок внутри проекта. Например, такую:
```
.
└── my_project
├── R
├── data
│ ├── raw
│ ├── temp
│ └── processed
├── figures
├── main_script.R
├── my_project.Rproj
├── output
└── README.txt
```
В основной папке содержится автоматически созданный RStudio файл .Rproj, основной скрипт с формат .R (или же это может быть .Rmd файл --- см. \@ref(rmd)). Вспомогательные скрипты (например, с функциями) могут храниться в папке R. Если скриптов несколько, то их порядок стоит обозначить числами:
```
.
├── 01_first_script_preposcessing.R
├── 02_second_script_statistics.R
└── 03_third_script_figures.R
```
Данные стоит держать в отдельной папке, причем в некоторых ситуациях вы захотите создать отдельные подпапки, например, отдельные подпапки для данных на входе, временных файлов и данных на выходе. Результаты работы, например, отчеты, сгенерированные с помощью *R Markdown* или *Quarto* (см. @sec-rmd). Туда же можно поместить папку с графиками или же можно поместить эту папку в корневую директорию.
Это лишь пример структуры организации проектов, детали могут различаться, но такая структура позволит не заблудиться в собственных файлах, если тех накопилось достаточно много. Кроме того, другому человеку в такой структуре проекта будет разобраться значительно проще
При создании папок внутри основного проекта важно помнить о том, что теперь ваши файлы больше нельзя найти в вашей корневой директории: нужно искать их в соответствующих папках. Это значит, что путь до файла теперь будет не `"heroes_information.csv"`, а `"data/heroes_information.csv"` или даже `"data/raw/heroes_information.csv"`.
::: callout-tip
## *Полезное:* пакет `{here}`
Пакет `{here}` позволяет удобно работать с путями на любых операционных системах, создавая путь в зависимости от вашей корневой директории проекта.
```{r}
here::here("data", "heroes_information.csv")
```
Созданный путь можно использовать для чтения файлов:
```{r}
heroes <- read.csv(here::here("data", "heroes_information.csv"))
```
:::
Сами скрипты тоже лучше разделять на смысловые части. Для этого есть горячие клавиши Cmd + Shift + R. Это сочетание клавиш выведет окно, в котором вам нужно вписать название, после чего появится вот такой аккуратный комментарий:
```{r}
# Meaningful part of the script -------------------------------------------
```
Разделенный на такие части скрипт (да еще и с подробными комментариями) гораздо удобнее читать!
### Табличные данные: текстовые и бинарные данные {#sec-text_binary}
Как вы уже поняли, импорт данных - одна из самых муторных и неприятных вещей в R. Если у вас получится с этим справится, то все остальное - ерунда. Мы уже разобрались с первой частью этого процесса - нахождением файла с данными, осталось научиться их читать.
Здесь стоит сделать небольшую ремарку. Довольно часто данные представляют собой табличку. Или же их можно свести к табличке. Такая табличка, как мы уже выяснили, удобно репрезентируется в виде датафрейма. Но как эти данные хранятся на компьютере? Есть два варианта: в *бинарном* и в *текстовом* файле.
Текстовый файл означает, что такой файл можно открыть в программе *Блокнот* или его аналоге (например, *TextEdit* на *macOS*) и увидеть напечатанный текст: скрипт, роман или упорядоченный набор цифр и букв. Нас сейчас интересует именно последний случай. Таблица может быть представлена как текст: отдельные строчки в файле будут разделять разные строчки таблицы, а какой-нибудь знак-разделитель отделять колонки друг от друга.
Для чтения данных из текстового файла есть довольно удобная функция `read.table()`. Почитайте хэлп по ней и ужаснитесь: столько разных параметров на входе! Но там же вы увидите функции `read.csv()`, `read.csv2()` и некоторые другие --- по сути, это тот же `read.table()`, но с другими параметрами по умолчанию, соответствующие формату файла, который мы загружаем. В данном случае используется формат ***.csv**,* что означает ***"Comma Separated Values"*** **(Значения, Разделенные Запятыми).** Формат *.csv* --- это самый известный способ хранения табличных данных в файле на сегодняшний день. Файлы с расширением *.csv* можно легко открыть в любой программе, работающей с таблицами, в том числе *Microsoft Excel* и его аналогах.
Файл с расширением *.csv* --- это просто текстовый файл, в котором "закодирована" таблица: разные строчки разделяют разные строчки таблицы, а столбцы отделяются запятыми (отсюда и название). Вы можете вручную создать такие файлы в *Блокноте* и сохранять их с форматом *.csv* - и такая табличка будет нормально открываться в *Microsoft Excel* и других программах для работы с таблицами. Можете попробовать это сделать самостоятельно!
Как говорилось ранее, в качестве разделителя ячеек по горизонтали --- то есть разделителя между столбцами --- используется запятая. С этим связана одна проблема: в некоторых странах (в т.ч. и России) принято использовать запятую для разделения дробной части числа, а не точку, как это делается в большинстве стран мира. Поэтому есть альтернативный вариант формата .csv, где значения разделены точкой с запятой (`;`), а дробные значения - запятой (`,`). В этом и различие функций `read.csv()` и `read.csv2()` --- первая функция предназначена для "международного" формата, вторая - для (условно) "российского". Оба варианта формата имеют расширение *.csv,* поэтому заранее понять какой именно будет вариант довольно сложно, приходится либо пробовать оба, либо заранее открывать файл в текстовом редакторе.
В первой строчке обычно содержатся названия столбцов - и это чертовски удобно, функции `read.csv()` и `read.csv2()` по умолчанию считают первую строчку именно как название для колонок.
Кроме *.csv* формата есть и другие варианты хранения таблиц в виде текста. Например, ***.tsv*** --- тоже самое, что и *.csv,* но разделитель - знак табуляции. Для чтения таких файлов есть функция `read.delim()` и `read.delim2()`. Впрочем, даже если бы ее и не было, можно было бы просто подобрать нужные параметры для функции `read.table()`. Есть даже функции, которые пытаются сами "угадать" нужные параметры для чтения --- часто они справляются с этим довольно удачно. Но не всегда. Поэтому стоит научиться справляться с любого рода данными на входе.
Итак, прочитаем наш файл. Для этого используем только параметр `file =`, который идет первым:
```{r}
heroes <- read.csv("data/heroes_information.csv")
```
::: callout-important
## *Осторожно:* параметр `stringsAsFactors`
В более старых версиях R еще следовало указывать `stringsAsFactors = FALSE`. Параметр `stringsAsFactors =` задает то, как будут прочитаны строковые значения - как уже знакомые нам строки или как факторы. По сути, факторы - это примерно то же самое, что и `character`, но закодированные числами. Когда-то это было придумано для экономии используемых времени и памяти, сейчас же обычно становится просто лишней морокой. Некоторые функции требуют именно `character`, некоторые `factor`, в большинстве случаев это без разницы. Но иногда непонимание может привести к дурацким ошибкам. В данном случае мы просто пока обойдемся без факторов. Если у вас версия R выше 4.0.0, то `stringsAsFactors =` будет `FALSE` по умолчанию.
:::
Можете проверить с помощью `View(heroes)`: все работает! Если же вылезает какая-то странная ерунда или же просто ошибка - попробуйте другие функции (`read.table()`, `read.delim()`) и покопаться с параметрами. Для этого читайте `Help`.
## Проверка импортированных данных {#sec-check_imported}
При импорте данных обратите внимания на предупреждения (если таковые появляются), в большинстве случаев они указывают на то, что данные импортированы некорректно.
Проверим, что все прочиталось нормально с помощью уже известной нам функции `str()`:
```{r}
str(heroes)
```
::: callout-important
## *Осторожно:* проверяйте данные!
Всегда проверяйте данные на входе и никогда не верьте на слово, если вам говорят, что данные вычищенные и не содержат никаких ошибок.
:::
На что нужно обращать внимание?
1. Прочитаны ли пропущенные значения как `NA`. По умолчанию пропущенные значения обозначаются пропущенной строчкой или `"NA"`, но встречаются самые разнообразные варианты. Возможные варианты кодирования пропущенных значений можно задать в параметре `na.strings =` функции `read.table()` и ее вариантов. В нашем наборе данных как раз такая ситуация, где нужно самостоятельно задавать, какие значения будут прочитаны как `NA`.
```{r}
heroes <- read.csv("https://raw.githubusercontent.com/Pozdniakov/tidy_stats/master/data/heroes_information.csv",
na.strings = c("NA", "-", "-99"))
```
2. Прочитаны ли те столбики, которые должны быть числовыми, как `int` или `num`. Если в колонке содержатся числа, а написано `chr` (= `"character"`) или `Factor` (в случае если `stringsAsFactors = TRUE`), то, скорее всего, одна из строчек содержит в себе нечисловые знаки, которые не были прочитаны как `NA`.
3. Странные названия колонок. Это может случиться по самым разным причинам, но в таких случаях стоит открывать файл в другой программе и смотреть первые строчки. Например, может оказаться, что первые несколько строчек --- пустые или что первая строчка не содержит название столбцов (тогда для параметра `header =` нужно поставить `FALSE`)
4. Вместо строковых данных у вас кракозябры. Это означает проблемы с кодировкой. В первую очередь попробуйте выставить значение `"UTF-8"` для параметра `encoding =` в функции для чтения файла:
```{r}
heroes <- read.csv("data/heroes_information.csv",
encoding = "UTF-8")
```
В случае если это не помогает, попробуйте [разобрать](https://www.artlebedev.ru/decoder/), что это за кодировка.
5. Все прочиталось как одна колонка. В этом случае, скорее всего, неправильно подобран разделить колонок --- параметр `sep =`. Откройте файл в текстовом редакторе, чтобы понять какой нужно использовать.
6. В отдельных строчках все прочиталось как одна колонка, а в остальных нормально. Скорее всего, в файле есть значения типа `\` или `"`, которые в функциях `read.csv()`, `read.delim()`, `read.csv2()`, `read.delim2()` читаются как символы для закавычивания значений. Это может понадобиться, если у вас в таблице есть строковые значения со знаками `,` или `;`, которые могут восприниматься как разделитель столбцов.
7. Появились какие-то новые числовые колонки. Возможно неправильно поставлен разделитель дробной части. Обычно это либо `.` (`read.table()`, `read.csv()`, `read.delim()`), либо `,` (`read.csv2()`, `read.delim2()`).
Конкретно в нашем случае все прочиталось хорошо с помощью функции `read.csv()`, но в строковых переменных есть много прочерков, которые обозначают отсутствие информации по данному параметру супергероя, т.е. пропущенное значение. А вот с числовыми значениями все не так просто: для всех супергероев прописано какое-то число, но во многих случаях это `-99`. Очевидно, отрицательного роста и массы не бывает, это просто обозначение пропущенных значений (такое иногда используется). Таким образом, чтобы адекватно прочитать файл, нам нужно поменять параметр `na.strings =` функции `read.csv()`:
```{r}
heroes <- read.csv("data/heroes_information.csv",
na.strings = c("NA", "-", "-99"))
```
## Экспорт данных {#sec-export_data}
Представим, что вы хотите сохранить табличку с данными про супергероев из вселенной DC в виде отдельного файла *.csv.*
```{r}
dc <- heroes[heroes$Publisher == "DC Comics",]
```
Функция `write.csv()` позволит записать датафрейм в файл формата *.csv:*
```{r}
write.csv(dc, "data/dc_heroes_information.csv")
```
Обычно названия строк не используются, и их лучше не записывать, поставив для `row.names =` значение `FALSE`:
```{r}
write.csv(dc, "data/dc_heroes_information.csv", row.names = FALSE)
```
По аналогии с `read.csv2()`, `write.csv2()` позволит записать файлы формата .csv с разделителем `;`.
```{r}
write.csv2(dc, "data/dc_heroes_information.csv", row.names = FALSE)
```
## Импорт таблиц в бинарном формате: таблицы Excel, SPSS {#sec-binary}
Тем не менее, далеко не всегда таблицы представлены в виде текстового файла. Самый распространенный пример таблицы в бинарном виде --- родные форматы Microsoft Excel. Если Вы попробуете открыть .xlsx файл в Блокноте, то увидите кракозябры. Это делает работу с этим файлами гораздо менее удобной, поэтому стоит избегать экселевских форматов и стараться все сохранять в .csv.
Такие файлы не получится прочитать при помощи базового инструментария R. Тем не менее, для чтения таких файлов есть много дополнительных пакетов:
- файлы Microsoft Excel: лучше всего справляется пакет `readxl` (является частью расширенного tidyverse), у него есть много альтернатив (`xlsx`, `openxlsx`).
- файлы SPSS, SAS, Stata: существуют два основных пакета --- `haven` (часть расширенного tidyverse) и `foreign`.
Что такое пакеты и как их устанавливать мы изучим очень скоро.
## Импорт данных из Google Sheets {#import_googlesheets}
Все чаще "кнопочная" работа с данными переезжает из Excel в облачный Google Sheets, который обладает схожим интерфейсом и функционалом, но позволяет удобно работать нескольким пользователям одновременно.
Оттуда данные можно легко выгрузить в нужном формате. Конечно, и в .csv тоже. Но было бы удобно загружать данные из Google Sheets напрямую, по ссылке. И это вполне возможно и даже не очень трудно! Лучший пакет для этого -- `googlesheets4`.
```{r, eval = FALSE}
install.packages("googlesheets")
```
Основная функция -- read_sheet(), в ней нужно прописать ссылку, которую можно получить в "Настройках доступа" (или которую вам уже прислали).
```{r, eval = FALSE}
heroes_form_gsh <- googlesheets4::read_sheet("https://docs.google.com/spreadsheets/d/1JnkftX8H2n383V6wFBTKBqiMmj79hravsYcSeClSeo8/edit?usp=sharing")
```
После этого в консоли нужно будет выбрать Google-аккаунт:

Выбираете (в данном случае у меня только один аккаунт, поэтому пишу *`1`* и жму *`Enter`*).
После этого откроется окно в веб-браузере, в котором Google будет спрашивать, доверяете ли вы R и готовы ли дать ему доступ к чтению таблицы (разумеется, отвечаем, что да). Это нужно будет сделать всего один раз, так что в дальнейшем нажимать в веб-браузере ничего будет не нужно.
После этого таблица загрузится.
## Быстрый импорт данных {#sec-fastread}
Чтение табличных данных обычно происходит очень быстро. По крайней мере, до тех пор пока ваши данные не содержат очень много значений. Если вы попробуете прочитать с помощью `read.csv()` таблицу с миллионами строчками, то заметите, что это происходит довольно медленно. Впрочем, эта проблема эффективно решается дополнительными пакетами.
- Пакет `readr` (часть базового tidyverse) предлагает функции, очень похожие на стандартные `read.csv()`, `read.csv2()` и тому подобные, только в названиях используется нижнее подчеркивание: `read_csv()` и `read_csv2()`. Они быстрее и немного удобнее, особенно если вы работаете в tidyverse.
```{r}
readr::read_csv("data/heroes_information.csv",
na = c("-", "-99"))
```
- Пакет `vroom` - это часть расширенного tidyverse. Это такая альтернатива `readr` из того же tidyverse, но еще быстрее (отсюда и название).
```{r}
vroom::vroom("data/heroes_information.csv")
```
- Пакет `data.table` - это не просто пакет, а целый фреймворк для работы с R, основной конкурент tidyverse. Одна из основных фишек `data.table` - быстрота работы. Это касается не только процессинга данных, но и их загрузки и записи. Поэтому некоторые используют функции `data.table` для чтения и записи данных в отдельности от всего остального пакета - они даже и называются соответствующе: `fread()` и `fwrite()`, где **f** означет **f**ast[^030-import_data-2].
[^030-import_data-2]: А еще **f**riendly: `fread()` обычно самостоятельно хорошо угадывает формат таблицы на входе. `vroom` тоже так умеет.
```{r}
data.table::fread("data/heroes_information.csv")
```
Чем же пользоваться среди всего этого многообразия? [Бенчмарки](https://www.danielecook.com/speeding-up-reading-and-writing-in-r/)[^030-import_data-3] показывают, что быстрее всех `vroom` и `data.table`. Если же у вас нет задачи ускорить работу кода на несколько миллисекунд или прочитать датасет на много миллионов строк, то стандартного `read.csv()` (если вы работаете в базовом R) и `readr::read_csv()` (если вы работаете в tidyverse) должно быть достаточно.
[^030-import_data-3]: бенчмаркинг --- это тест производительности, в данном случае --- сравнение скорости работы конкурирующих пакетов.
Все перечисленные пакеты повзоляют не только быстро импортировать данные, но и быстро (и удобно!) экспортировать их:
```{r}
readr::write_csv(dc, "data/dc_heroes_information.csv")
readr::write_excel_csv(dc, "data/dc_heroes_information.csv") #Если в Excel возникают проблемы с кодировками при открытии созданного .csv файла, то эта функция решает эти проблемы
vroom::vroom_write(dc, "data/dc_heroes_information.csv", delim = ",")
data.table::fwrite(dc, "data/dc_heroes_information.csv")
```
В плане скорости записи файлов соотношение сил примерно такое же, как и для чтения: `vroom` и `data.table` обгоняют всех, затем идет `readr`, и только после него - базовые функции R.