Para comenzar se debe descargar R, esta descarga incluye R básico y un editor de textos para escribir código. Después de descargar R se recomienda descargar RStudio (gratis y libre).
RStudio es un ambiente de desarrollo integrado para R: incluye una consola, un editor de texto y un conjunto de herramientas para administrar el espacio de trabajo cuando se utiliza R.
Algunos shortcuts útiles en RStudio som:
En el editor
En la consola
La mejor manera de usar R para análisis de datos es aprovechando la gran cantidad de paquetes que aportan funcionalidad adicional. Desde Rstudio podemos instalar paquetes (Tools - > Install packages o usar la función install.packages(nombre_paquete)). Una vez instalados, podemos cargarlos a nuestra sesión de R mediante library. Por ejemplo, para cargar el paquete readr hacemos
library(readr)
print(read_csv)
## function (file, col_names = TRUE, col_types = NULL, locale = default_locale(),
## na = c("", "NA"), comment = "", trim_ws = TRUE, skip = 0,
## n_max = -1, progress = interactive())
## {
## tokenizer <- tokenizer_csv(na = na, comment = comment, trim_ws = trim_ws)
## read_delimited(file, tokenizer, col_names = col_names, col_types = col_types,
## locale = locale, skip = skip, comment = comment, n_max = n_max,
## progress = progress)
## }
## <environment: namespace:readr>
read_csv es una función que aporta el paquete readr.
Los paquetes básicos que necesitaremos para análisis de datos son (en este juego de notas solo usaremos readr y ggplot2):
readr y readxl para leer datostidyr manipulación de datoslubridate para manejar fechasdplyr filtros, cálculos y agregación de datos.ggplot2 graficarlibrary(lubridate)
library(ggplot2)
library(readr)
library(tidyr)
library(dplyr)
##
## Attaching package: 'dplyr'
##
## The following objects are masked from 'package:lubridate':
##
## intersect, setdiff, union
##
## The following objects are masked from 'package:stats':
##
## filter, lag
##
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
En R se puede trabajar con distintas estructuras de datos, algunas son de una sola dimensión y otras permiten más, como indica el diagrama de abajo:
nosotros trabajaremos principalmente con vectores y data frames.