El ambiente y el lenguaje R

¿Qué es R?
  • R es un lenguaje de programación y un ambiente de cómputo estadístico
  • R es software libre (no dice qué puedes o no hacer con el software), de código abierto (todo el código de R se puede inspeccionar - y se inspecciona).
  • Cuando instalamos R, instala la base de R. Mucha de la funcionalidad adicional está en paquetes que la comunidad contribuye.
¿Cómo entender R?
  • Hay una sesión de R corriendo. La consola de R es la interfaz entre R y nosotros.
  • En la sesión hay objetos. Todo en R es un objeto: vectores, tablas, funciones, etc.
  • Operamos aplicando funciones a los objetos y creando nuevos objetos.
¿Por qué R?
  • R funciona en casi todas las plataformas (Mac, Windows, Linux e incluso en Playstation 3).
  • R es un lenguaje de programación completo, permite desarrollo de DSLs.
  • R promueve la investigación reproducible.
  • R está actualizado gracias a que tiene una activa comunidad. Solo en CRAN hay cerca de 4000 paquetes (funcionalidad adicional de R creadas creada por la comunidad).
  • R se puede combinar con otras herramientas.
  • R tiene capacidades gráficas muy sofisticadas.
  • R es popular (la guerra del software).

Descargar R y RStudio

Para comenzar se debe descargar R, esta descarga incluye R básico y un editor de textos para escribir código. Después de descargar R se recomienda descargar RStudio (gratis y libre).

RStudio es un ambiente de desarrollo integrado para R: incluye una consola, un editor de texto y un conjunto de herramientas para administrar el espacio de trabajo cuando se utiliza R.

Algunos shortcuts útiles en RStudio som:

En el editor

  • command/ctrl + enter: enviar código a la consola
  • ctrl + 2: mover el cursor a la consola

En la consola

  • flecha hacia arriba: recuperar comandos pasados
  • ctrl + flecha hacia arriba: búsqueda en los comandos
  • ctrl + 1: mover el cursor al editor

Introducción

La mejor manera de usar R para análisis de datos es aprovechando la gran cantidad de paquetes que aportan funcionalidad adicional. Desde Rstudio podemos instalar paquetes (Tools - > Install packages o usar la función install.packages(nombre_paquete)). Una vez instalados, podemos cargarlos a nuestra sesión de R mediante library. Por ejemplo, para cargar el paquete readr hacemos

library(readr)
print(read_csv)
## function (file, col_names = TRUE, col_types = NULL, locale = default_locale(), 
##     na = c("", "NA"), comment = "", trim_ws = TRUE, skip = 0, 
##     n_max = -1, progress = interactive()) 
## {
##     tokenizer <- tokenizer_csv(na = na, comment = comment, trim_ws = trim_ws)
##     read_delimited(file, tokenizer, col_names = col_names, col_types = col_types, 
##         locale = locale, skip = skip, comment = comment, n_max = n_max, 
##         progress = progress)
## }
## <environment: namespace:readr>

read_csv es una función que aporta el paquete readr.

Los paquetes básicos que necesitaremos para análisis de datos son (en este juego de notas solo usaremos readr y ggplot2):

  1. readr y readxl para leer datos
  2. tidyr manipulación de datos
  3. lubridate para manejar fechas
  4. dplyr filtros, cálculos y agregación de datos.
  5. ggplot2 graficar
library(lubridate)
library(ggplot2)
library(readr)
library(tidyr)
library(dplyr)
## 
## Attaching package: 'dplyr'
## 
## The following objects are masked from 'package:lubridate':
## 
##     intersect, setdiff, union
## 
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## 
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

Estructuras de datos

En R se puede trabajar con distintas estructuras de datos, algunas son de una sola dimensión y otras permiten más, como indica el diagrama de abajo:

nosotros trabajaremos principalmente con vectores y data frames.