Clase 2: Exploratory Data Analysis (EDA)
El
Analisis Exploratorio de Datos
(EDA, por sus siglas en inglés) es procedimiento en el cual se analiza un dataset para explorar sus características principales.
La visualización de datos es la presentación de datos en forma gráfica. Permite simplificar conceptos más complejos en especial a altos mandos.
Gracias a la evolución del cerebro humano somos capaces de detectar patrones complejos en la naturaleza a partir de la
Visión
.
Puede ser difícil de aplicar si el tamaño de los datos es grande (sea en instancias o atributos). Por ejemplo, si los datos están en 4 dimensiones.
estadísticas simples
.En caso de datos de alta dimensionalidad puede ser una buena idea reducir dimensiones mediante técnicas como:
El histograma permite visualizar distribuciones univariadas acumulando los datos en rangos de igual tamaño (
bins
).
centro
, la extensión
, la asimetría
y outliers
.bins
.Corresponde a un suavizamiento de un Histograma en el cuál se usa un
Kernel
(función no negativa que suma 1 y tiene media 0) para agrupar los puntos vecinos.
La altura de la barra (normalmente Eje y) representa una agregación asociada a una categoría (normalmente Eje x).
Column Plot
, mientras que el Bar Plot
tiene las barras de manera horizontal.Gráfico empleado para mostrar distribución de datos bivariados
Gráfico empleado para visualizar tendencias y su evolución de una medida (Eje Y) en el tiempo (Eje X).