TICS-411 Minería de Datos

Clase 10: Árboles de Decisión

Alfonso Tobar-Arancibia

alfonso.tobar.a@edu.uai.cl

Árboles de Decisión

Técnica de clasificación supervisada que genera una decisión basada en árboles de decisión para clasificar instancias no conocidas.

Árboles de Decisión: Ejemplo

Visualmente, un árbol de decisión segmenta el espacio separando los datos en subgrupos.

Esto permite la generacion de fronteras de decisión sumamente complejas.

Supongamos el siguiente ejemplo:

Árboles de Decisión: Frontera de Decisión

Árboles de Decisión: Frontera de Decisión

¿Cuál sería el Nivel de Ajuste de un modelo de este tipo?

Árboles de Decisión: Inferencia

Una vez construido el árbol de decisión basta con recorrerlo para poder generar la predicción para una instancia dada:

Características de Árboles

Pueden trabajar con valores discretos o continuos. Además pueden ser usados como modelos de Clasificación o Regresíon.
Una vez seleccionado un atributo no es posible devolverse (backtracking).
Debido al poder de un árbol de Decisión la mayoría de las veces tienden al Overfitting. Una forma de evitar esto es usar técnicas de Pruning.
Es preferible usar árboles cortos (Principio de Parsimonia o Occam's Razor).

El principio de Parsimonia recomienda encontrar soluciones a problemas utilizando la menor cantidad de elementos/parámetros.

Tipos de Árboles de Decisión

Hunt’s Algorithm \(\implies\) Primer Método.
ID3 \(\implies\) Sólo utiliza variables categóricas.
C4.5 \(\implies\) incluye variables continuas.
C5.0 \(\implies\) Permite separación en Múltiples Splits (No ha sido implementado en Sklearn).
CART (Classification and Regression Trees) \(\implies\) Permite que el output sea continuo pero solo utilizando Splits binarios.

Los CARTs son por lejos los árboles más utilizados en las librerías más famosas y potentes: Scikit-Learn, XGboost, LightGBM, Catboost.

Creación de un Árbol de Decisión

Pureza: Corresponde a la probabilidad de no sacar dos registros de un Nodo que pertenezcan a la misma clase.

El árbol de Decisión busca crear Nodos lo más puro posible. Para ello puede utilizar las siguentes métricas:

Índice Gini

\[Gini(X) = 1 - \sum_{x_i}p(x_i)^2\]

Entropía

\[H(X) = -\sum_{x_i}p(x_i)log_2p(x_i)\]

A mayor valor, mayor nivel de impureza. 0 implica Nodo completamente puro.

Árbol de Decisión: Ejemplo

Cálculo de Impureza en Hoja

\[Gini_{(leaf)} = 1 - p(Yes)^2 - p(No)^2\]

Cálculo de Impureza en Split

\[ Gini_{(split)} = \frac{n_{(yes)}}{n} Gini_{(yes)} + \frac{n_{(no)}}{n} Gini_{(no)}\]

Árbol de Decisión: Raíz Popcorn

\[Gini_{(yes)} = 1 - \left(\frac{1}{4}\right)^2 - \left(\frac{3}{4}\right)^2 = 0.375\] \[Gini_{(no)} = 1 - \left(\frac{2}{3}\right)^2 - \left(\frac{1}{3}\right)^2 = 0.444\]

\[Gini_{(split)} = \frac{4}{7}\cdot 0.375 + \frac{3}{7} \cdot 0.444 = 0.405\]

Árbol de Decisión: Raíz Soda

\[Gini_{(yes)} = 1 - \left(\frac{3}{4}\right)^2 - \left(\frac{1}{4}\right)^2 = 0.375\] \[Gini_{(no)} = 1 - \left(\frac{0}{3}\right)^2 - \left(\frac{3}{3}\right)^2 = 0\]

\[Gini_{(split)} = \frac{4}{7}\cdot 0.375 = 0.214\]