Tratamiento de Datos para el Aprendizaje Automático

Demo interactiva — Tema 2: Tratamiento de datos

Outliers
Asimetría
Boxplot
Encoding
Partición

Efecto de los outliers en media y mediana

Observa cómo un valor extremo (outlier) afecta drásticamente a la media, pero apenas afecta a la mediana. Mueve el deslizador para explorar el impacto.

Valor del outlier: 40
Media (μ)
Mediana (M)

Concepto clave: La media es sensible a valores extremos, mientras que la mediana es robusta y resistente a outliers.

Media (μ)
Mediana (M)
Rango
Diferencia (μ−M)

Mueve el deslizador para ver el efecto del outlier.

Asimetría (Skewness)

Ajusta el deslizador para ver cómo cambia la forma de la distribución y la posición relativa de media, mediana y moda.

Asimetría: 0.00
Media (μ)
Mediana
Moda

Concepto clave: La asimetría mide la simetría de la distribución. Valores negativos → cola a la izquierda; positivos → cola a la derecha; cero → simetría perfecta.

Curtosis (Kurtosis)

Compara las tres formas de distribución según su curtosis: platicúrtica (achatada), mesocúrtica (normal) y leptocúrtica (puntiaguda).

Curtosis: 3.00
Platicúrtica
(Achatada)
Mesocúrtica
(Normal)
Leptocúrtica
(Puntiaguda)

Concepto clave: La curtosis mide la concentración de datos en las colas. La distribución normal tiene curtosis = 3 (exceso de curtosis = 0).

Construcción de un Boxplot paso a paso

Visualiza paso a paso cómo se construye un diagrama de caja a partir de un conjunto de datos.

Paso 1/8: Datos sin procesar en una recta numérica
Mínimo
Q1
Mediana (Q2)
Q3
Máximo
RIQ (IQR)

Nota pedagógica: El boxplot resume la distribución en cinco valores clave: mínimo, Q1, mediana, Q3 y máximo. Es útil para identificar simetría, dispersión y outliers.

Codificación de variables categóricas

Los algoritmos de ML necesitan números, no texto. Compara Label Encoding vs One-Hot Encoding.

Antes (datos originales)

NombreColor favoritoPuntuación
AnaRojo85
LuisAzul92
MaríaVerde78
CarlosRojo88

Escalado de características numéricas

Las escalas muy diferentes pueden sesgar los algoritmos. Compara MinMaxScaler vs StandardScaler.

Antes (escalas diferentes)

El Laboratorio de Partición

Explora cómo las decisiones de partición (train/val/test) afectan el rendimiento del modelo.

Distribuir datos

Entrenamiento (Train)60%
Validación (Val)20%
Prueba (Test)20%
Clase 0 (Train)
Clase 1 (Train)
Validación
Prueba
Entrenamiento
Validación
Prueba
Conjunto de entrenamiento muy pequeño: Con tan pocos datos de entrenamiento, el modelo no puede aprender patrones.
Conjunto de prueba muy pequeño: La estimación de rendimiento no es confiable.
Sin conjunto de validación: No puedes ajustar hiperparámetros ni detectar sobreajuste.
SOBREAJUSTE DETECTADO: La precisión en entrenamiento es mucho mayor que en prueba.
FUGA DE DATOS SIMULADA: La precisión en prueba es artificialmente alta.

Escenarios predefinidos: Haz clic para cargar un ejemplo ilustrativo.