Demo: Tratamiento de Datos para el Aprendizaje Automático

Efecto de los outliers en media y mediana

Observa cómo un valor extremo (outlier) afecta drásticamente a la media, pero apenas afecta a la mediana. Mueve el deslizador para explorar el impacto.

Valor del outlier: 40

Media (μ)

Mediana (M)

Concepto clave: La media es sensible a valores extremos, mientras que la mediana es robusta y resistente a outliers.

—

Media (μ)

—

Mediana (M)

—

Rango

—

Diferencia (μ−M)

Mueve el deslizador para ver el efecto del outlier.

Asimetría (Skewness)

Ajusta el deslizador para ver cómo cambia la forma de la distribución y la posición relativa de media, mediana y moda.

Asimetría: 0.00

Media (μ)

Mediana

Moda

Concepto clave: La asimetría mide la simetría de la distribución. Valores negativos → cola a la izquierda; positivos → cola a la derecha; cero → simetría perfecta.

Curtosis (Kurtosis)

Compara las tres formas de distribución según su curtosis: platicúrtica (achatada), mesocúrtica (normal) y leptocúrtica (puntiaguda).

Curtosis: 3.00

Platicúrtica
(Achatada)

Mesocúrtica
(Normal)

Leptocúrtica
(Puntiaguda)

Concepto clave: La curtosis mide la concentración de datos en las colas. La distribución normal tiene curtosis = 3 (exceso de curtosis = 0).

Construcción de un Boxplot paso a paso

Visualiza paso a paso cómo se construye un diagrama de caja a partir de un conjunto de datos.

Paso 1/8: Datos sin procesar en una recta numérica

—

Mínimo

—

Q1

—

Mediana (Q2)

—

Q3

—

Máximo

—

RIQ (IQR)

Nota pedagógica: El boxplot resume la distribución en cinco valores clave: mínimo, Q1, mediana, Q3 y máximo. Es útil para identificar simetría, dispersión y outliers.

Codificación de variables categóricas

Los algoritmos de ML necesitan números, no texto. Compara Label Encoding vs One-Hot Encoding.

Antes (datos originales)

Nombre	Color favorito	Puntuación
Ana	Rojo	85
Luis	Azul	92
María	Verde	78
Carlos	Rojo	88

Escalado de características numéricas

Las escalas muy diferentes pueden sesgar los algoritmos. Compara MinMaxScaler vs StandardScaler.

Antes (escalas diferentes)

El Laboratorio de Partición

Explora cómo las decisiones de partición (train/val/test) afectan el rendimiento del modelo.

Distribuir datos

Entrenamiento (Train)60%

Validación (Val)20%

Prueba (Test)20%

Mezclar datos (shuffle)

Clase 0 (Train)

Clase 1 (Train)

Validación

Prueba

Entrenamiento

—

Validación

—

Prueba

—

Conjunto de entrenamiento muy pequeño: Con tan pocos datos de entrenamiento, el modelo no puede aprender patrones.

Conjunto de prueba muy pequeño: La estimación de rendimiento no es confiable.

Sin conjunto de validación: No puedes ajustar hiperparámetros ni detectar sobreajuste.

SOBREAJUSTE DETECTADO: La precisión en entrenamiento es mucho mayor que en prueba.

FUGA DE DATOS SIMULADA: La precisión en prueba es artificialmente alta.

Escenarios predefinidos: Haz clic para cargar un ejemplo ilustrativo.

Tratamiento de Datos para el Aprendizaje Automático

Efecto de los outliers en media y mediana

Asimetría (Skewness)

Curtosis (Kurtosis)

Construcción de un Boxplot paso a paso

Codificación de variables categóricas

Antes (datos originales)

Después (codificado)

Escalado de características numéricas

Antes (escalas diferentes)

Después (normalizado)

El Laboratorio de Partición

Distribuir datos