Evaluación de Modelos

Demo interactiva — Tema 3: Métricas y herramientas de evaluación

Matriz Confusión
Precisión & Recall
F1 Score
Curva ROC
MCC & Accuracy
Métricas Regresión
← Volver al inicio

Curva ROC (Receiver Operating Characteristic)

La curva ROC muestra la relación entre la tasa de verdaderos positivos (TPR) y la tasa de falsos positivos (FPR) a diferentes umbrales de clasificación. El área bajo la curva (AUC) es una métrica de desempeño clave.

💡 Tip: Una curva más cercana a la esquina superior izquierda indica un mejor clasificador. Un AUC de 1.0 es un clasificador perfecto.

💡 Interpretación: La curva ROC muestra cómo varía la Tasa de Verdaderos Positivos (TPR) frente a la Tasa de Falsos Positivos (FPR) a diferentes umbrales. Un modelo perfecto alcanza la esquina superior izquierda (TPR=1, FPR=0).

Área Bajo la Curva
0.50
Modelo aleatorio

🎛️ AUC objetivo

Aleatorio (0.50) 0.50 Perfecto (0.99)
Umbral: Mueve el cursor sobre la curva para ver TPR y FPR

⚡ Modelos Predefinidos

📖 Interpretación de AUC

AUC < 0.60: Muy pobre, peor que aleatorio
0.60 – 0.80: Aceptable, el modelo es útil
0.80 – 0.90: Excelente, muy buen rendimiento
AUC > 0.90: Sobresaliente, casi perfecto
← Volver al inicio

F1 Score

El F1 Score es la media armónica entre precisión y recall. Es útil cuando buscas un balance entre ambas métricas, especialmente en datasets desbalanceados.

📊 Fórmula: F1 = 2 × (Precisión × Recall) / (Precisión + Recall)

0.75

¿Qué es? De las predicciones positivas del modelo, ¿cuántas eran correctas?

0.75

¿Qué es? De todos los casos positivos reales, ¿cuántos detectó el modelo?

Puntuación F1
0.750
Bueno (0.7 – 0.9)
Media Armónica (F1):
F1 = 2 × (P × R) / (P + R)
La media armónica penaliza valores bajos más que la media aritmética. Si uno es muy bajo, el F1 es bajo.

💡 Insight clave: El F1 Score sólo es alto cuando AMBOS Precisión y Recall son altos. Un valor bajo arrastra toda la puntuación hacia abajo, mucho más que lo haría la media aritmética.

📈 Comparación de Medias

Observa cómo la Media Armónica (F1) penaliza el desequilibrio más que la Media Aritmética

0.750
Media
Aritmética
0.750
Media
Armónica (F1)
🗺️ Mapa de Calor: F1 Score

Cada punto representa un F1 Score para cada combinación de Precisión (X) y Recall (Y)

🎨 Zonas de Interpretación
✨ Excelente
F1 > 0.9
👍 Bueno
0.7 – 0.9
⚠️ Regular
0.5 – 0.7
❌ Malo
F1 < 0.5
← Volver al inicio

Matriz de Confusión

La matriz de confusión muestra el número de predicciones correctas e incorrectas desglosadas por clase. Es fundamental para calcular otras métricas como precisión, recall y F1 score.

🔍 Componentes: Verdaderos Positivos (TP), Falsos Positivos (FP), Verdaderos Negativos (TN), Falsos Negativos (FN)

🎛️ Controles
70
Predicciones positivas correctas. El modelo predijo "sí" y era correcto.
75
Predicciones negativas correctas. El modelo predijo "no" y era correcto.
10
Predicciones positivas incorrectas. El modelo predijo "sí" pero era "no".
15
Predicciones negativas incorrectas. El modelo predijo "no" pero era "sí".
📈 Matriz y Métricas
Predijo: Positivo
Predijo: Negativo
Real: Positivo
TP
70
70%
FN
15
15%
Real: Negativo
FP
10
10%
TN
75
75%
Predicciones correctas
Predicciones incorrectas
Exactitud (Accuracy)
78.57%
(TP + TN) / Total
Precisión
87.50%
TP / (TP + FP)
Recall (Sensibilidad)
82.35%
TP / (TP + FN)
F1 Score
84.85%
Media armónica de P y R
Especificidad
88.24%
TN / (TN + FP)
MCC
0.649
Coeficiente Matthews
← Volver al inicio

Accuracy y Coeficiente de Correlación de Matthews (MCC)

La Exactitud (Accuracy) es el porcentaje de predicciones correctas. El MCC es una métrica más robusta que considera todos los elementos de la matriz de confusión, especialmente útil con datos desbalanceados.

✓ Accuracy: (TP + TN) / Total | 📈 MCC: Mejor para datos desbalanceados

⚙️ Parámetros
100
900
80%
10%

📋 Escenarios Predefinidos

📈 Matriz de Confusión
Predicción: Positivo
Predicción: Negativo
Real: Positivo
TP80
FN20
Real: Negativo
FP90
TN810

🎯 Definiciones
TP: Predicciones positivas correctas
TN: Predicciones negativas correctas
FP: Positivas incorrectas (Tipo I)
FN: Negativas incorrectas (Tipo II)

📐 Fórmula del MCC

MCC = (TP×TN - FP×FN) / √((TP+FP)(TP+FN)(TN+FP)(TN+FN))

= (80×810 - 90×20) / √((170)(100)(900)(830))
📊 Métricas
Exactitud (Accuracy)
88.0%

(TP+TN) / Total

F1-Score
64.5%

Media armónica de Precisión y Recall

MCC (Coef. Correlación Matthews)
0.000

Rango: -1 (peor) · 0 (aleatorio) · +1 (perfecto)

📋 Comparación Visual
88%
Accuracy
65%
F1-Score
50%
MCC

⚡ Insight Clave
Con datos desbalanceados, un modelo que siempre predice la clase mayoritaria puede obtener una Accuracy muy alta, pero un MCC cercano a 0.

← Volver al inicio

Precisión y Recall (Sensibilidad)

La Precisión mide qué porcentaje de predicciones positivas fueron correctas. El Recall mide qué porcentaje de casos positivos fueron identificados correctamente.

🎯 Precisión: TP / (TP + FP) | 🔔 Recall: TP / (TP + FN)

📊 Gráfico de Clasificación
Clase Positiva (Real)
Clase Negativa (Real)

Línea vertical naranja: Umbral de decisión

⚙️ Controles
0.50

💡 ¿Qué está sucediendo?
Umbral bajo: El modelo predice más positivos → ⬆️ Recall, ⬇️ Precisión.
Umbral alto: El modelo es más conservador → ⬆️ Precisión, ⬇️ Recall.
El equilibrio: El F1-score busca el balance entre ambas métricas.

Precisión 🎯

-

VP / (VP + FP)

Recall 📈

-

VP / (VP + FN)

F1-Score ⚖️

-

2 × (P × R) / (P + R)

📋 Matriz de Confusión
Predicho Positivo
Predicho Negativo
Real Positivo
VP
-
FN
-
Real Negativo
FP
-
VN
-
← Volver al inicio

Métricas para Regresión

Para problemas de regresión, usamos diferentes métricas que evalúan qué tan cercanas son las predicciones a los valores reales. Las principales son MAE, MSE, RMSE y R².

📐 MAE: Error Medio Absoluto | 📊 MSE: Error Cuadrático Medio | 📈 RMSE: Raíz del Error Cuadrático Medio | 🎯 R²: Coeficiente de Determinación

📈 Visualización de Regresión
🔢 Pendiente (Slope)0.80
📍 Intersección (Intercept)2.00
🌪️ Ruido en Datos0.5
📊 Número de Puntos30
Leyenda de Residuos:
Error pequeño (< promedio)
Error moderado (≈ promedio)
Error grande (> promedio)
MAE 📏
0.00
Error Absoluto Medio — Promedio de errores sin penalizar grandes desvíos
MSE 🎯
0.00
Error Cuadrado Medio — Penaliza más los errores grandes
RMSE 📊
0.00
Raíz del MSE — En las mismas unidades que Y
R² 🎪
0.00
Coef. Determinación — Proporción de varianza explicada

🔍 ¿Cuándo usar MAE?

Cuando cada error tiene la misma importancia, independientemente de su magnitud. Menos sensible a valores atípicos que MSE.

⚡ ¿Cuándo usar RMSE?

Cuando los errores grandes son más importantes. Es la métrica más común. Penaliza mucho más que MAE los valores atípicos.

🎯 ¿Cuándo usar R²?

Para entender qué porcentaje de variabilidad explica tu modelo. Útil para comparar modelos (0 = malo, 1 = perfecto).

💡 Prueba el botón "Atípico"

Añade un valor extremo y observa cómo MAE cambia poco, pero MSE y RMSE se disparan, demostrando la sensibilidad a outliers.