Demo: Evaluación de Modelos

Curva ROC (Receiver Operating Characteristic)

La curva ROC muestra la relación entre la tasa de verdaderos positivos (TPR) y la tasa de falsos positivos (FPR) a diferentes umbrales de clasificación. El área bajo la curva (AUC) es una métrica de desempeño clave.

💡 Tip: Una curva más cercana a la esquina superior izquierda indica un mejor clasificador. Un AUC de 1.0 es un clasificador perfecto.

💡 Interpretación: La curva ROC muestra cómo varía la Tasa de Verdaderos Positivos (TPR) frente a la Tasa de Falsos Positivos (FPR) a diferentes umbrales. Un modelo perfecto alcanza la esquina superior izquierda (TPR=1, FPR=0).

Área Bajo la Curva

0.50

Modelo aleatorio

🎛️ AUC objetivo

Aleatorio (0.50) 0.50 Perfecto (0.99)

Umbral: Mueve el cursor sobre la curva para ver TPR y FPR

⚡ Modelos Predefinidos

📖 Interpretación de AUC

AUC < 0.60: Muy pobre, peor que aleatorio

0.60 – 0.80: Aceptable, el modelo es útil

0.80 – 0.90: Excelente, muy buen rendimiento

AUC > 0.90: Sobresaliente, casi perfecto

← Volver al inicio

F1 Score

El F1 Score es la media armónica entre precisión y recall. Es útil cuando buscas un balance entre ambas métricas, especialmente en datasets desbalanceados.

📊 Fórmula: F1 = 2 × (Precisión × Recall) / (Precisión + Recall)

📍 Precisión

0.75

¿Qué es? De las predicciones positivas del modelo, ¿cuántas eran correctas?

🎯 Recall (Sensibilidad)

0.75

¿Qué es? De todos los casos positivos reales, ¿cuántos detectó el modelo?

Puntuación F1

0.750

Bueno (0.7 – 0.9)

Media Armónica (F1):

F1 = 2 × (P × R) / (P + R)

La media armónica penaliza valores bajos más que la media aritmética. Si uno es muy bajo, el F1 es bajo.

💡 Insight clave: El F1 Score sólo es alto cuando AMBOS Precisión y Recall son altos. Un valor bajo arrastra toda la puntuación hacia abajo, mucho más que lo haría la media aritmética.

📈 Comparación de Medias

Observa cómo la Media Armónica (F1) penaliza el desequilibrio más que la Media Aritmética

0.750

Media
Aritmética

0.750

Media
Armónica (F1)

🗺️ Mapa de Calor: F1 Score

Cada punto representa un F1 Score para cada combinación de Precisión (X) y Recall (Y)

🎨 Zonas de Interpretación

✨ Excelente

F1 > 0.9

👍 Bueno

0.7 – 0.9

⚠️ Regular

0.5 – 0.7

❌ Malo

F1 < 0.5

← Volver al inicio

Matriz de Confusión

La matriz de confusión muestra el número de predicciones correctas e incorrectas desglosadas por clase. Es fundamental para calcular otras métricas como precisión, recall y F1 score.

🔍 Componentes: Verdaderos Positivos (TP), Falsos Positivos (FP), Verdaderos Negativos (TN), Falsos Negativos (FN)

🎛️ Controles

Verdaderos Positivos (TP)

70

Predicciones positivas correctas. El modelo predijo "sí" y era correcto.

Verdaderos Negativos (TN)

75

Predicciones negativas correctas. El modelo predijo "no" y era correcto.

Falsos Positivos (FP)

10

Predicciones positivas incorrectas. El modelo predijo "sí" pero era "no".

Falsos Negativos (FN)

15

Predicciones negativas incorrectas. El modelo predijo "no" pero era "sí".

📋 Escenarios Predefinidos

📈 Matriz y Métricas

Predijo: Positivo

Predijo: Negativo

Real: Positivo

TP

70

70%

FN

15

15%

Real: Negativo

FP

10

10%

TN

75

75%

Predicciones correctas

Predicciones incorrectas

Exactitud (Accuracy)

78.57%

(TP + TN) / Total

Precisión

87.50%

TP / (TP + FP)

Recall (Sensibilidad)

82.35%

TP / (TP + FN)

F1 Score

84.85%

Media armónica de P y R

Especificidad

88.24%

TN / (TN + FP)

MCC

0.649

Coeficiente Matthews

← Volver al inicio

Accuracy y Coeficiente de Correlación de Matthews (MCC)

La Exactitud (Accuracy) es el porcentaje de predicciones correctas. El MCC es una métrica más robusta que considera todos los elementos de la matriz de confusión, especialmente útil con datos desbalanceados.

✓ Accuracy: (TP + TN) / Total | 📈 MCC: Mejor para datos desbalanceados

⚙️ Parámetros

Muestras Positivas

100

Muestras Negativas

900

Tasa de Verdaderos Positivos (TP%)

80%

Tasa de Falsos Positivos (FP%)

10%

📋 Escenarios Predefinidos

📈 Matriz de Confusión

Predicción: Positivo

Predicción: Negativo

Real: Positivo

TP80

FN20

Real: Negativo

FP90

TN810

🎯 Definiciones
TP: Predicciones positivas correctas
TN: Predicciones negativas correctas
FP: Positivas incorrectas (Tipo I)
FN: Negativas incorrectas (Tipo II)

📐 Fórmula del MCC

MCC = (TP×TN - FP×FN) / √((TP+FP)(TP+FN)(TN+FP)(TN+FN))

= (80×810 - 90×20) / √((170)(100)(900)(830))

📊 Métricas

Exactitud (Accuracy)

88.0%

(TP+TN) / Total

F1-Score

64.5%

Media armónica de Precisión y Recall

MCC (Coef. Correlación Matthews)

0.000

Rango: -1 (peor) · 0 (aleatorio) · +1 (perfecto)

📋 Comparación Visual

88%

Accuracy

65%

F1-Score

50%

MCC

⚡ Insight Clave
Con datos desbalanceados, un modelo que siempre predice la clase mayoritaria puede obtener una Accuracy muy alta, pero un MCC cercano a 0.

← Volver al inicio

Precisión y Recall (Sensibilidad)

La Precisión mide qué porcentaje de predicciones positivas fueron correctas. El Recall mide qué porcentaje de casos positivos fueron identificados correctamente.

🎯 Precisión: TP / (TP + FP) | 🔔 Recall: TP / (TP + FN)

📊 Gráfico de Clasificación

Clase Positiva (Real)

Clase Negativa (Real)

Línea vertical naranja: Umbral de decisión

⚙️ Controles

Umbral de Decisión

0.50

💡 ¿Qué está sucediendo?
Umbral bajo: El modelo predice más positivos → ⬆️ Recall, ⬇️ Precisión.
Umbral alto: El modelo es más conservador → ⬆️ Precisión, ⬇️ Recall.
El equilibrio: El F1-score busca el balance entre ambas métricas.

Precisión 🎯

-

VP / (VP + FP)

Recall 📈

-

VP / (VP + FN)

F1-Score ⚖️

-

2 × (P × R) / (P + R)

📋 Matriz de Confusión

Predicho Positivo

Predicho Negativo

Real Positivo

VP

-

FN

-

Real Negativo

FP

-

VN

-

← Volver al inicio

Métricas para Regresión

Para problemas de regresión, usamos diferentes métricas que evalúan qué tan cercanas son las predicciones a los valores reales. Las principales son MAE, MSE, RMSE y R².

📐 MAE: Error Medio Absoluto | 📊 MSE: Error Cuadrático Medio | 📈 RMSE: Raíz del Error Cuadrático Medio | 🎯 R²: Coeficiente de Determinación

📈 Visualización de Regresión

🔢 Pendiente (Slope)0.80

📍 Intersección (Intercept)2.00

🌪️ Ruido en Datos0.5

📊 Número de Puntos30

Leyenda de Residuos:

Error pequeño (< promedio)

Error moderado (≈ promedio)

Error grande (> promedio)

MAE 📏

0.00

Error Absoluto Medio — Promedio de errores sin penalizar grandes desvíos

MSE 🎯

0.00

Error Cuadrado Medio — Penaliza más los errores grandes

RMSE 📊

0.00

Raíz del MSE — En las mismas unidades que Y

R² 🎪

0.00

Coef. Determinación — Proporción de varianza explicada

🔍 ¿Cuándo usar MAE?

Cuando cada error tiene la misma importancia, independientemente de su magnitud. Menos sensible a valores atípicos que MSE.

⚡ ¿Cuándo usar RMSE?

Cuando los errores grandes son más importantes. Es la métrica más común. Penaliza mucho más que MAE los valores atípicos.

🎯 ¿Cuándo usar R²?

Para entender qué porcentaje de variabilidad explica tu modelo. Útil para comparar modelos (0 = malo, 1 = perfecto).

💡 Prueba el botón "Atípico"

Añade un valor extremo y observa cómo MAE cambia poco, pero MSE y RMSE se disparan, demostrando la sensibilidad a outliers.