Recently Published
Proyecto de clasificación de vinos
Este proyecto presenta un análisis comparativo completo entre Gaussian Naive Bayes y K-Nearest Neighbors (KNN) aplicado al clásico dataset Wine de UCI, utilizando el ecosistema R y R Markdown para garantizar reproducibilidad total.
El flujo de trabajo sigue un enfoque riguroso y profesional que abarca:
Análisis exploratorio profundo: distribuciones, pruebas de normalidad (Shapiro-Wilk), asimetría, correlaciones y balance de clases.
Preprocesamiento justificado: transformación logarítmica selectiva de variables asimétricas (Ácido Málico y Magnesio) para mejorar la adherencia a los supuestos gaussianos.
Modelado y evaluación exhaustiva: partición estratificada 70/30, validación cruzada repetida (10×5 = 50 iteraciones), optimización de hiperparámetros (KNN), comparación de métricas (Accuracy, Kappa) y test de McNemar.
Visualizaciones publication-ready: histogramas comparativos, matriz de correlación, fronteras de decisión, distribuciones por clase y análisis de errores.
Validación adicional: predicción en casos sintéticos nuevos y análisis de probabilidades de clase (Naive Bayes).
Miniproyecto: Clasificación Multiclase de Hongos con Naive Bayes Categórico | Análisis del Dataset Mushroom
Este análisis explora el clásico dataset Mushroom de UCI (8.124 observaciones, 23 variables categóricas) para clasificar hongos como comestibles (e) o venenosos (p) utilizando Naive Bayes Categórico en R.
Aspectos clave del proyecto:
- Descarga automática y limpieza del dataset (tratamiento de valores faltantes "?").
- Análisis exploratorio detallado: distribución de clases, poder discriminativo de variables (especialmente odor).
- Modelado con Naive Bayes: comparación entre modelo simple (solo odor) y completo (todas las variables).
- Validación cruzada 10-fold y partición train/test.
- Comparación adicional con KNN (one-hot encoding + tuning de k).
- Visualizaciones claras y métricas interpretadas (Accuracy, matriz de confusión, falsos negativos).
Hallazgos principales:
- El modelo Naive Bayes con solo la variable odor alcanza 98.89% accuracy en test y 98.52% en CV — ¡superior al modelo completo (95.01%)!
- Confirmación empírica de la dilución de señal al agregar variables redundantes.
- KNN logra hasta 100% accuracy con k óptimo, pero requiere mayor preprocesamiento y pierde interpretabilidad.
- Validación del principio de parsimonia: la simplicidad gana.
Primer proyecto machine learning en R
métodos de regularización(ridge, lasso,elastic net)