gravatar

Alej5ndro

Alejandro Figueroa Rojas

Recently Published

Proyecto de clasificación de vinos
Este proyecto presenta un análisis comparativo completo entre Gaussian Naive Bayes y K-Nearest Neighbors (KNN) aplicado al clásico dataset Wine de UCI, utilizando el ecosistema R y R Markdown para garantizar reproducibilidad total. El flujo de trabajo sigue un enfoque riguroso y profesional que abarca: Análisis exploratorio profundo: distribuciones, pruebas de normalidad (Shapiro-Wilk), asimetría, correlaciones y balance de clases. Preprocesamiento justificado: transformación logarítmica selectiva de variables asimétricas (Ácido Málico y Magnesio) para mejorar la adherencia a los supuestos gaussianos. Modelado y evaluación exhaustiva: partición estratificada 70/30, validación cruzada repetida (10×5 = 50 iteraciones), optimización de hiperparámetros (KNN), comparación de métricas (Accuracy, Kappa) y test de McNemar. Visualizaciones publication-ready: histogramas comparativos, matriz de correlación, fronteras de decisión, distribuciones por clase y análisis de errores. Validación adicional: predicción en casos sintéticos nuevos y análisis de probabilidades de clase (Naive Bayes).
Miniproyecto: Clasificación Multiclase de Hongos con Naive Bayes Categórico | Análisis del Dataset Mushroom
Este análisis explora el clásico dataset Mushroom de UCI (8.124 observaciones, 23 variables categóricas) para clasificar hongos como comestibles (e) o venenosos (p) utilizando Naive Bayes Categórico en R. Aspectos clave del proyecto: - Descarga automática y limpieza del dataset (tratamiento de valores faltantes "?"). - Análisis exploratorio detallado: distribución de clases, poder discriminativo de variables (especialmente odor). - Modelado con Naive Bayes: comparación entre modelo simple (solo odor) y completo (todas las variables). - Validación cruzada 10-fold y partición train/test. - Comparación adicional con KNN (one-hot encoding + tuning de k). - Visualizaciones claras y métricas interpretadas (Accuracy, matriz de confusión, falsos negativos). Hallazgos principales: - El modelo Naive Bayes con solo la variable odor alcanza 98.89% accuracy en test y 98.52% en CV — ¡superior al modelo completo (95.01%)! - Confirmación empírica de la dilución de señal al agregar variables redundantes. - KNN logra hasta 100% accuracy con k óptimo, pero requiere mayor preprocesamiento y pierde interpretabilidad. - Validación del principio de parsimonia: la simplicidad gana.
Primer proyecto machine learning en R
métodos de regularización(ridge, lasso,elastic net)