RPubs

by RStudio

Alej5ndro

Alejandro Figueroa Rojas

Recently Published

SVM-Clasificación, Selección de Características y Puesta en Operación

Aplicación de Support Vector Machines al problema de retención de clientes en banca. Se analiza qué variables del perfil financiero y comportamental del cliente ,score crediticio, edad, productos contratados, saldo, actividad y quejas, determinan el abandono. El modelo identifica que la existencia de una queja formal concentra casi toda la señal predictiva, mientras variables como edad y número de productos aportan señal complementaria. Los resultados habilitan una segmentación accionable de clientes por nivel de riesgo, con recomendaciones de intervención directamente implementables sobre CRM.

about 5 hours ago

Proyecto: Ensamble de Algoritmos | Regresión con Random Forest, GBM y XGBoost

Pipeline completo de predicción de precios inmobiliarios (Boston Housing) que integra selección formal de características Fisher J, Correlación de Pearson, SFS y Branch & Bound con tres algoritmos de ensamble. Cada decisión de modelado tiene justificación matemática explícita. Desarrollado de forma autodidacta.

11 days ago

Algoritmos - Random Forest, AdaBoost y XGBoost"

Este documento presenta un análisis comparativo de algoritmos de clasificación basados en métodos de ensamble, específicamente Random Forest, AdaBoost y XGBoost. Se desarrollan los fundamentos teóricos de cada modelo, su implementación práctica y la evaluación de desempeño mediante métricas de clasificación, destacando sus diferencias, fortalezas y aplicaciones en problemas reales de machine learning.

about 1 month ago

Decision Trees for Regression

En este proyecto se implementó un modelo de árboles de decisión para regresión, utilizando validación cruzada y poda para evitar sobreajuste. El desempeño fue evaluado mediante RMSE y comparado con un modelo baseline, logrando una mejora significativa. El análisis permitió identificar las variables más influyentes y generar un modelo interpretable y robusto.

about 1 month ago

Árboles de Decisión: Clasificación de Clientes Bancarios(Quarto)

Este proyecto presenta la implementación de un modelo de clasificación basado en Árboles de Decisión, aplicado a datos reales del sector bancario. Incluye procesos de exploración, preprocesamiento, poda del árbol y evaluación del desempeño, con el objetivo de apoyar la toma de decisiones mediante análisis predictivo.

about 2 months ago

Análisis Predictivo de Precios mediante Algoritmo KNN Regresión

Este proyecto presenta el desarrollo de un modelo de regresión K-Nearest Neighbors (KNN) aplicado a un conjunto de datos reales, con el objetivo de analizar relaciones entre variables y realizar predicciones. Se incluyen etapas de exploración, preprocesamiento, ajuste de hiperparámetros y evaluación del desempeño, destacando el uso de herramientas estadísticas y de programación para apoyar la toma de decisiones basada en datos.

about 2 months ago

Análisis Comparativo de Clasificación: Bernoulli Naive Bayes vs. KNN

Este estudio evalúa la capacidad predictiva y la robustez estadística de dos modelos de aprendizaje supervisado aplicados a la clasificación de hongos. A través de un análisis riguroso de la matriz de separabilidad y la evaluación de los supuestos de independencia condicional, el reporte documenta por qué la estructura de correlaciones en los datos morfológicos limita el desempeño de Naive Bayes y cómo los modelos basados en vecindad local (KNN) logran una precisión superior al capturar interacciones complejas entre variables.

2 months ago

Clasificación Diagnóstica de Cáncer de Mama: Naive Bayes Multinomial vs. k-NN

Este estudio implementa un análisis comparativo de Machine Learning supervisado para la detección precoz de tumores mamarios utilizando el dataset Wisconsin Breast Cancer. A través de un enfoque riguroso en la ciencia de datos clínicos, el proyecto evalúa dos filosofías algorítmicas distintas: la inferencia probabilística de Naive Bayes Multinomial y la clasificación no paramétrica de k-Nearest Neighbors (k-NN).

2 months ago

Proyecto de clasificación de vinos

Este proyecto ofrece un análisis comparativo entre Gaussian Naive Bayes y K-Nearest Neighbors (KNN) en el dataset Wine de UCI, usando R y R Markdown para plena reproducibilidad. El flujo de trabajo es riguroso e incluye: análisis exploratorio profundo (distribuciones, pruebas de normalidad Shapiro-Wilk, asimetría, correlaciones y balance de clases); preprocesamiento justificado con transformación logarítmica selectiva en variables asimétricas (Ácido Málico y Magnesio) para mejor adherencia gaussiana; modelado y evaluación exhaustiva con partición estratificada 70/30, validación cruzada repetida (10×5), optimización de hiperparámetros (KNN), métricas (Accuracy, Kappa) y test de McNemar; visualizaciones de calidad (histogramas, matriz de correlación, fronteras de decisión, distribuciones por clase y análisis de errores); y validación extra con predicciones en casos sintéticos y probabilidades de clase (Naive Bayes).

3 months ago

Miniproyecto: Clasificación Multiclase de Hongos con Naive Bayes Categórico | Análisis del Dataset Mushroom

Este análisis clasifica hongos como comestibles o venenosos en el dataset Mushroom de UCI (8.124 observaciones, 23 variables categóricas) usando Naive Bayes Categórico en R. Aspectos clave: Descarga automática y limpieza (manejo de valores faltantes "?"). Análisis exploratorio: distribución de clases y poder discriminativo de variables (destacando odor). Modelado Naive Bayes: comparación entre modelo simple (solo odor) y completo (todas las variables). Validación con 10-fold CV y partición train/test. Comparación con KNN (one-hot encoding y optimización de k). Visualizaciones y métricas clave (Accuracy, matriz de confusión, falsos negativos). Hallazgos principales: Naive Bayes solo con odor logra 98.89% accuracy en test y 98.52% en CV, superando al modelo completo (95.01%). Evidencia de dilución de señal por variables redundantes. KNN alcanza hasta 100% accuracy con k óptimo, pero exige más preprocesamiento y pierde interpretabilidad. Confirmación del principio de parsimonia: la simplicidad prevalece.

4 months ago

Primer proyecto machine learning en R

Predicción de Radiación Solar en La Puntilla, Pichilemu Este proyecto crea un modelo de machine learning para predecir la radiación solar descendente en superficie en el sector costero La Puntilla, Pichilemu (Chile), usando datos diarios de NASA POWER (2001-2025). Se emplean regresiones regularizadas (Ridge, Lasso y Elastic Net) para tratar multicolinealidad y seleccionar variables entre 17 predictores climáticos (temperatura, humedad, viento, presión, etc.). Resultados clave: Modelo óptimo: Elastic Net (α=0.10, λ≈0.0009) R² = 0.96 en test (explica 96% de la varianza) RMSE = 0.19 (escala estandarizada) Mejora del 79.4% en error respecto al baseline (media) Incluye análisis exploratorio, diagnóstico de supuestos (normalidad, homocedasticidad, autocorrelación), visualizaciones climáticas, mapa interactivo y comparación de modelos.

4 months ago

Sign In

Alej5ndro

Alejandro Figueroa Rojas

Recently Published