Recently Published
Lyme Disease Top Features in Predicting State of illness
Using R packages to manipulate data from NCBI gene studies with tidyr, dplyr, caret, and kernlab there are 6 models used with 10 folds of cross validation and Accuracy to measure algorithms of KNN, rpart, random forest, linear discriminate analysis, support vector machines for radial, and support vector machines for linear model fitting. Then summary results shown. Error in plots displaying properly in knitr and Latex, so they were block commented out. Looks like top genes are involved in upregulation of lipid regulators, DNA repair, and bile production to digest more fats and cholesterols. But downregulated mitotic activity in cell replication. This is from acute infection to chronic infection up to six months. Only 86 samples, and not balanced data for chronic infection. Tuning can be improved and selecting better model parameters to get better accuracy. For four classes best model was rpart but see notes in doc why.
Análisis de clientes y segmentación para campañas de marketing
Este reporte aplica técnicas de análisis exploratorio, PCA y clustering (k-means) sobre una base de más de 2.200 clientes de retail, con el propósito de comprender patrones de consumo, uso de canales, comportamiento frente a descuentos y perfil socio-demográfico.
Los resultados permiten identificar segmentos diferenciados de clientes, detectar oportunidades en campañas promocionales, priorizar canales de venta y apoyar decisiones comerciales basadas en datos, orientadas a fidelización y aumento del valor para el cliente.
TAREA6_REPO_PCA_MDS
Este documento integra dos técnicas fundamentales para el análisis multivariado: PCA y MDS, implementadas en un documento R Markdown
Análisis predictivo del éxito estudiantil NNA
Análisis predictivo del éxito estudiantil NNA basado en los datos de Open University Learning Analytics Dataset (OULAD) Como fuente de información principal.
Proyecto de clasificación de vinos
Este proyecto ofrece un análisis comparativo entre Gaussian Naive Bayes y K-Nearest Neighbors (KNN) en el dataset Wine de UCI, usando R y R Markdown para plena reproducibilidad. El flujo de trabajo es riguroso e incluye: análisis exploratorio profundo (distribuciones, pruebas de normalidad Shapiro-Wilk, asimetría, correlaciones y balance de clases); preprocesamiento justificado con transformación logarítmica selectiva en variables asimétricas (Ácido Málico y Magnesio) para mejor adherencia gaussiana; modelado y evaluación exhaustiva con partición estratificada 70/30, validación cruzada repetida (10×5), optimización de hiperparámetros (KNN), métricas (Accuracy, Kappa) y test de McNemar; visualizaciones de calidad (histogramas, matriz de correlación, fronteras de decisión, distribuciones por clase y análisis de errores); y validación extra con predicciones en casos sintéticos y probabilidades de clase (Naive Bayes).
PopUpCrimeDistribution
Distribution of Crimes across St. Louis
C5T1 - Visualización con rCharts4
Semana 5 deber
Mapita_2
Este mapa contiene los n_points y todas las observaciones, a diferencia del 1, que no tiene n_points y solo muestra donde hubo excesos