Recently Published
Mini Project Report
Environmental Exposure and Disease Burden in Simulated Small-Area Data
Document
This report presents an exploratory analysis of three large English text datasets (blogs, news, and Twitter) as part of a text prediction project. The goal is to prepare the data for building a predictive model that can suggest the next word based on user input. The analysis includes basic summaries, word distributions, and frequency visualizations. It also outlines the initial plan for developing a Shiny app using n-gram models.
Deciphering transcription factors by modelling of Chromatin datasets
Literature Review
Bioinformatic approach.
Severe Weather Events and Their Impact on Public Health and Economy
This analysis explores the U.S. National Oceanic and Atmospheric Administration's (NOAA) Storm Database to identify the most harmful weather events in terms of human health and economic consequences across the United States from 1950 to 2011. The report uses R to load, clean, and analyse the raw dataset and visualises the top weather event types contributing to fatalities, injuries, and financial damage. The findings aim to support disaster preparedness and resource prioritisation. All code is included for reproducibility, and only base R and ggplot2 were used for analysis and visualisation.
Análisis del Desempeño Saber Pro
El presente análisis tiene como objetivo examinar el desempeño promedio de los aspirantes admitidos a la Universidad Nacional de Colombia, diferenciados por sede de admisión, a lo largo de varios años. Para ello, se utilizan los resultados del examen Saber Pro, específicamente los puntajes globales y por competencia. A través de visualizaciones geográficas y estadísticas, se busca identificar patrones regionales, tendencias en el tiempo y diferencias entre sedes, con el fin de destacar fortalezas y posibles áreas de mejora institucional.
Final project
Projekt dotyczy prognozowania kwartalnej produkcji cementu Portland na podstawie danych historycznych z wykorzystaniem różnych modeli statystycznych i uczenia maszynowego. Celem analizy jest porównanie skuteczności różnych metod prognozowania, takich jak ARIMA, ETS, TSLM, Prophet, NNETAR i ADAM, w przewidywaniu przyszłych wartości produkcji. W projekcie zastosowano zarówno klasyczne techniki analizy szeregów czasowych, jak i nowoczesne podejścia, aby znaleźć najbardziej trafne i wiarygodne prognozy.