gravatar

johnky100

JOHN JAIRO PRADO PIÑERES

Recently Published

Depuración y Eliminación de Registros Duplicados en los Microdatos del Saber 11 (2010–2022)
Se realizó un proceso de depuración para identificar y eliminar registros duplicados en los microdatos del Saber 11 del periodo 2010–2022. Para ello, se empleó la variable ESTU_CONSECUTIVO como identificador único por estudiante y se ordenaron los registros por PERIODO en forma descendente, asegurando conservar únicamente la versión más reciente de cada caso. Este procedimiento permitió obtener bases consolidadas sin duplicidad, donde cada estudiante aparece una sola vez, mejorando la calidad, integridad y consistencia de los datos. Como resultado, varios años presentaron porcentajes significativos de duplicados eliminados, optimizando la base final para análisis posteriores, modelamientos predictivos y construcción de grafos institucionales.
Division Saber 11 por año (2010 - 2022)
Tras importar el archivo original con millones de registros (DB Saber 11 - 2010-2022 de Datos Abiertos Colombia), se verificó su estructura y calidad mediante funciones de inspección, y se estandarizó la variable PERIODO para extraer el año correspondiente a cada observación. Esta nueva variable, ANIO, facilitó la segmentación cronológica y sentó las bases para el ordenamiento histórico del conjunto de datos. Se separaron los registros por año y periodo, creando directorios independientes para cada año entre 2010 y 2022 y generando archivos específicos para cada periodo con procesos automatizados mediante purrr. Posteriormente, los fragmentos anuales se unificaron para reconstruir datasets consolidados por año, asegurando homogeneidad en los tipos de datos y una lectura uniforme mediante col_types. Finalmente, cada base anual resultante se exportó en formato CSV y XLSX, permitiendo validar los volúmenes procesados y garantizando la disponibilidad de información estructurada, limpia y lista para análisis estadísticos.
1_Data Understanding — Saber 11 (2022)
Preparación y diagnóstico de datos del proyecto, antes de aplicar modelado.
Estimación de un dominio: Aplicación
Ejemplo Hogares - Marco Muestral.xls seleccione una muestra por MAS(N,10) Dominio Hogares.xls estime en Excel el cuadro de salida solicitado por el cliente. Dominio Hogares.xls asigne arbitrariamente los códigos de hogares seleccionados en el literal 1 y documente la base. Dominio Hogares.xls suba los datos a R. Haga un cruce de los datos con la muestra y la base con la información levantada de tal forma que los pesos muestrales queden en el archivo Dominio Hogares.xls. Estime en R el cuadro de salida solicitado por el cliente.
Diseño Muestral para la Evaluación del Programa IRACA en las Comunidades Étnicas en Colombia
El Programa IRACA (Infraestructura Rural en Áreas de Comunidades Étnicas) busca mejorar la calidad de vida de los hogares en las comunidades indígenas y afrodescendientes en Colombia. Por lo que es importante realizar una evaluación para medir los impactos de este programa y garantizar la equidad en las intervenciones. Este estudio busca comprender el alcance y los efectos de los ciclos operativos del programa en los hogares de las comunidades étnicas en los años 2015-2016 y 2017-2018, lo que permitirá ajustar políticas públicas para mejorar los resultados en estas poblaciones vulnerables. Creditos al Dr. Giovany Bavativa PhD en Estadística, MSc en Big Data, MSc en Estadística
Modelos lineales gene
Modelos Lineales Generalizados
Los modelos lineales generalizados (GLM, por sus siglas en inglés) son una extensión de los modelos lineales clásicos que permiten manejar una variedad más amplia de distribuciones de respuesta y relaciones entre las variables.
Document
Document
Document
Document
Document
Document
amd
EPS ANTIOQUIA
Trabajo Final Probabilidad
Taller 2
TALLER 3. DISTRIBUCIONES DE PROBABILIDAD
El análisis de problemas probabilísticos y estadísticos es fundamental para entender cómo se comportan ciertos fenómenos y tomar decisiones informadas basadas en datos. Los ejercicios presentados abarcan una variedad de contextos y aplicaciones de diferentes modelos probabilísticos y distribuciones estadísticas. A través de la resolución de estos problemas, se busca ilustrar cómo se aplican conceptos clave de la teoría de probabilidad y estadísticas en situaciones prácticas y reales.
Probabilidad
mide la frecuencia con la que se obtiene un resultado (o conjunto de resultados) al llevar a cabo un experimento aleatorio, del que se conocen todos los resultados posibles.
Introduccion a la Probabilidad y Estadistica Parte 1
La estadística es una rama de las matemáticas que se enfoca en el estudio de los métodos para recoger, organizar, analizar e interpretar datos con el objetivo de sacar conclusiones válidas y tomar decisiones fundamentadas. Dentro de este campo, la probabilidad juega un papel crucial al proporcionar un marco teórico para la inferencia estadística. Este trabajo científico explora diversos conceptos fundamentales en estadística, como la organización de datos, tipos de variables, y medidas estadísticas esenciales, utilizando fórmulas y ejemplos prácticos.
Presentation
Document
Document
Document
Document
Document
Document
Document
Document
Publish Document
Document