gravatar

lepinop

Luis Pino

Recently Published

De Word Embeddings a la Similitud Semántica
Las representaciones BoW y TF-IDF son vectores dispersos que codifican únicamente frecuencias de aparición, sin capturar ninguna relación semántica entre términos. Dos palabras sinónimas como “nave” y “barco” tendrán vectores ortogonales en TF-IDF aunque signifiquen lo mismo. Los embeddings, en cambio, son vectores densos de baja dimensión entrenados para que palabras con contextos similares queden cerca en el espacio vectorial: la distancia entre vectores refleja similitud de significado, no de forma superficial. Esto permite detectar analogías, sinonimia y relaciones conceptuales imposibles de capturar con conteos
Del Texto a la Similitud Vectorial
En esta actividad vamos a explorar la transición del texto plano a la representación vectorial, un paso fundamental en el Procesamiento de Lenguaje Natural moderno
Procesamiento de Lenguaje Natural
Cómo la Inteligencia Artificial transforma el lenguaje humano en datos matemáticos a través de un flujo de trabajo de Procesamiento de Lenguaje Natural (PLN). Comenzaremos analizando la estructura fundamental de las palabras: desde el fonema (sonido) y el grafema (escritura) hasta el morfema, que es la unidad mínima con significado real. Entender esto es vital porque, para una máquina, el texto es inicialmente ruido; nuestro trabajo es convertirlo en un vocabulario estructurado y finito.
Modelo Logit Adyacente
El Modelo de Logit Adyacente es una extensión de la regresión logística diseñada para analizar variables de respuesta con categorías ordinales. A diferencia de otros modelos ordinales, este enfoque compara categorías consecutivas, permitiendo estudiar cómo las variables explicativas influyen en la transición entre niveles adyacentes de la escala.
Poisson
La regresión de Poisson es un modelo lineal generalizado (GLM) diseñado para analizar variables de conteo bajo el supuesto de equidispersión (media igual a varianza). En este proyecto se explica su fundamento matemático y se aplica al conjunto de datos “Salud Ecológica”, conjunto de datos diseñado para la clasificación de la salud ecológica en entornos urbanos.
Regresión_Poisson
La regresión de Poisson es un modelo lineal generalizado (GLM) diseñado para analizar variables de conteo bajo el supuesto de equidispersión (media igual a varianza). En este proyecto se explica su fundamento matemático y se aplica al conjunto de datos real “Affairs” del paquete AER, el cual mide el número de relaciones extramatrimoniales en 601 individuos casados (Fair, 1978).
Sismicidad en Colombia
En esta investigación, se analizará la variabilidad de la sismicidad en Colombia mediante pruebas estadísticas que permitan identificar diferencias significativas en la magnitud y la profundidad de los sismos según su distribución regional y temporal