Recently Published

Лабораторная работа 9. Регрессионный анализ
Ключевые метрики модели: Multiple R-squared: 0.9888 Модель объясняет 98.88% вариации индекса успеваемости. Это невероятно высокий показатель. Он означает, что выбранные вами факторы почти полностью определяют успех студента в вашей выборке. Adjusted R-squared: 0.9887 Скорректированный показатель практически не отличается от обычного, что подтверждает: все переменные в модели важны и не являются избыточными. F-statistic: 1.757e+05Огромное значение F-статистики и p-value < 2.2e-16 говорят о том, что модель в целом является статистически значимой. Гипотеза о том, что все коэффициенты равны нулю, уверенно отвергается. Это уравнение получившейся модели: Performance_Index = -34.08 + 2.85 * Hours_Studied + 1.02 * Previous_Scores + 0.61 * Extracurricular_Num + 0.48 * Sleep_Hours + 0.19 * Papers_Practiced Intercept (-34.08): Базовое значение, не имеющее практического смысла (успеваемость гипотетического студента с нулевыми показателями). Hours_Studied (2.85): Самый сильный фактор! Каждый дополнительный час учёбы повышает итоговый индекс в среднем на 2.85 пункта. Это огромный вклад. Previous_Scores (1.02): Второй по важности фактор. Каждый балл за предыдущие экзамены добавляет 1.02 пункта к итоговому результату. Sleep_Hours (0.48): Каждый дополнительный час сна добавляет 0.48 пункта. Сон — важный фактор успеха. Papers_Practiced (0.19): Решение одной пробной работы добавляет 0.19 пункта. Extracurricular_Num (0.61): Участие во внеклассной деятельности (Yes) добавляет 0.61 пункта к результату по сравнению с теми, кто не участвует (No) Мультиколлинеарность (VIF): Результаты vif_values идеальны: Все значения VIF очень близки к 1 (от 1.0003 до 1.0008). Вывод: Мультиколлинеарность отсутствует. Факторы (часы учёбы, сон, прошлые оценки) не дублируют информацию друг друга, а дают независимый вклад. Коэффициенты модели надёжны. График, "Распределение Индекса Успеваемости", представляет собой гистограмму, показывающую частотное распределение индекса успеваемости студентов. По оси X отложен сам "Performance Index" (Индекс успеваемости), а по оси Y — "Количество студентов". Гистограмма имеет колоколообразную форму, с максимальной частотой студентов, наблюдаемой в диапазоне индексов примерно от 50 до 80. Распределение выглядит приблизительно симметричным, с небольшим смещением в правую сторону, что может указывать на небольшое количество студентов с очень высокими показателями успеваемости. Диапазон значений индекса успеваемости простирается от 0 до 100. график, "Q-Q Residuals" используется для визуальной оценки того, насколько хорошо данные соответствуют теоретическому распределению, в данном случае — нормальному. По оси X отложены теоретические квантили, а по оси Y — стандартизированные остатки. Большинство точек данных располагаются вдоль пунктирной линии, что свидетельствует о хорошем соответствии остатков нормальному распределению. Незначительные отклонения точек на краях графика могут указывать на легкие несоответствия нормальности в крайних значениях. Указанные на графике числа (например, 687, 746, 6977), вероятно, относятся к идентификаторам наблюдений с наибольшими отклонениями. график, "Memory Usage: 354.5 Kb", представляет собой горизонтальную столбчатую диаграмму, демонстрирующую распределение использования памяти по различным метрикам. Столбец "Complete Rows" (Полные строки) занимает наибольшую долю, составляя 100% использования памяти, что указывает на то, что весь объем памяти выделен для обработки полных строк данных. Столбец "Continuous Columns" (Непрерывные столбцы) также занимает значительную часть, 86%, подчеркивая важность непрерывных данных в анализе. "Discrete Columns" (Дискретные столбцы) используют 14% ресурсов, а "All Missing Columns" (Все пропущенные столбцы) и "Missing Observations" (Пропущенные наблюдения) практически не требуют памяти, с показателями 0%, что говорит об отсутствии или минимальном количестве таких данных. график "Residuals vs Fitted Большинство точек сконцентрировано вблизи горизонтальной линии нулевых остатков, что свидетельствует о хорошем согласовании модели с данными. Отсутствие выраженных закономерностей (например, криволинейных тенденций или расширения разброса с увеличением Fitted Values) подтверждает адекватность выбранной модели. Несколько точек находятся далеко от основной массы данных (особенно точки с метками 6977 и 7469), что указывает на возможные выбросы или аномалии, заслуживающие отдельного внимания.
SVM
Aplicación de Modelos Lineales Generalizados en el Análisis de la Rotación de Empleados
Descripción para RPubs Predicción de Rotación Interna de Empleados mediante Regresión Logística Múltiple Este documento presenta el desarrollo completo de un modelo predictivo de rotación interna de personal, construido sobre un enfoque de Modelos Lineales Generalizados (MLG) con regresión logística binaria. El análisis parte de una exploración estadística de las variables mediante correlación de Pearson para variables cuantitativas y Cramér's V para variables cualitativas, identificando como factores clave el cargo desempeñado, la realización de horas extra, la edad y el estado civil del empleado. A partir de estas variables se ajustó un modelo de regresión logística múltiple, del cual se extrajeron coeficientes, Odds Ratio e indicadores de bondad de ajuste (AUC = 0.7388, Pseudo R² McFadden = 0.201). Para mejorar el desempeño del modelo frente al desbalance de clases —donde el 83% de los empleados no presenta rotación— se implementó un sistema de pesos por clase y se optimizó el umbral de clasificación mediante el criterio de Youden, elevando el Recall del 16.5% al 60% y el F1-Score del 26.4% al 48.1% sin recurrir a técnicas de sobremuestreo. Finalmente, el modelo se aplicó a un empleado hipotético, obteniendo una probabilidad de rotación del 94.9% y activando un protocolo de intervención urgente basado en un sistema de zonas de decisión (verde / amarilla / roja), que traduce los resultados estadísticos en acciones concretas de retención de talento.
SVM OFICIAL
RF OFICIAL
Notebook con la implementación del modelo Random Forest para curvas de luz simuladas y reales.
Tugas Konsultasi Statistika
hasil analisis statistik meliputi ANOVA dua arah, regresi linear berganda, dan analisis time series untuk mengidentifikasi pengaruh variabel serta melakukan peramalan data.
Analisis Pengaruh Kategori Produk dan Pasar terhadap Penjualan dan Keuntungan: Pendekatan Two-Way MANOVA dan MANCOVA pada Global Superstore
Studi ini menganalisis pengaruh simultan kategori produk (Furniture, Office Supplies, Technology) dan wilayah pasar (Africa, APAC, EMEA, EU, LATAM, North America) terhadap Sales dan Profit menggunakan Two-Way MANOVA dan MANCOVA pada dataset Global Superstore (n = 51.290). Kovariat Shipping Cost, Discount, dan Quantity dikontrol dalam model MANCOVA untuk mengisolasi efek murni faktor kategori dan pasar. Analisis mencakup uji asumsi, effect size, post-hoc Tukey HSD, adjusted means, serta insight bisnis berbasis hasil statistik.
Reading history model (v2)
This document describes a real‑time activation model used to estimate the availability of propositional content (EDUs, e.g. sentences) in memory during writing-from-source tasks.