Recently Published
Лабораторная работа 9. Регрессионный анализ
Ключевые метрики модели:
Multiple R-squared: 0.9888 Модель объясняет 98.88% вариации индекса успеваемости. Это невероятно высокий показатель. Он означает, что выбранные вами факторы почти полностью определяют успех студента в вашей выборке.
Adjusted R-squared: 0.9887 Скорректированный показатель практически не отличается от обычного, что подтверждает: все переменные в модели важны и не являются избыточными.
F-statistic: 1.757e+05Огромное значение F-статистики и p-value < 2.2e-16 говорят о том, что модель в целом является статистически значимой. Гипотеза о том, что все коэффициенты равны нулю, уверенно отвергается.
Это уравнение получившейся модели:
Performance_Index = -34.08 + 2.85 * Hours_Studied + 1.02 * Previous_Scores + 0.61 * Extracurricular_Num + 0.48 * Sleep_Hours + 0.19 * Papers_Practiced
Intercept (-34.08): Базовое значение, не имеющее практического смысла (успеваемость гипотетического студента с нулевыми показателями).
Hours_Studied (2.85): Самый сильный фактор! Каждый дополнительный час учёбы повышает итоговый индекс в среднем на 2.85 пункта. Это огромный вклад.
Previous_Scores (1.02): Второй по важности фактор. Каждый балл за предыдущие экзамены добавляет 1.02 пункта к итоговому результату.
Sleep_Hours (0.48): Каждый дополнительный час сна добавляет 0.48 пункта. Сон — важный фактор успеха.
Papers_Practiced (0.19): Решение одной пробной работы добавляет 0.19 пункта.
Extracurricular_Num (0.61): Участие во внеклассной деятельности (Yes) добавляет 0.61 пункта к результату по сравнению с теми, кто не участвует (No)
Мультиколлинеарность (VIF):
Результаты vif_values идеальны:
Все значения VIF очень близки к 1 (от 1.0003 до 1.0008).
Вывод: Мультиколлинеарность отсутствует. Факторы (часы учёбы, сон, прошлые оценки) не дублируют информацию друг друга, а дают независимый вклад. Коэффициенты модели надёжны.
График, "Распределение Индекса Успеваемости", представляет собой гистограмму, показывающую частотное распределение индекса успеваемости студентов. По оси X отложен сам "Performance Index" (Индекс успеваемости), а по оси Y — "Количество студентов". Гистограмма имеет колоколообразную форму, с максимальной частотой студентов, наблюдаемой в диапазоне индексов примерно от 50 до 80. Распределение выглядит приблизительно симметричным, с небольшим смещением в правую сторону, что может указывать на небольшое количество студентов с очень высокими показателями успеваемости. Диапазон значений индекса успеваемости простирается от 0 до 100.
график, "Q-Q Residuals" используется для визуальной оценки того, насколько хорошо данные соответствуют теоретическому распределению, в данном случае — нормальному. По оси X отложены теоретические квантили, а по оси Y — стандартизированные остатки. Большинство точек данных располагаются вдоль пунктирной линии, что свидетельствует о хорошем соответствии остатков нормальному распределению. Незначительные отклонения точек на краях графика могут указывать на легкие несоответствия нормальности в крайних значениях. Указанные на графике числа (например, 687, 746, 6977), вероятно, относятся к идентификаторам наблюдений с наибольшими отклонениями.
график, "Memory Usage: 354.5 Kb", представляет собой горизонтальную столбчатую диаграмму, демонстрирующую распределение использования памяти по различным метрикам. Столбец "Complete Rows" (Полные строки) занимает наибольшую долю, составляя 100% использования памяти, что указывает на то, что весь объем памяти выделен для обработки полных строк данных. Столбец "Continuous Columns" (Непрерывные столбцы) также занимает значительную часть, 86%, подчеркивая важность непрерывных данных в анализе. "Discrete Columns" (Дискретные столбцы) используют 14% ресурсов, а "All Missing Columns" (Все пропущенные столбцы) и "Missing Observations" (Пропущенные наблюдения) практически не требуют памяти, с показателями 0%, что говорит об отсутствии или минимальном количестве таких данных.
график "Residuals vs Fitted Большинство точек сконцентрировано вблизи горизонтальной линии нулевых остатков, что свидетельствует о хорошем согласовании модели с данными. Отсутствие выраженных закономерностей (например, криволинейных тенденций или расширения разброса с увеличением Fitted Values) подтверждает адекватность выбранной модели. Несколько точек находятся далеко от основной массы данных (особенно точки с метками 6977 и 7469), что указывает на возможные выбросы или аномалии, заслуживающие отдельного внимания.