Як виконати множинну лінійну регресію в sas


Множинна лінійна регресія – це метод, який ми можемо використати для розуміння зв’язку між двома чи більше змінними предикторами та змінною відповіді .

У цьому посібнику пояснюється, як виконувати множинну лінійну регресію в SAS.

Крок 1: Створіть дані

Припустімо, ми хочемо підібрати модель множинної лінійної регресії, яка використовує кількість годин, витрачених на навчання, і кількість складених практичних іспитів, щоб передбачити оцінку студентів на підсумкових іспитах:

Оцінка за іспит = β 0 + β 1 (годин) + β 2 (підготовчі іспити)

Спочатку ми використаємо наступний код, щоб створити набір даних, що містить цю інформацію для 20 студентів:

 /*create dataset*/
data exam_data;
    input hours prep_exams score;
    datalines ;
1 1 76
2 3 78
2 3 85
4 5 88
2 2 72
1 2 69
5 1 94
4 1 94
2 0 88
4 3 92
4 4 90
3 3 75
6 2 96
5 4 90
3 4 82
4 4 85
6 5 99
2 1 83
1 0 62
2 1 76
;
run ;

Крок 2: Виконайте множинну лінійну регресію

Далі ми використаємо proc reg , щоб підібрати модель множинної лінійної регресії до даних:

 /*fit multiple linear regression model*/
proc reg data =exam_data;
    model score = hours prep_exams;
run ; 

Ось як інтерпретувати найбільш відповідні числа в кожній таблиці:

Таблиця аналізу прогалин:

Загальне F-значення регресійної моделі становить 23,46 , а відповідне значення p <0,0001 .

Оскільки це p-значення менше 0,05, ми робимо висновок, що регресійна модель в цілому є статистично значущою.

Модельний стіл:

Значення R-квадрат показує нам відсоток варіації оцінок іспитів, який можна пояснити кількістю вивчених годин і кількістю складених підготовчих іспитів.

Загалом, чим більше значення R-квадрат регресійної моделі, тим краще прогностичні змінні прогнозують значення змінної відповіді.

У цьому випадку 73,4% розбіжності в іспитових балах можна пояснити кількістю вивчених годин і кількістю складених підготовчих іспитів.

Значення Root MSE також корисно знати. Це являє собою середню відстань між спостережуваними значеннями та лінією регресії.

У цій моделі регресії спостережувані значення відхиляються в середньому на 5,3657 одиниць від лінії регресії.

Таблиця оцінок параметрів:

Ми можемо використовувати оціночні значення параметрів у цій таблиці, щоб написати підігнане рівняння регресії:

Оцінка за іспит = 67,674 + 5,556*(годин) – 0,602*(підготовчі іспити)

Ми можемо використати це рівняння, щоб знайти приблизний бал студента за іспит на основі кількості годин навчання та кількості практичних іспитів, які вони склали.

Наприклад, студент, який навчається 3 години і складає 2 підготовчі іспити, повинен отримати іспитовий бал 83,1 :

Приблизний бал за іспит = 67,674 + 5,556*(3) – 0,602*(2) = 83,1

P-значення для годин (<0,0001) менше 0,05, що означає, що воно має статистично значущий зв’язок із результатом іспиту.

Проте значення p для підготовчих іспитів (0,5193) не менше 0,05, що означає, що воно не має статистично значущого зв’язку з результатом іспиту.

Ми можемо вирішити видалити підготовчі іспити з моделі, оскільки вони не є статистично значущими, і натомість виконати просту лінійну регресію , використовуючи досліджувані години як єдину змінну прогнозу.

Додаткові ресурси

У наступних посібниках пояснюється, як виконувати інші типові завдання в SAS:

Як розрахувати кореляцію в SAS
Як виконати просту лінійну регресію в SAS
Як виконати односторонній дисперсійний аналіз у SAS

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *