Як виконати множинну лінійну регресію в stata
Множинна лінійна регресія — це метод, який можна використовувати для розуміння зв’язку між декількома пояснювальними змінними та змінною відповіді.
Цей підручник пояснює, як виконати множинну лінійну регресію в Stata.
Приклад: множинна лінійна регресія в Stata
Скажімо, ми хочемо знати, чи впливають милі на галон і вага на ціну автомобіля. Щоб перевірити це, ми можемо виконати множинну лінійну регресію, використовуючи милі на галон і вагу як дві пояснювальні змінні та ціну як змінну відповіді.
Виконайте наступні кроки в Stata, щоб виконати множинну лінійну регресію за допомогою набору даних під назвою auto , який містить дані про 74 різні автомобілі.
Крок 1. Завантажте дані.
Завантажте дані, ввівши наступне в полі команди:
використовуйте https://www.stata-press.com/data/r13/auto
Крок 2. Отримайте зведення даних.
Отримайте швидке розуміння даних, з якими ви працюєте, ввівши наступне в поле команди:
узагальнити
Ми бачимо, що в наборі даних є 12 різних змінних, але єдині, які нас цікавлять, це милі на галон , вага та ціна .
Ми можемо побачити наступну базову підсумкову статистику за цими трьома змінними:
ціна | середнє = 6165 доларів США, мінімальне = 3291 доларів США, максимальне 15 906 доларів США
милі на галон | середнє = 21,29, min = 12, max = 41
вага | середня = 3019 фунтів, мінімальна = 1760 фунтів, максимальна = 4840 фунтів
Крок 3: Виконайте множинну лінійну регресію.
Введіть наступне у полі «Команда», щоб виконати множинну лінійну регресію, використовуючи милі на галон і вагу як пояснювальні змінні, а ціну — як змінну відповіді.
регресія ціна mpg вага
Ось як інтерпретувати найцікавіші числа в результаті:
Імовірність > F: 0,000. Це p-значення для загальної регресії. Оскільки це значення менше 0,05, це вказує на те, що комбіновані пояснювальні змінні mpg і ваги мають статистично значущий зв’язок із змінною відповіді price .
R у квадраті: 0,2934. Це частка дисперсії у змінній відповіді, яку можна пояснити пояснювальними змінними. У цьому прикладі 29,34% варіації ціни можна пояснити милями на галон і вагою.
Coef (mpg): -49,512. Це говорить нам про середню зміну ціни, пов’язану зі збільшенням милі на галон на одиницю, припускаючи, що вага залишається постійною . У цьому прикладі кожне збільшення миль на галлон на одну одиницю пов’язане із середнім зниженням ціни приблизно на 49,51 дол., припускаючи, що вага залишається постійною.
Наприклад, припустимо, що обидва автомобілі A і B важать 2000 фунтів. Якщо автомобіль A витрачає 20 миль на галон, а автомобіль B — лише 19 миль на галон, ми очікуємо, що ціна автомобіля A буде на 49,51 долара нижчою, ніж ціна автомобіля B.
P>|t| (mpg): 0,567. Це значення p, пов’язане з тестовою статистикою для mpg. Оскільки це значення не менше 0,05, ми не маємо доказів того, що миль на галон має статистично значущий зв’язок із ціною.
Коефіцієнт ваги: 1,746. Це говорить нам про середню зміну ціни, пов’язану зі збільшенням ваги на одну одиницю, припускаючи, що милі на галон залишаються незмінними . У цьому прикладі кожне збільшення ваги на одну одиницю пов’язане із середнім зростанням ціни приблизно на 1,74 дол., припускаючи, що милі на галлон залишаються незмінними.
Наприклад, скажімо, обидва автомобілі A і B мають 20 миль на галлон. Якщо автомобіль A важить на один фунт більше, ніж автомобіль B, то автомобіль A повинен коштувати на 1,74 долара більше.
P>|t| (вага): 0,008. Це p-значення, пов’язане зі статистикою тесту для ваги. Оскільки це значення менше 0,05, ми маємо достатньо доказів того, що вага має статистично значущий зв’язок із ціною.
Коефіцієнт (_мінуси): 1946,069. Це говорить нам про середню ціну автомобіля, коли милі на галон і вага дорівнюють нулю. У цьому прикладі середня ціна становить 1946 доларів, коли вага та милі на галон дорівнюють нулю. Це насправді не має сенсу інтерпретувати, оскільки вага автомобіля та милі на галлон не можуть дорівнювати нулю, але число 1946,069 потрібне для формування рівняння регресії.
Крок 4: Повідомте про результати.
Нарешті, ми хочемо повідомити про результати нашої множинної лінійної регресії. Ось приклад того, як це зробити:
Множинна лінійна регресія була виконана для кількісного визначення співвідношення між вагою автомобіля та його ціною. Для аналізу була використана вибірка з 74 автомобілів.
Результати показали, що існує статистично значущий зв’язок між вагою та ціною (t = 2,72, p = 0,008), але не було статистично значущого зв’язку між милями на галон і ціною (і милями на галон (t = -0,57, p = 0,567).