Co to jest model zagnieżdżony? (definicja – przykład)
Model zagnieżdżony to po prostu model regresji , który zawiera podzbiór zmiennych predykcyjnych w innym modelu regresji.
Załóżmy na przykład, że mamy następujący model regresji (nazwijmy go Modelem A), który przewiduje liczbę punktów zdobytych przez koszykarza na podstawie czterech zmiennych predykcyjnych:
Punkty = β 0 + β 1 (minuty) + β 2 (wzrost) + β 3 (pozycja) + β 4 (strzały) + ε
Przykładem modelu zagnieżdżonego (nazwijmy go Modelem B) byłby następujący model z tylko dwiema zmiennymi predykcyjnymi z Modelu A:
Punkty = β 0 + β 1 (minuty) + β 2 (wysokość) + ε
Powiedzielibyśmy, że Model B jest zagnieżdżony w Modelu A, ponieważ Model B zawiera podzbiór zmiennych predykcyjnych z Modelu A.
Rozważmy jednak, czy mielibyśmy inny model (nazwijmy go Modelem C) zawierający trzy zmienne predykcyjne:
Punkty = β 0 + β 1 (minuty) + β 2 (wzrost) + β 3 (próba rzutów wolnych)
Nie powiedzielibyśmy, że Model C jest zagnieżdżony w Modelu A, ponieważ każdy model zawiera zmienne predykcyjne, których nie zawiera drugi model.
Znaczenie modeli zagnieżdżonych
Często używamy modeli zagnieżdżonych w praktyce, gdy chcemy wiedzieć, czy model z pełnym zestawem zmiennych predykcyjnych może lepiej pasować do zbioru danych niż model z podzbiorem tych zmiennych predykcyjnych.
Na przykład w powyższym scenariuszu moglibyśmy dopasować kompleksowy model wykorzystujący minuty rozegrane, wzrost, pozycję i strzały, próbując przewidzieć liczbę punktów zdobytych przez koszykarzy.
Możemy jednak podejrzewać, że pozycja i próby strzałów mogą nie przewidywać zbyt dobrze zdobytych punktów.
W ten sposób moglibyśmy dopasować model zagnieżdżony , który do przewidywania zdobytych punktów wykorzystuje wyłącznie minuty rozegrane i wysokość boiska.
Następnie możemy porównać oba modele, aby określić, czy istnieje statystycznie istotna różnica.
Jeśli nie ma znaczących różnic pomiędzy modelami, możemy usunąć pozycję i próbę strzału jako zmienne predykcyjne, ponieważ nie poprawiają one znacząco modelu.
Jak analizować modele zagnieżdżone
Aby określić, czy model zagnieżdżony znacząco różni się od modelu „pełnego”, zazwyczaj przeprowadzamy test współczynnika wiarygodności, który wykorzystuje następujące hipotezy zerowe i alternatywne:
H 0 : Model pełny i model zagnieżdżony równie dobrze pasują do danych. Powinieneś więc użyć modelu zagnieżdżonego .
H A : Model pełny pasuje do danych znacznie lepiej niż model zagnieżdżony. Musisz więc użyć pełnego szablonu .
Test współczynnika wiarygodności daje statystykę testu Chi-kwadrat i odpowiadającą jej wartość p.
Jeśli wartość p testu jest poniżej pewnego poziomu istotności (np. 0,05), wówczas możemy odrzucić hipotezę zerową i stwierdzić, że pełny model zapewnia znacznie lepsze dopasowanie.
Poniższe samouczki wyjaśniają, jak przeprowadzić test współczynnika wiarygodności przy użyciu języków R i Python: