Co jest uważane za „silne”; korelacja?
W statystyce często staramy się zrozumieć, w jaki sposób dwie zmienne odnoszą się do siebie. Na przykład możemy chcieć wiedzieć:
- Jaka jest zależność pomiędzy liczbą godzin nauki studenta a oceną, jaką uzyska z egzaminu?
- Jaka jest zależność pomiędzy temperaturą zewnętrzną a liczbą rożków sprzedanych w food trucku?
- Jaki jest związek pomiędzy wydatkami na marketing a całkowitymi przychodami uzyskanymi przez daną firmę?
W każdym z tych scenariuszy staramy się zrozumieć związek między dwiema różnymi zmiennymi.
W statystyce jednym z najpowszechniejszych sposobów ilościowego określenia związku między dwiema zmiennymi jest użycie współczynnika korelacji Pearsona , który jest miarą liniowego powiązania między dwiema zmiennymi . Ma wartość od -1 do 1, gdzie:
- -1 oznacza całkowicie ujemną korelację liniową pomiędzy dwiema zmiennymi
- Wartość 0 oznacza brak liniowej korelacji pomiędzy dwiema zmiennymi
- 1 wskazuje doskonale dodatnią korelację liniową pomiędzy dwiema zmiennymi
Często oznaczana r , liczba ta pomaga nam zrozumieć siłę związku między dwiema zmiennymi. Im dalej r jest od zera, tym silniejszy jest związek między dwiema zmiennymi .
Należy zauważyć, że dwie zmienne mogą mieć silną dodatnią korelację lub silną ujemną korelację.
Silna dodatnia korelacja: gdy wartość jednej zmiennej wzrasta, wartość drugiej zmiennej rośnie w ten sam sposób. Na przykład im więcej godzin student spędza na nauce, tym wyższy jest jego wynik na egzaminie. Liczba godzin nauki i wyniki egzaminów mają silną dodatnią korelację.
Silna korelacja ujemna: gdy wartość jednej zmiennej rośnie, wartość drugiej zmiennej ma tendencję do zmniejszania się. Na przykład, im starsza jest kura, tym mniej jaj składa. Wiek kur i produkcja jaj mają silną ujemną korelację.
Poniższa tabela przedstawia praktyczną zasadę interpretacji siły związku między dwiema zmiennymi w oparciu o wartość r :
Wartość bezwzględna r | Siła związku |
---|---|
r < 0,25 | Brak relacji |
0,25 < r < 0,5 | Słaby związek |
0,5 < r < 0,75 | Umiarkowane relacje |
r > 0,75 | Silne relacje |
Korelację między dwiema zmiennymi uważa się za silną, jeśli wartość bezwzględna r jest większa niż 0,75 . Jednakże definicja „silnej” korelacji może się różnić w zależności od dziedziny.
Medyczny
Na przykład w medycynie definicja „silnego” związku jest często znacznie niższa. Jeżeli związek między przyjmowaniem danego leku a redukcją zawału serca wynosi r = 0,3, to w innych dziedzinach można to uznać za „słabo pozytywną” zależność, ale w medycynie jest ona na tyle istotna, że warto zażywać lek, aby zmniejszyć ryzyko wystąpienia zawału serca. mieć zawał serca.
Zasoby ludzkie
W innej dziedzinie, takiej jak zasoby ludzkie, można częściej stosować niższe korelacje. Na przykład wykazano, że korelacja między ocenami w college’u a wynikami w pracy wynosi w przybliżeniu r = 0,16 . To dość niewiele, ale na tyle ważne, że firma powinna przynajmniej wziąć to pod uwagę podczas rozmowy kwalifikacyjnej.
Technologia
W dziedzinie takiej jak technologia korelacja między zmiennymi może w niektórych przypadkach być znacznie wyższa, aby można ją było uznać za „silną”. Na przykład, jeśli firma tworzy samochód autonomiczny i korelacja między decyzjami o skręceniu samochodu a prawdopodobieństwem wypadku wynosi r = 0,95 , to prawdopodobnie jest zbyt niska, aby samochód można było uznać za bezpieczny, ponieważ w wyniku wykonania samochód autonomiczny wynosi r = 0,95. zła decyzja może być śmiertelna.
Zobacz korelacje
Bez względu na dziedzinę, w której pracujesz, pomocne jest utworzenie wykresu rozrzutu dwóch badanych zmiennych, abyś mógł przynajmniej wizualnie sprawdzić związek między nimi.
Załóżmy na przykład, że mamy następujący zbiór danych pokazujący wzrost i wagę 12 osób:
Trochę trudno jest zrozumieć związek między tymi dwiema zmiennymi, patrząc na surowe dane. Jednak znacznie łatwiej jest zrozumieć zależność, jeśli utworzymy wykres rozrzutu z wysokością na osi x i wagą na osi y:
Istnieje wyraźny pozytywny związek między obiema zmiennymi.
Utworzenie chmury punktów jest dobrym pomysłem z dwóch innych powodów:
(1) Wykres rozrzutu pozwala zidentyfikować wartości odstające, które mają wpływ na korelację.
Skrajna wartość odstająca może znacząco zmienić współczynnik korelacji Pearsona. Rozważmy poniższy przykład, w którym zmienne X i Y mają współczynnik korelacji Pearsona wynoszący r = 0,00 .
Ale teraz wyobraźmy sobie, że w zbiorze danych mamy wartość odstającą:
Ta wartość odstająca powoduje, że korelacja wynosi r = 0,878 . Ten pojedynczy punkt danych całkowicie zmienia korelację i sprawia wrażenie, jakby istniał silny związek między zmiennymi X i Y , podczas gdy w rzeczywistości tak nie jest.
(2) Wykres rozrzutu może pomóc w zidentyfikowaniu nieliniowych zależności między zmiennymi.
Współczynnik korelacji Pearsona po prostu mówi nam, czy dwie zmienne są powiązane liniowo . Ale nawet jeśli współczynnik korelacji Pearsona mówi nam, że dwie zmienne nie są skorelowane, nadal mogą istnieć między nimi pewien rodzaj nieliniowej zależności. Jest to kolejny powód, dla którego przydatne jest utworzenie wykresu rozrzutu.
Rozważmy na przykład poniższy wykres rozrzutu pomiędzy zmiennymi X i Y , w którym ich korelacja wynosi r = 0,00 .
Zmienne wyraźnie nie mają związku liniowego, ale mają związek nieliniowy: wartości y to po prostu wartości x podniesione do kwadratu. Sam współczynnik korelacji nie mógłby wykryć tej zależności, ale wykres rozrzutu mógłby to zrobić.
Wniosek
W podsumowaniu:
- Ogólnie rzecz biorąc, korelacja większa niż 0,75 jest uważana za „silną” korelację między dwiema zmiennymi.
- Jednak ta praktyczna zasada może się różnić w zależności od obszaru. Na przykład znacznie słabszą korelację można uznać za silną w dziedzinie medycyny w porównaniu z dziedziną technologii. Aby zdecydować, co jest uważane za mocne, najlepiej jest skorzystać z wiedzy specjalistycznej w danej dziedzinie.
- Używając korelacji do opisania związku między dwiema zmiennymi, pomocne jest również utworzenie wykresu rozrzutu, aby można było zidentyfikować wartości odstające w zbiorze danych, a także potencjalną relację nieliniową.
Dodatkowe zasoby
Co uważa się za „słabą” korelację?
Kalkulator macierzy korelacji
Jak czytać macierz korelacji