Analiza jednoczynnikowa czy wieloczynnikowa: jaka jest różnica?
Termin analiza jednowymiarowa odnosi się do analizy jednej zmiennej. Możesz to zapamiętać, ponieważ przedrostek „uni” oznacza „jeden”.
Termin analiza wielowymiarowa odnosi się do analizy więcej niż jednej zmiennej. Możesz to zapamiętać, ponieważ przedrostek „multi” oznacza „więcej niż jeden”.
Istnieją trzy popularne sposoby przeprowadzania analizy jednowymiarowej :
1. Statystyki podsumowujące
- Możemy obliczyć miary tendencji centralnej, takie jak średnia lub mediana zmiennej.
- Możemy również obliczyć miary dyspersji, takie jak odchylenie standardowe zmiennej.
2. Rozkłady częstotliwości
- Możemy utworzyć rozkład częstotliwości , który opisuje, jak często każda wartość pojawia się dla zmiennej.
3. Grafika
- Możemy tworzyć wykresy, takie jak wykresy pudełkowe, histogramy, wykresy gęstości itp. do wizualizacji rozkładu wartości zmiennej.
Istnieją dwa popularne sposoby przeprowadzania analizy wielowymiarowej :
1. Macierz wykresu rozrzutu
- Możemy utworzyć macierz wykresu rozrzutu, która pozwala nam zwizualizować związek pomiędzy każdą kombinacją parami zmiennych w zbiorze danych.
2. Algorytmy uczenia maszynowego
- Możemy użyć algorytmu nadzorowanego uczenia się, aby dopasować model, taki jak wielokrotna regresja liniowa , który określa ilościowo związek między wieloma zmiennymi predykcyjnymi a zmienną odpowiedzi.
- Możemy również użyć algorytmu uczenia się bez nadzoru, takiego jak analiza głównych składowych, aby jednocześnie znaleźć strukturę i relacje między wieloma zmiennymi w zbiorze danych.
Poniższe przykłady pokazują, jak przeprowadzić analizę jednowymiarową i wieloczynnikową z następującym zestawem danych:
Uwaga : Kiedy analizujesz dokładnie dwie zmienne, nazywa się to analizą dwuwymiarową .
Przykład: Jak przeprowadzić analizę jednowymiarową
Możemy zdecydować się na przeprowadzenie analizy jednoczynnikowej na dowolnej indywidualnej zmiennej w zbiorze danych.
Na przykład możemy zdecydować się na wykonanie analizy jednoczynnikowej dla zmiennej Wielkość gospodarstwa domowego :
Możemy obliczyć następujące miary tendencji centralnej wielkości gospodarstwa domowego:
- Średnia (wartość średnia): 3,8
- Mediana (wartość średnia): 4
Wartości te dają nam pojęcie, gdzie leży „centralna” wartość.
Możemy również obliczyć następujące miary dyspersji:
- Zakres (różnica między maks. a min.): 6
- Skala międzykwartylowa (rozkład środkowych 50% wartości): 2.5
- Odchylenie standardowe (średnia miara spreadu): 1,87
Wartości te dają nam wyobrażenie o rozkładzie wartości tej zmiennej.
Możemy również utworzyć następującą tabelę rozkładu częstotliwości, aby podsumować, jak często występują różne wartości:
Możemy również utworzyć wykres pudełkowy, aby zwizualizować rozkład wartości według wielkości gospodarstwa domowego:
Alternatywnie możemy utworzyć histogram, aby zwizualizować rozkład wartości:
Obliczając te pomiary i tworząc te wykresy, możemy lepiej zrozumieć, w jaki sposób rozkładają się wartości zmiennej Wielkość gospodarstwa domowego.
Przykład: Jak przeprowadzić analizę wielowymiarową
Załóżmy jeszcze raz, że mamy ten sam zbiór danych:
Prostą formą analizy wielowymiarowej, którą moglibyśmy przeprowadzić na tym zbiorze danych, jest utworzenie macierzy wykresów rozrzutu , która jest macierzą przedstawiającą wykres rozrzutu dla każdej kombinacji parami zmiennych numerycznych w zbiorze danych.
Moglibyśmy stworzyć tego typu macierz, aby jednocześnie wizualizować związek pomiędzy wielkością gospodarstwa domowego, rocznym dochodem i liczbą zwierząt domowych.
Zasób : zapoznaj się z tym samouczkiem , aby dowiedzieć się, jak utworzyć macierz wykresu rozrzutu w języku R.
Innym sposobem przeprowadzenia analizy wielowymiarowej na tym zbiorze danych byłoby dopasowanie modelu regresji liniowej wielokrotnej . Na przykład moglibyśmy stworzyć model regresji, który do przewidywania rocznego dochodu wykorzystuje wielkość gospodarstwa domowego i liczbę zwierząt domowych.
Zasób : zapoznaj się z tym samouczkiem , aby dowiedzieć się, jak przeprowadzić wielokrotną regresję liniową w języku R.
Innym sposobem przeprowadzenia analizy wielowymiarowej na tym zbiorze danych byłoby przeprowadzenie analizy głównych składowych , która pozwala nam znaleźć podstawową strukturę w zbiorze danych.
Zasób : zapoznaj się z tym samouczkiem , aby dowiedzieć się, jak przeprowadzić analizę głównych składowych w języku R.
Wniosek
Oto krótkie podsumowanie tego artykułu:
- Analiza jednowymiarowa to analiza jednej zmiennej.
- Analiza wielowymiarowa to analiza więcej niż jednej zmiennej.
- Istnieją różne sposoby przeprowadzania każdego rodzaju analizy w zależności od celu końcowego.
- W prawdziwym świecie często przeprowadzamy oba typy analiz na jednym zbiorze danych.
- Analiza jednowymiarowa pozwala nam zrozumieć rozkład wartości zmiennej, natomiast analiza wielowymiarowa pozwala nam zrozumieć związek między wieloma zmiennymi.