Jak przeprowadzić eksploracyjną analizę danych w programie excel
Jednym z pierwszych kroków w każdym projekcie analizy danych jest eksploracyjna analiza danych .
Wiąże się to z eksploracją zbioru danych na trzy sposoby:
1. Podsumuj zbiór danych za pomocą statystyki opisowej.
2. Zwizualizuj zbiór danych za pomocą wykresów.
3. Zidentyfikuj brakujące wartości.
Wykonując te trzy czynności, możesz zrozumieć, w jaki sposób wartości w zbiorze danych są rozłożone i wykryć wszelkie problematyczne wartości przed przystąpieniem do testowania hipotez , dopasowywania modelu regresji lub wykonywania modelowania statystycznego.
Poniższy przykład krok po kroku pokazuje, jak przeprowadzić eksploracyjną analizę danych w programie Excel.
Krok 1: Utwórz zbiór danych
Najpierw utwórzmy prosty zbiór danych zawierający informacje o 10 różnych koszykarzach:
Ten zbiór danych zawiera trzy zmienne (punkty, zbiórki, asysty), a niektóre zmienne mają wartości puste lub NA, co jest powszechne w zbiorach danych w świecie rzeczywistym.
Krok 2: Podsumuj dane
Następnie możemy obliczyć średnią, medianę, kwartyl, wartość minimalną i maksymalną dla każdej z trzech zmiennych w tym zbiorze danych:
Oto formuła, której użyliśmy dla każdej komórki w kolumnie B:
- B13 : =ŚREDNIA( B2:B11 )
- B14 : =MEDIANA( B2:B11 )
- B15 : =KWARTYL( B2:B11 , 1)
- B16 : =KWARTYL( B2:B11 , 3)
- B17 : =MIN( B2:B11 )
- B18 : =MAX( B2:B11 )
Następnie przeciągnęliśmy każdą formułę w prawo, abyśmy mogli obliczyć te same metryki dla wartości w kolumnach C i D.
Obliczając te statystyki opisowe dla każdej zmiennej, możemy dobrze zrozumieć rozkład wartości dla każdej zmiennej.
Uwaga : każda formuła automatycznie ignoruje wartości puste lub NA podczas obliczania każdej statystyki opisowej.
Krok 3: Wizualizuj dane
Możemy także tworzyć wykresy wizualizujące wartości zbioru danych.
Przykładowo, aby zwizualizować rozkład wartości dla zmiennej Punkty, możemy wyróżnić wartości w zakresie komórek B2:B11 , następnie kliknąć zakładkę Wstaw na górnej wstążce, następnie kliknąć ikonę Histogram w grupie Grafika :
Automatycznie zostanie utworzony następujący histogram:
Histogram ten pozwala na wizualizację rozkładu punktów zdobytych przez zawodników.
Na przykład możemy zobaczyć:
- 4 zawodników zdobyło od 10 do 15 punktów.
- 1 zawodnik zdobył od 15 do 20 punktów.
- Dwóch zawodników zdobyło od 20 do 25 punktów.
- Trzech zawodników zdobyło od 25 do 30 punktów.
Możemy powtórzyć ten proces dla każdej zmiennej w naszym zbiorze danych, aby zwizualizować rozkład wartości dla każdej zmiennej.
Krok 4: Zidentyfikuj brakujące wartości
Możemy również skorzystać z poniższego wzoru, aby policzyć liczbę brakujących wartości w kolumnie B:
=SUMPRODUCT(--NOT(ISNUMBER( B2:B11 )))
Możemy wpisać tę formułę w komórkę B19 , a następnie przeciągnąć ją w prawo, aby obliczyć liczbę brakujących wartości dla każdej zmiennej w zbiorze danych:
Z wyniku możemy zobaczyć:
- W kolumnie Punkty brakuje 0 wartości.
- W kolumnie Odbicia brakuje 2 wartości.
- W kolumnie Pomocy brakuje 1 wartości.
Zakończyliśmy teraz podstawową analizę danych eksploracyjnych tego zbioru danych i całkiem dobrze rozumiemy, w jaki sposób rozkładają się wartości dla każdej zmiennej w tym zbiorze danych.
Powiązane: Jak zamienić puste komórki na zero w programie Excel
Dodatkowe zasoby
Poniższe samouczki wyjaśniają, jak wykonywać inne typowe zadania w programie Excel:
Jak obliczyć podsumowanie pięciu liczb w programie Excel
Jak obliczyć średnią według grupy w programie Excel
Jak obliczyć maksymalną wartość na grupę w programie Excel