Jak przeprowadzić eksploracyjną analizę danych w programie excel


Jednym z pierwszych kroków w każdym projekcie analizy danych jest eksploracyjna analiza danych .

Wiąże się to z eksploracją zbioru danych na trzy sposoby:

1. Podsumuj zbiór danych za pomocą statystyki opisowej.

2. Zwizualizuj zbiór danych za pomocą wykresów.

3. Zidentyfikuj brakujące wartości.

Wykonując te trzy czynności, możesz zrozumieć, w jaki sposób wartości w zbiorze danych są rozłożone i wykryć wszelkie problematyczne wartości przed przystąpieniem do testowania hipotez , dopasowywania modelu regresji lub wykonywania modelowania statystycznego.

Poniższy przykład krok po kroku pokazuje, jak przeprowadzić eksploracyjną analizę danych w programie Excel.

Krok 1: Utwórz zbiór danych

Najpierw utwórzmy prosty zbiór danych zawierający informacje o 10 różnych koszykarzach:

Ten zbiór danych zawiera trzy zmienne (punkty, zbiórki, asysty), a niektóre zmienne mają wartości puste lub NA, co jest powszechne w zbiorach danych w świecie rzeczywistym.

Krok 2: Podsumuj dane

Następnie możemy obliczyć średnią, medianę, kwartyl, wartość minimalną i maksymalną dla każdej z trzech zmiennych w tym zbiorze danych:

Oto formuła, której użyliśmy dla każdej komórki w kolumnie B:

  • B13 : =ŚREDNIA( B2:B11 )
  • B14 : =MEDIANA( B2:B11 )
  • B15 : =KWARTYL( B2:B11 , 1)
  • B16 : =KWARTYL( B2:B11 , 3)
  • B17 : =MIN( B2:B11 )
  • B18 : =MAX( B2:B11 )

Następnie przeciągnęliśmy każdą formułę w prawo, abyśmy mogli obliczyć te same metryki dla wartości w kolumnach C i D.

Obliczając te statystyki opisowe dla każdej zmiennej, możemy dobrze zrozumieć rozkład wartości dla każdej zmiennej.

Uwaga : każda formuła automatycznie ignoruje wartości puste lub NA podczas obliczania każdej statystyki opisowej.

Krok 3: Wizualizuj dane

Możemy także tworzyć wykresy wizualizujące wartości zbioru danych.

Przykładowo, aby zwizualizować rozkład wartości dla zmiennej Punkty, możemy wyróżnić wartości w zakresie komórek B2:B11 , następnie kliknąć zakładkę Wstaw na górnej wstążce, następnie kliknąć ikonę Histogram w grupie Grafika :

Automatycznie zostanie utworzony następujący histogram:

Histogram ten pozwala na wizualizację rozkładu punktów zdobytych przez zawodników.

Na przykład możemy zobaczyć:

  • 4 zawodników zdobyło od 10 do 15 punktów.
  • 1 zawodnik zdobył od 15 do 20 punktów.
  • Dwóch zawodników zdobyło od 20 do 25 punktów.
  • Trzech zawodników zdobyło od 25 do 30 punktów.

Możemy powtórzyć ten proces dla każdej zmiennej w naszym zbiorze danych, aby zwizualizować rozkład wartości dla każdej zmiennej.

Krok 4: Zidentyfikuj brakujące wartości

Możemy również skorzystać z poniższego wzoru, aby policzyć liczbę brakujących wartości w kolumnie B:

 =SUMPRODUCT(--NOT(ISNUMBER( B2:B11 )))

Możemy wpisać tę formułę w komórkę B19 , a następnie przeciągnąć ją w prawo, aby obliczyć liczbę brakujących wartości dla każdej zmiennej w zbiorze danych:

Z wyniku możemy zobaczyć:

  • W kolumnie Punkty brakuje 0 wartości.
  • W kolumnie Odbicia brakuje 2 wartości.
  • W kolumnie Pomocy brakuje 1 wartości.

Zakończyliśmy teraz podstawową analizę danych eksploracyjnych tego zbioru danych i całkiem dobrze rozumiemy, w jaki sposób rozkładają się wartości dla każdej zmiennej w tym zbiorze danych.

Powiązane: Jak zamienić puste komórki na zero w programie Excel

Dodatkowe zasoby

Poniższe samouczki wyjaśniają, jak wykonywać inne typowe zadania w programie Excel:

Jak obliczyć podsumowanie pięciu liczb w programie Excel
Jak obliczyć średnią według grupy w programie Excel
Jak obliczyć maksymalną wartość na grupę w programie Excel

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *