Hoe u verkennende gegevensanalyse uitvoert in excel
Een van de eerste stappen in elk data-analyseproject is verkennende data-analyse .
Hierbij wordt een dataset op drie manieren onderzocht:
1. Vat een reeks gegevens samen met behulp van beschrijvende statistieken.
2. Visualiseer een reeks gegevens met behulp van grafieken.
3. Identificeer ontbrekende waarden.
Door deze drie acties uit te voeren, kunt u begrijpen hoe de waarden in een dataset zijn verdeeld en kunt u eventuele problematische waarden detecteren voordat u doorgaat met het testen van hypothesen , het aanpassen van een regressiemodel of het uitvoeren van statistische modellen.
In het volgende stapsgewijze voorbeeld ziet u hoe u verkennende gegevensanalyses uitvoert in Excel.
Stap 1: Maak de gegevensset
Laten we eerst een eenvoudige dataset maken met informatie over tien verschillende basketbalspelers:
Deze dataset bevat drie variabelen (punten, rebounds, assists) en sommige variabelen hebben lege of NA-waarden, wat gebruikelijk is in datasets uit de echte wereld.
Stap 2: Vat de gegevens samen
Vervolgens kunnen we de gemiddelde, mediaan, kwartiel, minimum- en maximumwaarden berekenen voor elk van de drie variabelen in deze dataset:
Hier is de formule die we voor elke cel in kolom B hebben gebruikt:
- B13 : =GEMIDDELD( B2:B11 )
- B14 : =MEDIAAN( B2:B11 )
- B15 : =KWARTIEL( B2:B11 , 1)
- B16 : =KWARTIEL( B2:B11 , 3)
- B17 : =MIN( B2:B11 )
- B18 : =MAX( B2:B11 )
Vervolgens hebben we elke formule naar rechts gesleept, zodat we dezelfde statistieken konden berekenen voor de waarden in de kolommen C en D.
Door deze beschrijvende statistieken voor elke variabele te berekenen, kunnen we een goed inzicht krijgen in de verdeling van waarden voor elke variabele.
Opmerking : elke formule negeert automatisch blanco- of NA-waarden bij het berekenen van elke beschrijvende statistiek.
Stap 3: Visualiseer de gegevens
We kunnen ook grafieken maken om de waarden van de dataset te visualiseren.
Om bijvoorbeeld de verdeling van waarden voor de variabele Punten te visualiseren, kunnen we de waarden in het celbereik B2:B11 markeren, vervolgens op het tabblad Invoegen op het bovenste lint klikken en vervolgens op het Histogram- pictogram in de groep Afbeeldingen klikken. :
Het volgende histogram wordt automatisch gemaakt:
Met dit histogram kunt u de verdeling van de door de spelers gescoorde punten visualiseren.
We kunnen bijvoorbeeld zien:
- 4 spelers scoorden tussen de 10 en 15 punten.
- 1 speler scoorde tussen de 15 en 20 punten.
- 2 spelers scoorden tussen de 20 en 25 punten.
- 3 spelers scoorden tussen de 25 en 30 punten.
We kunnen dit proces herhalen voor elke variabele in onze dataset om de verdeling van waarden voor elke variabele te visualiseren.
Stap 4: Identificeer ontbrekende waarden
We kunnen ook de volgende formule gebruiken om het aantal ontbrekende waarden in kolom B te tellen:
=SUMPRODUCT(--NOT(ISNUMBER( B2:B11 )))
We kunnen deze formule in cel B19 typen en deze vervolgens naar rechts slepen om het aantal ontbrekende waarden voor elke variabele in de gegevensset te berekenen:
Uit het resultaat kunnen we zien:
- Er zijn 0 ontbrekende waarden in de Puntenkolom.
- Er zijn 2 ontbrekende waarden in de kolom Rebounds.
- Er ontbreekt 1 waarde in de Help-kolom.
We hebben nu een aantal verkennende basisgegevensanalyses op deze dataset voltooid en hebben een redelijk goed inzicht gekregen in hoe de waarden worden verdeeld voor elke variabele in deze dataset.
Gerelateerd: lege cellen vervangen door nul in Excel
Aanvullende bronnen
In de volgende zelfstudies wordt uitgelegd hoe u andere veelvoorkomende taken in Excel kunt uitvoeren:
Hoe u een samenvatting van vijf getallen in Excel kunt berekenen
Hoe het gemiddelde per groep in Excel te berekenen
Hoe de maximale waarde per groep in Excel te berekenen