Normale verdeling en t-verdeling: wat is het verschil?


Denormale verdeling is de meest gebruikte verdeling in alle statistieken en staat bekend als symmetrisch en klokvormig.

Een nauw verwante verdeling is de t-verdeling , die ook symmetrisch en klokvormig is, maar zwaardere „staarten“ heeft dan de normale verdeling.

Met andere woorden: er bevinden zich meer waarden in de verdeling aan de uiteinden dan in het midden vergeleken met de normale verdeling:

Normale verdeling versus t-verdeling

In statistisch jargon gebruiken we een metriek genaamd kurtosis om te meten hoe ‘zwaar’ een verdeling is. We zouden dus zeggen dat de kurtosis van een t-verdeling groter is dan die van een normale verdeling.

In de praktijk gebruiken we de t-verdeling meestal bij het testen van hypothesen of het construeren van betrouwbaarheidsintervallen .

De formule voor het berekenen van een betrouwbaarheidsinterval voor een populatiegemiddelde is bijvoorbeeld:

Betrouwbaarheidsinterval = x +/- t 1-α/2, n-1 *(s/√ n )

Goud:

  • x : steekproefgemiddelden
  • t: de kritische t-waarde, gebaseerd op het significantieniveau α en de steekproefomvang n
  • s: standaardafwijking van het monster
  • n: steekproefomvang

In deze formule gebruiken we de kritische waarde van tabel t in plaats van de kritische waarde van tabel z wanneer een van de volgende voorwaarden waar is:

  • We kennen de standaarddeviatie van de populatie niet.
  • De steekproefomvang is kleiner dan of gelijk aan 30.

Het volgende stroomdiagram biedt een handige manier om te weten of u de kritische waarde uit tabel t of tabel z moet gebruiken:

Tabel Z versus tabel t

Het belangrijkste verschil tussen het gebruik van de t-verdeling en het gebruik van de normale verdeling bij het construeren van betrouwbaarheidsintervallen is dat de kritische waarden van de t-verdeling groter zullen zijn, wat leidt tot bredere betrouwbaarheidsintervallen.

Stel dat we bijvoorbeeld een betrouwbaarheidsinterval van 95% willen construeren voor het gemiddelde gewicht van een populatie schildpadden, om zo een willekeurige steekproef van schildpadden te verzamelen met de volgende informatie:

  • Steekproefomvang n = 25
  • Gemiddeld monstergewicht x = 300
  • Steekproefstandaardafwijking s = 18,5

De kritische z-waarde voor een betrouwbaarheidsniveau van 95% is 1,96 , terwijl een kritische t-waarde voor een betrouwbaarheidsinterval van 95% met df = 25-1 = 24 vrijheidsgraden 2,0639 is.

Een betrouwbaarheidsinterval van 95% voor het populatiegemiddelde met behulp van een z-kritische waarde is dus:

95% BI = 300 +/- 1,96*(18,5/√ 25 ) = [292,75, 307,25]

Terwijl een betrouwbaarheidsinterval van 95% voor het populatiegemiddelde bij gebruik van een t-kritische waarde is:

95% BI = 300 +/- 2,0639*(18,5/√25) = [292,36, 307,64]

Merk op dat het betrouwbaarheidsinterval met de t-kritische waarde groter is.

Het idee hier is dat als we een kleine steekproefomvang hebben, we minder zeker zijn van het werkelijke populatiegemiddelde. Het is dus nuttig om de t-verdeling te gebruiken om bredere betrouwbaarheidsintervallen te produceren die een grotere kans hebben om het werkelijke populatiegemiddelde te bevatten.

Visualisatie van de vrijheidsgraden voor de t-verdeling

Opgemerkt moet worden dat naarmate de vrijheidsgraden toenemen, de t-verdeling de normale verdeling benadert.

Om dit te illustreren, bekijken we de volgende grafiek, die de vorm van de t-verdeling toont met de volgende vrijheidsgraden:

  • df = 3
  • df = 10
  • df = 30

Normale of t-verdelingsgrafieken

Boven de 30 vrijheidsgraden worden de t-verdeling en de normale verdeling zo vergelijkbaar dat de verschillen tussen het gebruik van een t-kritische waarde en een z-kritische waarde in de formules verwaarloosbaar worden.

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert