Atypische waarden (uitschieters)

In dit artikel wordt uitgelegd wat uitschieters zijn en hoe ze worden berekend. Bovendien kunt u met een online rekenmachine uitschieters voor elk gegevensmonster berekenen.

Wat zijn uitschieters?

In de statistieken zijn uitbijters , ook wel uitbijters of uitbijters genoemd, waarden die significant verschillen van de rest van de dataset. Met andere woorden: een uitschieter is een abnormale waarde die extreem verschilt van de rest van de waarden in de steekproef.

Het is belangrijk om uitschieters in een steekproef te identificeren, omdat deze de berekening van statistische metingen aanzienlijk kunnen beïnvloeden.

Als we bijvoorbeeld de gegevensreeksen [1, 3, 5, 2, 79, 4, 8, 6] hebben, is het getal 79 duidelijk een uitbijter. Omdat de waarde ervan extreem hoger is dan de rest van de gegevens. In dit geval is het gemiddelde inclusief de uitbijter 13,5, terwijl het gemiddelde zonder de uitbijter 4,14 zou zijn. Zoals u kunt zien, heeft één enkele uitschieter al een grote invloed op het resultaat van een statistische meting.

 1, \ 3, \ 5, \ 2, \ 79, \ 4, \ 8, \ 6 \quad \color{orange}\bm{\longrightarrow}\color{black}\quad \text{Valor at\'ipico: } 79

Uitschieters zijn doorgaans gemakkelijk te onderscheiden in spreidingsdiagrammen, omdat ze geïsoleerd zijn van de rest van de gegevens. Kijk naar het volgende spreidingsdiagram, de uitbijter staat heel erg los van de rest van de waarden:

spreidingsdiagram van uitschieters of andere

👉 U kunt de onderstaande rekenmachine gebruiken om uitschieters voor elke dataset te vinden.

Hoe uitschieters te berekenen

Om uitschieters uit een gegevenssteekproef te berekenen, moeten de volgende stappen worden gevolgd:

  1. Bereken de kwartielen van de dataset.
  2. Bereken het interkwartielbereik van de gegevens.
  3. Atypische waarden (uitschieters) worden beschouwd als waarden die aan een van de volgende voorwaarden voldoen:

In de volgende boxplot ziet u twee uitschieters volgens dit criterium grafisch weergegeven:

boxplot-uitschieters

Opmerking: Houd er rekening mee dat er verschillende criteria zijn om de grenzen te bepalen waarboven gegevens als uitschieters worden beschouwd. In dit artikel is het Tukey-testcriterium als referentie genomen, omdat dit het meest gebruikte is.

Voorbeeld van uitschieters

Als we kijken naar de definitie van een uitbijter, zullen we in deze sectie een praktisch voorbeeld zien van hoe je uitbijters in een gegevensreeks kunt identificeren.

  • Bereken uitbijters of uitschieters uit de volgende statistische gegevensset.

Eerst berekenen we de drie kwartielen van de dataset:

Q_1=4,06

Q_2=4,38

Q_3=4,66

Zodra we de drie kwartielen hebben gevonden, vinden we het interkwartielbereik door kwartiel 3 min kwartiel 1 af te trekken:

IQR=Q_3-Q_1=4,66-4,06=0,6

En nu berekenen we de limieten die door de uitschieters zijn vastgesteld. Om dit te doen, gebruiken we de formules die in het bovenstaande gedeelte zijn uitgelegd:

Q_1-1,5\cdot IQR=4,06-1,5\cdot 0,6=3,16

Q_3+1,5\cdot IQR=4,66+1,5\cdot 0,6=5,56

Dus als een van de waarden kleiner is dan 3,16, is er sprake van een uitbijter. Als een waarde groter is dan 5,56, is dit eveneens een uitbijter.

Concluderend hebben we in dit geval twee extreme waarden, omdat 3,02 kleiner is dan 3,16 en 5,71 groter is dan 5,56.

\text{Valores at\'ipicos} =\Bigl\{3,02 \ ; \ 5,71\Bigr\}

Uitschieter rekenmachine

Voer een statistische gegevensset in de volgende rekenmachine in om eventuele uitschieters te berekenen. Gegevens moeten worden gescheiden door een spatie en moeten worden ingevoerd met de punt als decimaal scheidingsteken.

Oorzaken van uitschieters

Er zijn verschillende mogelijke oorzaken van uitschieters, waarvan de meest voorkomende zijn:

  • Het apparaat waarmee de metingen zijn uitgevoerd, is defect of heeft een ongeluk gehad.
  • Het gemeten onderdeel vertoonde een defect vanwege een abnormale oorzaak.
  • Er is een fout opgetreden bij de verzending of transcriptie van gegevens.
  • Er was sprake van een menselijke fout. Ongeacht de genomen voorzorgsmaatregelen zijn menselijke fouten niet geheel onvermijdelijk en daarom kunnen abnormale waarden nog steeds bestaan.

Dit zijn de meest voorkomende oorzaken, maar de reden kan uiteraard van alles zijn. Ook moet er rekening mee worden gehouden dat wanneer een statistisch onderzoek wordt uitgevoerd met talrijke waarnemingen, het normaal is dat er enkele uitschieters optreden.

Wat te doen met uitschieters

Een veel voorkomende vraag als we een uitbijter tegenkomen, is wat we ermee moeten doen. Moeten uitbijters uit de steekproef worden verwijderd?

Er wordt aangenomen dat uitschieters altijd moeten worden geëlimineerd, omdat het gegevens zijn die niet lijken op de rest van de set. Hoewel uitschieters een grote invloed hebben op de resultaten van sommige statistische maatstaven, betekent dit echter niet dat ze altijd moeten worden geëlimineerd.

Over het algemeen mogen uitschieters alleen worden verwijderd als we weten dat de oorzaak van de anomalie werkelijk gerechtvaardigd is en daarom zijn deze uitschieters waarnemingen die niet overeenkomen met wat er wordt bestudeerd.

Dit is vooral belangrijk bij kleine steekproeven, omdat extreme waarden dan meer invloed hebben op de statistische statistieken.

Als bijvoorbeeld de lengte van een onderdeel van een product wordt gemeten om kwaliteitscontrole uit te voeren, zal de gemeten waarde logischerwijs heel anders zijn dan de vorige en waarschijnlijk ook als er plotseling een ander type product verschijnt en hetzelfde onderdeel wordt gemeten. een uitschieter zijn. In dit geval zou de uitbijter kunnen worden uitgesloten omdat de oorzaak ervan bekend is en bekend is dat de gemeten gegevens geen deel uitmaken van de populatie die moet worden geanalyseerd.

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert