Was gilt als „stark“; korrelation?


In der Statistik versuchen wir oft zu verstehen, wie zwei Variablen zueinander in Beziehung stehen. Zum Beispiel möchten wir vielleicht wissen:

  • Welcher Zusammenhang besteht zwischen der Anzahl der Stunden, die ein Student lernt, und der Note, die er bei der Prüfung erhält?
  • Welcher Zusammenhang besteht zwischen der Außentemperatur und der Anzahl der von einem Imbisswagen verkauften Eistüten?
  • Welcher Zusammenhang besteht zwischen den ausgegebenen Marketingausgaben und dem Gesamtumsatz eines bestimmten Unternehmens?

In jedem dieser Szenarios versuchen wir, die Beziehung zwischen zwei verschiedenen Variablen zu verstehen.

In der Statistik ist eine der gebräuchlichsten Methoden zur Quantifizierung einer Beziehung zwischen zwei Variablen die Verwendung des Pearson-Korrelationskoeffizienten , der ein Maß für den linearen Zusammenhang zwischen zwei Variablen ist . Es hat einen Wert zwischen -1 und 1, wobei:

  • -1 zeigt eine vollkommen negative lineare Korrelation zwischen zwei Variablen an
  • 0 bedeutet, dass zwischen zwei Variablen keine lineare Korrelation besteht
  • 1 zeigt eine vollkommen positive lineare Korrelation zwischen zwei Variablen an

Diese oft mit r bezeichnete Zahl hilft uns, die Stärke einer Beziehung zwischen zwei Variablen zu verstehen. Je weiter r von Null entfernt ist, desto stärker ist die Beziehung zwischen den beiden Variablen .

Es ist wichtig zu beachten, dass zwei Variablen eine starke positive Korrelation oder eine starke negative Korrelation aufweisen können.

Starke positive Korrelation: Wenn der Wert einer Variablen steigt, steigt der Wert der anderen Variablen in gleicher Weise. Je mehr Stunden ein Student beispielsweise mit Lernen verbringt, desto höher ist tendenziell seine Prüfungspunktzahl. Lernstunden und Prüfungsergebnisse weisen einen starken positiven Zusammenhang auf.

Starke negative Korrelation: Wenn der Wert einer Variablen steigt, nimmt der Wert der anderen Variablen tendenziell ab. Je älter beispielsweise eine Henne wird, desto weniger Eier produziert sie. Hühneralter und Eierproduktion weisen einen starken negativen Zusammenhang auf.

Die folgende Tabelle zeigt die Faustregel zur Interpretation der Stärke der Beziehung zwischen zwei Variablen basierend auf dem Wert von r :

Absoluter Wert von r Stärke der Beziehung
r < 0,25 Keine Beziehung
0,25 < r < 0,5 Schwache Beziehung
0,5 < r < 0,75 Moderate Beziehungen
r > 0,75 Starke Beziehungen

Die Korrelation zwischen zwei Variablen gilt als stark, wenn der Absolutwert von r größer als 0,75 ist. Die Definition einer „starken“ Korrelation kann jedoch von Feld zu Feld unterschiedlich sein.

Medizinisch

Im medizinischen Bereich beispielsweise ist die Definition einer „starken“ Beziehung oft viel niedriger. Wenn der Zusammenhang zwischen der Einnahme eines bestimmten Medikaments und der Verringerung von Herzinfarkten r = 0,3 beträgt, könnte dies in anderen Bereichen als „schwach positiver“ Zusammenhang angesehen werden, in der Medizin ist er jedoch signifikant genug, um die Einnahme des Arzneimittels zur Verringerung des Risikos eines Herzinfarkts zu lohnen einen Herzinfarkt haben.

Personalwesen

Auch in einem anderen Bereich wie dem Personalwesen könnten geringere Korrelationen häufiger zum Einsatz kommen. Beispielsweise wurde gezeigt, dass die Korrelation zwischen Hochschulnoten und Arbeitsleistung etwa r = 0,16 beträgt. Das ist ziemlich niedrig, aber wichtig genug, dass ein Unternehmen dies zumindest während eines Vorstellungsgesprächs berücksichtigen sollte.

Technologie

Und in einem Bereich wie der Technologie muss die Korrelation zwischen Variablen in manchen Fällen möglicherweise viel höher sein, um als „stark“ zu gelten. Wenn ein Unternehmen beispielsweise ein selbstfahrendes Auto entwickelt und die Korrelation zwischen den Abbiegeentscheidungen des Autos und der Wahrscheinlichkeit eines Unfalls r = 0,95 beträgt, ist dies wahrscheinlich zu niedrig, als dass das Auto als sicher angesehen werden könnte, da das Ergebnis der Herstellung eines selbstfahrendes Auto beträgt r = 0,95. Eine schlechte Entscheidung kann tödlich sein.

Zusammenhänge anzeigen

Unabhängig davon, in welchem Bereich Sie arbeiten, ist es hilfreich, ein Streudiagramm der beiden Variablen zu erstellen, die Sie untersuchen, damit Sie die Beziehung zwischen ihnen zumindest visuell untersuchen können.

Angenommen, wir haben den folgenden Datensatz, der die Größe und das Gewicht von 12 Personen zeigt:

Es ist etwas schwierig, die Beziehung zwischen diesen beiden Variablen allein anhand der Rohdaten zu verstehen. Es ist jedoch viel einfacher, den Zusammenhang zu verstehen, wenn wir ein Streudiagramm mit der Höhe auf der x-Achse und dem Gewicht auf der y-Achse erstellen:

Es besteht eindeutig ein positiver Zusammenhang zwischen den beiden Variablen.

Die Erstellung einer Punktwolke ist aus zwei weiteren Gründen eine gute Idee:

(1) Mit einem Streudiagramm können Sie Ausreißer identifizieren, die sich auf die Korrelation auswirken.

Ein extremer Ausreißer kann einen Pearson-Korrelationskoeffizienten erheblich verändern. Betrachten Sie das folgende Beispiel, in dem die Variablen X und Y einen Pearson-Korrelationskoeffizienten von r = 0,00 haben.

Aber stellen Sie sich nun vor, wir hätten einen Ausreißer im Datensatz:

Dieser Ausreißer führt dazu, dass die Korrelation r = 0,878 beträgt. Dieser einzelne Datenpunkt verändert die Korrelation völlig und erweckt den Eindruck, als gäbe es eine starke Beziehung zwischen den Variablen X und Y , obwohl dies in Wirklichkeit nicht der Fall ist.

(2) Ein Streudiagramm kann Ihnen dabei helfen, nichtlineare Beziehungen zwischen Variablen zu identifizieren.

Ein Pearson-Korrelationskoeffizient sagt uns einfach, ob zwei Variablen linear zusammenhängen. Aber selbst wenn uns ein Pearson-Korrelationskoeffizient sagt, dass zwei Variablen nicht korreliert sind, könnte zwischen ihnen dennoch eine Art nichtlineare Beziehung bestehen. Auch aus diesem Grund ist es sinnvoll, ein Streudiagramm zu erstellen.

Betrachten Sie beispielsweise das Streudiagramm unten zwischen den Variablen X und Y , in dem ihre Korrelation r = 0,00 beträgt.

Die Variablen haben eindeutig keine lineare Beziehung, aber sie haben eine nichtlineare Beziehung: Die y-Werte sind einfach die x-Werte im Quadrat. Ein Korrelationskoeffizient allein konnte diesen Zusammenhang nicht erkennen, ein Streudiagramm jedoch schon.

Abschluss

In Summe:

  • Im Allgemeinen gilt eine Korrelation von mehr als 0,75 als „starke“ Korrelation zwischen zwei Variablen.
  • Allerdings kann diese Faustregel von Gebiet zu Gebiet unterschiedlich sein. Beispielsweise könnte eine viel schwächere Korrelation in einem medizinischen Bereich im Vergleich zu einem technologischen Bereich als stark angesehen werden. Es ist am besten, domänenspezifisches Fachwissen zu nutzen, um zu entscheiden, was als stark gilt.
  • Wenn Sie Korrelation verwenden, um die Beziehung zwischen zwei Variablen zu beschreiben, ist es hilfreich, auch ein Streudiagramm zu erstellen, damit Sie Ausreißer im Datensatz sowie eine potenzielle nichtlineare Beziehung identifizieren können.

Zusätzliche Ressourcen

Was gilt als „schwache“ Korrelation?
Korrelationsmatrix-Rechner
So lesen Sie eine Korrelationsmatrix

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert