Korrelation
In diesem Artikel wird die Bedeutung der Korrelation zwischen zwei Variablen, die Berechnung des Korrelationskoeffizienten und die verschiedenen Arten von Korrelationen erläutert. Darüber hinaus wird gezeigt, wie der Wert der Korrelation zwischen zwei Variablen interpretiert werden kann.
Was ist Korrelation?
Korrelation ist ein statistisches Maß, das den Grad der Beziehung zwischen zwei Variablen angibt. Genauer gesagt wird die lineare Korrelation verwendet, um den Grad der linearen Korrelation zwischen zwei verschiedenen Variablen zu bestimmen.
Zwei Variablen sind verknüpft, wenn sich durch die Änderung der Werte einer Variablen auch die Werte der anderen Variablen ändern. Wenn beispielsweise eine Erhöhung der Variablen A auch die Variable B erhöht, besteht eine Korrelation zwischen den Variablen A und B.
Arten der Korrelation
Abhängig vom Zusammenhang zwischen zwei Zufallsvariablen werden folgende Arten der linearen Korrelation unterschieden:
- Direkte Korrelation (oder positive Korrelation) : Eine Variable nimmt zu, wenn auch die andere zunimmt.
- Inverse Korrelation (oder negative Korrelation) : Wenn eine Variable zunimmt, nimmt die andere ab, und umgekehrt, wenn eine Variable abnimmt, nimmt die andere zu.
- Nullkorrelation (keine Korrelation) : Es besteht keine Beziehung zwischen den beiden Variablen.
Beachten Sie, dass es sich dabei um verschiedene Arten linearer Korrelationen handelt. Es kann jedoch auch sein, dass die mathematische Beziehung zwischen zwei Variablen nicht durch eine gerade Linie dargestellt werden kann, sondern eine komplexere Funktion wie ein Gleichnis erforderlich ist. oder ein Logarithmus. In diesem Fall würde es sich um einen nichtlinearen Zusammenhang handeln.
Korrelationskoeffizient
Unter Berücksichtigung der Definition von Korrelation und der verschiedenen existierenden Arten von Korrelation wollen wir uns nun ansehen, wie dieser statistische Wert berechnet wird.
Der Korrelationskoeffizient , auch linearer Korrelationskoeffizient oder Pearson-Korrelationskoeffizient genannt, ist der Wert der Korrelation zwischen zwei Variablen.
Der Korrelationskoeffizient zweier statistischer Variablen ist gleich dem Quotienten zwischen der Kovarianz der Variablen und der Quadratwurzel des Produkts der Varianz jeder Variablen. Daher lautet die Formel zur Berechnung des Korrelationskoeffizienten wie folgt:
Bei der Berechnung des Korrelationskoeffizienten für eine Grundgesamtheit ist das Korrelationssymbol der griechische Buchstabe ρ. Wenn der Koeffizient jedoch relativ zu einer Stichprobe berechnet wird, wird normalerweise der Buchstabe r als Symbol verwendet.
Der Wert des Korrelationsindex kann zwischen -1 und +1 liegen. Wir werden unten sehen, wie der Wert des Korrelationskoeffizienten interpretiert wird.
Ein konkretes Beispiel zur Berechnung des Korrelationskoeffizienten können Sie unter folgendem Link sehen:
Beachten Sie, dass es andere Arten von Korrelationskoeffizienten gibt, beispielsweise den Korrelationskoeffizienten nach Spearman oder Kendall. Am gebräuchlichsten ist jedoch zweifellos der Pearson-Korrelationskoeffizient.
Den Zusammenhang interpretieren
Der Wert des Korrelationskoeffizienten kann zwischen -1 und +1 liegen. Abhängig vom Wert des Korrelationskoeffizienten bedeutet dies, dass die Beziehung zwischen den beiden Variablen in die eine oder andere Richtung besteht. So interpretieren Sie den Korrelationswert :
- r=-1 : Die beiden Variablen weisen eine perfekte negative Korrelation auf, sodass wir eine Linie mit negativer Steigung zeichnen können, in der alle Punkte miteinander verbunden sind.
- -1<r<0 : Die Korrelation zwischen den beiden Variablen ist negativ. Wenn also eine Variable zunimmt, nimmt die andere ab. Je näher der Wert bei -1 liegt, desto negativer sind die Variablen miteinander verknüpft.
- r=0 : Die Korrelation zwischen den beiden Variablen ist sehr schwach, tatsächlich ist die lineare Beziehung zwischen ihnen Null. Dies bedeutet nicht, dass die Variablen unabhängig sind, da sie möglicherweise in einem nichtlinearen Zusammenhang stehen.
- 0<r<1 : Die Korrelation zwischen den beiden Variablen ist positiv. Je näher der Wert an +1 liegt, desto stärker ist die Beziehung zwischen den Variablen. In diesem Fall tendiert eine Variable dazu, ihren Wert zu erhöhen, wenn auch die andere zunimmt.
- r=1 : Die beiden Variablen haben eine perfekte positive Korrelation, das heißt, sie haben eine positive lineare Beziehung.
Wie Sie in den Streudiagrammen oben sehen können, sind die Punkte in der Grafik umso näher beieinander, je stärker die Korrelation zwischen zwei Variablen ist. Liegen die Punkte hingegen sehr weit auseinander, bedeutet dies, dass die Korrelation schwach ist.
Bedenken Sie, dass selbst wenn eine Korrelation zwischen zwei Variablen besteht, dies nicht bedeutet, dass zwischen ihnen eine Kausalität besteht, d. h . die Korrelation zwischen zwei Variablen bedeutet nicht, dass die Änderung in einer Variablen die Ursache für die Änderung in der anderen ist. Variable.
Wenn wir beispielsweise feststellen, dass ein positiver Zusammenhang zwischen der körpereigenen Produktion zweier verschiedener Hormone besteht, bedeutet dies nicht unbedingt, dass ein Anstieg des einen Hormons zu einem Anstieg des anderen Hormons führt. Es könnte sein, dass der Körper beide Hormone produziert, weil er beide zur Bekämpfung einer Krankheit benötigt und daher die Spiegel beider gleichzeitig erhöht. In diesem Fall wäre die Krankheit die Ursache. Um festzustellen, ob ein kausaler Zusammenhang zwischen den beiden Hormonen besteht, sollte eine genauere Untersuchung durchgeführt werden.
Korrelation und Regression
Korrelation und Regression sind zwei allgemein verwandte Konzepte, da beide zur Analyse der Beziehung zwischen zwei Variablen verwendet werden.
Korrelation ist ein statistisches Maß, das die Beziehung zwischen zwei Variablen quantifiziert. Bei der Regression muss jedoch eine Gleichung erstellt werden (bei einer linearen Regression handelt es sich um eine gerade Linie), die eine Beziehung zwischen den beiden Variablen ermöglicht.
Somit liefert die Korrelation lediglich einen numerischen Wert für die Beziehung zwischen Variablen, während die Regression verwendet werden kann, um zu versuchen, den Wert einer Variablen im Verhältnis zu einer anderen vorherzusagen.
Im Allgemeinen analysieren wir zunächst, ob die Variablen korrelieren, indem wir den Korrelationskoeffizienten berechnen. Und wenn die Korrelation signifikant ist, führen wir eine Regression des Datensatzes durch.
Es ist üblich, den Korrelationskoeffizienten mit dem Wert der Steigung der Linie zu verwechseln, der bei der linearen Regression erhalten wird, sie sind jedoch nicht äquivalent.
Korrelationsmatrix
Die Korrelationsmatrix ist eine Matrix, die an der Stelle i,j den Korrelationskoeffizienten zwischen den Variablen i und j enthält.
Daher ist die Korrelationsmatrix eine quadratische Matrix, die auf der Hauptdiagonale mit Einsen gefüllt ist, und das Element der Zeile i und der Spalte j besteht aus dem Wert des Korrelationskoeffizienten zwischen der Variablen i und der Variablen j .
Somit lautet die Formel für die Korrelationsmatrix wie folgt:
Gold
ist der Korrelationskoeffizient zwischen den Variablen
Und
Die Korrelationsmatrix ist sehr nützlich, um Ergebnisse zusammenzufassen und die Korrelation zwischen mehreren Variablen gleichzeitig zu vergleichen, da Sie schnell erkennen können, welche Beziehungen stark sind.