Was ist ein guter r-quadrat-wert?
Das R-Quadrat misst, wie gut ein lineares Regressionsmodell zu einem Datensatz „passt“. Das R-Quadrat, auch allgemein als Bestimmtheitsmaß bezeichnet, ist der Anteil der Varianz in der Antwortvariablen, der durch die Prädiktorvariable erklärt werden kann.
Der R-Quadrat-Wert kann zwischen 0 und 1 liegen. Ein Wert von 0 gibt an, dass die Antwortvariable überhaupt nicht durch die Prädiktorvariable erklärt werden kann. Ein Wert von 1 gibt an, dass die Antwortvariable perfekt und fehlerfrei durch die Prädiktorvariable erklärt werden kann.
In der Praxis werden Sie für das R-Quadrat wahrscheinlich nie einen Wert von 0 oder 1 sehen. Stattdessen werden Sie wahrscheinlich auf einen Wert zwischen 0 und 1 stoßen.
Angenommen, Sie verfügen über einen Datensatz, der die Bevölkerungsgröße und die Anzahl der Floristen in 30 verschiedenen Städten enthält. Sie passen ein einfaches lineares Regressionsmodell an den Datensatz an und verwenden dabei die Bevölkerungsgröße als Prädiktorvariable und Floristen als Antwortvariable. Im Ergebnis der Regressionsergebnisse sehen Sie, dass R 2 = 0,2. Dies deutet darauf hin, dass 20 % der Schwankungen in der Anzahl der Floristen durch die Bevölkerungsgröße erklärt werden können.
Dies bringt uns zu einer wichtigen Frage: Ist dies ein „guter“ Wert für das R-Quadrat?
Die Antwort auf diese Frage hängt von Ihrem Ziel für das Regressionsmodell ab. Wissen:
1. Möchten Sie die Beziehung zwischen dem/den Prädiktor(en) und der Antwortvariablen erläutern?
GOLD
2. Möchten Sie die Antwortvariable vorhersagen?
Je nach Zielsetzung ist die Antwort auf die Frage „Was ist ein guter Wert für R im Quadrat?“ “ wird anders sein.
Erklären Sie die Beziehung zwischen dem/den Prädiktor(en) und der Antwortvariablen
Wenn Ihr Hauptziel für Ihr Regressionsmodell darin besteht, die Beziehung zwischen dem/den Prädiktor(en) und der Antwortvariablen zu erklären, ist das R-Quadrat praktisch irrelevant.
Nehmen wir beispielsweise an, dass Sie im obigen Regressionsbeispiel sehen, dass der Koeffizient der prädiktiven Bevölkerungsgröße 0,005 beträgt und statistisch signifikant ist. Dies bedeutet, dass ein Anstieg der Bevölkerung um eins mit einem durchschnittlichen Anstieg der Anzahl der Floristen in einer bestimmten Stadt um 0,005 verbunden ist. Darüber hinaus ist die Bevölkerungsgröße ein statistisch signifikanter Indikator für die Anzahl der Floristen in einer Stadt.
Ob der R-Quadrat-Wert dieses Regressionsmodells 0,2 oder 0,9 beträgt, ändert nichts an dieser Interpretation. Da Sie lediglich an der Beziehung zwischen Bevölkerungsgröße und Anzahl der Floristen interessiert sind, müssen Sie sich nicht allzu viele Gedanken über den R-Quadrat-Wert des Modells machen.
Sagen Sie die Antwortvariable voraus
Wenn Ihr Hauptziel darin besteht, den Wert der Antwortvariablen mithilfe der Prädiktorvariablen genau vorherzusagen, ist das R-Quadrat wichtig.
Im Allgemeinen gilt: Je größer der R-Quadrat-Wert, desto genauer können die Prädiktorvariablen den Wert der Antwortvariablen vorhersagen.
Der für den R-Quadrat-Wert erforderliche Wert hängt von der benötigten Präzision ab. In wissenschaftlichen Studien kann es beispielsweise erforderlich sein, dass das R-Quadrat größer als 0,95 ist, damit ein Regressionsmodell als zuverlässig gilt. In anderen Bereichen kann ein R-Quadrat von nur 0,3 ausreichend sein, wenn der Datensatz extreme Schwankungen aufweist.
Um zu wissen, was als „guter“ R-Quadrat-Wert gilt, müssen Sie untersuchen, welche R-Quadrat-Werte in Ihrem speziellen Studienbereich allgemein akzeptiert werden. Wenn Sie eine Regressionsanalyse für einen Kunden oder ein Unternehmen durchführen, können Sie ihn möglicherweise fragen, was als akzeptabler R-Quadrat-Wert gilt.
Vorhersageintervalle
Ein Vorhersageintervall gibt einen Bereich an, in den eine neue Beobachtung fallen könnte, basierend auf den Werten der Prädiktorvariablen. Engere Vorhersageintervalle weisen darauf hin, dass die Prädiktorvariablen die Antwortvariable genauer vorhersagen können.
Ein Vorhersageintervall kann oft nützlicher sein als ein R-Quadrat-Wert, da es Ihnen einen genauen Wertebereich angibt, in den eine neue Beobachtung fallen könnte. Dies ist besonders nützlich, wenn Ihr primäres Ziel der Regression darin besteht, neue Werte der Antwortvariablen vorherzusagen.
Angenommen, eine Bevölkerung von 40.000 Einwohnern ergibt ein prognostiziertes Intervall von 30 bis 35 Floristen in einer bestimmten Stadt. Abhängig von der Verwendung des Regressionsmodells kann dies als akzeptabler Wertebereich angesehen werden oder auch nicht.
Abschluss
Im Allgemeinen gilt: Je größer der R-Quadrat-Wert, desto genauer können die Prädiktorvariablen den Wert der Antwortvariablen vorhersagen.
Wie gut ein R-Quadrat-Wert sein muss, um als „gut“ zu gelten, variiert je nach Domäne. Einige Bereiche erfordern eine höhere Präzision als andere.
Um herauszufinden, was als „guter“ R-Quadrat-Wert gilt, überlegen Sie, was in dem Bereich, in dem Sie arbeiten, allgemein akzeptiert ist, fragen Sie jemanden mit spezifischen Kenntnissen in einem bestimmten Bereich oder fragen Sie den Kunden/Kunden. Unternehmen, für das Sie die Regressionsanalyse durchführen. für das, was sie für akzeptabel halten.
Wenn Sie die Beziehung zwischen dem Prädiktor und der Antwortvariablen erklären möchten, ist das R-Quadrat weitgehend irrelevant, da es keinen Einfluss auf die Interpretation des Regressionsmodells hat.
Wenn Sie die Antwortvariable vorhersagen möchten, sind Vorhersageintervalle im Allgemeinen nützlicher als R-Quadrat-Werte.
Weiterführende Literatur:
Pearson-Korrelationskoeffizient
Einführung in die einfache lineare Regression