Was ist y hat in der statistik?


In der Statistik bezieht sich der Begriff y hat (geschrieben ŷ ) auf den geschätzten Wert einer Antwortvariablen in einem linearen Regressionsmodell .

Im Allgemeinen schreiben wir eine geschätzte Regressionsgleichung wie folgt:

ŷ = β 0 + β 1 x

Gold:

  • ŷ : Der geschätzte Wert der Antwortvariablen
  • β 0 : Der Durchschnittswert der Antwortvariablen, wenn die Prädiktorvariable Null ist
  • β 1 : durchschnittliche Änderung der Antwortvariablen, verbunden mit einem Anstieg der Vorhersagevariablen um eine Einheit

Angenommen, wir haben den folgenden Datensatz, der die Anzahl der Stunden, die sechs verschiedene Studenten gelernt haben, zusammen mit ihren Abschlussprüfungsergebnissen zeigt:

Angenommen, wir verwenden Statistiksoftware (wie R , Excel , Python oder sogar manuell), um das folgende Regressionsmodell anzupassen, wobei wir die untersuchten Stunden als Prädiktorvariable und die Prüfungsergebnisse als Antwortvariable verwenden:

Punktzahl = 66,615 + 5,0769*(Stunden)

Die Regressionskoeffizienten in diesem Modell werden wie folgt interpretiert:

  • Die durchschnittliche Prüfungspunktzahl für einen Studenten, der null Stunden studiert, beträgt 66.615 .
  • Mit jeder weiteren Unterrichtsstunde erhöht sich die Prüfungspunktzahl durchschnittlich um 5,0769 Punkte.

Wir können diese Regressionsgleichung verwenden, um die Punktzahl eines bestimmten Schülers basierend auf der Anzahl der gelernten Stunden zu schätzen .

Beispielsweise sollte ein Student, der drei Stunden lang lernt, die folgende Punktzahl erreichen:

Punktzahl = 66,615 + 5,0769*(3) = 81,85

Warum wird Y Hat verwendet?

Das „Hut“-Symbol wird in der Statistik für jeden „geschätzten“ Begriff verwendet. Beispielsweise wird ŷ verwendet, um eine geschätzte Antwortvariable zu bezeichnen.

Wenn wir lineare Regressionsmodelle anpassen, verwenden wir normalerweise eine Stichprobe von Daten aus einer Grundgesamtheit, da dies bequemer und weniger zeitaufwändig ist als das Sammeln von Daten für jede mögliche Beobachtung in einer Grundgesamtheit.

Wenn wir also eine Regressionsgleichung finden, schätzen wir nur die wahre Beziehung zwischen einer Prädiktorvariablen und einer Antwortvariablen.

Aus diesem Grund verwenden wir in der Regressionsgleichung den Term ŷ anstelle von y.

Zusätzliche Ressourcen

Einführung in die einfache lineare Regression
Einführung in die multiple lineare Regression
Einführung in erklärende Variablen und Antwortvariablen

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert