Wenn die Beziehung zwischen einer Reihe von Prädiktorvariablen und einer Antwortvariablen sehr komplex ist, verwenden wir häufig nichtlineare Methoden, um die Beziehung zwischen ihnen zu modellieren. Eine dieser Methoden sind Klassifizierungs- und Regressionsbäume (oft als CART abgekürzt), die mithilfe einer Reihe...
Wenn die Beziehung zwischen einer Reihe von Prädiktorvariablen und einer Antwortvariablen sehr komplex ist, verwenden wir häufig nichtlineare Methoden, um die Beziehung zwischen ihnen zu modellieren. Eine solche Methode ist die Erstellung eines Entscheidungsbaums . Der Nachteil bei der Verwendung eines...
Eine Stichprobenverteilung ist eine Wahrscheinlichkeitsverteilung einer bestimmten Statistik , die auf vielen Zufallsstichproben aus einer einzelnen Grundgesamtheit basiert. In diesem Tutorial wird erläutert, wie Sie mit Stichprobenverteilungen in Excel Folgendes tun: Generieren Sie eine Stichprobenverteilung. Visualisieren Sie die Stichprobenverteilung. Berechnen Sie...
Häufig möchten Sie möglicherweise eine Zufallsstichprobe aus einem Datensatz in Excel auswählen. Glücklicherweise ist dies mit der Funktion RAND() einfach zu bewerkstelligen, die eine Zufallszahl zwischen 0 und 1 generiert. Dieses Tutorial bietet ein schrittweises Beispiel für die Verwendung dieser Funktion...
Ein skaliertes Standortdiagramm ist eine Art Diagramm, das die angepassten Werte eines Regressionsmodells entlang der x-Achse und die Quadratwurzel der standardisierten Residuen entlang der y-Achse anzeigt. Wenn wir uns diese Grafik ansehen, überprüfen wir zwei Dinge: 1. Stellen Sie sicher, dass...
EinKonfidenzintervall ist ein Wertebereich, der wahrscheinlich einen Populationsparameter mit einem bestimmten Konfidenzniveau enthält. Die Berechnung erfolgt nach folgender allgemeiner Formel: Konfidenzintervall = (Punktschätzung) +/- (kritischer Wert)* (Standardfehler) Diese Formel erstellt ein Intervall mit einer Untergrenze und einer Obergrenze, das wahrscheinlich einen...
R ist eine der beliebtesten Programmiersprachen für die Arbeit mit Daten. Aber bevor wir mit Daten arbeiten können, müssen wir sie tatsächlich in R importieren! Wenn sich Ihre Daten bereits in einer CSV- oder Excel-Datei befinden, können Sie die Schritte in...
DieNormalverteilung ist die in allen Statistiken am häufigsten verwendete Verteilung und bekanntermaßen symmetrisch und glockenförmig. Eine eng verwandte Verteilung ist die t-Verteilung , die ebenfalls symmetrisch und glockenförmig ist, aber schwerere „Schwänze“ als die Normalverteilung aufweist. Mit anderen Worten: Im Vergleich...
Die meisten überwachten Algorithmen für maschinelles Lernen basieren auf der Verwendung eines einzelnen Vorhersagemodells wie linearer Regression , logistischer Regression , Ridge-Regression usw. Allerdings erstellen Methoden wie Bagging und Random Forests viele verschiedene Modelle basierend auf wiederholten Bootstrapping-Stichproben des Originaldatensatzes. Vorhersagen...
In der Statistik wollen wir oft Daten sammeln, um bestimmte Forschungsfragen beantworten zu können. Beispielsweise möchten wir möglicherweise die folgenden Fragen beantworten: 1. Wie hoch ist das mittlere Haushaltseinkommen in Miami, Florida? 2. Wie hoch ist das durchschnittliche Gewicht einer bestimmten...