Univariate oder multivariate analyse: was ist der unterschied?


Der Begriff univariate Analyse bezieht sich auf die Analyse einer Variablen. Sie können sich das merken, denn das Präfix „uni“ bedeutet „eins“.

Der Begriff multivariate Analyse bezieht sich auf die Analyse von mehr als einer Variablen. Sie können sich das merken, denn das Präfix „multi“ bedeutet „mehr als eins“.

Es gibt drei gängige Methoden zur Durchführung einer univariaten Analyse :

1. Zusammenfassende Statistiken

  • Wir können Maße der zentralen Tendenz wie den Mittelwert oder Median für eine Variable berechnen.
  • Wir können auch Streuungsmaße wie die Standardabweichung für eine Variable berechnen.

2. Häufigkeitsverteilungen

  • Wir können eine Häufigkeitsverteilung erstellen, die beschreibt, wie oft jeder Wert für eine Variable auftritt.

3. Grafiken

  • Wir können Diagramme wie Boxplots, Histogramme, Dichtediagramme usw. erstellen. um die Verteilung der Werte einer Variablen zu visualisieren.

Es gibt zwei gängige Methoden zur Durchführung einer multivariaten Analyse :

1. Streudiagrammmatrix

  • Wir können eine Streudiagrammmatrix erstellen, die es uns ermöglicht, die Beziehung zwischen jeder paarweisen Kombination von Variablen in einem Datensatz zu visualisieren.

2. Algorithmen für maschinelles Lernen

  • Wir können einen überwachten Lernalgorithmus verwenden, um ein Modell wie die multiple lineare Regression anzupassen, das die Beziehung zwischen mehreren Prädiktorvariablen und einer Antwortvariablen quantifiziert.
  • Wir können auch einen unbeaufsichtigten Lernalgorithmus wie die Hauptkomponentenanalyse verwenden, um gleichzeitig die Struktur und Beziehungen zwischen mehreren Variablen in einem Datensatz zu ermitteln.

Die folgenden Beispiele zeigen, wie eine univariate und multivariate Analyse mit dem folgenden Datensatz durchgeführt wird:

Hinweis : Wenn Sie genau zwei Variablen analysieren, spricht man von bivariater Analyse .

Beispiel: So führen Sie eine univariate Analyse durch

Wir könnten uns dafür entscheiden, eine univariate Analyse für jede der einzelnen Variablen im Datensatz durchzuführen.

Beispielsweise können wir eine univariate Analyse für die Variable Haushaltsgröße durchführen:

Beispiel einer univariaten Analyse

Wir können die folgenden Maße der zentralen Tendenz der Haushaltsgröße berechnen:

  • Durchschnitt (der Durchschnittswert): 3,8
  • Median (der Durchschnittswert): 4

Diese Werte geben uns eine Vorstellung davon, wo der „zentrale“ Wert liegt.

Wir können auch die folgenden Ausbreitungsmaße berechnen:

  • Bereich (die Differenz zwischen Max und Min): 6
  • Interquartilskala (die Verteilung der mittleren 50 % der Werte): 2,5
  • Standardabweichung (ein durchschnittliches Maß für die Ausbreitung): 1,87

Diese Werte geben uns eine Vorstellung von der Werteverteilung dieser Variablen.

Wir können auch die folgende Häufigkeitsverteilungstabelle erstellen, um zusammenzufassen, wie oft unterschiedliche Werte auftreten:

Wir können auch ein Boxplot erstellen, um die Verteilung der Werte nach Haushaltsgröße zu visualisieren:

Alternativ könnten wir ein Histogramm erstellen, um die Verteilung der Werte zu visualisieren:

Durch die Berechnung dieser Messungen und die Erstellung dieser Diagramme können wir besser verstehen, wie die Werte für die Variable „Haushaltsgröße“ verteilt sind.

Beispiel: So führen Sie eine multivariate Analyse durch

Nehmen wir erneut an, dass wir denselben Datensatz haben:

Eine einfache Form der multivariaten Analyse, die wir an diesem Datensatz durchführen könnten, besteht darin, eine Streudiagrammmatrix zu erstellen. Dabei handelt es sich um eine Matrix, die ein Streudiagramm für jede paarweise Kombination numerischer Variablen im Datensatz anzeigt.

Wir könnten eine solche Matrix erstellen, um gleichzeitig die Beziehung zwischen Haushaltsgröße, Jahreseinkommen und Anzahl der Haustiere zu visualisieren.

Ressource : Sehen Sie sich dieses Tutorial an, um zu erfahren, wie Sie eine Streudiagrammmatrix in R erstellen.

Eine andere Möglichkeit, eine multivariate Analyse dieses Datensatzes durchzuführen, wäre die Anpassung eines multiplen linearen Regressionsmodells . Beispielsweise könnten wir ein Regressionsmodell erstellen, das die Haushaltsgröße und die Anzahl der Haustiere verwendet, um das Jahreseinkommen vorherzusagen.

Ressource : Sehen Sie sich dieses Tutorial an, um zu erfahren, wie Sie eine multiple lineare Regression in R durchführen.

Eine andere Möglichkeit, eine multivariate Analyse dieses Datensatzes durchzuführen, wäre die Durchführung einer Hauptkomponentenanalyse , die es uns ermöglicht, die zugrunde liegende Struktur im Datensatz zu finden.

Ressource : Sehen Sie sich dieses Tutorial an, um zu erfahren, wie Sie eine Hauptkomponentenanalyse in R durchführen.

Abschluss

Hier ist eine kurze Zusammenfassung dieses Artikels:

  • Bei der univariaten Analyse handelt es sich um die Analyse einer Variablen.
  • Bei der multivariaten Analyse handelt es sich um die Analyse von mehr als einer Variablen.
  • Abhängig von Ihrem Endziel gibt es unterschiedliche Möglichkeiten, jede Art von Analyse durchzuführen.
  • In der realen Welt führen wir oft beide Arten von Analysen an einem einzigen Datensatz durch.
  • Die univariate Analyse ermöglicht es uns, die Werteverteilung einer Variablen zu verstehen, während die multivariate Analyse es uns ermöglicht, die Beziehung zwischen mehreren Variablen zu verstehen.

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert