5 beispiele für clusteranalyse im wirklichen leben

Von Dr. Benjamin Anderson Juli 23, 2023 Führung Keine Kommentare

Die Clusteranalyse ist eine Technik des maschinellen Lernens , die versucht, Gruppen von Beobachtungen innerhalb eines Datensatzes zu finden.

Das Ziel der Clusteranalyse besteht darin, Cluster zu finden, bei denen die Beobachtungen innerhalb jedes Clusters einander recht ähnlich sind, während sich die Beobachtungen in verschiedenen Clustern stark voneinander unterscheiden.

Die folgenden Beispiele zeigen, wie die Clusteranalyse in verschiedenen realen Situationen eingesetzt wird.

Beispiel 1: Einzelhandelsmarketing

Einzelhandelsunternehmen nutzen Clustering häufig, um Gruppen ähnlicher Haushalte zu identifizieren.

Beispielsweise könnte ein Einzelhandelsunternehmen die folgenden Haushaltsinformationen sammeln:

Haushaltseinkommen
Größe des Haushalts
Leiter des Haushaltsberufs
Entfernung zum nächstgelegenen Stadtgebiet

Anschließend können sie diese Variablen in einen Clustering-Algorithmus einführen, um möglicherweise die folgenden Cluster zu identifizieren:

Gruppe 1: Kleine Familien, große Geldgeber
Gruppe 2: Große Familie, viel Geld ausgeben
Gruppe 3: Kleine Familie, geringe Ausgaben
Gruppe 4: Große Familie, geringe Ausgaben

Das Unternehmen kann dann jedem Haushalt personalisierte Werbung oder Verkaufsbriefe senden, basierend auf der Wahrscheinlichkeit, auf bestimmte Arten von Werbung zu reagieren.

Beispiel 2: Streaming-Dienste

Streaming-Dienste verwenden häufig Clustering-Analysen, um Zuschauer mit ähnlichem Verhalten zu identifizieren.

Beispielsweise kann ein Streaming-Dienst die folgenden Daten über Einzelpersonen sammeln:

Angesehene Minuten pro Tag
Gesamtzahl der Betrachtungssitzungen pro Woche
Anzahl der pro Monat angesehenen Einzelsendungen

Anhand dieser Metriken kann ein Streaming-Dienst eine Clusteranalyse durchführen, um Nutzer mit hoher und geringer Nutzung zu identifizieren, damit diese wissen, für wen sie den Großteil ihres Werbebudgets ausgeben sollten.

Beispiel 3: Sportwissenschaft

Datenwissenschaftler von Sportmannschaften verwenden häufig Clustering, um ähnliche Spieler zu identifizieren.

Beispielsweise können professionelle Basketballteams die folgenden Spielerinformationen sammeln:

Punkte pro Spiel
Rebounds pro Spiel
Assists pro Spiel
Steals pro Spiel

Sie können diese Variablen dann in einen Gruppierungsalgorithmus einspeisen, um ähnliche Spieler zu identifizieren, damit sie miteinander trainieren und spezifische Übungen basierend auf ihren Stärken und Schwächen durchführen können.

Beispiel 4: E-Mail-Marketing

Viele Unternehmen verwenden Clusteranalysen, um ähnliche Verbraucher zu identifizieren, damit sie die an Verbraucher gesendeten E-Mails so anpassen können, dass der Umsatz maximiert wird.

Beispielsweise kann ein Unternehmen die folgenden Informationen über Verbraucher sammeln:

Prozentsatz der geöffneten E-Mails
Anzahl der Klicks pro E-Mail
Zeitaufwand für das Überprüfen von E-Mails

Anhand dieser Metriken kann ein Unternehmen eine Clusteranalyse durchführen, um Verbraucher zu identifizieren, die E-Mails auf ähnliche Weise nutzen, und die Art der E-Mails und die Häufigkeit der E-Mails, die sie an verschiedene Kundengruppen senden, anpassen.

Beispiel 5: Krankenversicherung

Aktuare von Krankenversicherungsgesellschaften haben häufig Clusteranalysen eingesetzt, um „Cluster“ von Verbrauchern zu identifizieren, die ihre Krankenversicherung auf bestimmte Weise nutzen.

Ein Aktuar könnte beispielsweise die folgenden Informationen über Haushalte sammeln:

Gesamtzahl der Arztbesuche pro Jahr
Gesamtgröße des Haushalts
Gesamtzahl chronischer Krankheiten pro Haushalt
Durchschnittsalter der Haushaltsmitglieder

Ein Aktuar kann diese Variablen dann in einen Clustering-Algorithmus einspeisen, um ähnliche Haushalte zu identifizieren. Die Krankenkasse kann dann die monatlichen Prämien danach festlegen, wie oft sie erwartet, dass Haushalte bestimmter Gruppen ihre Versicherung in Anspruch nehmen.

Zusätzliche Ressourcen

Die folgenden Tutorials erklären, wie Sie verschiedene Arten von Clusteranalysen mithilfe statistischer Programmiersprachen durchführen:

So führen Sie K-Means-Clustering in Python durch
So führen Sie K-Means-Clustering in R durch
So führen Sie K-Medoids-Clustering in R durch
So führen Sie hierarchisches Clustering in R durch

Über den Autor

Dr. Benjamin Anderson

Hallo, ich bin Benjamin, ein pensionierter Statistikprofessor, der sich zum engagierten Statorials-Lehrer entwickelt hat. Mit umfassender Erfahrung und Fachwissen auf dem Gebiet der Statistik bin ich bestrebt, mein Wissen zu teilen, um Studenten durch Statorials zu befähigen. Mehr wissen