Categorische gegevens in panda's plotten (met voorbeelden)


Er zijn drie veelgebruikte manieren omcategorische gegevens te visualiseren:

  • Staafdiagram
  • Boxplots per groep
  • Mozaïek percelen

De volgende voorbeelden laten zien hoe u elk van deze plots voor een Panda DataFrame in Python kunt maken.

Voorbeeld 1: staafdiagrammen

De volgende code laat zien hoe u een staafdiagram maakt om de frequentie van verschuivingen in een bepaald panda’s DataFrame te visualiseren:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'B', 'B', 'C', 'C', 'D'],
                   ' points ': [18, 22, 29, 25, 14, 11, 10, 15]})

#create bar plot to visualize frequency of each team
df[' team ']. value_counts (). plot (kind=' bar ', xlabel=' Team ', ylabel=' Count ', rot= 0 )

categorische gegevens in panda's plotten

Op de X-as wordt de naam van elk team weergegeven en op de Y-as de frequentie van elk team in het DataFrame.

Opmerking : het argument rot=0 vertelt panda’s dat ze de x-aslabels zo moeten draaien dat ze evenwijdig aan de x-as zijn.

Voorbeeld 2: Boxplots per groep

Geclusterde boxplots zijn een handige manier om een numerieke variabele te visualiseren, gegroepeerd op een categorische variabele.

De volgende code laat bijvoorbeeld zien hoe u boxplots maakt die de verdeling van de gescoorde punten weergeven, gegroepeerd per team:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
                   ' points ': [18, 22, 29, 25, 14, 11, 10, 15]})

#create boxplot of points, grouped by team
df. boxplot (column=[' points '], by=' team ', grid= False , color=' black ')

Op de x-as worden de teams weergegeven en op de y-as de verdeling van de punten die door elk team zijn gescoord.

Voorbeeld 3: mozaïekplot

Een betegelde plot is een type plot dat de frequenties van twee verschillende categorische variabelen in één plot weergeeft.

De volgende code laat bijvoorbeeld zien hoe u een mozaïekplot maakt dat de frequentie van de categorische variabelen ‚resultaat‘ en ‚team‘ in één plot weergeeft:

 import pandas as pd
from statsmodels. graphics . mosaicplot import mosaic

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'B', 'B', 'B', 'C', 'C', 'C'],
                   ' result ': ['W', 'L', 'L', 'W', 'W', 'L', 'L', 'W', 'W']})

#create mosaic plot
mosaic(df, [' team ', ' result ']); 

mozaïekplot voor categorische gegevens bij panda's

Op de x-as worden de teams weergegeven en op de y-as de frequentie van de resultaten voor elk team.

Aanvullende bronnen

In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende taken in panda’s kunt uitvoeren:

Groupby en Plot gebruiken in Panda’s
Hoe u de verdeling van kolomwaarden in Panda’s kunt plotten
Hoe u de figuurgrootte van een panda-plot kunt aanpassen

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert