Pandas dataframe için özet istatistikler nasıl hesaplanır

İle Dr.benjamin anderson Temmuz 20, 2023 Rehber 0 Yorum

Bir pandas DataFrame’deki değişkenlere ilişkin özet istatistikleri hesaplamak için aşağıdaki yöntemleri kullanabilirsiniz:

Yöntem 1: Tüm sayısal değişkenler için özet istatistikleri hesaplayın

 df. describe ()

Yöntem 2: Tüm dize değişkenleri için özet istatistikleri hesaplayın

 df. describe (include=' object ')

Yöntem 3: Bir değişkene göre gruplandırılmış özet istatistikleri hesaplama

 df. groupby (' group_column '). mean ()

df. groupby (' group_column '). median ()

df. groupby (' group_column '). max ()

...

Aşağıdaki örnekler, her yöntemin pratikte aşağıdaki pandalar DataFrame ile nasıl kullanılacağını gösterir:

 import pandas as pd
import numpy as np

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'B'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28, 30],
                   ' assists ': [5, np.nan, 7, 9, 12, 9, 9, 4, 5],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, np.nan, 6]})

#view DataFrame
print (df)

  team points assists rebounds
0 to 18 5.0 11.0
1 to 22 NaN 8.0
2 A 19 7.0 10.0
3 A 14 9.0 6.0
4 B 14 12.0 6.0
5 B 11 9.0 5.0
6 B 20 9.0 9.0
7 B 28 4.0 NaN
8 B 30 5.0 6.0

Örnek 1: Tüm sayısal değişkenler için özet istatistikleri hesaplayın

Aşağıdaki kod, DataFrame’deki her sayısal değişken için özet istatistiklerinin nasıl hesaplanacağını gösterir:

 df. describe ()

	   points assists rebounds
count 9.000000 8.000000 8.000000
mean 19.555556 7.500000 7.625000
std 6.366143 2.725541 2.199838
min 11.000000 4.000000 5.000000
25% 14,000000 5,000000 6,000000
50% 19,000000 8,000000 7,000000
75% 22.000000 9.000000 9.250000
max 30.000000 12.000000 11.000000

Üç sayısal değişkenin her biri için aşağıdaki özet istatistikleri görebiliriz:

count: sıfır olmayan değerlerin sayısı
ortalama : Ortalama değer
std : Standart sapma
min: minimum değer
%25 : 25. yüzdelik dilimdeki değer
%50 : 50. yüzdelik dilimdeki değer (aynı zamanda medyan)
%75 : 75. yüzdelik dilimdeki değer
max : Maksimum değer

Örnek 2: Tüm dize değişkenleri için özet istatistikleri hesaplayın

Aşağıdaki kod, DataFrame’deki her dize değişkeni için özet istatistiklerinin nasıl hesaplanacağını gösterir:

 df. describe (include=' object ')

	team
count 9
single 2
top B
freq 5

DataFrame’imizde string değişkeni için aşağıdaki özet istatistiklerini görebiliriz:

count : Sıfır olmayan değerlerin sayısı
benzersiz : Benzersiz değerlerin sayısı
üstte: en sık görülen değer
freq : En sık görünen değerlerin sayısı

Örnek 3: Bir değişkene göre gruplandırılmış özet istatistikleri hesaplama

Aşağıdaki kod, takım değişkenine göre gruplandırılmış tüm sayısal değişkenlerin ortalama değerinin nasıl hesaplanacağını gösterir:

 df. groupby (' team '). mean ()

	points assists rebounds
team			
A 18.25 7.0 8.75
B 20.60 7.8 6.50

Çıktı, takım değişkenine göre gruplandırılmış sayı , asist ve ribaund değişkenlerinin ortalama değerini görüntüler.

Medyan gibi farklı bir özet istatistiğini hesaplamak için benzer sözdizimini kullanabileceğimizi unutmayın:

 df. groupby (' team '). median ()

	points assists rebounds
team			
A 18.5 7.0 9.0
B 20.0 9.0 6.0

Çıktı, takım değişkenine göre gruplandırılmış sayı , asist ve ribaund değişkenlerinin medyan değerini görüntüler.

Not : Pandalardaki açıklama fonksiyonunun tam belgelerini burada bulabilirsiniz.

Ek kaynaklar

Aşağıdaki eğitimlerde diğer yaygın panda görevlerinin nasıl gerçekleştirileceği açıklanmaktadır:

Pandalarda grup görülmeleri nasıl sayılır?
Pandalar’da grup başına maksimum değer nasıl bulunur?
Pandalarda aykırı değerler nasıl belirlenir

yazar hakkında

Dr.benjamin anderson

Merhaba, ben Benjamin, emekli bir istatistik profesörü ve Statorials öğretmenine dönüştüm. İstatistik alanındaki kapsamlı deneyimim ve uzmanlığımla, öğrencilerimi Statorials aracılığıyla güçlendirmek için bilgilerimi paylaşmaya can atıyorum. Daha fazlasını bil