Pandas: como calcular o desvio padrão para cada linha

By Dr. benjamim anderson Julho 13, 2023 Guia 0 Comments

Você pode usar a seguinte sintaxe básica para calcular o desvio padrão dos valores para cada linha de um DataFrame do pandas:

 df. std (axis= 1 , numeric_only= True )

O argumento axis=1 diz ao pandas para realizar o cálculo para cada linha (em vez de cada coluna) e numeric_only=True diz ao pandas para considerar apenas colunas numéricas ao realizar o cálculo.

O exemplo a seguir mostra como usar essa sintaxe na prática.

Exemplo: calcule o desvio padrão para cada linha no Pandas

Suponha que temos o seguinte DataFrame do pandas que contém informações sobre pontos marcados por vários jogadores de basquete durante quatro jogos diferentes:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' player ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
                   ' game1 ': [18, 22, 19, 14, 14, 11, 20, 28],
                   ' game2 ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' game3 ': [11, 8, 10, 6, 6, 5, 9, 12],
                   ' game4 ': [9, 8, 8, 9, 14, 15, 10, 11]})
                   
#view DataFrame
print (df)

  player game1 game2 game3 game4
0 A 18 5 11 9
1 B 22 7 8 8
2 C 19 7 10 8
3 D 14 9 6 9
4 E 14 12 6 14
5 F 11 9 5 15
6 G 20 9 9 10
7:28 4 12 11

Podemos usar a seguinte sintaxe para calcular o desvio padrão dos pontos marcados por cada jogador:

 #calculate standard deviation for each row
df. std (axis= 1 , numeric_only= True )

0 5.439056
1 7.182154
2 5.477226
3 3.316625
4 3.785939
5 4.163332
6 5.354126
7 10.144785
dtype:float64

Veja como interpretar o resultado:

O desvio padrão dos pontos marcados pelo jogador A é 5,439 .
O desvio padrão dos pontos marcados pelo jogador B é 7,182 .
O desvio padrão dos pontos marcados pelo jogador C é 5,477 .

E assim por diante.

Observe que a função std() calcula o desvio padrão da amostra por padrão.

Se você quiser calcular o desvio padrão da população, deverá usar o argumento ddof=0 :

 #calculate population standard deviation for each row
df. std (axis= 1 , ddof= 0 , numeric_only= True )

0 4.747351
1 5.881366
2 4.807037
3 3.384910
4 3.983518
5 3.915150
6 4.892772
7 8.091179
dtype:float64

Relacionado: População vs. Desvio padrão da amostra: quando usar cada um

Para atribuir valores de desvio padrão a uma nova coluna, você pode usar a seguinte sintaxe:

 #add new column to display standard deviation for each row
df[' std_points '] = df. std (axis= 1 , numeric_only= True )

#view updated DataFrame
print (df)

  player game1 game2 game3 game4 points_std
0 A 18 5 11 9 5.439056
1 B 22 7 8 8 7.182154
2 C 19 7 10 8 5.477226
3 D 14 9 6 9 3.316625
4 E 14 12 6 14 3.785939
5 F 11 9 5 15 4.163332
6 G 20 9 9 10 5.354126
7:28 AM 4 12 11 10.144785

O desvio padrão dos valores de cada linha nas colunas game1 , game2 , game3 e game4 agora é exibido na coluna points_std .

Recursos adicionais

Os tutoriais a seguir explicam como realizar outras operações comuns em pandas:

Como obter a primeira linha do Pandas DataFrame
Como remover a primeira linha no Pandas DataFrame
Como inserir uma linha em um DataFrame do Pandas

About Author

Dr. benjamim anderson

Olá, sou Benjamin, um professor aposentado de estatística que se tornou professor dedicado na Statorials. Com vasta experiência e conhecimento na área de estatística, estou empenhado em compartilhar meu conhecimento para capacitar os alunos por meio de Statorials. Saber mais

Exemplo: calcule o desvio padrão para cada linha no Pandas

Recursos adicionais

About Author

Dr. benjamim anderson

Add a Comment