Como realizar análise univariada em python: com exemplos


O termo análise univariada refere-se à análise de uma variável. Você pode se lembrar disso porque o prefixo “uni” significa “um”.

Existem três maneiras comuns de realizar análise univariada em uma variável:

1. Estatísticas resumidas – Mede o centro e a distribuição dos valores.

2. Tabela de Frequência – Descreve com que frequência aparecem valores diferentes.

3. Gráficos – Utilizados para visualizar a distribuição de valores.

Este tutorial fornece um exemplo de como realizar análise univariada com o seguinte DataFrame do pandas:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' points ': [1, 1, 2, 3.5, 4, 4, 4, 5, 5, 6.5, 7, 7.4, 8, 13, 14.2],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4, 6, 8, 8, 9, 3, 2, 6],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12, 6, 6, 7, 8, 7, 9, 15]})

#view first five rows of DataFrame
df. head ()

	points assists rebounds
0 1.0 5 11
1 1.0 7 8
2 2.0 7 10
3 3.5 9 6
4 4.0 12 6

1. Calcule estatísticas resumidas

Podemos usar a seguinte sintaxe para calcular várias estatísticas resumidas para a variável “pontos” no DataFrame:

 #calculate mean of 'points'
df[' points ']. mean ()

5.706666666666667

#calculate median of 'points' 
df[' points ']. median () 

5.0

#calculate standard deviation of 'points'
df[' points ']. std () 

3.858287308169384

2. Crie uma tabela de frequência

Podemos usar a seguinte sintaxe para criar uma tabela de frequência para a variável ‘pontos’:

 #create frequency table for 'points'
df[' points ']. value_counts ()

4.0 3
1.0 2
5.0 2
2.0 1
3.5 1
6.5 1
7.0 1
7.4 1
8.0 1
13.0 1
14.2 1
Name: points, dtype: int64

Isso nos diz que:

  • O valor 4 aparece 3 vezes
  • O valor 1 aparece duas vezes
  • O valor 5 aparece duas vezes
  • O valor 2 aparece 1 vez

E assim por diante.

Relacionado: Como criar tabelas de frequência em Python

3. Crie gráficos

Podemos usar a seguinte sintaxe para criar um boxplot para a variável ‘pontos’:

 import matplotlib. pyplot as plt

df. boxplot (column=[' points '], grid= False , color=' black ')

Relacionado: Como criar um Boxplot a partir do Pandas DataFrame

Podemos usar a seguinte sintaxe para criar um histograma para a variável ‘pontos’:

 import matplotlib. pyplot as plt

df. hist (column=' points ', grid= False , edgecolor=' black ')

Relacionado: Como criar um histograma a partir do Pandas DataFrame

Podemos usar a seguinte sintaxe para criar uma curva de densidade para a variável “pontos”:

 import seaborn as sns

sns. kdeplot (df[' points '])

Relacionado:Como criar um gráfico de densidade no Matplotlib

Cada um desses gráficos nos dá uma forma única de visualizar a distribuição dos valores da variável “pontos”.

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *