Як виконувати однофакторний аналіз у python: із прикладами


Термін однофакторний аналіз відноситься до аналізу однієї змінної. Ви можете запам’ятати це, оскільки префікс «uni» означає «один».

Існує три поширених способи виконання однофакторного аналізу змінної:

1. Підсумкова статистика – вимірює центр і розподіл значень.

2. Таблиця частот – описує, як часто з’являються різні значення.

3. Діаграми – використовуються для візуалізації розподілу значень.

У цьому підручнику наведено приклад того, як виконати однофакторний аналіз за допомогою наступного pandas DataFrame:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' points ': [1, 1, 2, 3.5, 4, 4, 4, 5, 5, 6.5, 7, 7.4, 8, 13, 14.2],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4, 6, 8, 8, 9, 3, 2, 6],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12, 6, 6, 7, 8, 7, 9, 15]})

#view first five rows of DataFrame
df. head ()

	points assists rebounds
0 1.0 5 11
1 1.0 7 8
2 2.0 7 10
3 3.5 9 6
4 4.0 12 6

1. Розрахувати зведену статистику

Ми можемо використовувати наступний синтаксис для обчислення різноманітних підсумкових статистичних даних для змінної «points» у DataFrame:

 #calculate mean of 'points'
df[' points ']. mean ()

5.706666666666667

#calculate median of 'points' 
df[' points ']. median () 

5.0

#calculate standard deviation of 'points'
df[' points ']. std () 

3.858287308169384

2. Створіть частотну таблицю

Ми можемо використати такий синтаксис, щоб створити таблицю частот для змінної ‘points’:

 #create frequency table for 'points'
df[' points ']. value_counts ()

4.0 3
1.0 2
5.0 2
2.0 1
3.5 1
6.5 1
7.0 1
7.4 1
8.0 1
13.0 1
14.2 1
Name: points, dtype: int64

Це говорить нам про те, що:

  • Значення 4 з’являється 3 рази
  • Значення 1 з’являється двічі
  • Значення 5 з’являється двічі
  • Значення 2 з’являється 1 раз

І так далі.

Пов’язане: Як створити таблиці частот у Python

3. Створення діаграм

Ми можемо використати наступний синтаксис, щоб створити коробковий графік для змінної ‘points’:

 import matplotlib. pyplot as plt

df. boxplot (column=[' points '], grid= False , color=' black ')

Пов’язане: Як створити Boxplot з Pandas DataFrame

Ми можемо використати такий синтаксис, щоб створити гістограму для змінної ‘points’:

 import matplotlib. pyplot as plt

df. hist (column=' points ', grid= False , edgecolor=' black ')

Пов’язане:Як створити гістограму з Pandas DataFrame

Ми можемо використати такий синтаксис, щоб створити криву щільності для змінної «points»:

 import seaborn as sns

sns. kdeplot (df[' points '])

Пов’язане: Як створити графік щільності в Matplotlib

Кожен з цих графіків дає нам унікальний спосіб візуалізації розподілу значень змінної «точок».

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *