Как рассчитать z-оценки в python


В статистике z-показатель говорит нам, на сколько стандартных отклонений значение находится от среднего значения . Для расчета z-показателя мы используем следующую формулу:

z = (X – µ)/σ

Золото:

  • X — одно значение необработанных данных
  • μ — среднее значение генеральной совокупности
  • σ — стандартное отклонение генеральной совокупности.

В этом руководстве объясняется, как рассчитать z-показатели для значений необработанных данных в Python.

Как рассчитать Z-показатели в Python

Мы можем рассчитать z-показатели в Python, используя scipy.stats.zscore , который использует следующий синтаксис:

scipy.stats.zscore(a, axis=0, ddof=0, nan_policy=’propagate’)

Золото:

  • a : объект типа массива, содержащий данные
  • ось : ось, по которой рассчитываются z-показатели. Значение по умолчанию — 0.
  • ddof : коррекция степеней свободы при расчете стандартного отклонения. Значение по умолчанию — 0.
  • nan_policy : как обрабатывать входные данные, содержащие nan. Значением по умолчанию является распространение, которое возвращает nan. «raise» вызывает ошибку, а «omit» выполняет вычисления, игнорируя значения nan.

Следующие примеры иллюстрируют, как использовать эту функцию для расчета z-показателей для одномерных массивов numpy, многомерных массивов numpy и кадров данных Pandas.

Numpy одномерные массивы

Шаг 1: Импортируйте модули.

 import pandas as pd
import numpy as np
import scipy.stats as stats

Шаг 2: Создайте таблицу значений.

 data = np.array([6, 7, 7, 12, 13, 13, 15, 16, 19, 22])

Шаг 3. Рассчитайте z-показатели для каждого значения в таблице.

 stats.zscore(data)

[-1.394, -1.195, -1.195, -0.199, 0, 0, 0.398, 0.598, 1.195, 1.793]

Каждый z-показатель говорит нам, на сколько стандартных отклонений отдельное значение отличается от среднего. Например:

  • Первое значение «6» в таблице на 1,394 стандартных отклонения ниже среднего.
  • Пятое значение «13» в таблице равно 0 стандартным отклонениям от среднего значения, то есть оно равно среднему значению.
  • Последнее значение «22» в таблице на 1,793 стандартных отклонения выше среднего.

Многомерные массивы Numpy

Если у нас есть многомерный массив, мы можем использовать параметр оси , чтобы указать, что мы хотим вычислить каждый z-показатель относительно его собственного массива. Например, предположим, что у нас есть следующий многомерный массив:

 data = np.array([[5, 6, 7, 7, 8],
                 [8, 8, 8, 9, 9],
                 [2, 2, 4, 4, 5]])

Мы можем использовать следующий синтаксис для расчета z-показателей для каждой таблицы:

 stats.zscore(data, axis=1)

[[-1.569 -0.588 0.392 0.392 1.373]
[-0.816 -0.816 -0.816 1.225 1.225]
[-1.167 -1.167 0.5 0.5 1.333]]

Z-показатели для каждого отдельного значения отображаются относительно таблицы, в которой они находятся. Например:

  • Первое значение «5» в первой таблице на 1,159 стандартных отклонений ниже среднего значения этой таблицы.
  • Первое значение «8» во второй таблице на 0,816 стандартных отклонений ниже среднего значения этой таблицы.
  • Первое значение «2» в третьей таблице на 1,167 стандартных отклонений ниже среднего значения этой таблицы.

Кадры данных Pandas

Предположим, что вместо этого у нас есть DataFrame Pandas:

 data = pd.DataFrame(np.random.randint(0, 10, size=(5, 3)), columns=['A', 'B', 'C'])
data

ABC
0 8 0 9
1 4 0 7
2 9 6 8
3 1 8 1
4 8 0 8

Мы можем использовать функцию Apply для расчета z-показателя отдельных значений в каждом столбце:

 data.apply(stats.zscore)

          ABC
0 0.659380 -0.802955 0.836080
1 -0.659380 -0.802955 0.139347
2 0.989071 0.917663 0.487713
3 -1.648451 1.491202 -1.950852
4 0.659380 -0.802955 0.487713

Z-показатели для каждого отдельного значения отображаются относительно столбца, в котором они расположены. Например:

  • Первое значение «8» в первом столбце на 0,659 стандартных отклонений превышает среднее значение этого столбца.
  • Первое значение «0» во втором столбце на 0,803 стандартного отклонения ниже среднего значения в этом столбце.
  • Первое значение «9» в третьем столбце на 0,836 стандартных отклонений превышает среднее значение этого столбца.

Дополнительные ресурсы:

Как рассчитать Z-баллы в Excel
Как рассчитать Z-показатели в SPSS
Как рассчитать Z-баллы на калькуляторе TI-84

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *