Pandas dataframe에서 누락된 값을 계산하는 방법


종종 Pandas DataFrame에서 누락된 값의 개수를 계산하고 싶을 수도 있습니다.

이 튜토리얼에서는 다음 DataFrame을 사용하여 누락된 값을 계산하는 방법에 대한 몇 가지 예를 보여줍니다.

 import pandas as pd
import numpy as np

#create DataFrame with some missing values
df = pd.DataFrame({'a': [4, np.nan, np.nan, 7, 8, 12],
                   'b': [np.nan, 6, 8, 14, 29, np.nan],
                   'c': [11, 8, 10, 6, 6, np.nan]})

#view DataFrame
print (df)

      ABC
0 4.0 NaN 11.0
1 NaN 6.0 8.0
2 NaN 8.0 10.0
3 7.0 14.0 6.0
4 8.0 29.0 6.0
5 12.0 NaN NaN

전체 DataFrame에서 총 누락된 값을 계산합니다.

다음 코드는 전체 DataFrame에서 누락된 값의 총 개수를 계산하는 방법을 보여줍니다.

 df. isnull (). sum (). sum ()

5

이는 총 5개의 결측값이 있음을 알려줍니다.

열당 총 결측값 계산

다음 코드는 DataFrame의 각 열에서 누락된 값의 총 개수를 계산하는 방법을 보여줍니다.

 df. isnull (). sum ()

at 2
b 2
c 1

이는 우리에게 다음을 알려줍니다.

  • “a” 열에는 2개의 누락된 값이 있습니다.
  • “b” 열에는 2개의 누락된 값이 있습니다.
  • “c” 열에 누락된 값이 1개 있습니다.

누락된 값의 수를 전체 열의 백분율로 표시할 수도 있습니다.

 df. isnull (). sum ()/ len (df)* 100

a 33.333333
b 33.333333
c 16.666667

이는 우리에게 다음을 알려줍니다.

  • “a” 열의 값 중 33.33%가 누락되었습니다.
  • “b”열의 값 중 33.33%가 누락되었습니다.
  • “c” 열의 값 중 16.67%가 누락되었습니다.

행당 총 결측값 계산

다음 코드는 DataFrame의 각 행에서 누락된 값의 총 개수를 계산하는 방법을 보여줍니다.

 df. isnull (). sum (axis= 1 )

0 1
1 1
2 1
30
4 0
5 2

이는 우리에게 다음을 알려줍니다.

  • 1행에는 누락된 값이 1개 있습니다.
  • 2행에는 누락된 값이 1개 있습니다.
  • 3행에는 누락된 값이 1개 있습니다.
  • 4행에는 누락된 값이 0개 있습니다.
  • 5행에는 누락된 값이 0개 있습니다.
  • 6행에는 누락된 값이 2개 있습니다.

추가 리소스

Pandas의 여러 열에서 고유한 값을 찾는 방법
Pandas의 조건을 기반으로 새 열을 만드는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다