Pandas dataframe에서 누락된 값을 계산하는 방법
종종 Pandas DataFrame에서 누락된 값의 개수를 계산하고 싶을 수도 있습니다.
이 튜토리얼에서는 다음 DataFrame을 사용하여 누락된 값을 계산하는 방법에 대한 몇 가지 예를 보여줍니다.
import pandas as pd import numpy as np #create DataFrame with some missing values df = pd.DataFrame({'a': [4, np.nan, np.nan, 7, 8, 12], 'b': [np.nan, 6, 8, 14, 29, np.nan], 'c': [11, 8, 10, 6, 6, np.nan]}) #view DataFrame print (df) ABC 0 4.0 NaN 11.0 1 NaN 6.0 8.0 2 NaN 8.0 10.0 3 7.0 14.0 6.0 4 8.0 29.0 6.0 5 12.0 NaN NaN
전체 DataFrame에서 총 누락된 값을 계산합니다.
다음 코드는 전체 DataFrame에서 누락된 값의 총 개수를 계산하는 방법을 보여줍니다.
df. isnull (). sum (). sum () 5
이는 총 5개의 결측값이 있음을 알려줍니다.
열당 총 결측값 계산
다음 코드는 DataFrame의 각 열에서 누락된 값의 총 개수를 계산하는 방법을 보여줍니다.
df. isnull (). sum () at 2 b 2 c 1
이는 우리에게 다음을 알려줍니다.
- “a” 열에는 2개의 누락된 값이 있습니다.
- “b” 열에는 2개의 누락된 값이 있습니다.
- “c” 열에 누락된 값이 1개 있습니다.
누락된 값의 수를 전체 열의 백분율로 표시할 수도 있습니다.
df. isnull (). sum ()/ len (df)* 100 a 33.333333 b 33.333333 c 16.666667
이는 우리에게 다음을 알려줍니다.
- “a” 열의 값 중 33.33%가 누락되었습니다.
- “b”열의 값 중 33.33%가 누락되었습니다.
- “c” 열의 값 중 16.67%가 누락되었습니다.
행당 총 결측값 계산
다음 코드는 DataFrame의 각 행에서 누락된 값의 총 개수를 계산하는 방법을 보여줍니다.
df. isnull (). sum (axis= 1 ) 0 1 1 1 2 1 30 4 0 5 2
이는 우리에게 다음을 알려줍니다.
- 1행에는 누락된 값이 1개 있습니다.
- 2행에는 누락된 값이 1개 있습니다.
- 3행에는 누락된 값이 1개 있습니다.
- 4행에는 누락된 값이 0개 있습니다.
- 5행에는 누락된 값이 0개 있습니다.
- 6행에는 누락된 값이 2개 있습니다.