Pandas에서 샘플 데이터세트에 액세스하는 방법
다양한 기능을 실행하고 연습하기 위해 Pandas의 샘플 데이터세트에 액세스하려는 경우가 종종 있습니다.
다행히 내장된 테스트 기능을 사용하여 샘플 Pandas 데이터 세트를 생성할 수 있습니다.
다음 예에서는 이 기능을 사용하는 방법을 보여줍니다.
예시 1: 모든 숫자 열이 포함된 Pandas 데이터세트 만들기
다음 코드는 모든 숫자 열이 포함된 Pandas 데이터세트를 만드는 방법을 보여줍니다.
import pandas as pd
#create sample dataset
df1 = pd. util . testing . makeDataFrame ()
#view dimensions of dataset
print ( df1.shape )
(30, 4)
#view first five rows of dataset
print ( df1.head ())
ABCD
s8tpz0W5mF -0.751223 0.956338 -0.441847 0.695612
CXQ9YhLhk8 -0.210881 -0.231347 -0.227672 -0.616171
KAbcor6sQK 0.727880 0.128638 -0.989993 1.094069
IH3bptMpdb -1.599723 1.570162 -0.221688 2.194936
gar9ZxBTrH 0.025171 -0.446555 0.169873 -1.583553
기본적으로 makeDataFrame() 함수는 모든 열이 숫자인 30개의 행과 4개의 열이 있는 pandas DataFrame을 만듭니다.
예 2: 혼합 열이 포함된 Pandas 데이터 세트 생성
다음 코드는 모든 숫자 열이 포함된 Pandas 데이터세트를 만드는 방법을 보여줍니다.
import pandas as pd
#create sample dataset
df2 = pd. util . testing . makeMixedDataFrame ()
#view dimensions of dataset
print ( df2.shape )
(5, 4)
#view first five rows of dataset
print ( df2.head ())
ABCD
0 0.0 0.0 foo1 2009-01-01
1 1.0 1.0 foo2 2009-01-02
2 2.0 0.0 foo3 2009-01-05
3 3.0 1.0 foo4 2009-01-06
4 4.0 0.0 foo5 2009-01-07
기본적으로 makeMixedDataFrame() 함수는 열이 다양한 데이터 유형인 5개의 행과 4개의 열이 있는 pandas DataFrame을 만듭니다.
다음 코드를 사용하여 각 열의 데이터 유형을 표시할 수 있습니다.
#display data type of each column
df2. dtypes
A float64
B float64
C object
D datetime64[ns]
dtype:object
결과에서 우리는 다음을 볼 수 있습니다:
- A 열은 숫자입니다.
- B 열은 숫자입니다.
- C 열은 문자열입니다.
- D 열은 날짜입니다.
예 3: 누락된 값이 있는 Pandas 데이터 세트 생성
다음 코드는 다양한 열에 누락된 값이 있는 Pandas 데이터 세트를 생성하는 방법을 보여줍니다.
import pandas as pd
#create sample dataset
df3 = pd. util . testing . makeMissingDataFrame ()
#view dimensions of dataset
print ( df3.shape )
(30, 4)
#view first five rows of dataset
print ( df3.head ())
ABCD
YgAQaNaGfG 0.444376 -2.264920 1.117377 -0.087507
JoT4KxJeHd 1.913939 1.287006 -0.331315 -0.392949
tyrA2P6wz3 NaN 2.988521 0.399583 0.095831
1qvPc9DU1t 0.028716 1.311452 -0.237756 -0.150362
3aAXYtXjIO -1.069339 0.332067 0.204074 NaN
기본적으로 makeMissingDataFrame() 함수는 서로 다른 열에 누락된 값(NaN)이 있는 30개의 행과 4개의 열이 있는 pandas DataFrame을 생성합니다.
이 기능은 실제 데이터세트에서 흔히 발생하는 결측값이 있는 데이터세트로 작업할 수 있기 때문에 특히 유용합니다.
추가 리소스
다음 튜토리얼에서는 Pandas에서 다른 일반적인 작업을 수행하는 방법을 설명합니다.
임의의 데이터로 Pandas DataFrame을 만드는 방법
Pandas에서 행을 무작위로 샘플링하는 방법
Pandas DataFrame에서 행을 섞는 방법