Pandas에서 샘플 데이터세트에 액세스하는 방법

에 의해 벤자민 앤더슨 7월 19, 2023 가이드 댓글 0개

다양한 기능을 실행하고 연습하기 위해 Pandas의 샘플 데이터세트에 액세스하려는 경우가 종종 있습니다.

다행히 내장된 테스트 기능을 사용하여 샘플 Pandas 데이터 세트를 생성할 수 있습니다.

다음 예에서는 이 기능을 사용하는 방법을 보여줍니다.

예시 1: 모든 숫자 열이 포함된 Pandas 데이터세트 만들기

다음 코드는 모든 숫자 열이 포함된 Pandas 데이터세트를 만드는 방법을 보여줍니다.

 import pandas as pd

#create sample dataset
df1 = pd. util . testing . makeDataFrame ()

#view dimensions of dataset
print ( df1.shape )

(30, 4)

#view first five rows of dataset
print ( df1.head ())

                   ABCD
s8tpz0W5mF -0.751223 0.956338 -0.441847 0.695612
CXQ9YhLhk8 -0.210881 -0.231347 -0.227672 -0.616171
KAbcor6sQK 0.727880 0.128638 -0.989993 1.094069
IH3bptMpdb -1.599723 1.570162 -0.221688 2.194936
gar9ZxBTrH 0.025171 -0.446555 0.169873 -1.583553

기본적으로 makeDataFrame() 함수는 모든 열이 숫자인 30개의 행과 4개의 열이 있는 pandas DataFrame을 만듭니다.

예 2: 혼합 열이 포함된 Pandas 데이터 세트 생성

다음 코드는 모든 숫자 열이 포함된 Pandas 데이터세트를 만드는 방법을 보여줍니다.

 import pandas as pd

#create sample dataset
df2 = pd. util . testing . makeMixedDataFrame ()

#view dimensions of dataset
print ( df2.shape )

(5, 4)

#view first five rows of dataset
print ( df2.head ())

     ABCD
0 0.0 0.0 foo1 2009-01-01
1 1.0 1.0 foo2 2009-01-02
2 2.0 0.0 foo3 2009-01-05
3 3.0 1.0 foo4 2009-01-06
4 4.0 0.0 foo5 2009-01-07

기본적으로 makeMixedDataFrame() 함수는 열이 다양한 데이터 유형인 5개의 행과 4개의 열이 있는 pandas DataFrame을 만듭니다.

다음 코드를 사용하여 각 열의 데이터 유형을 표시할 수 있습니다.

 #display data type of each column
df2. dtypes

A float64
B float64
C object
D datetime64[ns]
dtype:object

결과에서 우리는 다음을 볼 수 있습니다:

A 열은 숫자입니다.
B 열은 숫자입니다.
C 열은 문자열입니다.
D 열은 날짜입니다.

예 3: 누락된 값이 있는 Pandas 데이터 세트 생성

다음 코드는 다양한 열에 누락된 값이 있는 Pandas 데이터 세트를 생성하는 방법을 보여줍니다.

 import pandas as pd

#create sample dataset
df3 = pd. util . testing . makeMissingDataFrame ()

#view dimensions of dataset
print ( df3.shape )

(30, 4)

#view first five rows of dataset
print ( df3.head ())

                   ABCD
YgAQaNaGfG 0.444376 -2.264920 1.117377 -0.087507
JoT4KxJeHd 1.913939 1.287006 -0.331315 -0.392949
tyrA2P6wz3 NaN 2.988521 0.399583 0.095831
1qvPc9DU1t 0.028716 1.311452 -0.237756 -0.150362
3aAXYtXjIO -1.069339 0.332067 0.204074 NaN

기본적으로 makeMissingDataFrame() 함수는 서로 다른 열에 누락된 값(NaN)이 있는 30개의 행과 4개의 열이 있는 pandas DataFrame을 생성합니다.

이 기능은 실제 데이터세트에서 흔히 발생하는 결측값이 있는 데이터세트로 작업할 수 있기 때문에 특히 유용합니다.

추가 리소스

다음 튜토리얼에서는 Pandas에서 다른 일반적인 작업을 수행하는 방법을 설명합니다.

임의의 데이터로 Pandas DataFrame을 만드는 방법
Pandas에서 행을 무작위로 샘플링하는 방법
Pandas DataFrame에서 행을 섞는 방법

저자 소개

벤자민 앤더슨

안녕하세요. 저는 통계학 교수를 퇴직하고 전임 통계 교사로 변신한 벤자민입니다. 통계 분야의 광범위한 경험과 전문 지식을 바탕으로 Statorials를 통해 학생들에게 힘을 실어주기 위해 지식을 공유하고 싶습니다. 더 알아보기