Cara membuat set kereta dan pengujian dari pandas dataframe

Oleh Benjamin anderson Juli 19, 2023 Memandu 0 Komentar

Saat menyesuaikan model pembelajaran mesin ke kumpulan data, kami sering membagi kumpulan data menjadi dua kumpulan:

1. Training set: digunakan untuk melatih model (70-80% dari dataset asli)

2. Test set: digunakan untuk mendapatkan estimasi performa model yang tidak bias (20-30% dari dataset asli)

Di Python, ada dua cara umum untuk membagi pandas DataFrame menjadi set pelatihan dan set pengujian:

Metode 1: Gunakan train_test_split() sklearn

 from sklearn. model_selection import train_test_split

train, test = train_test_split(df, test_size= 0.2 , random_state= 0 )

Metode 2: gunakan sample() dari panda

 train = df. sample (frac= 0.8 , random_state= 0 )
test = df. drop ( train.index )

Contoh berikut menunjukkan cara menggunakan setiap metode dengan pandas DataFrame berikut:

 import pandas as pd
import numpy as np

#make this example reproducible
n.p. random . seeds (1)

#create DataFrame with 1,000 rows and 3 columns
df = pd. DataFrame ( {' x1 ': np.random.randint (30,size=1000),
                   ' x2 ': np. random . randint (12, size=1000),
                   ' y ': np. random . randint (2, size=1000)})

#view first few rows of DataFrame
df. head ()

        x1 x2 y
0 5 1 1
1 11 8 0
2 12 4 1
3 8 7 0
4 9 0 0

Contoh 1: gunakan train_test_split() dari sklearn

Kode berikut menunjukkan cara menggunakan fungsi sklearn train_test_split() untuk membagi panda DataFrame menjadi set pelatihan dan pengujian:

 from sklearn. model_selection import train_test_split

#split original DataFrame into training and testing sets
train, test = train_test_split(df, test_size= 0.2 , random_state= 0 )

#view first few rows of each set
print ( train.head ())

     x1 x2 y
687 16 2 0
500 18 2 1
332 4 10 1
979 2 8 1
817 11 1 0

print ( test.head ())

     x1 x2 y
993 22 1 1
859 27 6 0
298 27 8 1
553 20 6 0
672 9 2 1

#print size of each set
print (train. shape , test. shape )

(800, 3) (200, 3)

Dari hasilnya kita dapat melihat bahwa dua set telah dibuat:

Set pelatihan: 800 baris dan 3 kolom
Set pengujian: 200 baris dan 3 kolom

Perhatikan bahwa test_size mengontrol persentase observasi dari DataFrame asli yang akan menjadi bagian dari set pengujian dan nilai random_state membuat pemisahan dapat direproduksi.

Contoh 2: Gunakan sample() dari pandas

Kode berikut menunjukkan cara menggunakan fungsi pandas sample() untuk membagi pandas DataFrame menjadi set pelatihan dan pengujian:

 #split original DataFrame into training and testing sets
train = df. sample (frac= 0.8 , random_state= 0 )
test = df. drop ( train.index )

#view first few rows of each set
print ( train.head ())

     x1 x2 y
993 22 1 1
859 27 6 0
298 27 8 1
553 20 6 0
672 9 2 1

print ( test.head ())

    x1 x2 y
9 16 5 0
11 12 10 0
19 5 9 0
23 28 1 1
28 18 0 1

#print size of each set
print (train. shape , test. shape )

(800, 3) (200, 3)

Dari hasilnya kita dapat melihat bahwa dua set telah dibuat:

Set pelatihan: 800 baris dan 3 kolom
Set pengujian: 200 baris dan 3 kolom

Perhatikan bahwa frac mengontrol persentase observasi dari DataFrame asli yang akan menjadi bagian dari set pelatihan dan nilai random_state membuat pemisahan dapat direproduksi.

Sumber daya tambahan

Tutorial berikut menjelaskan cara melakukan tugas umum lainnya dengan Python:

Cara Melakukan Regresi Logistik dengan Python
Cara Membuat Matriks Kebingungan dengan Python
Cara menghitung presisi seimbang dengan Python

Tentang Penulis

Benjamin anderson

Halo, saya Benjamin, pensiunan profesor statistika yang menjadi guru Statorial yang berdedikasi. Dengan pengalaman dan keahlian yang luas di bidang statistika, saya ingin berbagi ilmu untuk memberdayakan mahasiswa melalui Statorials. Baca selengkapnya

Contoh 1: gunakan train_test_split() dari sklearn

Contoh 2: Gunakan sample() dari pandas

Sumber daya tambahan

Tentang Penulis

Benjamin anderson

Tambahkan komentar