Panda: come campionare le righe con sostituzione

Di Benjamin anderson Luglio 11, 2023 Guida 0 commenti

È possibile utilizzare l’argomento replace=True nella funzione pandas sample() per campionare casualmente le righe da un DataFrame con sostituzione:

 #randomly select n rows with repeats allowed
df. sample (n= 5 , replace= True )

Utilizzando replace=True si consente di includere più volte la stessa riga nell’esempio.

L’esempio seguente mostra come utilizzare questa sintassi nella pratica.

Esempio: esempi di righe con sostituzione in Pandas

Supponiamo di avere il seguente DataFrame panda che contiene informazioni su vari giocatori di basket:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})
                   
#view DataFrame
print (df)

  team points assists rebounds
0 A 18 5 11
1 B 22 7 8
2 C 19 7 10
3 D 14 9 6
4 E 14 12 6
5 F 11 9 5
6 G 20 9 9
7:28 4 12

Supponiamo di utilizzare la funzione sample() per selezionare casualmente un campione di righe:

 #randomly select 6 rows from DataFrame (without replacement)
df. sample (n= 6 , random_state= 0 )

        team points assists rebounds
6 G 20 9 9
2 C 19 7 10
1 B 22 7 8
7:28 4 12
3 D 14 9 6
0 A 18 5 11

Tieni presente che sei righe sono state selezionate nel DataFrame e nessuna delle righe appare più volte nell’esempio.

Nota : l’argomento random_state=0 garantisce che questo esempio sia riproducibile.

Supponiamo ora di utilizzare l’argomento replace=True per selezionare un campione casuale di righe con sostituzione:

 #randomly select 6 rows from DataFrame (with replacement)
df. sample (n= 6 , replace= True , random_state= 0 )

        team points assists rebounds
4 E 14 12 6
7:28 4 12
5 F 11 9 5
0 A 18 5 11
3 D 14 9 6
3 D 14 9 6

Tieni presente che la linea con la squadra “D” appare più volte.

Utilizzando l’argomento replace=True , consentiamo alla stessa riga di apparire più volte nell’esempio.

Si noti inoltre che potremmo selezionare una frazione casuale del DataFrame da includere nell’esempio utilizzando l’argomento frac .

Ad esempio, l’esempio seguente mostra come selezionare il 75% delle righe da includere nell’esempio di sostituzione:

 #randomly select 75% of rows (with replacement)
df. sample (frac= 0.75 , replace= True , random_state= 0 ) 

        team points assists rebounds
4 E 14 12 6
7:28 4 12
5 F 11 9 5
0 A 18 5 11
3 D 14 9 6
3 D 14 9 6

Si noti che il 75% del numero di linee (6 su 8) è stato incluso nel campione e almeno una delle linee (con la squadra “D”) è apparsa due volte nel campione.

Nota : puoi trovare la documentazione completa per la funzione pandas sample() qui .

Risorse addizionali

I seguenti tutorial spiegano come eseguire altri metodi di campionamento comuni in Panda:

Come effettuare il campionamento stratificato nei panda
Come eseguire il campionamento dei cluster in Pandas

Informazioni sull'autore

Benjamin anderson

Ciao, sono Benjamin, un professore di statistica in pensione diventato insegnante dedicato di Statorials. Con una vasta esperienza e competenza nel campo della statistica, sono ansioso di condividere le mie conoscenze per potenziare gli studenti attraverso Statorials. Scopri di più

Esempio: esempi di righe con sostituzione in Pandas

Risorse addizionali

Informazioni sull'autore

Benjamin anderson

Aggiungi un commento