Come creare una variabile categoriale da continue in r
È possibile utilizzare la funzione cut() in R per creare una variabile categoriale da una variabile continua.
Questa funzione utilizza la seguente sintassi di base:
df$cat_variable <- cut(df$continuous_variable, breaks=c(5, 10, 15, 20, 25), labels=c(' A ', ' B ', ' C ', ' D '))
Da notare che break specifica i valori per cui dividere la variabile continua e label specifica l’etichetta da dare ai valori della nuova variabile categoriale.
L’esempio seguente mostra come utilizzare questa sintassi nella pratica.
Esempio: creazione di una variabile categoriale da un continuo in R
Supponiamo di avere il seguente frame di dati in R:
#create data frame
df <- data. frame (team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'),
points=c(78, 82, 86, 94, 99, 104, 109, 110))
#view data frame
df
team points
1 To 78
2 B 82
3 C 86
4 D 94
5 E 99
6 F 104
7 G 109
8:11 a.m.
Attualmente, i punti sono una variabile continua.
Possiamo usare la funzione cut() per tagliarlo in una variabile categoriale:
#add new column that cuts 'points' into categories
df$cat <- cut(df$points,
breaks=c(70, 80, 90, 100, 110),
labels=c('Bad', 'OK', 'Good', 'Great'))
#view updated data frame
df
team points cat
1 To 78 Bad
2 B 82 OK
3 C 86 OK
4 D 94 Good
5 E 99 Good
6 F 104 Great
7 G 109 Great
8:110 Great
Abbiamo creato una nuova variabile categoriale chiamata cat che classifica ciascuna squadra nel frame di dati come Cattiva, OK, Buona o Eccellente in base ai punti ottenuti.
Possiamo usare la funzione class() per verificare la classe di questa nuova variabile:
#check class of 'cat' column
class(df$cat)
[1] “factor”
Vediamo che la variabile cat è un fattore.
Possiamo anche usare la funzione table() per contare le occorrenze di ciascuna categoria nella variabile cat :
#count occurrences of each category in 'cat' variable
table(df$cat)
Bad OK Good Great
1 2 2 3
Tieni presente che se non fornisci un argomento label alla funzione cut() , R utilizzerà semplicemente l’intervallo di valori dell’intervallo come etichette:
#add new column that cuts 'points' into categories
df$cat <- cut(df$points, breaks=c(70, 80, 90, 100, 110))
#view updated data frame
df
team points cat
1 A 78 (70.80]
2 B 82 (80.90]
3 C 86 (80.90]
4 D 94 (90,100]
5 E 99 (90,100]
6 F 104 (100,110]
7 G 109 (100,110]
8:110 (100,110]
In alcuni casi potresti preferirlo all’utilizzo di etichette personalizzate.
Risorse addizionali
I seguenti tutorial spiegano come eseguire altre operazioni comuni in R:
Come convertire le variabili categoriali in numeriche in R
Come creare variabili categoriali in R
Come tracciare i dati categorici in R