Come tracciare la distribuzione dei valori delle colonne in r
È possibile utilizzare i seguenti metodi per tracciare una distribuzione dei valori delle colonne in R:
Metodo 1: tracciare la distribuzione dei valori utilizzando il diagramma della densità
plot(density(df$my_column))
Metodo 2: traccia la distribuzione dei valori utilizzando un istogramma
hist(df$my_column)
Gli esempi seguenti mostrano come utilizzare ciascun metodo nella pratica con il seguente frame di dati
#create data frame df = data. frame (team=rep(c(' A ', ' B '), each= 10 ), points=c(3, 3, 4, 5, 4, 7, 7, 7, 10, 11, 8, 7, 8, 9, 12, 12, 12, 14, 15, 17)) #view data frame df team points 1 to 3 2 to 3 3 to 4 4 to 5 5 to 4 6 to 7 7 to 7 8 to 7 9 to 10 10 to 11 11 B 8 12 B 7 13 B 8 14 B 9 15 B 12 16 B 12 17 B 12 18 B 14 19 B 15 20 B 17
Esempio 1: tracciare la distribuzione dei valori utilizzando il diagramma della densità
Il codice seguente mostra come tracciare la distribuzione dei valori nella colonna dei punti utilizzando un diagramma di densità :
#plot distribution of values in points column
plot(density(df$points))
Questa sintassi produce una curva uniforme che riassume la distribuzione dei valori di una variabile.
Tieni presente che possiamo anche modificare il titolo, le etichette degli assi e il colore della linea nel grafico della densità se desideriamo:
#plot distribution of values in points column plot(density(df$points), col=' red ', main=' Density Plot of Points ', xlab=' Points ')
Esempio 2: tracciare la distribuzione dei valori utilizzando un istogramma
Il codice seguente mostra come tracciare la distribuzione dei valori nella colonna di punti utilizzando un istogramma:
#plot distribution of values in points column using histogram
hist(df$points)
Un istogramma utilizza le barre per rappresentare le frequenze dei valori nella colonna di punti , al contrario di una linea morbida che riassume la forma della distribuzione.
Tieni presente che possiamo anche modificare il titolo, le etichette degli assi, il colore e il numero di salti utilizzati nell’istogramma:
#plot distribution of values in points column using histogram hist(df$points, main=' Histogram of Points ', xlab=' Points ', col=' steelblue ', breaks= 12 )
Nota : maggiore è il valore scelto per l’argomento pause , maggiore sarà il numero di barre presenti nell’istogramma.
Risorse addizionali
I seguenti tutorial spiegano come eseguire altre attività comuni in R:
Come aggiungere una linea verticale all’istogramma in R
Come creare grafici della densità del kernel in R
Come sovrapporre i grafici di densità in ggplot2