Hoe een betrouwbaarheidsinterval in python te plotten
Een betrouwbaarheidsinterval is een reeks waarden die waarschijnlijk een populatieparameter met een bepaald betrouwbaarheidsniveau bevatten.
In deze zelfstudie wordt uitgelegd hoe u een betrouwbaarheidsinterval voor een gegevensset in Python kunt plotten met behulp van de Seaborn-visualisatiebibliotheek .
Betrouwbaarheidsintervallen uitzetten met lineplot()
De eerste manier om een betrouwbaarheidsinterval uit te zetten is door defunctie lineplot() te gebruiken, die alle gegevenspunten in een gegevensset met een lijn verbindt en rond elk punt een betrouwbaarheidsband weergeeft:
import numpy as np import seaborn as sns import matplotlib.pyplot as plt #create some random data np.random.seed(0) x = np.random.randint(1, 10, 30) y = x+np.random.normal(0, 1, 30) #create lineplot ax = sns.lineplot(x, y)
Standaard gebruikt de functie lineplot() een betrouwbaarheidsinterval van 95%, maar kan het betrouwbaarheidsniveau opgeven dat moet worden gebruikt met de ci- opdracht.
Hoe kleiner het betrouwbaarheidsniveau, hoe smaller het betrouwbaarheidsinterval rond de lijn. Dit is bijvoorbeeld hoe een betrouwbaarheidsinterval van 80% eruit ziet voor exact dezelfde dataset:
#create lineplot ax = sns.lineplot(x, y, ci= 80 )
Betrouwbaarheidsintervallen uitzetten met regplot()
U kunt ook betrouwbaarheidsintervallen uitzetten met behulp van de functie regplot() , die een spreidingsdiagram van een gegevensset weergeeft met betrouwbaarheidsbanden rond de geschatte regressielijn:
import numpy as np import seaborn as sns import matplotlib.pyplot as plt #create some random data np.random.seed(0) x = np.random.randint(1, 10, 30) y = x+np.random.normal(0, 1, 30) #create regplot ax = sns.regplot(x, y)
Net als bij lineplot(), heeft de functie regplot() standaard een betrouwbaarheidsinterval van 95%, maar kan hij het betrouwbaarheidsniveau specificeren dat moet worden gebruikt met de ci- opdracht.
Ook hier geldt: hoe kleiner het betrouwbaarheidsniveau, hoe smaller het betrouwbaarheidsinterval rond de regressielijn zal zijn. Dit is bijvoorbeeld hoe een betrouwbaarheidsinterval van 80% eruit ziet voor exact dezelfde dataset:
#create regplot ax = sns.regplot(x, y, ci= 80 )
Aanvullende bronnen
Wat zijn betrouwbaarheidsintervallen?
Hoe betrouwbaarheidsintervallen in Python te berekenen