Multicollineariteit bij regressieanalyse treedt op wanneer twee of meer voorspellende variabelen sterk met elkaar gecorreleerd zijn, zodat ze geen unieke of onafhankelijke informatie verschaffen in het regressiemodel. Als de mate van correlatie tussen variabelen hoog genoeg is, kan dit problemen veroorzaken...
Deze tutorial biedt een complete gids voor de beste ggplot2-thema’s, waaronder: Hoe u het uiterlijk van plots kunt wijzigen met behulp van de ingebouwde ggplot2-thema’s. Hoe u het uiterlijk van plots kunt wijzigen met behulp van vooraf gedefinieerde thema’s uit de...
Deze handleiding toont een voorbeeld van het uitvoeren van meervoudige lineaire regressie in R, waaronder: Bestudeer de gegevens voordat u het model aanpast Modelaanpassing Het controleren van modelaannames Modeluitvoer interpreteren Het beoordelen van de goede pasvorm van het model Gebruik het...
De afstand van Cook , vaak aangeduid als Di , wordt gebruikt bij regressieanalyse om invloedrijke gegevenspunten te identificeren die een negatief effect kunnen hebben op uw regressiemodel. De formule voor Cook’s afstand is: d ik = ( ri 2 /...
Een tweerichtingsfrequentietabel is een tabel die de frequenties (of „tellingen“) voor twee categorische variabelen weergeeft. De volgende tweerichtingstabel toont bijvoorbeeld de resultaten van een onderzoek waarbij 100 mensen werd gevraagd welke sport zij het liefste beoefenen: honkbal, basketbal of voetbal. De...
Veel statistische tests (zoals een eenrichtings-ANOVA of een tweerichtings-ANOVA ) gaan ervan uit dat de variantie tussen meerdere groepen gelijk is. Eén manier om deze hypothese formeel te testen is door de Levene-test te gebruiken, die test of de variantie tussen...
Een QQ-plot , een afkorting van „quantile-quantile“, is een type plot dat we kunnen gebruiken om te bepalen of een dataset mogelijk afkomstig is van een theoretische distributie. Veel statistische tests gaan ervan uit dat een dataset een normale verdeling volgt,...
Deze tutorial biedt een eenvoudige uitleg over het interpreteren van de C-statistiek van een logistisch regressiemodel. Wat is logistische regressie? Logistische regressie is een statistische methode die we gebruiken om een regressiemodel te fitten wanneer de responsvariabele binair is. Hier zijn...
Het n- de percentiel van een dataset is de waarde die de eerste n procent van de datawaarden afsnijdt wanneer alle waarden zijn gesorteerd van klein naar groot. Het 90e percentiel van een dataset is bijvoorbeeld de waarde die de onderste...
Een paired samples t-test is een statistische test die de gemiddelden van twee monsters vergelijkt wanneer elke waarneming uit het ene monster kan worden gematcht met een waarneming uit het andere monster. Laten we bijvoorbeeld zeggen dat we willen weten of...