Betrouwbaarheidsinterval voor een correlatiecoëfficiënt
Een betrouwbaarheidsinterval voor een correlatiecoëfficiënt is een reeks waarden die waarschijnlijk een populatiecorrelatiecoëfficiënt met een bepaald niveau van vertrouwen bevatten.
In deze zelfstudie wordt het volgende uitgelegd:
- De motivatie voor het creëren van dit type betrouwbaarheidsinterval.
- De formule voor het maken van dit type betrouwbaarheidsinterval.
- Een voorbeeld van hoe u dit type betrouwbaarheidsinterval kunt maken.
- Hoe dit type betrouwbaarheidsinterval te interpreteren.
Betrouwbaarheidsinterval voor een correlatiecoëfficiënt: motivatie
De reden voor het creëren van een betrouwbaarheidsinterval voor een correlatiecoëfficiënt is om onze onzekerheid vast te leggen bij het schatten van een populatiecorrelatiecoëfficiënt.
Stel dat we bijvoorbeeld de correlatiecoëfficiënt willen schatten tussen de lengte en het gewicht van inwoners in een bepaalde provincie. Aangezien er duizenden inwoners in de provincie zijn, zou het te duur en tijdrovend zijn om rond te gaan en informatie te verzamelen over de lengte en het gewicht van elke inwoner.
In plaats daarvan zouden we een eenvoudige willekeurige steekproef van bewoners kunnen selecteren en eenvoudigweg informatie over hen kunnen verzamelen.
Omdat we een willekeurige steekproef van inwoners selecteren, is er geen garantie dat de correlatiecoëfficiënt tussen de lengte en het gewicht van deze in de steekproef opgenomen inwoners exact overeenkomt met de correlatiecoëfficiënt van de grotere populatie.
Om deze onzekerheid vast te leggen, kunnen we dus een betrouwbaarheidsinterval creëren dat een reeks waarden bevat die waarschijnlijk de werkelijke correlatiecoëfficiënt bevatten tussen de lengte en het gewicht van de inwoners van die provincie.
Betrouwbaarheidsinterval voor een correlatiecoëfficiënt: formule
We gebruiken de volgende stappen om een betrouwbaarheidsinterval voor een populatiecorrelatiecoëfficiënt te berekenen, gebaseerd op de steekproefomvang n en de steekproefcorrelatiecoëfficiënt r .
Stap 1: Voer de Fisher-transformatie uit.
Stel z r = ln((1+r) / (1-r)) / 2
Stap 2: Zoek de boven- en ondergrenzen van het logboek.
Stel L = z r – (z 1-α/2 /√ n-3 )
Stel U = z r + (z 1-α/2 /√ n-3 )
Stap 3: Zoek het betrouwbaarheidsinterval.
Het uiteindelijke betrouwbaarheidsinterval kan worden gevonden met behulp van de volgende formule:
Betrouwbaarheidsinterval = [(e 2L -1)/(e 2L +1), (e 2U -1)/(e 2U +1)]
Betrouwbaarheidsinterval voor een correlatiecoëfficiënt: voorbeeld
Stel dat we de correlatiecoëfficiënt willen schatten tussen de lengte en het gewicht van inwoners van een bepaalde provincie. We selecteren een willekeurige steekproef van 30 inwoners en vinden de volgende informatie:
- Steekproefomvang n = 30
- Correlatiecoëfficiënt tussen lengte en gewicht r = 0,56
Zo vindt u een betrouwbaarheidsinterval van 95% voor de populatiecorrelatiecoëfficiënt:
Stap 1: Voer de Fisher-transformatie uit.
Stel dat z r = ln((1+r) / (1-r)) / 2 = ln((1+.56) / (1-.56)) / 2 = 0,6328
Stap 2: Zoek de boven- en ondergrenzen van het logboek.
Stel dat L = z r – (z 1-α/2 /√ n-3 ) = 0,6328 – (1,96 /√ 30-3 ) = 0,2556
Stel dat U = z r + (z 1-α/2 /√ n-3 ) = 0,6328 + (1,96 /√ 30-3 ) = 1,01
Stap 3: Zoek het betrouwbaarheidsinterval.
Betrouwbaarheidsinterval = [(e 2L -1)/(e 2L +1), (e 2U -1)/(e 2U +1)]
Betrouwbaarheidsinterval = [(e 2(.2556) -1)/(e 2(.2556) +1), (e 2(1.01) -1)/(e 2(1.01) +1)] = [. 2502, .7658]
Opmerking: U kunt dit betrouwbaarheidsinterval ook vinden met behulp van het Betrouwbaarheidsinterval voor een correlatiecoëfficiëntcalculator .
Betrouwbaarheidsinterval voor een correlatiecoëfficiënt: interpretatie
De manier waarop we een betrouwbaarheidsinterval zouden interpreteren is:
Er is een kans van 95% dat het betrouwbaarheidsinterval van [.2502, .7658] de werkelijke populatiecorrelatiecoëfficiënt bevat tussen de lengte en het gewicht van de inwoners van die provincie.
Een andere manier om hetzelfde te zeggen is dat er slechts een kans van 5% is dat de werkelijke populatiecorrelatiecoëfficiënt buiten het betrouwbaarheidsinterval van 95% ligt.
Dat wil zeggen, er is slechts een kans van 5% dat de werkelijke populatiecorrelatiecoëfficiënt tussen de lengte en het gewicht van de inwoners van deze provincie kleiner is dan 0,2502 of groter dan 0,7658.