Betrouwbaarheidsinterval voor de Populatieproportie

Hoofdstuk 6: Schatten en betrouwbaarheidsintervallen: Schatten

Betrouwbaarheidsinterval voor de Populatieproportie

Een betrouwbaarheidsinterval voor de populatieproportie #\pi# is een reeks waarden gebaseerd op steekproefgegevens, die zeer aannemelijke kandidaten zijn voor de werkelijke waarde van de populatieproportie.

Om een betrouwbaarheidsinterval te maken voor de populatieproportie #\pi#, zullen we gebruik moeten maken van de steekproefverdeling van de steekproefproportie.

Vergeet niet dat de steekproefproportie #\hat{p}# (ongeveer) de #N\bigg(\pi, \sqrt{\cfrac{\pi \cdot (1-\pi)}{n}}\,\bigg)# verdeling volgt als aan de volgende twee voorwaarden wordt voldaan:

Er zijn ten minste 10 positieve gevallen: #n\cdot \pi \geq 10#
Er zijn minstens 10 negatieve gevallen: #n\cdot (1-\pi) \geq 10#

Het probleem is echter dat, aangezien de waarde van #\pi# onbekend is, we deze niet kunnen gebruiken om de voorwaarden voor normaliteit te controleren.

De oplossing is om de steekproefproportie #\hat{p}# te gebruiken als een schatting voor de populatieproportie #\pi# en de voorwaarden voor normaliteit te controleren met #\hat{p}#.

Op dezelfde manier, zonder #\pi# te weten, kunnen we niet de standaardfout van de proportie #\sigma_{\hat{p}}# berekenen. In plaats daarvan zullen we gebruik maken van de geschatte standaardfout van de proportie #s_{\hat{p}}# in de berekening van een betrouwbaarheidsinterval voor de populatieproportie #\pi# :

\[s_{\hat{p}} =\sqrt{\cfrac{\hat{p}\cdot (1-\hat{p})}{n}}\]

De breedte van een betrouwbaarheidsinterval wordt bepaald door de foutmarge.
#\phantom{0}#

Foutmarge

De foutmarge #(ME)# van een betrouwbaarheidsinterval voor de populatieproportie #\pi# is de afstand vanaf het midden van het interval #\hat{p}# tot ofwel de ondergrens #L# of de bovengrens #U#.

Om de foutmarge van een betrouwbaarheidsinterval te berekenen voor de populatieproportie #\pi# gebruik je de volgende formule:

\[\begin{array}{rcccl}ME &=& z^* \cdot s_{\hat{p}} &=& z^* \cdot \sqrt{\cfrac{\hat{p}\cdot(1-\hat{p})}{n}}\end{array}\]

Waar #z^*# de kritische waarde is van de standaardnormale verdeling zodat #\mathbb{P}(-z^* \leq Z \leq z^*) = \cfrac{C}{100})#.

Het Berekenen van z* met Statistische Software

Laat #C# het betrouwbaarheidsniveau zijn in #\%#.

Om de kritische waarde #z^*# te berekenen in Excel, gebruik je de functie NORM.INV():
\[=\text{NORM.INV}((100+C)/200, 0, 1)\]

Om de kritische waarde #z^*# te berekenen in R, gebruik je de functie qnorm():
\[\text{qnorm}(p=(100+C)/200, mean=0, sd=1,lower.tail = \text{TRUE})\]

Factoren die de Foutmarge Beïnvloeden

De foutmarge van een betrouwbaarheidsinterval voor de populatieproportie #\pi# is afhankelijk van #3# factoren: het betrouwbaarheidsniveau, de steekproefproportie en de steekproefgrootte.

Als het betrouwbaarheidsniveau toeneemt, neemt de foutmarge toe en wordt het betrouwbaarheidsinterval breder.
Als de steekproefproportie een waarde van #0.5# (van beide kanten) nadert, neemt de foutmarge toe en wordt het betrouwbaarheidsinterval breder.
Als de steekproefgrootte toeneemt, neemt de foutmarge af en wordt het betrouwbaarheidsinterval smaller.

Een onderzoeker is geïnteresseerd in het schatten van de proportie #\pi# van vrouwen in Amsterdam in de leeftijd van #18# tot #21# die vegetarisch/veganistisch zijn.

Hij selecteert willekeurig een steekproef van #280# uit deze populatie en ontdekt dat #X=28# van hen vegetarisch/veganistisch is.

Bereken de foutmarge van het #93\%# betrouwbaarheidsinterval voor de populatieproportion #\pi#. Rond je antwoord af op #3# decimalen.

#ME=0.032#

Er zijn een aantal verschillende manieren waarop we de foutmarge kunnen berekenen. Klik op een van de panelen om naar een specifieke oplossing te gaan.

Excel Berekening

De foutmarge van een betrouwbaarheidsinterval voor de populatieproportie #\pi# wordt berekend met de volgende formule:
\[ME=z^* \cdot s_{\hat{p}}\]
Bereken de steekproefproportie #\hat{p}#:
\[\hat{p}=\cfrac{X}{n}=\cfrac{28}{280}=0.10\]

Onderzoek of de steekproefverdeling van de steekproefproportie als ongeveer normaal kan worden beschouwd:

#n\cdot \hat{p} = 280 \cdot 0.10 = 28 \geq 10#
#n\cdot (1 -\hat{p}) = 280 \cdot (1-0.10) = 252 \geq 10#

Aangezien aan beide voorwaarden is voldaan, is de steekproefverdeling van de steekproefproportie bij benadering een normale verdeling met parameters #\mu_{\hat{p}}=\pi# en #\sigma_{\hat{p}}=\sqrt{\cfrac{\pi \cdot (1 - \pi)}{n}}#.

Maar omdat de populatieproportie #\pi# onbekend is, kan de standaardfout van de proportie #\sigma_{\hat{p}}# niet worden berekend.

In plaats daarvan gebruiken we de steekproefproportie #\hat{p}# om de geschatte standaardfout van de proportie #s_{\hat{p}}# te berekenen:
\[s_{\hat{p}}=\sqrt{\cfrac{\hat{p} \cdot (1 - \hat{p})}{n}} = \sqrt{\cfrac{0.10 \cdot (1 -0.10)}{280}} = 0.01793\]
Voor een gegeven betrouwbaarheidsniveau #C#, is de kritische waarde #z^*# van de standaard normale verdeling, de waarde zodanig dat #\mathbb{P}(-z^* \leq Z \leq z^*)=\cfrac{C}{100}#.

Om deze kritische waarde #z^*# in Excel te berekenen, gebruik je de volgende functie:

NORM.INV(probability, mean, standard_dev)

probability: Een kans die overeenkomt met de normale verdeling.

mean: Het gemiddelde van de verdeling.

standard_dev: De standaardafwijking van de verdeling.

We hebben hier #C=93#. Dus om #z^*# te berekenen zodanig dat #\mathbb{P}(-z^* \leq Z \leq z^*)=0.93#, voer je het volgende commando uit:
\[\begin{array}{c}
=\text{NORM.INV}((100+C)/200, 0, 1)\\
\downarrow\\
=\text{NORM.INV}(193/200, 0, 1)
\end{array}\]
Dit geeft:
\[z^* = 1.81191\]
Met deze informatie kan de foutmarge worden berekend:
\[ME=z^* \cdot s_{\hat{p}} = 1.81191 \cdot 0.01793 = 0.032\]

R Berekening

De foutmarge van een betrouwbaarheidsinterval voor de populatieproportie #\pi# wordt berekend met de volgende formule:
\[ME=z^* \cdot s_{\hat{p}}\]
Bereken de populatieproportie #\hat{p}#:
\[\hat{p}=\cfrac{X}{n}=\cfrac{28}{280}=0.10\]

Onderzoek of de steekproefverdeling van de steekproefproportie als ongeveer normaal kan worden beschouwd:

#n\cdot \hat{p} = 280 \cdot 0.10 = 28 \geq 10#
#n\cdot (1 -\hat{p}) = 280 \cdot (1-0.10) = 252 \geq 10#

Aangezien aan beide voorwaarden is voldaan, is de steekproefverdeling van de steekproefproportie bij benadering een normale verdeling met parameters #\mu_{\hat{p}}=\pi# en #\sigma_{\hat{p}}=\sqrt{\cfrac{\pi \cdot (1 - \pi)}{n}}#.

Maar omdat de populatieproportie #\pi# onbekend is, kan de standaardfout van de proportie #\sigma_{\hat{p}}# niet berekend worden.

In plaats daarvan gebruiken we de steekproefproportie om de geschatte standaardfout van de proportie te berekenen: #s_{\hat{p}}#:
\[s_{\hat{p}}=\sqrt{\cfrac{\hat{p} \cdot (1 - \hat{p})}{n}} = \sqrt{\cfrac{0.10 \cdot (1 -0.10)}{280}} = 0.01793\]
Voor een gegeven betrouwbaarheidsniveau #C#, is de kritische waarde #z^*# van de standaard normale verdeling de waarde zodanig dat #\mathbb{P}(-z^* \leq Z \leq z^*)=\cfrac{C}{100}#.

Om deze kritische waarde #z^*# in R te berekenen, gebruik je de volgende functie:

qnorm(p, mean, sd, lower.tail)

p: Een kans die overeenkomt met de normale verdeling.

mean: Het gemiddelde van de verdeling.

sd: De standaardafwijking van de verdeling.

lower.tail: Indien TRUE (standaard geldt), is de kans #\mathbb{P}(X \leq x)#, anders #\mathbb{P}(X \gt x)#.

We hebben hier #C=93#. Dus om #z^*#te berekenen zodanig dat #\mathbb{P}(-z^* \leq Z \leq z^*)=0.93#, voer je het volgende commando uit:

\[\begin{array}{c}
\text{qnorm}(p = (100+C)/200, mean = 0, sd = 1, lower.tail = \text{TRUE})\\
\downarrow\\
\text{qnorm}(p =193/200, mean = 0, sd = 1, lower.tail = \text{TRUE})
\end{array}\]
Dit geeft:
\[z^* = 1.81191\]
Met deze informatie kan de foutmarge worden berekend:
\[ME=z^* \cdot s_{\hat{p}} = 1.81191 \cdot 0.01793 = 0.032\]

Nieuw voorbeeld

#\phantom{0}#

Algemene Formule voor een Betrouwbaarheidsinterval voor de Populatieproportie

Aannemend dat de steekproefverdeling van de steekproefproportie (ongeveer) normaal is, is de algemene formule voor het berekenen van een #C\%\,CI# voor de populatieproportie #\pi#, gebaseerd op een aselecte steekproef van grootte #n#:

\[CI_{\pi}=\bigg(\hat{p} - z^*\cdot \sqrt{\cfrac{\hat{p}\cdot(1-\hat{p})}{n}},\,\,\,\, \hat{p} + z^*\cdot \sqrt{\cfrac{\hat{p}\cdot(1-\hat{p})}{n}} \bigg)\]

Een steekproef van #1786# microbiële culturen van mensen in de staat Florida bij wie een streptokokkeninfectie werd vastgesteld, werd getest op resistentie tegen penicilline.

Hiervan vertoonden #X=786# kweken enige resistentie tegen penicilline.

Construeer een #90\%# betrouwbaarheidsinterval voor het aandeel streptokokkenkweken onder alle Florida-patiënten die penicillineresistent zijn. Rond je antwoorden af op #3# decimalen.

#CI_{\pi,\,90\%}=(0.421,\,\,\, 0.459)#

Er zijn een aantal verschillende manieren waarop we het betrouwbaarheidsinterval kunnen berekenen. Klik op een van de panelen om naar een specifieke oplossing te gaan.

Excel berekening

Bereken de steekproefproportie #\hat{p}#:
\[\hat{p}=\cfrac{X}{n}=\cfrac{786}{1786}=0.4401\]

Onderzoek of de steekproefverdeling van de steekproefproportie als ongeveer normaal kan worden beschouwd:

#n\cdot \hat{p} = 1786 \cdot 0.4401 = 786 \geq 10#
#n\cdot (1 -\hat{p}) = 1786 \cdot (1-0.4401) = 1000 \geq 10#

Omdat aan beide voorwaarden is voldaan, is de steekproefverdeling van de steekproefproportie bij benadering normaal.

Ervan uitgaande dat de steekproefverdeling van de steekproefproportie (ongeveer) normaal is, is de algemene formule voor het berekenen van een #C\%\,CI# voor de populatieproportie #\pi#, gebaseerd op een willekeurige steekproef van grootte #n# gelijk aan:
\[CI_{\pi}=\bigg(\hat{p} - z^*\cdot \sqrt{\cfrac{\hat{p}\cdot(1-\hat{p})}{n}},\,\,\,\, \hat{p} + z^*\cdot \sqrt{\cfrac{\hat{p}\cdot(1-\hat{p})}{n}} \bigg)\]
Voor een gegeven betrouwbaarheidsniveau #C#, is de kritische waarde #z^*# van de standaard normale verdeling de waarde zodanig dat #\mathbb{P}(-z^* \leq Z \leq z^*)=\cfrac{C}{100}#.

Om deze kritische waarde #z^*# in Excel te berekenen, gebruik je de volgende functie:

NORM.INV(probability, mean, standard_dev)

probability: Een kans die overeenkomt met de normale verdeling.

mean: Het gemiddelde van de verdeling

standard_dev: De standaardafwijking van de verdeling.

We hebben hier #C=90#. Dus om #z^*# te berekenen zodanig dat #\mathbb{P}(-z^* \leq Z \leq z^*)=0.90#, voer je het volgende commando uit:
\[\begin{array}{c}
=\text{NORM.INV}((100+C)/200, 0, 1)\\
\downarrow\\
=\text{NORM.INV}(190/200, 0, 1)
\end{array}\]
Dit geeft:
\[z^* = 1.6449\]
Bereken de ondergrens #L# van het betrouwbaarheidsinterval:
\[L = \hat{p} - z^*\cdot \sqrt{\cfrac{\hat{p}\cdot(1-\hat{p})}{n}} = 0.4401 - 1.6449 \cdot \sqrt{\cfrac{0.4401 \cdot (1-0.4401)}{1786}} = 0.421\]
Bereken de bovengrens #U# van het betrouwbaarheidsinterval:
\[U = \hat{p} + z^*\cdot \sqrt{\cfrac{\hat{p}\cdot(1-\hat{p})}{n}} = 0.4401 + 1.6449 \cdot \sqrt{\cfrac{0.4401 \cdot (1-0.4401)}{1786}} = 0.459\]
Dus het #90\%# betrouwbaarheidsinterval voor de populatieproportie #\pi# is:
\[CI_{\pi,\,90\%}=(0.421,\,\,\, 0.459)\]

R berekening

Bereken de steekproefproportie #\hat{p}#:
\[\hat{p}=\cfrac{X}{n}=\cfrac{786}{1786}=0.4401\]

Onderzoek of de steekproefverdeling van de steekproefproportie als ongeveer normaal kan worden beschouwd:

#n\cdot \hat{p} = 1786 \cdot 0.4401 = 786 \geq 10#
#n\cdot (1 -\hat{p}) = 1786 \cdot (1-0.4401) = 1000 \geq 10#

Omdat aan beide voorwaarden is voldaan, is de steekproefverdeling van de steekproefproportie bij benadering normaal.

Ervan uitgaande dat de steekproefverdeling van de steekproefproportie (ongeveer) normaal is, is de algemene formule voor het berekenen van een #C\%\,CI# voor de populatieproportie #\pi#, gebaseerd op een willekeurige steekproef van grootte #n#, gelijk aan:
\[CI_{\pi}=\bigg(\hat{p} - z^*\cdot \sqrt{\cfrac{\hat{p}\cdot(1-\hat{p})}{n}},\,\,\,\, \hat{p} + z^*\cdot \sqrt{\cfrac{\hat{p}\cdot(1-\hat{p})}{n}} \bigg)\]
Voor een gegeven betrouwbaarheidsniveau #C#, is de kritische waarde #z^*# van de standaard normale verdeling, de waarde zodanig dat #\mathbb{P}(-z^* \leq Z \leq z^*)=\cfrac{C}{100}#.

Om deze kritische waarde #z^*# in R te berekenen, gebruik je de volgende functie:

qnorm(p, mean, sd, lower.tail)

p: Een kans die overeenkomt met de normaalverdeling.

mean: Het gemiddelde van de verdeling

sd: De standaardafwijking van de verdeling.

lower.tail: Indien TRUE (standaard), is de kans #\mathbb{P}(X \leq x)#, anders #\mathbb{P}(X \gt x)#.

We hebben hier #C=90#. Dus om #z^*#te berekenen zodanig dat #\mathbb{P}(-z^* \leq Z \leq z^*)=0.90#, voer je het volgende commando uit:

\[\begin{array}{c}
\text{qnorm}(p = (100+C)/200, mean = 0, sd = 1, lower.tail = \text{TRUE})\\
\downarrow\\
\text{qnorm}(p =190/200, mean = 0, sd = 1, lower.tail = \text{TRUE})
\end{array}\]
Dit geeft:
\[z^* = 1.6449\]
Bereken de ondergrens #L# van het betrouwbaarheidsinterval:
\[L = \hat{p} - z^*\cdot \sqrt{\cfrac{\hat{p}\cdot(1-\hat{p})}{n}} = 0.4401 - 1.6449 \cdot \sqrt{\cfrac{0.4401 \cdot (1-0.4401)}{1786}} = 0.421\]
Bereken de bovengrens #U# van het betrouwbaarheidsinterval:
\[U = \hat{p} + z^*\cdot \sqrt{\cfrac{\hat{p}\cdot(1-\hat{p})}{n}} = 0.4401 + 1.6449 \cdot \sqrt{\cfrac{0.4401 \cdot (1-0.4401)}{1786}} = 0.459\]
Dus het #90\%# betrouwbaarheidsinterval voor de populatieproportie #\pi# is:
\[CI_{\pi,\,90\%}=(0.421,\,\,\, 0.459)\]

Nieuw voorbeeld

#\phantom{0}#

Het Beheersen van de Foutmarge

Stel dat je wil dat de foutmarge voor een #C\%# betrouwbaarheidsinterval voor de populatieproportie #\pi# niet groter is dan #k#.

Dan moet de minimale steekproefomvang

\[n=0.25 \cdot \Big(\cfrac{z^*}{k}\Big)^2,\]

zijn, omhoog afgerond naar het volgende gehele getal.

De foutmarge voor een #C\%# betrouwbaarheidsinterval voor het populatieproportie #\pi# wordt als volgt berekend:

\[ME = z^* \cdot \sqrt{\cfrac{\hat{p} \cdot (1 - \hat{p})}{n}}\]

Stel dat we de minimale steekproefomvang willen bepalen die nodig is zodat de foutmarge niet groter is dan #k#. Omdat we nog geen monster hebben gekozen of gegevens verzameld hebben, hebben we nog geen waarde voor #\hat{p}#.

Om dit probleem te omzeilen, gebruiken we de waarde voor #\hat{p}# zodat #\hat{p} \cdot (1 - \hat{p})# zo groot mogelijk is, namelijk #0.5#. Dit garandeert dat de steekproefgrootte groot genoeg is om de foutmarge onder #k# te houden.

Als #\hat{p}=0.5# dan #\hat{p} \cdot (1 - \hat{p}) = 0.5 \cdot (1 - 0.5) = 0.25#.

Dus als we de minimale steekproefgrootte willen bepalen die nodig is zodat de foutmarge niet groter is dan #k#, moeten we de volgende ongelijkheid oplossen voor #n# :

\[\begin{array}{rcll}
z^* \cdot \sqrt{\cfrac{0.25}{n}}&\leq& k&\blue{(\text{Ongelijkheid om op te lossen})}\\
(z^*)^2 \cdot \cfrac{0.25}{n}&\leq& k^2&\blue{(\text{Beide kanten gekwadrateert})}\\
0.25 \cdot (z^*)^2&\leq& k^2 \cdot n&\blue{(\text{Beide kanten vermenigvuldigd met }n)}\\
\cfrac{0.25 \cdot (z^*)^2}{k^2}&\leq& n&\blue{(\text{Beide kanten gedeeld door }k^2)}\\
\end{array}\]

Die kan worden herschreven als #n\geq 0.25 \cdot \Big(\cfrac{z^*}{k}\Big)^2#.

Een onderzoeker is geïnteresseerd in het schatten van de proportie #\pi# vrouwen in Amsterdam van #18# tot #21# jaar die vegetariër/veganist zijn.

Als de onderzoeker wil dat de foutmarge van het #94\%# betrouwbaarheidsinterval voor de populatieproportie #\pi# niet groter is dan #0.03#, wat is dan de minimale steekproefgrootte die ze nodig heeft om dit doel te bereiken?

#n \geq 983#

Er zijn een aantal verschillende manieren waarop we de minimale steekproefgrootte kunnen berekenen. Klik op een van de panelen om een specifieke oplossing te kiezen.

Excel berekening

Voor een gegeven betrouwbaarheidsniveau #C#, is de kritische waarde #z^*# van de standaard normale verdeling de waarde zodanig dat #\mathbb{P}(-z^* \leq Z \leq z^*)=\cfrac{C}{100}#.

Om deze kritische waarde #z^*# in Excel te berekenen, maak je gebruik van de volgende functie:

NORM.INV(probability, mean, standard_dev)

probability: Een kans die overeenkomt met de normale verdeling.

mean: Het gemiddelde van de verdeling

standard_dev: De standaardafwijking van de verdeling.

We hebben hier #C=94#. Dus om #z^*# te berekenen zodanig dat #\mathbb{P}(-z^* \leq Z \leq z^*)=0.94#, voer je het volgende commando uit:
\[\begin{array}{c}
=\text{NORM.INV}((100+C)/200, 0, 1)\\
\downarrow\\
=\text{NORM.INV}(194/200, 0, 1)
\end{array}\]
Dit geeft:
\[z^* = 1.8808\]
Met deze informatie kan de minimale steekproefgrootte als volgt worden berekend:
\[n=0.25 \cdot \Big(\cfrac{z^*}{k}\Big)^2=\Big(\cfrac{1.8808}{0.03}\Big)^2=982.607\]
Als je deze waarde naar boven afrondt, krijg je #n=983#.

Dus om de foutmarge niet groter te laten zijn dan #0.03#, heb je een steekproefgrootte nodig van ten minste #983#.

R berekening

qnorm(p, mean, sd, lower.tail)

p: Een kans die overeenkomt met de normale verdeling.

mean: Het gemiddelde van de verdeling.

sd: De standaardafwijking van de verdeling.

lower.tail: Indien TRUE (standaard), is de kans #\mathbb{P}(X \leq x)#, anders #\mathbb{P}(X \gt x)#.

We hebben hier #C=94#. Dus om #z^*#te berekenen zodanig dat #\mathbb{P}(-z^* \leq Z \leq z^*)=0.94#, voer je het volgende commando uit:

\[\begin{array}{c}
\text{qnorm}(p = (100+C)/200, mean = 0, sd = 1, lower.tail = \text{TRUE})\\
\downarrow\\
\text{qnorm}(p =194/200, mean = 0, sd = 1, lower.tail = \text{TRUE})
\end{array}\]
Dit geeft:
\[z^* = 1.8808\]
Met deze informatie kan de minimale steekproefgrootte als volgt worden berekend:
\[n=0.25 \cdot \Big(\cfrac{z^*}{k}\Big)^2=\Big(\cfrac{1.8808}{0.03}\Big)^2=982.607\]
Als je deze waarde naar boven afrondt, krijg je #n=983#.

Dus om de foutmarge niet groter te laten zijn dan #0.03#, heb je een steekproefgrootte nodig van ten minste #983#.

Nieuw voorbeeld