Betrouwbaarheidsinterval voor het Verschil tussen twee onafhankelijke Proporties

Hoofdstuk 8: Toetsen voor verschillen in gemiddelden en proporties: Z-toets voor onafhankelijke Proporties

Betrouwbaarheidsinterval voor het Verschil tussen twee onafhankelijke Proporties

Aannemend dat de steekproefverdeling van het verschil tussen twee steekproefproporties (bij benadering) normaal is, is de algemene formule voor het berekenen van een #C\%\,CI# voor het verschil tussen de twee populatieproporties #\pi_1- \pi_2#:
\[CI_{(\pi_1 - \pi_2)}=(\hat{p}_1 - \hat{p}_2) \pm z^*\cdot \sqrt{\cfrac{\hat{p}_1 \cdot (1 - \hat{p}_1)}{n_1}+\cfrac{\hat{p}_2 \cdot (1 - \hat{p}_2)}{n_2}}\]

waarbij #z^*# de kritische waarde is van de standaardnormale verdeling zodat #\mathbb{P}(-z^* \leq Z \leq z^*) = \cfrac{C}{100})#.

Het berekenen van z* met Statistische Software

Laat #C# het betrouwbaarheidsniveau zijn in #\%#.

Om de kritische waarde #z^*# in Excel te berekenen, maak je gebruik van de functie NORM.INV():
\[=\text{NORM.INV}((100+C)/200, 0, 1)\]

Om de kritische waarde #z^*# in R te berekenen, maak je gebruik van de functie qnorm():
\[\text{qnorm}(p=(100+C)/200, mean=0, sd=1,lower.tail = \text{TRUE})\]

Er wordt een eenvoudige willekeurige steekproef van grootte #120# genomen uit de inwoners van Amsterdam. Van deze steekproef hebben #X_1=58# mensen een Museumkaart. Er wordt ook een eenvoudige willekeurige steekproef van #122# Rotterdammers genomen. Van deze steekproef hebben #X_2=66# mensen een Museumkaart.

Construeer een #92\%# betrouwbaarheidsinterval voor het verschil tussen de twee populatieproporties #\pi_1 - \pi_2#. Rond je antwoorden af op #3# decimalen.

#CI_{(\pi_1 - \pi_2),\,92\%}=(-0.170,\,\,\, 0.055)#

Er zijn een aantal verschillende manieren waarop we het betrouwbaarheidsinterval kunnen berekenen. Klik op één van de panelen om de desbetreffende oplossing te bekijken.

Excel berekening

Omdat zowel #n_1# als #n_2# als groot wordt beschouwd (#\gt 30#), is de centrale limietstelling van toepassing en weten we dat de steekproefverdeling van het verschil tussen twee steekproefproporties (bij benadering) normaal is.

Als de steekproefverdeling van het verschil tussen twee steekproefproporties (bij benadering) normaal is, is de algemene formule voor het berekenen van een #C\%\,CI# voor het verschil tussen de twee populatieproporties #\pi_1- \pi_2#:
\[CI_{(\pi_1 - \pi_2)}=(\hat{p}_1 - \hat{p}_2) \pm z^*\cdot \sqrt{\cfrac{\hat{p}_1 \cdot ( 1 - \hat{p}_1)}{n_1}+\cfrac{\hat{p}_2 \cdot (1 - \hat{p}_2)}{n_2}}\]
Bereken de steekproefproporties #\hat{p}_1# en #\hat{p}_2#:
\[\hat{p}_1=\cfrac{X_1}{n_1}=\cfrac{58}{120}=0.48333\\
\hat{p}_2=\cfrac{X_2}{n_2}=\cfrac{66}{122}=0.54098\]
Voor een gegeven betrouwbaarheidsniveau #C# (in #\%#) is de kritische waarde #z^*# van de standaardnormale verdeling de waarde zodanig dat #\mathbb{P}(-z^* \leq Z \leq z ^*)=\cfrac{C}{100}#.

Om deze kritische waarde #z^*# in Excel te berekenen, gebruik je de volgende functie:

NORM.INV(probability, mean, standard_dev)

probability: Een kans die overeenkomt met de normale verdeling.

mean: Het gemiddelde van de verdeling.

standard_dev: De standaardafwijking van de verdeling.

Hier hebben we #C=92#. Om #z^*# te berekenen zodanig dat #\mathbb{P}(-z^* \leq Z \leq z^*)=0.92#, voer je dus het volgende commando uit:
\[\begin{array}{c}
=\text{NORM.INV}((100+C)/200, 0, 1)\\
\downarrow\\
=\text{NORM.INV}(192/200, 0, 1)
\end{array}\]
Dit geeft:
\[z^* = 1.75069\]
Bereken de ondergrens #L# van het betrouwbaarheidsinterval:
\[\begin{array}{rcl}
L &=& (\hat{p}_1 - \hat{p}_2) - z^*\cdot \sqrt{\cfrac{\hat{p}_1 \cdot (1 - \hat{p}_1)}{n_1}+\cfrac{\hat{p}_2 \cdot (1 - \hat{p}_2)}{n_2}}\\
&=& (0.48333 - 0.54098) - 1.75069 \cdot \sqrt{\cfrac{0.48333 \cdot (1 - 0.48333)}{120}+\cfrac{0.54098 \cdot (1 - 0.54098)}{122}}\\
&=&-0.170
\end{array}\]
Bereken de bovengrens #U# van het betrouwbaarheidsinterval:
\[\begin{array}{rcl}
U &=& (\hat{p}_1 - \hat{p}_2) + z^*\cdot \sqrt{\cfrac{\hat{p}_1 \cdot (1 - \hat{p}_1)}{n_1}+\cfrac{\hat{p}_2 \cdot (1 - \hat{p}_2)}{n_2}}\\
&=& (0.48333 - 0.54098) + 1.75069 \cdot \sqrt{\cfrac{0.48333 \cdot (1 - 0.48333)}{120}+\cfrac{0.54098 \cdot (1 - 0.54098)}{122}}\\
&=&0.055
\end{array}\]
Het #92\%# betrouwbaarheidsinterval voor het verschil tussen de twee populatieproporties #\pi_1 - \pi_2# is dus:
\[CI_{(\pi_1 - \pi_2),\,92\%}=(-0.170,\,\,\, 0.055)\]

R berekening

Omdat zowel #n_1# als #n_2# als groot wordt beschouwd (#\gt 30#), is de centrale limietstelling van toepassing en weten we dat de steekproefverdeling van het verschil tussen twee steekproefproporties (bij benadering) normaal is.

Als de steekproefverdeling van het verschil tussen twee steekproefproporties (bij benadering) normaal is, is de algemene formule voor het berekenen van een #C\%\,CI# voor het verschil tussen de twee populatieproporties #\pi_1- \pi_2#:
\[CI_{(\pi_1 - \pi_2)}=(\hat{p}_1 - \hat{p}_2) \pm z^*\cdot \sqrt{\cfrac{\hat{p}_1 \cdot ( 1 - \hat{p}_1)}{n_1}+\cfrac{\hat{p}_2 \cdot (1 - \hat{p}_2)}{n_2}}\]
Bereken de steekproefproporties #\hat{p}_1# en #\hat{p}_2#:
\[\hat{p}_1=\cfrac{X_1}{n_1}=\cfrac{58}{120}=0.48333\\
\hat{p}_2=\cfrac{X_2}{n_2}=\cfrac{66}{122}=0.54098\]
Voor een gegeven betrouwbaarheidsniveau #C# (in #\%#) is de kritische waarde #z^*# van de standaardnormale verdeling de waarde zodanig dat #\mathbb{P}(-z^* \leq Z \leq z ^*)=\cfrac{C}{100}#.

Om deze waarde #z^*# in R te berekenen, gebruik je de volgende functie:

qnorm(p, mean, sd, lower.tail)

p: Een kans die overeenkomt met de normale verdeling.

mean: Het gemiddelde van de verdeling

sd: De standaardafwijking van de verdeling

lower.tail: Als TRUE (standaard), dan #\mathbb{P}(X \leq x)#, anders #\mathbb{P}(X \gt x)#.

Hier hebben we #C=92#. Om #z^*# te berekenen zodanig dat #\mathbb{P}(-z^* \leq Z \leq z^*)=0.92#, voer je dus het volgende commando uit:

\[\begin{array}{c}
\text{qnorm}(p = (100+C)/200, mean = 0, sd = 1, lower.tail = \text{TRUE})\\
\downarrow\\
\text{qnorm}(p =192/200, mean = 0, sd = 1, lower.tail = \text{TRUE})
\end{array}\]
Dit geeft:
\[z^* = 1.75069\]
Bereken de ondergrens #L# van het betrouwbaarheidsinterval:
\[\begin{array}{rcl}
L &=& (\hat{p}_1 - \hat{p}_2) - z^*\cdot \sqrt{\cfrac{\hat{p}_1 \cdot (1 - \hat{p}_1)}{n_1}+\cfrac{\hat{p}_2 \cdot (1 - \hat{p}_2)}{n_2}}\\
&=& (0.48333 - 0.54098) - 1.75069 \cdot \sqrt{\cfrac{0.48333 \cdot (1 - 0.48333)}{120}+\cfrac{0.54098 \cdot (1 - 0.54098)}{122}}\\
&=&-0.170
\end{array}\]
Bereken de bovengrens #U# van het betrouwbaarheidsinterval:
\[\begin{array}{rcl}
U &=& (\hat{p}_1 - \hat{p}_2) + z^*\cdot \sqrt{\cfrac{\hat{p}_1 \cdot (1 - \hat{p}_1)}{n_1}+\cfrac{\hat{p}_2 \cdot (1 - \hat{p}_2)}{n_2}}\\
&=& (0.48333 - 0.54098) + 1.75069 \cdot \sqrt{\cfrac{0.48333 \cdot (1 - 0.48333)}{120}+\cfrac{0.54098 \cdot (1 - 0.54098)}{122}}\\
&=&0.055
\end{array}\]
Het #92\%# betrouwbaarheidsinterval voor het verschil tussen de twee populatieproporties #\pi_1 - \pi_2# is dus:
\[CI_{(\pi_1 - \pi_2),\,92\%}=(-0.170,\,\,\, 0.055)\]

Nieuw voorbeeld