Hoofdstuk 9: Chi-kwadraat toetsen: Chi-Square Test for Independence
Chi-kwadraat onafhankelijkheidstoets: toetsingsgrootheid en p-waarde
Gegevens voor de chi-kwadraat onafhankelijkheidstoets
De waargenomen frequentie is het aantal individuen in de steekproef dat in een bepaalde categorie is geclassificeerd, en wordt aangegeven met #f_o#.
De verwachte frequentie is het aantal individuen waarvan men zou verwachten dat ze in een bepaalde categorie zouden worden geclassificeerd op basis van de voorspellingen van de nulhypothese, en wordt aangegeven met #f_e#.
De verwachte frequentie van een categorie wordt berekend met de volgende formule:
\[f_e = \cfrac{f_r \cdot f_c}{n}\]
waarbij #f_r# de totale frequentie voor de rij is en #f_c# de totale frequentie voor de kolom.
Verwachte frequenties berekenen
Beschouw de volgende frequentietabel:
Waargenomen frequenties | |||
Appel | Banaan | #\blue{\text{Totaal}}# | |
Extravert | #\purple{\text{13}}# | #\purple{\text{37}}# | #\blue{\text{50}}# |
Introvert | #\purple{\text{81}}# | #\purple{\text{97}}# | #\blue{\text{178}}# |
#\orange{\text{Totaal}}# | #\orange{\text{94}}# | #\orange{\text{134}}# | 228 |
Om de verwachte frequenties te berekenen, pas je de volgende formule toe op elke #\purple{\text{cell}}# in de tabel:
\[f_e = \cfrac{\blue{f_r} \cdot \orange{f_c}}{n}\]
waarbij #\blue{f_r}# de totale frequentie voor de rij is en #\orange{f_c}# de totale frequentie voor de kolom.
#\begin{array}{llcl}
\,\,\,\,\scriptsize{\bullet}&\,\,\normalsize{\text{Extrovert - Appel}}&:&\cfrac{\blue{50}\cdot \orange{94}}{228}=20.61\\
\,\,\,\,\scriptsize{\bullet}&\,\,\normalsize{\text{Extrovert - Banaan}}&:&\cfrac{\blue{50}\cdot \orange{134}}{228}=29.39\\
\,\,\,\,\scriptsize{\bullet}&\,\,\normalsize{\text{Introvert - Appel}}&:&\cfrac{\blue{178}\cdot \orange{94}}{228}=73.39\\
\,\,\,\,\scriptsize{\bullet}&\,\,\normalsize{\text{Introvert - Banaan}}&:&\cfrac{\blue{178}\cdot \orange{134}}{228}=104.61\\
\end{array}#
Verwachte frequenties | |||
Appel | Banaan | Totaal | |
Extravert | 20.61 | 29.39 | 50 |
Introvert | 73.39 | 104.61 | 178 |
Totaal | 94 | 134 | 228 |
#\phantom{0}#
Nadat de verwachte frequenties zijn berekend, is de volgende stap het berekenen van de toetsingsgrootheid van de chi-kwadraat onafhankelijkheidstoets om te bepalen hoeveel de waargenomen frequenties verschillen van de frequenties die worden verwacht onder de nulhypothese.
#\phantom{0}#
Chi-kwadraat Toetsingsgrootheid en -Verdeling
De toetsingsgrootheid voor de chi-kwadraat onafhankelijkheidstoets wordt aangegeven met #\chi^2# en wordt berekend met de volgende formule:
\[\chi^2=\sum_{\text{alle cellen}}{\dfrac{(\text{Waargenomen}-\text{Verwacht})^2}{\text{Verwacht}}}=\sum_{\text{alle cellen}}{\dfrac{(f_o-f_e)^2}{f_e}}\]
Omdat bij de berekening van de toetsingsgrootheid kwadratische waarden moeten worden opgeteld, zal een toetsingsgrootheid #\chi^2# altijd een waarde van nul of groter hebben.
Ervan uitgaande dat de nulhypothese van de chi-kwadraat onafhankelijkheidstoets waar is, zal de toetsingsgrootheid #\chi^2# (ongeveer) een #\chi^2#-verdeling volgen met #df = (r -1)(c-1)# vrijheidsgraden, waarbij #r# het aantal rijen is en #c# het aantal kolommen.
Chi-kwadraatverdelingen zijn rechtsscheef en het kritieke gebied zal zich altijd geheel in de rechterstaart van de verdeling bevinden.
Berekening van de p-waarde van een chi-kwadraat onafhankelijkheidstoets
Een chi-kwadraattoets is per definitie een rechtszijdige toets.
Om de #p#-waarde van een chi-kwadraat onafhankelijkheidstoets in Excel te berekenen, gebruik je de volgende opdracht:
\[=1\text{ - }\text{CHISQ.DIST}(\chi^2, df, 1)\]
Om de #p#-waarde van een chi-kwadraat onafhankelijkheidstoets in R te berekenen, gebruik je de volgende opdracht:
\[\text{pchisq}(\chi^2, df, lower.tail=\text{FALSE})\]
waar #df = (r \text{ - }1)(c\text{ - }1)#.
Indien #p \leq \alpha#, verwerp #H_0# en concludeer #H_a#. In het andere geval verwerp je #H_0# niet.
In een poging om de impact van de bezuinigingen op voorschoolse programma's te beoordelen, selecteerden schoolbestuurders in een Amerikaans schooldistrict een eenvoudige willekeurige steekproef van #170# leerlingen in de zevende klas en bepaalden of elke leerling wel of niet naar voorschool was geweest en of elke leerling onder, op of boven niveau presteerde bij wiskunde.
De resultaten zijn weergegeven in de volgende kruistabel:
Waargenomen frequenties | ||||
Onder niveau | Op niveau | Boven niveau | Totaal | |
Voorschoolse educatie | #19# | #66# | #14# | #99# |
Geen voorschool | #8# | #58# | #5# | #71# |
Totaal | #27# | #124# | #19# | #170# |
De onderzoeker is van plan een chi-kwadraat onafhankelijkheidstoets te gebruiken om te bepalen of deelname aan voorschoolse programma's en wiskundige vaardigheden met elkaar verband houden.
Bereken de #p#-waarde van de toets en neem een beslissing over #H_0#. Rond je antwoord af op #3# decimalen. Gebruik het #\alpha = 0.09# significantieniveau.
#p=0.091#
Op basis van deze #p#-waarde moet #H_0# niet worden verworpen, omdat #\,p# #\gt# #\alpha#.
Er zijn een aantal verschillende manieren waarop we de #p#-waarde van de toets kunnen berekenen. Klik op één van de panelen om de desbetreffende oplossing te bekijken.
Bereken de verwachte frequentie van alle cellen in de tabel met de volgende formule:
\[f_e = \cfrac{f_r \cdot f_c}{n}\]
waarbij #f_r# de totale frequentie voor de rij is, #f_c# de totale frequentie voor de kolom en #n# de totale steekproefgrootte.
Verwachte frequenties | ||||
Onder niveau | Op niveau | Boven niveau | Totaal | |
Voorschoolse educatie | #15.72# | #72.21# | #11.06# | #99# |
Geen voorschool | #11.28# | #51.79# | #7.94# | #71# |
Totaal | #27# | #124# | #19# | #170# |
Bereken de toetsingsgrootheid #\chi^2#:
\[\begin{array}{rcl}
\chi^2&=&\sum\limits_{\text{alle cellen}}{\dfrac{(f_o-f_e)^2}{f_e}}\\
&=& \cfrac{(19-15.72)^2}{15.72}+\cfrac{(66-72.21)^2}{72.21}+\cfrac{(14-11.06)^2}{11.06}+\cfrac{(8-11.28)^2}{11.28}\\ && \phantom{}+\cfrac{(58-51.79)^2}{51.79}+\cfrac{(5-7.94)^2}{7.94}\\
&=& 4.787
\end{array}\]
Bepaal het aantal vrijheidsgraden:
\[df = (r -1)(c-1) = (2 -1 )(3 - 1)=2\]
Om de #p#-waarde van een #\chi^2 #-toets te berekenen, maak je gebruik van de volgende Excel-functie:
CHISQ.DIST(x, deg_freedom, cumulative)
- x: De waarde waarvoor je de kans wilt berekenen.
- deg_freedom: Een geheel getal dat het aantal vrijheidsgraden aangeeft.
- cumulative: Een logische waarde die de vorm van de functie bepaalt.
- TRUE - gebruikt de cumulatieve verdelingsfunctie, #\mathbb{P}(X \leq x)#
- FALSE - gebruikt de kansdichtheidsfunctie
Een chi-kwadraattoets is per definitie een rechtszijdige toets. Om de #p#-waarde van de toets te berekenen, voer je dus de volgende opdracht uit:
\[=1\text{ - }\text{CHISQ.DIST}(\chi^2,(r \text{ - }1)(c\text{ - }1), 1)\\
\downarrow\\
=1\text{ - }\text{CHISQ.DIST}(4.787, 2, 1)\]
Dit geeft:
\[p = 0.091\]
Omdat #\,p# #\gt# #\alpha#, moet de nulhypothese van onafhankelijkheid niet worden verworpen.
Bereken de verwachte frequentie van alle cellen in de tabel met de volgende formule:
\[f_e = \cfrac{f_r \cdot f_c}{n}\]
waarbij #f_r# de totale frequentie voor de rij is, #f_c# de totale frequentie voor de kolom en #n# de totale steekproefgrootte.
Verwachte frequenties | ||||
Onder niveau | Op niveau | Boven niveau | Totaal | |
Voorschoolse educatie | #15.72# | #72.21# | #11.06# | #99# |
Geen voorschool | #11.28# | #51.79# | #7.94# | #71# |
Totaal | #27# | #124# | #19# | #170# |
Bereken de toetsingsgrootheid #\chi^2#:
\[\begin{array}{rcl}
\chi^2&=&\sum\limits_{\text{alle cellen}}{\dfrac{(f_o-f_e)^2}{f_e}}\\
&=& \cfrac{(19-15.72)^2}{15.72}+\cfrac{(66-72.21)^2}{72.21}+\cfrac{(14-11.06)^2}{11.06}+\cfrac{(8-11.28)^2}{11.28}\\ && \phantom{}+\cfrac{(58-51.79)^2}{51.79}+\cfrac{(5-7.94)^2}{7.94}\\
&=& 4.787
\end{array}\]
Bepaal het aantal vrijheidsgraden:
\[df = (r -1)(c-1) = (2 -1 )(3 - 1)=2\]
Om de #p#-waarde van een #\chi^2#-toets te berekenen, maak je gebruik van de volgende R-functie:
pchisq(q, df, lower.tail)
- q: De waarde waarvoor je de kans wilt berekenen.
- df: Een geheel getal dat het aantal vrijheidsgraden aangeeft.
- lower.tail: Als TRUE (standaard), dan #\mathbb{P}(X \leq x)#, anders, #\mathbb{P}(X \gt x)#.
Een chi-kwadraattoets is per definitie een rechtszijdige toets. Om de #p#-waarde van de toets te berekenen, voer je dus de volgende opdracht uit:
\[\text{pchisq}(q = \chi^2, df = (r \text{ - }1)(c\text{ - }1), lower.tail=\text{FALSE})\\
\downarrow\\
\text{pchisq}(q = 4.787, df = 2, lower.tail=\text{FALSE})\]
Dit geeft:
\[p = 0.091\]
Omdat #\,p# #\gt# #\alpha# moet de nulhypothese van onafhankelijkheid niet worden verworpen.
omptest.org als je een OMPT examen moet maken.