Hoofdstuk 9: Chi-kwadraat toetsen: Chi-kwadraat Aanpassingstoets
Chi-kwadraat aanpassingstoets: Toetsingsgrootheid en p-waarde
De toetsingsgrootheid van de chi-kwadraat aanpassingstoets wordt berekend met behulp van twee soorten frequentietellingen: de waargenomen frequentie en de verwachte frequentie.
#\phantom{0}#
Data voor de Aanpassingstoets
De waargenomen frequentie is het aantal individuen in de steekproef dat in een bepaalde categorie is geclassificeerd en wordt aangegeven met #f_o#.
De verwachte frequentie is het aantal individuen waarvan men zou verwachten dat ze, op basis van de nulhypothese, in een bepaalde categorie zouden worden geclassificeerd en wordt aangegeven met #f_e#.
Om de verwachte frequentie van categorie #i# te berekenen, vermenigvuldig je de proportie gespecificeerd door de nulhypothese met de totale steekproefgrootte:
\[f_e = \pi_{0,\,i} \cdot n\]
Verwachte Frequenties berekenen
Stel dat een onderzoeker wil weten hoe goed de volgende gegevens passen bij een nulhypothese van geen voorkeur.
Categorie | I | II | II |
Waargenomen frequentie (#f_o#) | 23 | 17 | 20 |
Omdat er in totaal #3# meetcategorieën zijn, doet een nulhypothese van geen voorkeur de volgende voorspelling over de proporties #\pi# in de populatie:
I | II | III | |
#H_0:# | #1/3# | #1/3# | #1/3# |
Om de verwachte frequenties te berekenen, vermenigvuldig je elk van de proporties gespecificeerd door de nulhypothese met de totale grootte van de steekproef, in dit geval #n=60#.
#\begin{array}{llclcl}
\,\,\,\,\scriptsize{\bullet}&\normalsize{\text{I}}:&\pi_{0,\,I}\cdot n &=& 1/3\cdot 60 &=& 20\\
\,\,\,\,\scriptsize{\bullet}&\normalsize{\text{II}}:&\pi_{0,\,II}\cdot n &=&1/3\cdot 60 &=& 20\\
\,\,\,\,\scriptsize{\bullet}&\normalsize{\text{III}}:&\pi_{0,\,III}\cdot n &=&1/3\cdot 60 &=& 20\\
\end{array}#
Categorie | I | II | II |
Waargenomen frequentie (#f_o#) | 23 | 17 | 20 |
Verwachte frequentie (#f_e#) | 20 | 20 | 20 |
#\phantom{0}#
Nadat de verwachte frequenties zijn berekend, is de volgende stap het berekenen van de toetsingsgrootheid van de aanpassingstoets om te bepalen hoeveel de waargenomen frequenties verschillen van de verwachte frequenties onder de nulhypothese.
#\phantom{0}#
Chi-kwadraat Toetsingsgrootheid en -Verdeling
De toetsingsgrootheid van de chi-kwadraat aanpassingstoets wordt aangegeven met #\chi^2# en wordt berekend met de volgende formule:
\[\chi^2=\sum_{\text{alle categorieën}}{\dfrac{(\text{Waargenomen}-\text{Verwacht})^2}{\text{Verwacht}}}=\sum_{\text{alle categorieën}}{\dfrac{(f_o-f_e)^2}{f_e}}\]
Omdat bij de berekening van de toetsingsgrootheid kwadratische waarden moeten worden opgeteld, zal een toetsingsgrootheid #\chi^2# altijd een waarde van nul of groter hebben.
Ervan uitgaande dat de nulhypothese van de aanpassingstoets waar is, zal de toetsingsgrootheid #\chi^2# (ongeveer) een #\chi^2#-verdeling volgen met #df= k - 1# vrijheidsgraden, waarbij #k# het aantal mogelijke categorieën is.
Chi-kwadraatverdelingen zijn rechtsscheef en het kritieke gebied zal zich altijd in de rechterstaart van de verdeling bevinden.
Berekening van de p-waarde van een Chi-kwadraat Aanpassingstoets
Een chi-kwadraattoets is per definitie een rechtszijdige toets.
Om de #p#-waarde van een chi-kwadraat aanpassingstoets in Excel te berekenen, gebruik je de volgende opdracht:
\[=1\text{ - }\text{CHISQ.DIST}(\chi^2, df, 1)\]
Om de #p#-waarde van een chi-kwadraat aanpassingstoets in R te berekenen, gebruik je de volgende opdracht:
\[\text{pchisq}(\chi^2, df, lower.tail=\text{FALSE})\]
Waarbij #df=k\text{ - }1#.
Indien #p \leq \alpha#, verwerp dan #H_0# en concludeer #H_a#. In het andere geval verwerp je #H_0# niet.
Een onderzoeker wil een chi-kwadraat aanpassingstoets gebruiken om te bepalen of de verdeling van de oogkleur in Zweden hetzelfde is als in Noorwegen.
Stel dat uit eerder onderzoek bekend is dat de verdeling van de oogkleur in Noorwegen als volgt is:
Blauw | Bruin | Overig |
#0.67# | #0.27# | #0.06# |
De onderzoeker selecteert willekeurig #628# Zweden en registreert hun oogkleur. Onderstaande tabel is het resultaat van deze meting:
Oogkleur | Blauw | Bruin | Overig |
Waargenomen frequentie | 408 | 163 | 57 |
Bereken de #p#-waarde van de toets en neem een beslissing over #H_0#. Rond je antwoord af op #3# decimalen. Gebruik het significantieniveau #\alpha = 0.05#.
#p=0.005#
Op basis van deze #p#-waarde moet #H_0# wel verworpen worden, omdat #\,p# #\lt# #\alpha#.
Er zijn een aantal verschillende manieren waarop we de #p#-waarde van de toets kunnen berekenen. Klik op één van de panelen om de desbetreffende oplossing te bekijken.
Bereken met de volgende formule de verwachte frequentie van elke categorie:
\[f_{e,\,i} = \pi_{0,\,i} \cdot n\]
#\begin{array}{llclcl}
\,\,\scriptsize{\bullet}&\normalsize{\text{Blauw}}:&\pi_{0,\,blauw}\cdot n &=& 0.67 \cdot 628 &=& 420.76\\
\,\,\scriptsize{\bullet}&\normalsize{\text{Bruin}}:&\pi_{0,\,bruin}\cdot n &=&0.27 \cdot628 &=&169.56\\
\,\,\scriptsize{\bullet}&\normalsize{\text{Overig}}:&\pi_{0,\,overig}\cdot n &=&0.06 \cdot628 &=&37.68\\
\end{array}#
Oogkleur | Blauw | Bruin | Overig |
Waargenomen frequentie (#f_o#) | 408 | 163 | 57 |
Verwachte frequentie (#f_e#) | 420.76 | 169.56 | 37.68 |
Bereken de toetsingsgrootheid #\chi^2#:
\[\begin{array}{rcl}
\chi^2&=&\sum\limits_{\text{alle categorieën}}{\dfrac{(f_o-f_e)^2}{f_e}}\\\\
&=& \cfrac{(408-420.76)^2}{420.76} + \cfrac{(163-169.56)^2}{169.56} + \cfrac{(57-37.68)^2}{37.68}\\\\
&=& 10.547
\end{array}\]
Bepaal het aantal vrijheidsgraden:
\[df = k - 1 = 3 - 1 = 2 \]
Gebruik de volgende Excel-functie om de #p#-waarde van een chi-kwadraattoets te berekenen:
CHISQ.DIST(x, deg_freedom, cumulative)
- x: De waarde waarvoor je de kans wilt berekenen.
- deg_freedom: Een geheel getal dat het aantal vrijheidsgraden aangeeft.
- cumulative : Een logische waarde die de vorm van de functie bepaalt.
- TRUE - gebruikt de cumulatieve verdelingsfunctie, #\mathbb{P}(X \leq x)#
- FALSE - gebruikt de kansdichtheidsfunctie
Een chi-kwadraattoets is per definitie een rechtszijdige toets. Daarom voeren we de volgende opdracht uit om de #p#-waarde van de toets te berekenen:
\[=1\text{ - }\text{CHISQ.DIST}(\chi^2, k\text{ - }1, 1)\\
\downarrow\\
=1\text{ - }\text{CHISQ.DIST}(10.547, 2, 1)\]
Dit geeft:
\[p = 0.005\]
De nulhypothese moet wel worden verworpen, omdat #\,p# #\lt# #\alpha#.
Bereken met de volgende formule de verwachte frequentie van elke categorie:
\[f_{e,\,i} = \pi_{0,\,i} \cdot n\]
#\begin{array}{llclcl}
\,\,\scriptsize{\bullet}&\normalsize{\text{Blauw}}:&\pi_{0,\,blauw}\cdot n &=& 0.67 \cdot 628 &=& 420.76\\
\,\,\scriptsize{\bullet}&\normalsize{\text{Bruin}}:&\pi_{0,\,bruin}\cdot n &=&0.27 \cdot628 &=&169.56\\
\,\,\scriptsize{\bullet}&\normalsize{\text{Overig}}:&\pi_{0,\,overig}\cdot n &=&0.06 \cdot628 &=&37.68\\
\end{array}#
Oogkleur | Blauw | Bruin | Overig |
Waargenomen frequentie (#f_o#) | 408 | 163 | 57 |
Verwachte frequentie (#f_e#) | 420.76 | 169.56 | 37.68 |
Bereken de toetsingsgrootheid #\chi^2#:
\[\begin{array}{rcl}
\chi^2&=&\sum\limits_{\text{alle categorieën}}{\dfrac{(f_o-f_e)^2}{f_e}}\\\\
&=& \cfrac{(408-420.76)^2}{420.76} + \cfrac{(163-169.56)^2}{169.56} + \cfrac{(57-37.68)^2}{37.68}\\\\
&=& 10.547
\end{array}\]
Bepaal het aantal vrijheidsgraden:
\[df = k - 1 = 3 - 1 = 2 \]
Gebruik de volgende R-functie om de #p#-waarde van een chi-kwadraattoets te berekenen:
pchisq(q, df, lower.tail)
- q : De waarde waarvoor je de kans wilt berekenen.
- df : Een geheel getal dat het aantal vrijheidsgraden aangeeft.
- lower.tail : Als TRUE (standaard), dan #\mathbb{P}(X \leq x)#, anders, #\mathbb{P}(X \gt x)#.
Een chi-kwadraattoets is per definitie een rechtszijdige toets. Daarom voeren we de volgende opdracht uit om de #p#-waarde van de toets te berekenen:
\[\text{pchisq}(q = \chi^2, df = k\text{ - }1, lower.tail=\text{FALSE})\\
\downarrow\\
\text{pchisq}(q = 10.547, df = 2, lower.tail=\text{FALSE})\]
Dit geeft:
\[p = 0.005\]
De nulhypothese moet wel worden verworpen, omdat #\,p# #\lt# #\alpha#.
omptest.org als je een OMPT examen moet maken.