Hoofdstuk 8: Toetsen voor verschillen in gemiddelden en proporties: T-Toets voor twee onafhankelijke steekproeven
Betrouwbaarheidsinterval voor het Verschil tussen twee onafhankelijke Gemiddelden
Betrouwbaarheidsinterval voor het Verschil tussen twee Populatiegemiddelden
Aannemend dat de steekproefverdeling van het verschil tussen twee steekproefgemiddelden (bij benadering) normaal verdeeld is, is de algemene formule voor het berekenen van een #C\%\,CI# voor het verschil tussen de twee populatiegemiddelden #\mu_1 - \mu_2# als volgt:
\[CI_{(\mu_1 - \mu_2)}=\bigg((\bar{X_1} - \bar{X_2}) - t^*\cdot \sqrt{\cfrac{s^2_1}{n_1}+\cfrac{s^2_2}{n_2}},\,\,\,\, (\bar{X_1} - \bar{X_2}) + t^*\cdot \sqrt{\cfrac{s^2_1}{n_1}+\cfrac{s^2_2}{n_2}} \bigg)\]
Hierbij is #t^*# de kritische waarde van de #t_{df}# verdeling zodanig dat #\mathbb{P}(-t^* \leq t \leq t^*)=\frac{C}{100}#.
Het Berekenen van t* met Statistische Software
Laat #C# het betrouwbaarheidsniveau zijn in #\%#.
Om de kritische waarde #t^*# te berekenen in Excel, gebruik je de functie T.INV():
\[=\text{T.INV}((100+C)/200, \text{MIN}(n_1 \text{ - } 1, n_2 \text{ - } 1))\]
Om de kritische waarde #t^*# te berekenen in R, gebruik je de functie qt():
\[\text{qt}(p=(100+C)/200, df=\text{min}(n_1 \text{ - } 1, n_2 \text{ - } 1),lower.tail = \text{TRUE})\]
Presteren jongens en meisjes anders op rijexamens? Om dit te onderzoeken selecteert een onderzoeker een eenvoudige willekeurige steekproef van #36# jongens #(X_1)# en meisjes #(X_2)# en geeft elk van hen een rijexamen.
Elke leerling krijgt een score van #0# tot #100#. Dit zijn hun testresultaten:
Jongens #(X_1)# | Meisjes #(X_2)# |
\[\begin{array}{rcl} |
\[\begin{array}{rcl} |
Je mag ervan uitgaan dat de testscores bij benadering normaal verdeeld zijn.
Construeer een #93\%# betrouwbaarheidsinterval voor het verschil tussen de twee populatiegemiddelden #\mu_1 - \mu_2#. Rond je antwoorden af op #3# decimalen.
#CI_{(\mu_1 - \mu_2),\,93\%}=(-5.399,\,\,\, -0.601)#
Er zijn een aantal verschillende manieren waarop we het betrouwbaarheidsinterval kunnen berekenen. Klik op één van de panelen om de desbetreffende oplossing te bekijken.
Aannemend dat de testscores bij benadering normaal verdeeld zijn, weten we dat de steekproefverdeling van het verschil tussen twee steekproefgemiddelden ook (ongeveer) normaal is.
Als de steekproefverdeling van het verschil tussen twee steekproefgemiddelden (ongeveer) normaal is, is de algemene formule voor het berekenen van een #C\%\,CI# voor het verschil tussen de twee populatiegemiddelden #\mu_1 - \mu_2#:
\[CI_{(\mu_1 - \mu_2)}=\bigg((\bar{X_1} - \bar{X_2}) - t^*\cdot \sqrt{\cfrac{s^2_1}{n_1}+\cfrac{s^2_2}{n_2}},\,\,\,\, (\bar{X_1} - \bar{X_2}) + t^*\cdot \sqrt{\cfrac{s^2_1}{n_1}+\cfrac{s^2_2}{n_2}} \bigg)\]
Bereken het aantal vrijheidsgraden:
\[df = min(n_1-1, n_2-1) = min(17, 17)=17\]
Voor een gegeven betrouwbaarheidsniveau #C# (in #\%#) is de kritische waarde #t^*# van de #t_{df}# verdeling de waarde zodanig dat #\mathbb{P}(-t^* \leq t \leq t^*)=\cfrac{C}{100}#.
Om deze kritische waarde #t^*# in Excel te berekenen, gebruik je de volgende functie:
T.INV(probability, deg_freedom)
- probability: Een kans die overeenkomt met de normale verdeling.
- deg_freedom: Het gemiddelde van de verdeling.
Hier hebben we #C=93#. Om #t^*# te berekenen zodanig dat #\mathbb{P}(-t^* \leq t \leq t^*)=0.93#, voer je dus het volgende commando uit:
\[\begin{array}{c}
=\text{T.INV}((100+C)/200, df)\\
\downarrow\\
=\text{T.INV}(193/200, 17)
\end{array}\]
Dit geeft:
\[t^* = 1.93353\]
Bereken de ondergrens #L# van het betrouwbaarheidsinterval:
\[L = (\bar{X_1} - \bar{X_2}) - t^* \cdot \sqrt{\cfrac{s^2_1}{n_1}+\cfrac{s^2_2}{n_2}} = ( 73.3 -76.3) - 1.93353 \cdot \sqrt{\cfrac{4.1^2}{18}+\cfrac{3.3^2}{18}}=-5.399\]
Bereken de bovengrens #U# van het betrouwbaarheidsinterval:
\[U = (\bar{X_1} - \bar{X_2}) + t^* \cdot \sqrt{\cfrac{s^2_1}{n_1}+\cfrac{s^2_2}{n_2}} = ( 73.3 -76.3) + 1.93353 \cdot \sqrt{\cfrac{4.1^2}{18}+\cfrac{3.3^2}{18}}=-0.601\]
Het #93\%# betrouwbaarheidsinterval voor het verschil tussen de twee populatiegemiddelden #\mu_1 - \mu_2# is dus:
\[CI_{(\mu_1 - \mu_2),\,93\%}=(-5.399,\,\,\, -0.601)\]
Ervan uitgaande dat de testscores bij benadering normaal verdeeld zijn, weten we dat de steekproefverdeling van het verschil tussen twee steekproefgemiddelden ook (ongeveer) normaal is.
Als de steekproefverdeling van het verschil tussen twee steekproefgemiddelden (ongeveer) normaal is, is de algemene formule voor het berekenen van een #C\%\,CI# voor het verschil tussen de twee populatiegemiddelden #\mu_1 - \mu_2#:
\[CI_{(\mu_1 - \mu_2)}=\bigg((\bar{X_1} - \bar{X_2}) - t^*\cdot \sqrt{\cfrac{s^2_1}{n_1}+\cfrac{s^2_2}{n_2}},\,\,\,\, (\bar{X_1} - \bar{X_2}) + t^*\cdot \sqrt{\cfrac{s^2_1}{n_1}+\cfrac{s^2_2}{n_2}} \bigg)\]
Bereken het aantal vrijheidsgraden:
\[df = min(n_1-1, n_2-1) = min(17, 17)=17\]
Voor een gegeven betrouwbaarheidsniveau #C# (in #\%#) is de kritische waarde #t^*# van de #t_{df}# verdeling de waarde zodanig dat #\mathbb{P}(-t^* \leq t \leq t^*)=\cfrac{C}{100}#.
Om deze kritische waarde #t^*# te berekenen in R, gebruik je de volgende functie:
qt(p, df, lower.tail)
- p : Een kans die overeenkomt met de normale verdeling.
- df : Een geheel getal dat het aantal vrijheidsgraden aangeeft.
- lower.tail : Indien TRUE (standaard), zijn de kansen #\mathbb{P}(X \leq x)#, anders #\mathbb{P}(X \gt x)#.
Hier hebben we #C=93#. Om #t^*# te berekenen zodanig dat #\mathbb{P}(-t^* \leq t \leq t^*)=0.93#, voer je dus het volgende commando uit:
\[\begin{array}{c}
\text{qt}(p=(100+C)/200, df=\text{min}(n_1 \text{ - } 1, n_2 \text{ - } 1),lower.tail = \text{TRUE} )\\
\downarrow\\
\text{qt}(p =193/200, df = 17, lower.tail = \text{TRUE})
\end{array}\]
Dit geeft:
\[t^* = 1.93353\]
Bereken de ondergrens #L# van het betrouwbaarheidsinterval:
\[L = (\bar{X_1} - \bar{X_2}) - t^* \cdot \sqrt{\cfrac{s^2_1}{n_1}+\cfrac{s^2_2}{n_2}} = ( 73.3 -76.3) - 1.93353 \cdot \sqrt{\cfrac{4.1^2}{18}+\cfrac{3.3^2}{18}}=-5.399\]
Bereken de bovengrens #U# van het betrouwbaarheidsinterval:
\[U = (\bar{X_1} - \bar{X_2}) + t^* \cdot \sqrt{\cfrac{s^2_1}{n_1}+\cfrac{s^2_2}{n_2}} = ( 73.3 -76.3) + 1.93353 \cdot \sqrt{\cfrac{4.1^2}{18}+\cfrac{3.3^2}{18}}=-0.601\]
Het #93\%# betrouwbaarheidsinterval voor het verschil tussen de twee populatiegemiddelden #\mu_1 - \mu_2# is dus:
\[CI_{(\mu_1 - \mu_2),\,93\%}=(-5.399,\,\,\, -0.601)\]
#\phantom{0} #
Verband met Hypothesetoetsen
Er bestaat een directe verbinding tussen een tweezijdige onafhankelijke #t#-toets voor #\mu_1 - \mu_2# en een #(1-\alpha)\cdot 100\%# betrouwbaarheidsinterval voor #\mu_1 - \mu_2#:
- Als #0# binnen het #(1 - \alpha)\cdot 100\%\,CI# valt, dan mag #H_0: \mu_1 - \mu_2=0# niet verworpen worden op een #\alpha# significantieniveau.
- Als #0# buiten het #(1 - \alpha)\cdot 100\%\,CI# valt, dan moet #H_0: \mu_1 - \mu_2=0# worden verworpen op een #\alpha# significantieniveau.
Stel dat je dezelfde steekproeven gebruikt om #H_0: \mu_1 - \mu_2 = 0# te toetsen tegen #H_a: \mu_1 - \mu_2 \neq 0# op het #\alpha = 0.06# significantieniveau.
Wat zou de conclusie zijn?
Omdat het #94\%# betrouwbaarheidsinterval #(-1.129,\,\,0.214)# de waarde #0# bevat, zouden we #H_0: \mu_1 - \mu_2 = 0# niet verwerpen op het #\alpha = 0.06# significantieniveau.
omptest.org als je een OMPT examen moet maken.