Betrouwbaarheidsinterval voor het Verschil tussen twee onafhankelijke Gemiddelden

Hoofdstuk 8: Toetsen voor verschillen in gemiddelden en proporties: T-Toets voor twee onafhankelijke steekproeven

Betrouwbaarheidsinterval voor het Verschil tussen twee onafhankelijke Gemiddelden

Betrouwbaarheidsinterval voor het Verschil tussen twee Populatiegemiddelden

Aannemend dat de steekproefverdeling van het verschil tussen twee steekproefgemiddelden (bij benadering) normaal verdeeld is, is de algemene formule voor het berekenen van een #C\%\,CI# voor het verschil tussen de twee populatiegemiddelden #\mu_1 - \mu_2# als volgt:
\[CI_{(\mu_1 - \mu_2)}=\bigg((\bar{X_1} - \bar{X_2}) - t^*\cdot \sqrt{\cfrac{s^2_1}{n_1}+\cfrac{s^2_2}{n_2}},\,\,\,\, (\bar{X_1} - \bar{X_2}) + t^*\cdot \sqrt{\cfrac{s^2_1}{n_1}+\cfrac{s^2_2}{n_2}} \bigg)\]

Hierbij is #t^*# de kritische waarde van de #t_{df}# verdeling zodanig dat #\mathbb{P}(-t^* \leq t \leq t^*)=\frac{C}{100}#.

Het Berekenen van t* met Statistische Software

Laat #C# het betrouwbaarheidsniveau zijn in #\%#.

Om de kritische waarde #t^*# te berekenen in Excel, gebruik je de functie T.INV():
\[=\text{T.INV}((100+C)/200, \text{MIN}(n_1 \text{ - } 1, n_2 \text{ - } 1))\]

Om de kritische waarde #t^*# te berekenen in R, gebruik je de functie qt():
\[\text{qt}(p=(100+C)/200, df=\text{min}(n_1 \text{ - } 1, n_2 \text{ - } 1),lower.tail = \text{TRUE})\]

Presteren jongens en meisjes anders op rijexamens? Om dit te onderzoeken selecteert een onderzoeker een eenvoudige willekeurige steekproef van #36# jongens #(X_1)# en meisjes #(X_2)# en geeft elk van hen een rijexamen.

Elke leerling krijgt een score van #0# tot #100#. Dit zijn hun testresultaten:

Jongens #(X_1)#	Meisjes #(X_2)#
\[\begin{array}{rcl} n_1 &=& 18\\ \bar{X_1} &=& 73.3\\ s_1 &=& 4.1 \end{array}\]	\[\begin{array}{rcl} n_2 &=& 18\\ \bar{X_2} &=& 76.3\\ s_2 &=& 3.3 \end{array}\]

Je mag ervan uitgaan dat de testscores bij benadering normaal verdeeld zijn.

Construeer een #93\%# betrouwbaarheidsinterval voor het verschil tussen de twee populatiegemiddelden #\mu_1 - \mu_2#. Rond je antwoorden af op #3# decimalen.

#CI_{(\mu_1 - \mu_2),\,93\%}=(-5.399,\,\,\, -0.601)#

Er zijn een aantal verschillende manieren waarop we het betrouwbaarheidsinterval kunnen berekenen. Klik op één van de panelen om de desbetreffende oplossing te bekijken.

Excel berekening

Aannemend dat de testscores bij benadering normaal verdeeld zijn, weten we dat de steekproefverdeling van het verschil tussen twee steekproefgemiddelden ook (ongeveer) normaal is.

Als de steekproefverdeling van het verschil tussen twee steekproefgemiddelden (ongeveer) normaal is, is de algemene formule voor het berekenen van een #C\%\,CI# voor het verschil tussen de twee populatiegemiddelden #\mu_1 - \mu_2#:
\[CI_{(\mu_1 - \mu_2)}=\bigg((\bar{X_1} - \bar{X_2}) - t^*\cdot \sqrt{\cfrac{s^2_1}{n_1}+\cfrac{s^2_2}{n_2}},\,\,\,\, (\bar{X_1} - \bar{X_2}) + t^*\cdot \sqrt{\cfrac{s^2_1}{n_1}+\cfrac{s^2_2}{n_2}} \bigg)\]
Bereken het aantal vrijheidsgraden:
\[df = min(n_1-1, n_2-1) = min(17, 17)=17\]
Voor een gegeven betrouwbaarheidsniveau #C# (in #\%#) is de kritische waarde #t^*# van de #t_{df}# verdeling de waarde zodanig dat #\mathbb{P}(-t^* \leq t \leq t^*)=\cfrac{C}{100}#.

Om deze kritische waarde #t^*# in Excel te berekenen, gebruik je de volgende functie:

T.INV(probability, deg_freedom)

probability: Een kans die overeenkomt met de normale verdeling.

deg_freedom: Het gemiddelde van de verdeling.

Hier hebben we #C=93#. Om #t^*# te berekenen zodanig dat #\mathbb{P}(-t^* \leq t \leq t^*)=0.93#, voer je dus het volgende commando uit:
\[\begin{array}{c}
=\text{T.INV}((100+C)/200, df)\\
\downarrow\\
=\text{T.INV}(193/200, 17)
\end{array}\]
Dit geeft:
\[t^* = 1.93353\]
Bereken de ondergrens #L# van het betrouwbaarheidsinterval:
\[L = (\bar{X_1} - \bar{X_2}) - t^* \cdot \sqrt{\cfrac{s^2_1}{n_1}+\cfrac{s^2_2}{n_2}} = ( 73.3 -76.3) - 1.93353 \cdot \sqrt{\cfrac{4.1^2}{18}+\cfrac{3.3^2}{18}}=-5.399\]
Bereken de bovengrens #U# van het betrouwbaarheidsinterval:
\[U = (\bar{X_1} - \bar{X_2}) + t^* \cdot \sqrt{\cfrac{s^2_1}{n_1}+\cfrac{s^2_2}{n_2}} = ( 73.3 -76.3) + 1.93353 \cdot \sqrt{\cfrac{4.1^2}{18}+\cfrac{3.3^2}{18}}=-0.601\]
Het #93\%# betrouwbaarheidsinterval voor het verschil tussen de twee populatiegemiddelden #\mu_1 - \mu_2# is dus:
\[CI_{(\mu_1 - \mu_2),\,93\%}=(-5.399,\,\,\, -0.601)\]

R berekening

Ervan uitgaande dat de testscores bij benadering normaal verdeeld zijn, weten we dat de steekproefverdeling van het verschil tussen twee steekproefgemiddelden ook (ongeveer) normaal is.

Als de steekproefverdeling van het verschil tussen twee steekproefgemiddelden (ongeveer) normaal is, is de algemene formule voor het berekenen van een #C\%\,CI# voor het verschil tussen de twee populatiegemiddelden #\mu_1 - \mu_2#:
\[CI_{(\mu_1 - \mu_2)}=\bigg((\bar{X_1} - \bar{X_2}) - t^*\cdot \sqrt{\cfrac{s^2_1}{n_1}+\cfrac{s^2_2}{n_2}},\,\,\,\, (\bar{X_1} - \bar{X_2}) + t^*\cdot \sqrt{\cfrac{s^2_1}{n_1}+\cfrac{s^2_2}{n_2}} \bigg)\]
Bereken het aantal vrijheidsgraden:
\[df = min(n_1-1, n_2-1) = min(17, 17)=17\]
Voor een gegeven betrouwbaarheidsniveau #C# (in #\%#) is de kritische waarde #t^*# van de #t_{df}# verdeling de waarde zodanig dat #\mathbb{P}(-t^* \leq t \leq t^*)=\cfrac{C}{100}#.

Om deze kritische waarde #t^*# te berekenen in R, gebruik je de volgende functie:

qt(p, df, lower.tail)

p : Een kans die overeenkomt met de normale verdeling.

df : Een geheel getal dat het aantal vrijheidsgraden aangeeft.

lower.tail : Indien TRUE (standaard), zijn de kansen #\mathbb{P}(X \leq x)#, anders #\mathbb{P}(X \gt x)#.

Hier hebben we #C=93#. Om #t^*# te berekenen zodanig dat #\mathbb{P}(-t^* \leq t \leq t^*)=0.93#, voer je dus het volgende commando uit:
\[\begin{array}{c}
\text{qt}(p=(100+C)/200, df=\text{min}(n_1 \text{ - } 1, n_2 \text{ - } 1),lower.tail = \text{TRUE} )\\
\downarrow\\
\text{qt}(p =193/200, df = 17, lower.tail = \text{TRUE})
\end{array}\]
Dit geeft:
\[t^* = 1.93353\]
Bereken de ondergrens #L# van het betrouwbaarheidsinterval:
\[L = (\bar{X_1} - \bar{X_2}) - t^* \cdot \sqrt{\cfrac{s^2_1}{n_1}+\cfrac{s^2_2}{n_2}} = ( 73.3 -76.3) - 1.93353 \cdot \sqrt{\cfrac{4.1^2}{18}+\cfrac{3.3^2}{18}}=-5.399\]
Bereken de bovengrens #U# van het betrouwbaarheidsinterval:
\[U = (\bar{X_1} - \bar{X_2}) + t^* \cdot \sqrt{\cfrac{s^2_1}{n_1}+\cfrac{s^2_2}{n_2}} = ( 73.3 -76.3) + 1.93353 \cdot \sqrt{\cfrac{4.1^2}{18}+\cfrac{3.3^2}{18}}=-0.601\]
Het #93\%# betrouwbaarheidsinterval voor het verschil tussen de twee populatiegemiddelden #\mu_1 - \mu_2# is dus:
\[CI_{(\mu_1 - \mu_2),\,93\%}=(-5.399,\,\,\, -0.601)\]

Nieuw voorbeeld

#\phantom{0} #

Verband met Hypothesetoetsen

Er bestaat een directe verbinding tussen een tweezijdige onafhankelijke #t#-toets voor #\mu_1 - \mu_2# en een #(1-\alpha)\cdot 100\%# betrouwbaarheidsinterval voor #\mu_1 - \mu_2#:

Als #0# binnen het #(1 - \alpha)\cdot 100\%\,CI# valt, dan mag #H_0: \mu_1 - \mu_2=0# niet verworpen worden op een #\alpha# significantieniveau.
Als #0# buiten het #(1 - \alpha)\cdot 100\%\,CI# valt, dan moet #H_0: \mu_1 - \mu_2=0# worden verworpen op een #\alpha# significantieniveau.

Een #94\%# betrouwbaarheidsinterval voor het verschil tussen twee populatiegemiddelden betekent #\mu_1 - \mu_2# is #(-1.129,\,\, 0.214)#.

Stel dat je dezelfde steekproeven gebruikt om #H_0: \mu_1 - \mu_2 = 0# te toetsen tegen #H_a: \mu_1 - \mu_2 \neq 0# op het #\alpha = 0.06# significantieniveau.

Wat zou de conclusie zijn?

Verwerp #H_0# niet.

Omdat het #94\%# betrouwbaarheidsinterval #(-1.129,\,\,0.214)# de waarde #0# bevat, zouden we #H_0: \mu_1 - \mu_2 = 0# niet verwerpen op het #\alpha = 0.06# significantieniveau.

Nieuw voorbeeld