Op een fles frisdrank staat dat de inhoud `1,5` liter is. Natuurlijk zal de inhoud nooit precies `1,5` liter zijn. De vulmachine is zo precies mogelijk afgesteld op een gemiddeld vulvolume van `mu = 1530` mL. Het vulgewicht `V` is normaal verdeeld.
De fabrikant controleert regelmatig de afstelling van zijn vulmachine door in een steekproef van `25` flessen de gemiddelde inhoud te meten. Hij wil daarmee de nulhypothese `text(H)_0` : `mu = 1530` mL toetsen tegen de alternatieve hypothese `text(H)_1` : `mu != 1530` .
De fabrikant meet in een aselecte steekproef van `25` gevulde flessen het volume. Hij vindt een gemiddeld volume van `1525` mL met een standaardafwijking van `24` mL.
Hoe nu verder?
Als de nulhypothese klopt is het gemiddelde vulvolume normaal verdeeld met
`bar(V) = 1530`
en
`S_(bar(V)) = sigma/(sqrt(n))`
. Maar helaas is de populatiestandaardafwijking
`sigma`
niet bekend.
De enige standaardafwijking die bekend is, is
`s_V = 24`
mL en die zal niet gelijk zijn aan
`sigma`
, zeker bij kleine steekproeven.
De Britse statisticus William Gosset (1876—1937) bedacht de zogenaamde
`t`
-verdeling. Deze verdeling lijkt op de standaardnormale
`z`
-verdeling, alleen wordt de standaardafwijking
`S_(bar(V)) =(s_V)/(sqrt(n))`
gebruikt.
Omdat deze statisticus onder de naam
"Student"
publiceerde, spreek je van Student's
`t`
-verdeling. Hier:
`t = (bar(V) - 1530)/((24)/(sqrt(25))) = (bar(V) - 1530)/(4,8)`
En met behulp van een tabel voor de `t` -verdeling kun je nu gewoon de hypothese toetsen.
Bekijk de situatie van het automatisch vullen van
`1,5`
-literflessen in de
Leg uit, dat volgens de `t` -verdeling `text(P)(bar(V) lt 1525) = text(P)(t lt (1525 - 1530)/(4,8))` .
Omdat de waarde van `t` afhangt van de steekproefgrootte `n` , zijn er voor `n = 2, 3, 4, ...` verschillende `t` -tabellen. In deze t-tabel in Excel kun je eerst `n` instellen.
Ga na, dat `text(P)(bar(V) lt 1525) = text(P)(t lt (1525 - 1530)/(4,8)) ~~ 0,1544` .
Welke conclusie moet de fabrikant nu trekken bij een significantieniveau van `10` %?
Stel je voor dat de steekproef niet
`25`
flessen, maar
`50`
flessen betreft en dat hetzelfde gemiddelde en standaarddeviatie zijn gevonden.
Hoe groot is nu
`text(P)(bar(V) lt 1525)`
volgens de
`t`
-verdeling? En welke conclusie moet de fabrikant dan trekken?
En hoe zit dat bij `n = 100` ?
Vergelijk de standaardnormale
`z`
-tabel met een
`t`
-tabel met grote waarden voor
`n`
.
Is er veel verschil?
Student's
`t`
-verdeling wordt veel gebruikt om bij hypothese toetsen het kritieke gebied te bepalen
bij een kleine steekproef van grootte
`n`
. Daarbij gebruik je deze Student-t-tabel.
Je ziet daarin bij een bepaalde betrouwbaarheid en bij een bepaalde
`v = n - 1`
de waarde van
`t`
.
`v`
wordt het aantal vrijheidsgraden genoemd.
In de
De fabrikant krijgt het vermoeden dat hij wel met een lager vulvolume toe kan en laat
zijn vulmachines instellen op een gemiddelde van
`1520`
. Er mag echter vrijwel nooit te weinig cola in zijn flessen zitten. Hij doet daarom
een enkelzijdige toets van
`text(H)_0`
:
`mu = 1520`
mL tegen
`text(H)_1`
:
` mu lt 1520`
mL.
In een steekproef van
`16`
flessen vindt hij een gemiddelde
`bar(V) = 1515`
met een standaarddeviatie van
`s_V = 12`
.
De fabrikant hanteert een significantieniveau van
`1`
%.
Welke conclusie trekt hij?
De grootte
`n`
van de steekproef heeft ook gevolgen voor het weergeven van een betrouwbaarheidsinterval
voor het gemiddelde. Bij kleine
`n`
en onbekende populatiestandaarddeviatie moet je daar ook de
`t`
-verdeling gebruiken in plaats van de
`z`
-verdeling.
Een fabrikant van colaflessen met een inhoud van
`1,5`
L wil weten op welk gemiddelde vulvolume zijn machine staat afgesteld. Hij doet daarom
een steekproef van
`15`
flessen en vindt een gemiddelde vulvolume
`bar(V) = 1523`
mL met een standaardafwijking van
`s_V = 18`
mL.
Met welk `95` % betrouwbaarheidsinterval kan hij het juiste populatiegemiddelde vaststellen?
Vergelijk het bij a gevonden betrouwbaarheidsinterval met een betrouwbaarheidsinterval dat je zou vinden door de `z` -verdeling te gebruiken en (onterecht) aan te nemen dat `sigma = s_V = 18` .
Leg uit, waarom voor grote waarden van `n` er weinig verschil is tussen een betrouwbaarheidsinterval berekend met de `t` -verdeling en een betrouwbaarheidsinterval berekend met de `z` -verdeling.