Statistiek > Gegevens samenvatten
123456Gegevens samenvatten

Theorie

Getallen die (bij benadering) het midden aangeven van een reeks waarnemingen heten centrummaten. Er zijn drie centrummaten.

  1. De modus is de waarneming met de hoogste frequentie. Vooral geschikt voor kwalitatieve variabelen.

  2. De mediaan is het middelste waarnemingsgetal als de waarnemingsgetallen op volgorde van klein naar groot staan. Is het aantal even, dan zijn er twee middelste waarnemingsgetallen. De mediaan is dan het gemiddelde van die middelste twee.

  3. Het gemiddelde bereken je door alle waarnemingsgetallen op te tellen en te delen door het totale aantal. Als je de waarnemingsgetallen `x_1` , `x_2` , `x_3` , ..., `x_n` noemt, schrijf je dit als: `bar(x) = (sum_(i=1)^n x_i) /n` .
    Daarin geldt `sum_(i=1)^n x_i=x_1 +x_2 +... +x_n` .
    De Griekse hoofdletter sigma (∑) is het somteken. Bij een frequentietabel vermenigvuldig je elk waarnemingsgetal met de frequentie.
    Het gemiddelde is dan: `bar(x) = (sum_(i=1)^n x_i*f_i) /n` .

Bij klassenindelingen spreek je van de modale klasse en kun je de mediaan het beste opzoeken in een cumulatieve relatieve frequentiepolygoon (de waarde bij `50` % schatten door aflezen). Het gemiddelde kun je dan alleen maar schatten door het gemiddelde van de klassenmiddens te berekenen.

Centrummaten alleen zeggen nog weinig, er hoort steeds een spreidingsmaat bij. Er zijn drie spreidingsmaten:

  1. De spreidingsbreedte (ook variatiebreedte) is het verschil tussen het hoogste en laagste waarnemingsgetal.

  2. De interkwartielafstand is het verschil tussen de mediaan van de grootste helft (het derde kwartiel of `Q_3` ) en de mediaan van de kleinste helft (het eerste kwartiel of `Q_1` ). Om de kwartielen te bepalen, zet je eerst de waarnemingsgetallen in volgorde van klein naar groot en verdeel je ze in twee helften. Bestaan de waarnemingen uit een oneven aantal waarden, dan wordt de mediaan van de hele set niet meegenomen om `Q_1` en `Q_3` te berekenen.

  3. De standaardafwijking (of standaarddeviatie) vind je door van elk waarnemingsgetal het verschil met het gemiddelde te bepalen en dat getal te kwadrateren. Die kwadraten tel je op en je deelt ze door het totale aantal waarnemingen. Dit getal heet de variantie. De wortel uit de variantie is de standaarddeviatie `σ_x = sqrt((sum_(i=1)^n (x_i-bar(x)) ^2*f_i)/n)` . De Griekse (kleine) letter sigma is het teken voor standaardafwijking.

Bij klassenindelingen is de spreidingsbreedte het aantal klassen maal de klassenbreedte. De mediaan en de kwartielen zoek je het beste op in een cumulatieve relatieve frequentiepolygoon (de mediaan bij `50` %, het eerste kwartiel bij `25` % en het derde kwartiel bij `75` %). De standaarddeviatie kun je nu alleen schatten door de standaarddeviatie van de klassenmiddens te berekenen. De mediaan, het gemiddelde en alle spreidingsmaten kunnen alleen gebruikt worden voor kwantitatieve variabelen. Hoe je ze met de grafische rekenmachine bepaalt, zie je in het Practicum . Het is bij grotere datasets verstandiger om met Excel te werken.

De mediaan, het eerste en derde kwartiel en de spreidingsbreedte en de kwartielafstand kun je laten zien in een boxplot. Een boxplot heeft dus vijf grenzen:

  • Linkergrens met het laagste getal.

  • Rechtergrens met het hoogste getal.

  • Middelste grens `Q_2` , de mediaan.

  • De tweede grens `Q_1` tussen de linkergrens en `Q_2` ; de mediaan van de eerste helft.

  • De vierde grens `Q_3` tussen `Q_2` en de rechtergrens; de mediaan van de tweede helft.

De interkwartielafstand is het verschil tussen het eerste kwartiel ( `Q_1` ) en het derde kwartiel ( `Q_3` ), dus `Q_3 - Q_1` .

verder | terug