Statistisch onderzoek > Verbanden tussen variabelen
1234Verbanden tussen variabelen

Uitleg

Bij de gegevens van de Chicago Marathon 2016 heb je voor wat betreft de tijden halverwege en de eindtijden te maken met continue kwantitatieve variabelen. Je zou verwachten dat er een zeker verband tussen beide bestaat, maar zeker is dit niet. Of een dergelijk verband bestaat kun je onderzoeken met behulp van een puntenwolk of spreidingsdiagram. Daarin zet je de éne variabele - in dit geval de tijd halverwege het parcours - op de horizontale as en de andere - hier de eindtijd - op de verticale as. Merk op dat beide variabelen in decimalen zijn omgerekend.

Je kunt Excel in het spreidingsdiagram een zogenaamde trendlijn laten tekenen. Die trendlijn beschrijft de samenhang tussen beide variabelen.
Hier is `y` de eindtijd en `x` de halverwege tijd.
De formule van de trendlijn wordt dan `y = 1,9105x + 0,4902` .
Dit zou betekenen dat iemand die na `2,5` uur halverwege is, een eindtijd zou moeten halen van `1,9105*2 + 0,4902 = 4,3112` uur.

Maar hoe betrouwbaar is dit verband? De punten in het diagram liggen echt niet allemaal op de rechte lijn.

Daarom staat in de figuur ook `R^2 = 0,7453` .
Dit getal is het kwadraat van de correlatiecoëfficiënt `R` . En `R` is een maat voor de kwaliteit van de samenhang.
Als `R = 0` is er geen samenhang, een vrijwel ronde puntenwolk en er is geen trendlijn te maken.
Als `R = 1` is er een perfecte correlatie, alle punten liggen op één lijn met een positieve helling.
Als `R = text(-)1` is er ook een perfecte correlatie, alle punten liggen op één lijn met een negatieve helling.
Hier is `R ~~ 0,8633` . En dat is veel dichter bij `1` dan bij `0` . De correlatie er daarom redelijk en de trendlijn geeft redelijk goed het verloop van de puntenwolk weer.

Opgave 1

Bekijk in de Uitleg hoe wordt onderzocht of er een verband bestaat tussen de tijd die halverwege het parcours wordt gemeten en de eindtijd van de Chicago Marathon in 2016.

a

Maak zelf zo´n puntenwolk. Het omrekenen van de tijd in uu:mm:ss naar decimalen gaat met de formule =([celnummer]-INTEGER([celnummer]))*24.

b

Zet vervolgens de trendlijn in je figuur, evenals de correlatiecoëfficiënt `R` .

c

Welke betekenis hebben de stippen op de verticale as?

Opgave 2

Bekijk in de Uitleg het spreidingsdiagram bij de Chicago Marathon in 2016.

a

Ga na, dat het punt `(bar(x), bar(y))` op de trendlijn ligt.

b

Uit de waarde voor `R` blijkt een redelijk goed statistisch verband tussen beide variabelen. Licht dit toe en leg ook uit waarom het alleen een statistisch verband is en geen oorzakelijk verband.

c

Maak nu zelf een puntenwolk met een trendlijn en met `R^2` voor een deelgroep van deelnemers. Neem bijvoorbeeld de vrouwen, of de mannen, of de vrouwen van 25 - 29 jaar, of nog iets anders.

verder | terug