Verbanden en verschillen > Correlatie
12345Correlatie

Voorbeeld 2

Hier zie je een puntenwolk van alle deelnemers aan de Chicago Marathon van 2016. De eindtijd is uitgezet tegen de looptijd halverwege het parcours. Bekend is nog:

  • looptijd halverwege: gemiddelde `~~2,13` uur met een standaardafwijking van `~~0,40` uur.

  • totale looptijd: gemiddelde `~~4,55` uur met een standaardafwijking van `~~0,92` uur.

Welke formule kun je opstellen voor de in de figuur getekende regressielijn?

> antwoord

Noem de looptijd halverwege `h` en de eindtijd `E` , beide in uur.

De correlatiecoëfficiënt is `r_(hE) = sqrt(0,7435) ~~ 86` .

De regressielijn gaat door `(2,13; 4,55)` .

De richtingscoëfficiënt ervan is `a = r_(hE) * (sigma_E)/(sigma_h) ~~ 0,86*(0,92)/(0,40) ~~ 1,98` .

De regressielijn is dus `E ~~ 1,98*h + 0,33` .

Hiermee kun je voorspellingen doen.

Opgave 6

Bekijk de figuur in Voorbeeld 2.

a

Reken zelf de formule voor de regressielijn na.

b

Als je de gegevens over gemiddelde tijden en de bijbehorende standaardafwijking niet hebt, kun je toch wel een vergelijking maken bij de getekende regressielijn. Hoe?

c

Welke eindtijd zal een loper die aan deze marathon deelnam hebben als zijn tijd halverwege `3` uur was?

d

Welke betekenis hebben de punten die op de verticale as liggen?

e

Is hier sprake van een causaal verband of een statistisch verband?

f

Hiermee kun je heel goed "voorspellingen achteraf" doen.
Maar kan zoiets ook echt nut hebben?

verder | terug