Hier zie je een puntenwolk van alle deelnemers aan de Chicago Marathon van 2016. De eindtijd is uitgezet tegen de looptijd halverwege het parcours. Bekend is nog:
looptijd halverwege: gemiddelde `~~2,13` uur met een standaardafwijking van `~~0,40` uur.
totale looptijd: gemiddelde `~~4,55` uur met een standaardafwijking van `~~0,92` uur.
Welke formule kun je opstellen voor de in de figuur getekende regressielijn?
Noem de looptijd halverwege `h` en de eindtijd `E` , beide in uur.
De correlatiecoëfficiënt is `r_(hE) = sqrt(0,7435) ~~ 86` .
De regressielijn gaat door `(2,13; 4,55)` .
De richtingscoëfficiënt ervan is `a = r_(hE) * (sigma_E)/(sigma_h) ~~ 0,86*(0,92)/(0,40) ~~ 1,98` .
De regressielijn is dus `E ~~ 1,98*h + 0,33` .
Hiermee kun je voorspellingen doen.
Bekijk de figuur in
Reken zelf de formule voor de regressielijn na.
Als je de gegevens over gemiddelde tijden en de bijbehorende standaardafwijking niet hebt, kun je toch wel een vergelijking maken bij de getekende regressielijn. Hoe?
Welke eindtijd zal een loper die aan deze marathon deelnam hebben als zijn tijd halverwege `3` uur was?
Welke betekenis hebben de punten die op de verticale as liggen?
Is hier sprake van een causaal verband of een statistisch verband?
Hiermee kun je heel goed "voorspellingen achteraf" doen.
Maar kan zoiets ook echt nut hebben?