Conclusies trekken > Regressielijnen
12345Regressielijnen

Theorie

In een spreidingsdiagram van twee statistische variabelen `x` en `y` zet je alle combinaties `(x,y)` als een puntenwolk in een assenstelsel. Of er een sterk lineair statistisch verband bestaat tussen de variabelen wordt bepaald door de correlatiecoëfficiënt `r_(xy)` . Er geldt in een steekproef van grootte `n` : `r_(xy) = (Sigma_(i=1)^n (x_i - bar(x))(y_i - bar(y)))/((n-1) * s_x * s_y)` .

  • Als `r_(xy) = 1` dan is er een perfecte positieve correlatie tussen `x` en `y` . De punten van de puntenwolk liggen dan precies op een stijgende lijn.

  • Als `r_(xy) = 0` dan is er geen enkele correlatie tussen `x` en `y` .

  • Als `r_(xy) = text(-)1` dan is er een perfecte negatieve correlatie tussen `x` en `y` . De punten van de puntenwolk liggen dan precies op een dalende lijn.

De correlatie tussen `x` en `y` wordt beter naarmate `r_(xy)` dichter bij `1` of `text(-)1` ligt.
Gebruik de r-tabel.
Als bij positieve correlatie `r_(xy) gt r_(text(tabel))` dan is het verband aangetoond, afhankelijk van de gewenste betrouwbaarheid.
Als bij negatieve correlatie `r_(xy) lt r_(text(tabel))` dan is het verband aangetoond, afhankelijk van de gewenste betrouwbaarheid.
In Excel wordt vaak de determinatiecoëfficiënt `r_(xy)^2` gegeven.

Een verband waarbij de toename (of afname) van de éne variabele een gevolg is van een toename (of afname) van de andere heet een causaal verband: er is dan sprake van oorzaak en gevolg. Een statistisch verband tussen twee variabelen hoeft niet causaal te zijn. Andere variabelen kunnen de oorzaak zijn dat er bij twee variabelen een statistisch verband optreedt. Het is zeker niet zo, dat een grotere lengte veroorzaakt dat je daardoor automatisch ook een groter gewicht hebt.

Als de correlatie tussen de variabelen `x` en `y` groot genoeg is, kun je een formule van de vorm `y = ax + b` opstellen die het verband tussen `x` en `y` weergeeft. Deze formule heeft als grafiek een rechte lijn, de regressielijn van `y` op `x` . Zo’n regressielijn gaat door het punt `(bar(x),bar(y))` en heeft als richtingscoëfficiënt (hellingsgetal):

`a = r_(xy) * (s_y)/(s_x)`

Deze richtingscoëfficiënt heet wel de regressiecoëfficiënt van `y` op `x` . Met behulp van deze regressiecoëfficiënt en het feit dat de regressielijn door `(bar(x), bar(y))` gaat, kun je de bijbehorende formule opstellen.

verder | terug