Hypothesen en verbanden > Lineaire regressie
1234567Lineaire regressie

Uitleg

Als er tussen twee variabelen `x` en `y` een goede correlatie bestaat, bestaat er een lineair (statistisch) verband tussen. Maar hoe stel je daarbij een formule op? Een regressielijn moet uiteraard door het punt `(bar(x), bar(y))` gaan. De richtingscoëfficiënt (het hellingsgetal) van die lijn kun je op dit moment echter alleen nog maar schatten.

De beroemde wiskundige Carl Friedrich Gauss bedacht daarvoor in de negentiende eeuw de "methode van de kleinste kwadraten" . Stel je voor dat je een regressielijn wilt maken van de vorm `y = a*x + b` . Je gaat dan uit van een regressielijn van `y` op `x` .
Gauss' methode houdt in dat de som van de kwadraten van de verticale afwijkingen van de meetpunten tot deze regressielijn zo klein mogelijk moet zijn. Dat betekent dat

`sum_(i=1)^n (y_i - (a * x_i + b))^2`

minimaal moet zijn. Gauss vond dat dit het geval is als

`a = ( sum_(i=1)^(n) (x_i - bar(x))(y_i - bar(y)))/(N * sigma_x^2)`

Deze formule lijkt erg op die van de correlatiecoëfficiënt. In feite is `a = r_(xy) * (sigma_y)/(sigma_x)` . En hiermee heb je een snelle manier gevonden om het hellingsgetal `a` te vinden.

Opgave 1

Bekijk dit spreidingsdiagram.

a

Maak een tabel van de `10` meetpunten. Voer deze gegevens in je grafische rekenmachine in.

b

Bereken de coördinaten van het punt `(bar(x), bar(y))` .

c

Als je door deze punten "op het oog" een regressielijn zou willen tekenen, hoe groot wordt dan de richtingscoëfficiënt ongeveer?

d

Bereken nu de correlatiecoëfficiënt en de richtingscoëfficiënt van de regressielijn.

e

Stel een vergelijking op van de regressielijn van `y` op `x` .

f

Welke waarde zou `y` moeten hebben volgens deze regressielijn als `x = 10` ?

Opgave 2

Lees in de Uitleg na hoe Gauss de methode van de kleinste kwadraten gebruikte om de richtingscoëfficiënt van de regressielijn te berekenen.

a

Laat zien (door haakjes uitwerken) dat `sum_(i=1)^n (y_i - (a * x_i + b))^2` een kwadratische functie van `a` is.

b

Bereken voor welke waarde van `a` deze functie minimaal is en leidt zo de formule voor `a` zelf af.

c

Leg ook uit hoe je aan de formule komt waarmee je `a` kunt berekenen vanuit `r_(xy)` .

verder | terug