Hypothesen en verbanden > Correlatie
1234567Correlatie

Uitleg

Als je vermoedt dat er tussen twee variabelen `x` en `y` een lineair verband bestaat, maak je een spreidingsdiagram dat de vorm van een puntenwolk krijgt. De mate waarin tussen de twee variabelen een lineair verband bestaat wordt gegeven door de correlatiecoëfficiënt, aangeduid door `r_(xy)` .

`r_(xy) = text(-)1`
`r_(xy) = 0`
`r_(xy) = 0,6`
`r_(xy) = 1`

De correlatie tussen `x` en `y` wordt beter naarmate `r_(xy)` dichter bij `1` of `text(-)1` ligt. Maar hoe bereken je nu die correlatiecoëfficiënt?

Daarbij gebruik je het punt `(bar(x),bar(y))` waarin `bar(x)` het gemiddelde van de `x` -waarden en `bar(y)` het gemiddelde van de `y` -waarden is. Met behulp van die gemiddelden kan het grafiekgebied in vier delen I, II, III en IV worden verdeeld (zie figuur). Je kunt nu voor elk van de `N` punten `(x_i, y_i)` het getal `(x_i - bar(x))(y_i - bar(y))` berekenen.
In de gebieden I en III is dit getal voor elk punt positief: deze punten dragen bij aan een positieve correlatie.
In de gebieden II en IV is dit getal voor elk punt juist negatief: deze punten dragen bij aan een negatieve correlatie.
Het gemiddelde van alle `N` getallen `(x_i - bar(x))(y_i - bar(y))` is een goede maat voor de correlatie.
Deze maat heet de covariantie van de puntenwolk: covariantie `= (Sigma_(i=1)^N (x_i - bar(x))(y_i - bar(y)))/N` .
Deze maat voor de correlatie in een puntenwolk hangt nog af van de eenheden waarin `x` en `y` zijn gemeten. Dat kun je voorkomen door telkens `(x_i - bar(x))` te delen door de bijbehorende standaarddeviatie `sigma_x` en ook `(y_i - bar(y))` telkens te delen door `sigma_y` . Je krijgt dan de correlatiecoëfficiënt, die niet langer afhangt van de gekozen eenheden:

`r_(xy) = (Sigma_(i=1)^N (x_i - bar(x))(y_i - bar(y)))/(N * sigma_x * sigma_y)` .

In Excel is de berekening van de correlatiecoëfficiënt niet al te moeilijk uit te voeren. Zeker niet als je de gemiddelden en de standaarddeviaties al hebt berekend met de statistische functies. Je maakt dan een kolom voor de getallen `(x_i - bar(x))(y_i - bar(y))` . En daarna bereken je het gemiddelde van die kolom. Dat gemiddelde deel je nog door beide standaarddeviaties.
Overigens kent Excel ook statistische functies als COVARIANTIE en CORRELATIE, zie het Practicum .

Opgave 1

Bekijk dit spreidingsdiagram.

a

Is er op het oog sprake van een goede correlatie tussen `x` en `y` ?

b

Schat de correlatiecoëfficiënt.

c

Welke soort formule hoort er bij `y` als functie van `x` ?

d

Waarom is de schaalverdeling op de assen niet van belang voor de correlatie?

Opgave 2

Op het werkblad LengteGewicht22h4.xls vind je de gegevens van een 4HAVO-klas van 22 leerlingen.
TIP: Natuurlijk is het leuker (en beter) om met een eigen dataset van lengtes en gewichten van jouw jaargroep te werken.

a

Bereken het gemiddelde, de standaarddeviatie en de spreidingsbreedte van zowel de lengtes `l` als de gewichten  `g` . Gebruik de statistische functies van je grafische rekenmachine.

b

Is deze steekproef voldoende representatief voor 15-17 jarigen? Motiveer je antwoord.

c

Ga met behulp van normaal waarschijnlijkheidspapier na of de lengtes van de `22` leerlingen in de voorgaande tekst ongeveer normaal verdeeld zijn. Doe dit ook voor de gewichten.

d

Bereken de correlatiecoëfficiënt bij het verband tussen de lengte en het gewicht van de `22` leerlingen. Is er sprake van een goede correlatie tussen `l` en  `g` ?

verder | terug