Verbanden en verschillen > Correlatie
12345Correlatie

Antwoorden van de opgaven

Opgave V1
a

Het geslacht, de lengte en het gewicht.

b

Denk aan de wijze van meten, hoe meet je iemand's lengte bijvoorbeeld? (Rechtop staan tegen een muur, meetlint aan die muur op de goede hoogte, geodriehoek op het hoofd met de éne rechthoekszijde tegen de muur, etc. En doe je schoenen aan of schoenen uit? En hoe zit dat met het gewicht?

c

Een groter gewicht wordt ook wel door een grotere lengte veroorzaakt, maar niet alleen daardoor...

Opgave 1
a

De puntenwolk bestrijkt slechts een deel van het vlak en er lijkt een richting in te zitten, want de wolk heeft een ovale vorm van linksonder naar rechtsboven. Er is dus sprake van een verband, van samenhang, van correlatie, tussen de twee variabelen.

b

De ovale wolkvorm loopt van linksonder naar rechtsboven gelijkmatig op: hoe groter de voetlengte, des te groter ook de voetbreedte, grofweg in gelijke stappen.

c

De ovale wolk is nog steeds een echte wolk en is zeker geen (bijna) rechte lijn. Anders gezegd: als je er een trendlijn doorheen zou tekenen, liggen veel punten uit de puntenwolk ver af van deze trendlijn.

d

`r = sqrt(0,6555) ~~ 0,81`

Omdat `r gt 0,7` is er sprake van een sterke positieve correlatie.

Opgave 2
a

Nee: het gaat om kwalitatieve variabelen zonder enige volgorde tussen de mogelijke waarden.

Afhankelijk van hoe je de smileys langs de ene as rangschikt en de weertypes langs de andere as, heeft de puntenwolk telkens een andere vorm.

b

Wie weet, het zou best wel eens kunnen (slecht weer, somberder smileys; mooi weer, vrolijker smileys). Maar omdat dit kwalitatieve variabelen zijn, kun je hier geen correlatiecoëfficiënt van berekenen.

c

Ook dit zou best wel eens kunnen: slecht weer, somberder smileys; mooi weer, vrolijker smileys. Je verwacht dan dat het weertype het soort smiley zal beïnvloeden. Maar: hier zul je echt specifiek causaliteitsonderzoek naar moeten doen.

Opgave 3
a

Met Excel worden de volgende waarden berekend:

Lengtes: `bar(x) = 174,3` met `σ_x = 9,30` .

Gewichten: `bar(y) = 59,1` met `σ_y = 6,80` .

b

`a = r_(xy) * (σ_y)/(σ_x) = 0,81 * (6,80)/(9,30) ~~ 0,59` .

De regressielijn moet door `(174,3; 59,1)` , dus `59,1 = 0,59*174,3 + b` zodat `text(-)43,7` .

Dus de regressielijn wordt: `y = 0,59xx - 43,7` .

De kleine afwijkingen zijn het gevolg van afronding.

c

Bekijk deze figuren.

De regressielijn wordt: `y = 0,59x - 44,0` .

d

`y = 0,59*200 - 44,0 ~~ 74`

Dus ongeveer `74` kg.

De voorspelling is niet erg betrouwbaar omdat de steekproef veel te klein is.

Opgave 4
a

Hoe hoger de waarden van de ene variabele des te lager die van de andere.

b

De correlatiecoëfficiënt blijft gelijk: er zit niet iets als oorzaak en gevolg in de correlatiecoëfficiënt. Anders gezegd: de correlatiecoëfficiënt zegt niets over een eventueel causaal verband tussen de twee variabelen.

c

Dit is een meting die afwijkt van de andere metingen: een zeer hoge regenkans met daarbij een zeer hoog bezoekersaantal. Dat betekent dat de correlatiecoëfficiënt minder negatief zal worden.

Opgave 5
a

Voer de tabel in de GR of in Excel in en zorg dat de correlatiecoëfficiënt wordt berekend.

`r ~~ 0,912`

b

Een belangrijk argument tegen de zinvolle betekenis van dit onderzoek is dat je niet zeker weet dat de voorspelde zonuren de doorslag geven om te zwemmen en niet de ervaren weersomstandigheden op het moment zelf. Daar zou eerst onderzoek naar moeten worden gedaan.

Daarnaast betreft het hier een wel erg kleine steekproef. Dat betekent dat de betrouwbaarheid van de uitspraken die je op basis van deze correlatiecoëfficiënt kunt doen erg klein is.

Opgave 6
a

Als het goed is, krijg je hetzelfde als in het voorbeeld. Voor het berekenen van het getal `0,33` gebruik je dat de lijn door `(2,13; 4,55)` moet gaan.

b

Door twee punten op die lijn af te lezen en dan een formule te maken van een lijn door twee punten.

c

`E ~~ 1,98*3 + 0,33 ~~ 6,27` uur.

d

Van die mensen is in ieder geval geen looptijd halverwege geregistreerd. Misschien zijn ze uitgevallen? Of door de registratie geslipt?

e

Alleen van een statistisch verband, de eindtijd wordt niet veroorzaakt voor de looptijd halverwege.

f

Als je bijvoorbeeld volgende jaren een zeer vergelijkbaar deelnemersveld zou hebben en hetzelfde parcours, kun je aan dergelijke regressielijnen wel wat hebben, hoewel deze wel heel erg voor de hand ligt: de eindtijd is iets meer dan twee keer de tijd halverwege.

Maar misschien zijn er nog andere zaken te onderzoeken, zoals het verschil tussen mannen en vrouwen, of de verschillen tussen leeftijdsgroepen, o.i.d.

Opgave 7
a

Kniehoogte, want daarvan is de correlatiecoëfficiënt groter dan `0,7` . Er is geen andere variabele waarvan de correlatiecoëfficiënt groter is dan `0,7` of kleiner dan `text(-)0,7` .

b

De lengte van de vrouw heeft alleen met ruglengte en voetlengte een correlatiecoëfficiënt die tussen `0,3` en `0,7` of tussen `text(-)0,3` en `text(-)0,7` ligt.

c

De overige lichaamsmaten, want die hebben een correlatiecoëfficiënt met lengte die tussen `text(-)0,3` en `0,3` ligt.

Opgave 8
a

Als de correlatiecoëfficiënt vrijwel `0` is, is er eigenlijk geen lineaire samenhang tussen de variabelen `X` en `Y` . De puntenwolk heeft dan bijvoorbeeld punten die chaotisch over het hele assenstelsel verdeeld zijn OF het is een assenstelsel met punten die in een horizontale of verticale lijn liggen, want in dat geval blijft de ene variabele telkens hetzelfde, ongeacht wat er met de andere variabele gebeurt.

Het kan ook zijn dat er wel degelijk samenhang is, maar in het geheel geen lineaire samenhang.

b

Als de correlatiecoëfficiënt `text(-)1` is, is er volledige negatieve lineaire samenhang tussen `X` en `Y` , dus alle punten van de puntenwolk liggen nu op een rechte lijn die van linksboven naar rechtsonder loopt.

c

Als de correlatiecoëfficiënt tussen `0,3` en `0,7` ligt, is er matig positieve lineaire samenhang tussen `X` en `Y` , dus de punten in de puntenwolk vormen wel een wolk, maar dan grofweg een uitgerekte ovale wolk die van linksonder naar rechtsboven loopt.

Opgave 9
a

Ja, de puntenwolk heeft een zeker richting; lijkt iets op een lijn. Om zeker te zijn van een statistische samenhang, moet de correlatiecoëfficiënt worden berekend.

b

Zuiver statistisch gesproken is daar nog niets over te zeggen: wie weet is er een andere oorzaak (en/of extra oorzaak) en het is ook niet bekend wat oorzaak en wat gevolg is.

Daar is ander onderzoek voor nodig.

c
  • de gemiddelde BMI-waarde plus de bijbehorende standaardafwijking;

  • het gemiddelde vetpercentage plus de bijbehorende standaardafwijking;

  • de correlatiecoëfficiënt voor BMI en vetpercentage.

en, als je deze gegevens zelf moet (laten) berekenen, heb je allereerst nodig:

  • de ruwe dataset op basis waarvan deze puntenwolk is gebaseerd.

Opgave 10
a

Teken de puntenwolk met de grafische rekenmachine en/of bepaal de correlatiecoëfficiënt: `r_(vz) ~~ 0,70` .

Een positieve correlatie, dus een zoon zal over het algemeen langer zijn dan zijn vader.

b

GR: `z ~~ 0,47v + 95,44` .

c

Ongeveer `178,6` cm.

Opgave 11
a

De trendlijn gaat ongeveer door `(20, 15)` en `(100, 80)` .
Dus `a = 65/80 = 0,8125` , zodat `S = 0,8125L + b` .
Eén van beide punten invullen geeft `b = text(-)1,25` .
Dus `S = 0,8125L - 1,25` .

b

`S = 0,8125*80 - 1,25 = 63,75` %.

c

`10 = 0,8125L - 1,25` geeft `11,25 = 0,8125L` en `L ~~ 13,8` %.

Opgave 12

Gebruik `9,65 = r_(tG) * (59,1)/(6,07)` en je vindt `r_(tG) ~~ 0,99` .

Opgave 13Huwelijken
Huwelijken
a

Aan de vorm van puntenwolk is te zien dat de rechter wolk een grotere samenhang vertoont dan de linker wolk. In huwelijken is het waarschijnlijker dat beide partners ongeveer dezelfde leeftijd hebben dan dezelfde lengte. De linker puntenwolk zal dus betrekking hebben op de lengte.

b

Teken een lijn door de punten `(20, 20)` en `(60, 60)` . Er liggen meer punten onder de lijn dan erboven. De conclusie: het komt vaker voor dat de man ouder is dan de vrouw.

c

Bij een gegeven lengte van de man is de spreiding van de lengte van de vrouw groter dan de spreiding van de leeftijd van de vrouw bij een gegeven leeftijd van de man. Bij de puntenwolk met de leeftijden zal de schatting dus het meest betrouwbaar zijn.

d

Vuistregel: `95` % van de waarden tussen gemiddelde `± 2` maal standaardafwijking. Voor de mannen is dat tussen `159,2` (cm) en `186,8` (cm).

e

Vuistregel: `95` % van de waarden tussen gemiddelde `± 2` maal standaardafwijking. Voor de vrouwen liggen de lengtes tussen `147,6` (cm) en `172,4` (cm).

f

Er zijn echtparen waarvan de lengte van beide partners buiten de rechthoek valt.
Die punten worden dubbel meegeteld, zowel bij de ene `5` % als bij de andere `5` %.
Het aantal punten buiten de getekende rechthoek zal kleiner zijn dan `10` %.

(bron: voorbeeldopgave Statistiek – syllabus havo A)

Opgave 14
a

`r_(WF) ~~ text(-)0,94` , een duidelijke negatieve correlatie.

b

`W ~~ text(-)0,35F + 48,30`
De regressielijn van `W` op `F` ligt meer voor de hand omdat gezocht wordt naar een verband waarbij de werkzaamheid afhangt van de bewaartemperatuur.

c

`W ~~ text(-)0,63C + 37,10` .

d

Nee, want de schaalverdeling speelt geen rol bij de correlatie, het gaat alleen om de ligging van de meetpunten ten opzicht van de regressielijn.

e

Uit de formule voor de regressielijn volgt dat de werkzaamheid in `20` dagen bij `20` °C terugloopt tot ongeveer `24,5` %. Voor een periode van `40` dagen loopt de werkzaamheid daarom terug tot `0,245 * 24,5 ~~ 6` %.

verder | terug