Maak bijvoorbeeld een tabel zoals deze. (Laat de wiskunde C kiezers en mensen die beide kiezen buiten beschouwing.)
wis A | wis B | |
meisje | ||
jongen |
Bedenk dan een manier om hier een conclusie uit te trekken.
Het gaat hier om een gevoel en gevoelens zijn niet exact en ook niet objectief vast te stellen: het is bijvoorbeeld niet zo dat iedereen die de toneelvoorstelling boeiend vond ook exact evenveel van de voorstelling genoten heeft.
Bijvoorbeeld:
Variabele gemoedstoestand met waarden somber (1), neutraal (2), vrolijk (3), uitzinnig (4).
Zoek bijvoorbeeld in zelftestjes in tijdschriften / op internet.
NG | NT | ||||||
aantal | `p` | `cp` | aantal | `p` | `cp` | `V_(cp)` | |
1 = niet boeiend | 6 | 13,3 | 13,3 | 17 | 42,5 | 42,5 | 29,2 |
2 = gaat wel | 18 | 40,0 | 53,3 | 13 | 32,5 | 75,0 | 21,7 |
3 = boeiend | 15 | 33,3 | 86,7 | 8 | 20,0 | 95,0 | 8,3 |
4 = erg boeiend | 6 | 13,3 | 100,0 | 2 | 5,0 | 100,0 | 0,0 |
45 | 40 |
Voor de NG-leerlingen en NT-leerlingen is de `max V_(cp)` voor voorstellingsbeleving gelijk aan `29,2` % en dat betekent dat er een middelmatig verschil tussen de twee groepen leerlingen bestaat over hun waardering van de toneelvoorstelling.
Horizontaal percenteren:
verkouden | niet verkouden | ||
vitamine C | `19 = 13,5` % | `122 = 86,5` % | `141 = 100` % |
placebo | `29 = 21` % | `109 = 79` % | `138 = 100` % |
Van de personen die vitamine C slikten is `13,5` % verkouden geworden, terwijl van de personen die een placebo slikten `21` % verkouden is geworden: er is sprake van verschil tussen wel of geen vitamine C slikken.
Verticaal percenteren:
verkouden | niet verkouden | |
vitamine C | `19 = 39,6` % | `122 = 52,8` % |
placebo | `29 = 60,4` % | `109 = 47,2` % |
`48 = 100` % | `231 = 100` % |
Van de personen die verkouden werden, slikten er `39,6` % vitamine C en van de mensen die niet verkouden werden slikten er `52,8` % vitamine C: er is sprake van verschil tussen wel of geen vitamine C slikken.
Beide manieren van percenteren geven een verschil aan, maar er is niet echt een maat aan te geven omdat de percentageverschillen horizontaal en verticaal onderling ook weer verschillen.
De waarde van `varphi` is ofwel gelijk aan de al eerder berekende waarde of is gelijk aan het negatief (of juist positief) van die waarde en zal dus altijd dezelfde conclusie over de mate van verschil opleveren.
Beiden hebben als modus de waarde "goed" .
Bij de Europeanen krijg je daarna als hoogste frequentie waarde "zeer goed" , daarna "matig" en vervolgens een heel lage frequentie bij "slecht" .
Bij de Noord-Amerikanen is die volgorde anders: eerst "matig" en "slecht" , daarna de laagste frequentie bij "zeer goed" .
Het is lastig om een definitieve uitspraak over wel/geen verschil te geven op basis van de absolute aantallen.
Ook nu blijft het moeilijk om een definitieve uitspraak over wel/geen verschil tussen de Europeanen en de Noord-Amerikanen te geven.
Europa | Noord-Amerika | ||||||
aantal | `p` | `cp` | aantal | `p` | `cp` | `V_(cp)` | |
1 = zeer goed | 12 | 30 | 30 | 3 | 17,65 | 17,65 | 12,35 |
2 = goed | 15 | 37,5 | 67,5 | 6 | 35,29 | 52,94 | 14,56 |
3 = matig | 10 | 25 | 92,5 | 4 | 23,53 | 76,47 | 16,03 |
4 = slecht | 3 | 7,5 | 100 | 4 | 23,53 | 100 | 0 |
totaal | 40 | 17 |
Bekijk de tabel. `max V_(cp) = 16,03` % en volgens de vuistregels is dit een gering verschil omdat het een waarde is die kleiner is dan `20` %.
Bereken `max V_(cp)` om daarmee de mate van verschil te bepalen:
12- tot 15-jarigen | 16- tot 19-jarigen | ||||||
aantal | `p` | `cp` | aantal | `p` | `cp` | `V_(cp)` | |
1 = leuk | 31 | 53,4 | 53,4 | 22 | 36,7 | 36,7 | 16,7 |
2 = niet leuk | 27 | 46,6 | 100 | 38 | 63,3 | 100 | 0 |
Je vindt: `max V_(cp) = 16,7` % en volgens de vuistregels is dit een gering verschil want het is lager dan `20` %.
Vermoedelijk niet, omdat de groep van 12- tot 15-jarigen "leuk" als modus heeft en de groep van 16- tot 19-jarigen "niet leuk" : dat klinkt juist als een groot verschil.
Nee.
De gewisselde tabel en bijbehorende cumulatieve en verschilpercentages:
12- tot 15-jarigen | 16- tot 19-jarigen | ||||||
aantal | `p` | `cp` | aantal | `p` | `cp` | `V_(cp)` | |
1 = niet leuk | 27 | 46,6 | 46,6 | 38 | 63,3 | 63,3 | 16,7 |
2 = leuk | 31 | 53,4 | 100 | 22 | 36,7 | 100 | 0 |
Ook nu blijkt `max V_(cp) = 16,7` %.
Het heeft dus geen invloed op de bepaling van de mate van verschil tussen de twee groepen.
`a = 31` en `b = 22` en `c = 27` en `d = 38` geeft:
`varphi = (31*38 - 22*27)/sqrt((31+27)*(31+22)*(22+38)*(27+38)) = 584/sqrt(11988600) ~~ 0,169`
Omdat `0,169` tussen `text(-)0,2` en `0,2` ligt, is volgens de vuistregels het verschil gering te noemen en dat klopt met de eerdere conclusie.
Dit kan in principe voor alle gegevens die in een 2-bij-2 tabel zijn samen te vatten en dus ook voor de gegevens uit het voorbeeld.
Zodra de nominale variabele waarvoor het verschil gemeten wordt meer dan twee waarden kan aannemen, kan het niet meer.
`a = 45` en `b = 62` en `c = 135` en `d = 186`
`varphi = (45*186 – 62*135)/sqrt((45+135)*(45+62)*(62+186)*(135+186)) = 0/sqrt(1533250080) = 0`
Dat ligt tussen `text(-)0,2` en `0,2` dus volgens de vuistregels is het verschil gering.
Voor beide groepen is de verdeling van de frequenties over beide waarden exact gelijk, namelijk een driemaal zo hoge frequentie voor waarde 2 als voor waarde 1. Er is daarom geen verschil tussen beide groepen.
Bijvoorbeeld:
hoogstens 35 jaar | ouder dan 35 jaar | |
lokale politieke partij | 9781 | 14893 |
landelijke politieke partij | 15302 | 21367 |
Maar er zijn meerdere mogelijkheden: je kunt ook per partijsoort een kolom hebben en per leeftijdsklasse een rij en verder kun je ook eerst starten met partijsoort landelijke politieke partij.
Je zou zelfs de leeftijdsklassen mogen omdraaien, maar dat ligt minder voor de hand.
Omdat twee groepen vergeleken worden waarbij de gegevens in een 2-bij-2 kruistabel kunnen worden gezet en de verschilvariabele partijsoort een nominale kwalitatieve variabele is.
Dit verschil is gering.
Kruistabel 1:
Onderzocht wordt het verschil in leeftijdsopbouw van het docentenkorps tussen school A en school B.
Het gaat hier om het jong of oud zijn van het docentenkorps en dat is een kwalitatieve variabele die je zowel nominaal als ordinaal kunt opvatten.
Kruistabel 2:
Onderzocht wordt het verschil in belangstelling tussen klas A en klas B voor een creatieve workshop muziek of tekenen.
Het gaat hier om het type creatieve workshop en dat is een nominale kwalitatieve variabele.
Kruistabel 3:
Onderzocht wordt het verschil tussen supermarkt A en supermarkt B in uurloon voor vakkenvullers.
Het gaat hier om een uurloon en dat is een kwantitatieve variabele.
Kruistabel 1:
Kwalitatieve variabele, dus de onderzoeker kan eerst de modussen vergelijken maar dat zegt niet genoeg: ze verschillen weliswaar per school maar er is geen indicatie omtrent de mate van dit verschil.
Omdat de modussen verschillen weet de onderzoeker ook meteen dat de verhouding jong/oud per school ongelijk is; percentages berekenen geeft weliswaar meer inzicht in de mate van verschil, maar daar heeft de onderzoeker alleen iets aan als hij daar een maatstaf voor heeft (wanneer is iets wel/niet een groot verschil?).
Kruistabel 2:
Kwalitatieve variabele, dus de onderzoeker kan eerst de modussen vergelijken maar die zijn voor beide klassen gelijk.
Percenteren kan zin hebben om te checken of de verhouding tekenen/muziek in beide klassen (vrijwel) gelijk is; dat is in dit geval zo, want in beide klassen is het percentage dat wil tekenen `66,7` % en het percentage dat een muziekworkshop wil `33,3` %: de onderzoeker weet nu al zeker dat er geen enkel verschil tussen beide klassen zit.
Kruistabel 3:
Kwantitatieve variabele, dus hier kan de onderzoeker gebruikmaken van andere verschilmaten dan percentages, `max V_(cp)` en/of `varphi` , namelijk van gemiddelden, medianen, standaardafwijkingen etc.
Kruistabel 1:
Omdat variabele leeftijdsklasse docent zowel ordinaal als nominaal opgevat kan worden, kan de onderzoeker zowel `max V_(cp)` als `varphi` gebruiken om iets over de mate van verschil tussen de scholen te concluderen.
Kruistabel 2:
Omdat variabele soort workshop een nominale variabele is, komt `varphi` in aanmerking om de mate van verschil tussen de klassen aan te geven (als de onderzoeker niet al meteen met percentages had kunnen concluderen dat er geen verschil is).
Kruistabel 3:
Omdat het hier een kwantitatieve variabele betreft, zal de onderzoeker een andere verschilmaat gebruiken om de mate van verschil tussen supermarkten te onderzoeken, maar op zich geven percentages, `varphi` en `max V_(cp)` ook inzicht in het verschil tussen de twee groepen.
regio west | `cp` | regio oost | `cp` | `V_(cp)` | |
basisschool | 6 | 6 | 3 | 3 | 3 |
lager voortgezet onderwijs | 11 | 17 | 19,5 | 22,5 | 5,5 |
hoger voortgezet onderwijs | 5,5 | 22,5 | 8 | 30,5 | 8 |
MBO | 40,5 | 63 | 37 | 67,5 | 4,5 |
HBO | 28 | 91 | 20,5 | 88 | 3 |
WO | 9 | 100 | 12 | 100 | 0 |
Bekijk de tabel: `max V_(cp) = 8` %.
Omdat `8` % kleiner is dan `20` % is het verschil gering volgens de vuistregels voor `max V_(cp)` .
Omdat de cirkel voor schooljaar 2014-2015 groter is dan de cirkel voor schooljaar 2012-2013 kun je met zekerheid concluderen dat het gebruik van ICT-apparaten in schooljaar 2014-2015 groter was dan in schooljaar 2012-2013.
Daarnaast kun je met zekerheid zeggen dat het gebruik van ICT-apparaten in schooljaar 2014-2015 drie à vier keer zo groot was dan in schooljaar 2012-2013 omdat het cirkeldiagram van schooljaar 2012-2013 zo op het oog zeker drie à vier keer in het cirkeldiagram van schooljaar 2014-2015 past.
Wil je exact weten wat de toename is geweest, dan zul je de cirkeloppervlaktes moeten bepalen door de cirkelstralen op te meten.
Omdat de percentages die bij iedere cirkelsector horen gerepresenteerd worden door de hoek van de cirkelsector, kun je met zekerheid concluderen dat:
het gebruik van desktops in schooljaar 2014-2015 verhoudingsgewijs lager was dan in schooljaar 2012-2013;
het gebruik van laptops in schooljaar 2014-2015 verhoudingsgewijs hoger was dan in schooljaar 2012-2013;
het gebruik van tablets in schooljaar 2014-2015 verhoudingsgewijs hoger was dan in schooljaar 2012-2013.
Door de hoeken te meten van iedere cirkelsector zou je exacte toenamepercentages kunnen bepalen.
De verschilmaat `max V_(cp)` kun je gebruiken als de verschilvariabele een ordinale kwalitatieve variabele is.
De verschilvariabele is hier het type ICT-apparaat en omdat daar geen enkele onderlinge volgorde in zit, is dit een gewone kwalitatieve ofwel nominale variabele. Cumulatieve percentages en verschilmaat `max V_(cp)` zijn in zo'n geval volledig nietszeggend.
De verschilmaat `varphi` kun je gebruiken als de verschilvariabele een nominale kwalitatieve variabele is die slechts twee waarden heeft.
De verschilvariabele is hier het type ICT-apparaat en dit is een nominale kwalitatieve variabele. Er zijn echter drie waarden mogelijk als type ICT-apparaat en daarom is verschilmaat `varphi` niet te gebruiken voor verschilonderzoek van deze gegevens.
(bron: Kennisnet)
mannen | `cp` mannen | vrouwen | `cp` vrouwen | verschil `cp` ( `V_(cp)` ) | |
nooit | 32 | 32 | 28 | 28 | 4 |
enkele keren per jaar | 9 | 41 | 6 | 34 | 7 |
maandelijks | 10 | 51 | 9 | 43 | 9 |
wekelijks | 17 | 68 | 15 | 58 | 10 |
dagelijks | 31 | 99 | 43 | 101 | 2 |
Bekijk de tabel: `max V_(cp) = 10` % dus `max V_(cp) le 20` % en volgens de vuistregels voor `max V_(cp)` is er dan sprake van een gering verschil.
Door het verschil van de twee al bekende totalen te berekenen, weet je het totale aantal personen dat tijdens de studie last van hartfalen kreeg. Bereken dit met een 2-bij-2 kruistabel.
hartfalen | geen hartfalen | |
aspirinegebruikers |
`139` | `10898` |
geen aspirinegebruikers |
`239` | `10795` |
Op basis van deze gegevens kan en mag de journalist `varphi` berekenen en daarmee is aan te tonen dat de mate van verschil hier gering is.
In de kruistabel geldt: ` b = 10898` , `c = 239` en `d = 10795` .
Als geldt dat `varphi > 0,4` is er sprake van een groot verschil.
Los op: `(a*10795 - 239*10898)/sqrt((a+239)*(a+10898)*(10898+10795)*(239+10795)) > 0,4` .
De GR geeft: `a ge 6358` .
Het minimumaantal personen dat aspirine slikte en tijdens de studie last van hartfalen kreeg is `6538` .
Het gaat hier om twee nominale variabelen: de tijd voordat de hond z'n naam kent en het hondenras.
Er kan een 2-bij-2 tabel van gemaakt worden, bereken dan `varphi` en gebruik `varphi` om iets over het verschil tussen beide hondenrassen te zeggen.
`varphi` berekenen met `a = 55` en `b = 39` en `c = 32` en `d = 27` geeft:
`(55*27 - 39*32)/sqrt((55+39)*(55+32)*(39+27)*(32+27)) = 237/sqrt(31845132) ~~ 0,042`
Volgens de vuistregels betekent een dergelijke waarde dat er een gering verschil is in intelligentie tussen beide hondenrassen.
Bedenk: als er geen verschil is, dan zullen de percentages `Y_1` en `Y_2` voor de groepen `X_1` en `X_2` gelijk zijn. Dat geldt ook voor de somtotalen.
Start met het berekenen van de lege somtotalen (marginale waarden), inclusief `Y` -sompercentages:
`X_1` | `X_2` | ||
`Y_1` | `102` `= 102/850 * 100` % `=` 12% | ||
`Y_2` | `748` `=` 88% | ||
`467,5` | `382,5` | `850` |
Bereken hiermee de andere aantallen:
`X_1` | `X_2` | ||
`Y_1` | `0,12*382,5 = 45,9` | `102` | |
`Y_2` | `748` | ||
`467,5` | `382,5` | `850` |
en dus:
`X_1` | `X_2` | ||
`Y_1` | `56,1` | `45,9` | `102` |
`Y_2` | `411,4` | `336,6` | `748` |
`467,5` | `382,5` | `850` |
`varphi = (56,1*336,6 - 45,9*411,4) / sqrt(102*467,5*382,5*748) = 0`
en dus is er inderdaad op deze manier geen verschil.
% | < 25 jr | < 35 jr | < 45 jr | < 55 jr | alle |
man in homohuwelijk | 4 | 28 | 55 | 81 | 100 |
vrouw in homohuwelijk | 6 | 43 | 68 | 87 | 100 |
man in heterohuwelijk | 7 | 53 | 76 | 88 | 100 |
vrouw in heterohuwelijk | 16 | 64 | 82 | 93 | 100 |
Er is een middelmatig verschil in procenten tussen het aantal ...
... mannen < 35 jr dat in het homohuwelijk treedt en dat in het heterohuwelijk treedt.
... mannen < 35 jr dat in het homohuwelijk treedt en het aantal vrouwen < 35 jr dat in het heterohuwelijk treedt.
... vrouwen < 35 jr dat in het homohuwelijk treedt en het aantal vrouwen < 35 jr dat in het heterohuwelijk treedt.
... mannen < 45 jr dat in het homohuwelijk treedt en dat in het heterohuwelijk treedt.
... mannen < 45 jr dat in het homohuwelijk treedt en het aantal vrouwen < 35 jr dat in het heterohuwelijk treedt.
`varphi ~~0,360` , het verschil is middelmatig.
Het procentuele verschil zit boven de `40` %, het procentuele verschil is groot.