Andre Hazes zong:

Kleine jongen
Op school al zul je merken
Dat alles draait om cijfers en om macht
Zo is het leven
Dus leer wat je moet leren
Want dan
Rake woorden, want in Nederland draait veel om cijfers. Dat geldt zeker voor het voortgezet onderwijs. Cijfers vertellen hoe goed je het doet, of je over mag naar het volgende leerjaar en of je je examen haalt. Als je het negatief wil bekijken dan zou je kunnen zeggen dat ons onderwijs meer is ingericht op meten en presteren dan op leren. Gelukkig zijn er bewegingen die de andere richting op gaan: John Hattie richtte zich op het leereffect van interventies en recent heeft het formatief evalueren onder invloed van Dylan William snel terrein gewonnen. Een goede beweging, want het brengt het leren naar het klaslokaal. Daar waar het hoort plaats te vinden in plaats van thuis in een boek.
Cijfers zijn daarmee de wereld nog niet uit. Dat hoeft ook niet want zonder cijfers wordt het onderwijs helemaal afgestemd op het individu. Een vergroting van kansenongelijkheid ligt dan op de loer. Dat we met cijfers in ieder geval ook een indruk geven van hoe een ontwikkeling zich verhoudt tot een zekere referentienorm is niet zo gek. Maar ook dan zijn er allerlei misverstanden rondom cijfers en toetsen.
Zo verbaas ik me er als leraar aardrijkskunde over dat leerlingen voor mijn toetsen vrijwel nooit hele lage cijfers halen. Lager dan een vier komt vrijwel niet voor. Dat gebeurt alleen bij een topografietoets. Een leerling heeft het dan geleerd of niet geleerd. Tja….en die toets wil ik eigenlijk niet afnemen, want ik wil niet meten of een leerling wel of niet heeft zitten blokken, maar of hij of zij vaardig is in geografisch denken. Bij andere vakken zie ik soms wel hele lagere cijfers verschijnen. Bij mij scoren ook niet veel leerlingen hoge cijfers (> 8). Er is mij wel eens verteld dat dat niet goed is: een goede toets moet een goede spreiding in scores hebben, het liefst van 1,0 tot 10. Dit is een hardnekkig misverstand, zoals er helaas zoveel bestaan rondom toetsen en cijfers. Hoe zit het dan wel?
Onderscheid in een toetsvraag
Een toetsvraag heeft vaak als doel onderscheid te maken tussen leerlingen die het wel en niet goed kunnen beantwoorden. Als een vraag door alle leerlingen goed of door alle leerlingen fout wordt gemaakt maakt deze geen onderscheid. Dat onderscheid (Rir- of Rit-waarde in psychometrische termen) is waar het meestal om gaat. Let wel: in de meeste gevallen willen we dus met een toets niet bepalen hoe leerlingen ten opzichte van een zekere referentienorm presteren, maar hoe zij ten opzichte van elkaar presteren. Voor een individuele vraag is dat nog niet zo’n probleem. We passen dit echter ook toe voor een hele toets. De toets moet als geheel onderscheidend zijn.
Hoe krijg je onderscheid in een toets? Dat gaat het beste door leerlingen een serie vragen te stellen die allemaal heel veel op elkaar lijken. De leerling die het ‘trucje’ van het beantwoorden beheerst, maakt dan alle vragen goed. Degene die dat niet beheerst, maakt alle vragen fout. Het gevolg is een enorme spreiding in de scores en dus een toets die zeer onderscheidend is. In psychometrische termen heeft zo’n toets een hoge mate van betrouwbaarheid. Die betrouwbaarheid kan vergroot worden door bij alle vragen een bepaalde vaardigheid toe te laten passen. Gebruik je bijvoorbeeld bij iedere vraag heel veel tekst, dan gaat de beheersing van begrijpend lezen een belangrijke rol spelen in het onderscheid dat de toets maakt. Verlangen alle vragen lange open antwoorden, dan zal de beheersing van het formuleren van grote invloed zijn op het onderscheid. De toets krijgt dan een nog hogere psychometrische betrouwbaarheid, maar je moet je ook afvragen of de toets dan nog toets wat je beoogt te toetsen.
Mijn toetsen hebben waarschijnlijk een lage psychometrische betrouwbaarheid. Hoe dat komt? Ik stel allerlei verschillende vragen. Ik wissel vragen met een gesloten antwoord af met vragen die een wat langer antwoord vereisen. Ik stel reproductievragen, maar ook toepassingsvragen, analysevragen en evaluatieve vragen. De inhoud is ook vaak divers. Een toets kan een bereik hebben van geologie (bèta) tot sociale structuren in probleemwijken (bijna sociologie). Zo’n diverse toets kent niet zo’n goed onderscheidend vermogen. De meer bèta-aangelegde leerling doet de beknopt gestelde geologie-vraag goed, de meer talige leerling doet de sociologische vraag goed waarbij een wat langer antwoord geformuleerd moet worden. Ze kunnen heel verschillende vragen goed of fout maken, maar toch op dezelfde eindscore uitkomen. Ik schreef daar eerder over en vergeleek toen een sprint-meerkamp bij atletiek met een klassieke meerkamp waar onderdelen als speerwerpen, polstokhoogspringen, hordelopen en de 1500 meter op het programma staan. De eerste zal psychometrisch betrouwbaarder zijn. Betrouwbaarheid hangt dus vooral af van de opzet van de toets. Ik vind mijn toetsen inhoudelijk best betrouwbaar, maar psychometrisch gezien is dat niet zo. Helaas hebben wij de neiging om als we toetsen gaan vergelijken dit bij voorkeur op een louter cijfermatige manier te doen. Waarschijnlijk omdat het dan objectief lijkt te zijn. Toetsen met elkaar vergelijken is echter niet zo eenvoudig.
Waarom spreiding ertoe doet
De verschillende scores van leerlingen op een toets kunnen uitgezet worden in een frequentieverdeling. Dit maakt de spreiding van de leerlingscores inzichtelijk. Een specifieke toets met specifieke vragen zorgt voor een brede spreiding. Dat geldt bijvoorbeeld voor een toets die over een specifiek onderdeel gaat, waarbij alle vragen ongeveer hetzelfde gesteld zijn en waarbij bij alle vragen één specifieke vaardigheid nodig is voor het antwoord. Een voorbeeld is bijvoorbeeld een toets aardrijkskunde over demografie waarbij leerlingen bij alle vragen leeftijdsgrafieken moeten aflezen en moeten rekenen met geboortecijfers en dergelijke. Steeds zullen dezelfde leerlingen de toetsvragen goed maken en dezelfde leerlingen de toetsvragen niet goed maken. Of een toets topografie waar in feite alleen gemeten wordt of de leerlingen het hebben gedaan of niet.
frequentieverdeling
In het eenvoudig geschetste voorbeeld hierboven staan twee frequentieverdelingen van toetsen. De blauwe met een smalle spreiding, de zwarte met een brede spreiding. Voor de zwarte lijn geldt dat er leerlingen zijn die bijna geen enkel scorepunt hebben behaald. Er geldt ook dat er leerlingen zijn die bijna alle scorepunten hebben behaald. Voor de blauwe lijn geldt dat de leerling met de laagste score toch een deel van de scorepunten heeft behaald. Er geldt ook dat er niemand is die de volledige scorepunten heeft behaald. Als je de eerdere vergelijking erbij haalt zou je kunnen zeggen dat de zwarte lijn de frequentieverdeling van de sprint-meerkamp is en de blauwe lijn die van de klassieke meerkamp.
De spreiding heeft invloed op de cijfers. Dat is tenminste het geval als de docent er vanuit gaat dat een vast percentage van de leerlingen een onvoldoende voor de toets moet halen. Stel de docent stelt dat vast op 20%. Voor de zwarte lijn ligt de cesuur dan bij de verticale zwarte lijn. Voor de blauwe lijn ligt de cesuur bij de blauwe verticale lijn. Die ligt meer naar rechts. Dit betekent dat
  • bij de zwarte lijn een leerling minder scorepunten nodig heeft om een voldoende te halen dan bij de blauwe lijn
  • bij de zwarte lijn de meest behaalde score (modus) een hoger cijfer oplevert dan bij de blauwe lijn
  • het verschil tussen 5,5 en de gemiddelde score bij de zwarte lijn veel groter is dan bij de blauwe lijn
  • bij de zwarte lijn meer diepe onvoldoendes zijn dan bij de blauwe lijn
  • bij de zwarte lijn meer hoge cijfers (>8) zijn dan bij de blauwe lijn

Voor een individuele toets maakt dit niet zoveel uit. Alle leerlingen worden namelijk op dezelfde manier beoordeeld. Het wordt anders als je de twee toetsen wil vergelijken. De specifieke demografietoets waarbij steeds gerekend moet worden levert een frequentieverdeling als de zwarte lijn op, de brede toets met bèta- en sociale onderdelen en allerlei typen vraagstelling levert een blauwe lijn op.

Bij examens bijvoorbeeld leggen we toetsen van verschillende vakken langs elkaar en hanteren een vergelijkbare methodiek (bijvoorbeeld door te stellen dat ca. 20% van de leerlingen een onvoldoende moet hebben). De toets waarvan de inhoud specifiek is, de vraagstelling steeds hetzelfde is en waarbij voor het oplossen van iedere vraag steeds een zelfde vaardigheid nodig is (de zwarte lijn) krijgt een hoger gemiddelde, meer hoge cijfers, meer diepe onvoldoendes en een groter verschil tussen modus en 5,5 dan de toets waarvan de inhoud algemeen is, de vraagstelling divers en waarbij een beroep wordt gedaan op allerlei soorten vaardigheden (de blauwe lijn).

Welke van de twee toetsen is beter? Het is bijna niet te zeggen. Inhoudelijk zal het niet veel uitmaken. Bij een specifieke inhoud zal er meer diepgang zijn dan bij een brede inhoud. Voordeel bij de tweede toets (de blauwe lijn) is dat een leerling minder op die ene vaardigheid of die ene vraagstelling afgestraft wordt. Hij of zij wordt beoordeeld aan de hand van een breder pallet aan vaardigheden. Dat maakt teaching to the test een stukje lastiger. Psychometrisch is echter de twee toets minder betrouwbaar, want er wordt minder cijfermatig onderscheid mee gemaakt tussen de leerlingen.

Los van de psychometrie

Ik begrijp met het bovenstaande waarom ik met mijn brede aardrijkskundetoetsen nooit lage onvoldoendes, weinig echt hoge cijfers en een gemiddelde dat relatief dicht bij de cesuur ligt ontvang. Daar heb ik de leerlingenantwoorden niet eens voor nodig. Met de aard van de stof, de vraagstelling en de variatie aan vaardigheden is al min of meer een blauwdruk van de frequentieverdeling ontstaan.

Examens met een relatief hoog landelijk gemiddelde hebben een brede spreiding. De afstand tussen cesuur en gemiddelde is daar namelijk relatief groot. Ze zijn relatief specifiek, bijvoorbeeld doordat vaak hetzelfde type vraagstelling gehanteerd wordt of doordat vaak een bepaalde vaardigheid nodig is. Heel plat gezegd zou je kunnen zeggen dat daar meer nadruk ligt op of je dezelfde procedure tot een oplossing steeds consequent kunt uitvoeren dan of je allerlei verschillende procedures tot oplossingen kunt uitvoeren. Dat eerste wordt in ons systeem kennelijk meer gewaardeerd.

Het is een voorbeeld waarbij we ons teveel laten leiden door de cijfers. De diepgewortelde cijfercultuur maakt het bijna niet mogelijk om een brede toets op dezelfde manier te behandelen als een specifieke toets. Binnen een vak is dat nog niet zo erg, maar als je verschillende vakken kunt kiezen maakt dat wel degelijk verschil. Je hebt bij vakken met een specifieke toetsing aanzienlijk meer kans om een hoog cijfer te halen dan bij vakken met een meer diverse toetsing. Als ik het cijfermatig beredeneer zou ik nu een pakket NT kiezen. Bij de vakken die ik daar krijg (WiB, SK, NA) zijn de landelijke gemiddelden relatief erg hoog en er valt te verwachten dat er relatief veel cijfers > 8 zijn. Ik heb daar de meeste kans om cum laude te slagen. Inhoudelijk kan een toets daar natuurlijk best heel moeilijk zijn, maar ik heb daar ook maar een relatief laag aantal scorepunten nodig om een voldoende te verdienen. Bij een vak als Duits of geschiedenis is dit anders.

De psychometrische betrouwbaarheid van een toets zegt mij dus niet veel. Die ligt namelijk deels al vast in de toetsstof en heb je elders in de hand via de vraagstelling en de vaardigheden. Toch varen we heel vaak blind op getallen. We denken dat een toets goed is als hij veel onderscheid aan het licht brengt. We impliceren daarmee dat een sprintmeerkamp een betere toets is dan een klassieke meerkamp. Kennelijk denken we met de psychometrische benadering een objectieve registratie te hebben om toetsen of toetsen van vakken te vergelijken. Zoals uit het bovenstaande blijkt kun je toetsen van vakken echter niet zo maar langs dezelfde cijfermatige meetlat leggen. Het is appels en peren vergelijken. Met consequenties, want het kan betekenen dat een leerling bij het ene vak meer kans heeft op een hoog cijfer dan bij het andere. Het is diepgeworteld, die cijfercultuur. Zoals Andre Hazes al zong: alles draait om cijfers. Zo is het leven…

Advertentie

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit /  Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit /  Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit /  Bijwerken )

Verbinden met %s