Van rangschikken groei je niet
Karen Heij
Zelfstandig toetsexpert bij Parrhesia onderwijsadvies
Geraadpleegd op 12-12-2024,
van https://wij-leren.nl/van-rangschikken-groei-je-niet.php
Formatief toetsen staat volop in de schijnwerpers in onderwijsland. Dat is een goede ontwikkeling. Lastig blijkt vervolgens wat nu wel en niet formatief is. En wat niet formatief is, is dat dan per definitie summatief? Grofweg worden formatieve toetsen gepositioneerd als toetsen gedurende het onderwijs bedoeld om het leren te sturen en summatieve toetsen als toetsen aan het eind van onderwijs, bedoeld om leren af te sluiten.[1] Maar als toetsen bedoeld zijn om leerlingen te rangschikken ten opzichte van elkaar, dan hebben we het over heel ander soort toetsen. Dat soort toetsen zijn summatief noch formatief en dragen niet bij tot de groei en de kwaliteit van onderwijs.
Leer je voor de toets of toets je om te leren?
Aandacht voor het belang van formatief toetsen komt vooral voort uit de zoektocht naar het zo goed mogelijk laten groeien en ontwikkelen van leerlingen. Motivatie is daarbij essentieel. Tal van onderzoeken verder[2] beginnen de contouren duidelijk te worden van vormen van feedback die motivatie-verhogend werken: In de ideale formatieve context bestaat ‘toetsing’ niet meer als apart onderdeel maar is meten volledig verweven met het alledaagse handelen van de docent in de klas. En is onderdeel van een continue proces waar docent en leerling samen in acteren gecentreerd rond kernvragen: Waar ga ik naartoe? Waar ben ik nu? En wat kan ik als volgende stap zetten? Alles gericht op het laten groeien van de leerling richting de doelen die hijzelf en het onderwijs voor hem in petto hebben.
Een goede summatieve toets maakt de balans op van het leren: wat was het doel dat ik wilde (moest) bereiken? Voldoe ik aan de standaarden die horen bij dat doel? Heb ik het doel dus behaald? Meer formele vormen van meten sluiten hier op aan waarbij de relatie tussen de leerling en de docent meer naar de achtergrond schuift.
Voor zowel formatieve vormen van meten als voor summatieve toetsen geldt dat de doelen transparant en inzichtelijk moeten zijn en dat een opdracht of toets op die doelen aansluit. Anders kan een leerling geen zicht krijgen op waar hij staat ten opzichte van wat hij wil bereiken. Maar heldere doelen zijn ook in het belang van de docent. Want wil je als docent je onderwijs kunnen evalueren en eventueel bijstellen, dan moet je wel weten wat je anders en beter kan doen. Alleen opdrachten en toetsen die daar inzicht in geven, dragen daar aan bij.
Slim, gemiddeld of dom?
En dat brengt mij op het punt waar de verwarring steeds weer opduikt. Veel gestandaardiseerde toetsen geven een uitslag waarbij de vergelijking van leerlingen met elkaar het uitgangspunt is geweest. Leerlingen die op hetzelfde moment in hun schoolloopbaan dezelfde toets hebben gemaakt Deze toetsen zijn bedoeld om leerlingen te ranken ten opzichte van elkaar. De scores van anderen zijn bij dit soort toetsen in hoge mate bepalend voor de uitslag van een individuele leerling. Daarmee zijn dit type toetsen noch geschikt voor formatieve doeleinden noch voor summatieve doeleinden. Je kunt een leerling niet laten groeien als de feedback beperkt is tot een indicatie van een positie in een rangorde. En je kunt het onderwijs niet verbeteren als je niet meer weet dan hoe je leerlingen scoren ten opzichte van een landelijk gemiddelde.
Een toets op een vast moment in de tijd gegeven waarbij een uitslag relatief is, bijvoorbeeld ‘onder’, ‘op’ of ‘boven’ niveau zoals bij de DTT (Diagnostische Tussentijdse Toets) of ‘behorend bij de beste 20% of juist bij de zwakste 20% zoals bij het leerlingvolgsysteem van Cito voor het basisonderwijs past niet bij formatieve toetsen én niet bij summatieve toetsen. Dit zelfde geldt voor de basiseindtoetsen, die aan het eind van groep 8 worden afgenomen. Afgaande op de naam zou je kunnen denken dat dit een summatieve toets is maar kijkend naar de ware aard van het instrument en naar hoe de norm is opgebouwd, dan zien we dat hier uitsluitend een relatieve norm onder ligt: De toets is bedoeld om de leerlingen te vergelijken met elkaar en te ordenen in percentielgroepen en per percentielgroep een schooladvies toe te kennen. Toetsen die bedoeld zijn om leerlingen te vergelijken met elkaar, te rangschikken ten opzichte van elkaar of zelfs bedoeld zijn als selectie voor vervolgonderwijs, zijn geen summatieve toetsen. Ze kijken immers niet terug om vast te stellen of leerdoelen zijn behaald en vormen geen representatieve afspiegeling van te behalen doelen. En geven de leerling geen inzicht in wat hij heeft geleerd. Ze zijn bedoeld als selectie voor vervolgonderwijs. En dat is heel iets anders dan wat we beogen met summatieve toetsen.
Formatieve én summatieve toetsen zijn toetsen gekoppeld aan concrete, heldere leerdoelen en zo bedoeld om niveau en kwaliteit van onderwijs te kunnen verbeteren. Toetsen met een relatieve norm (leerlingen vergelijken met dezelfde leerlingen op een vergelijkbaar punt in het onderwijstraject) hebben die functie niet. Dergelijke toetsen bieden leerlingen geen enkel houvast in hun zoektocht naar het verwerven van een concreet leerdoel, ze geven de docent geen inzicht in de kwaliteit van zijn lesgeven en ze bieden de school geen handvatten om het onderwijs te verbeteren. Een relatieve uitslag geeft geen sturing aan groei en kwaliteit. Het is dan ook zinloos om met elkaar te discussiëren over hoe formatief of hoe summatief zo’n toets is. Sterker, het wordt de hoogste tijd dat we ophouden te denken dat ‘ranken’ en bewaken van de kwaliteit van onderwijs ook maar iets met elkaar te maken hebben.
Karen Heij is werkzaam als zelfstandig toetsexpert en doet onderzoek naar de cultuur van toetsen in Nederland. Tot 1 april 2016 was zij werkzaam als directeur bij Bureau ICE, specialist in toetsen en examens.
Meer lezen over het normeren van toetsen?
[1] In het Engels worden de termen ‘Assessment for Learning’ versus ‘Assessment of Learning’ gebruikt.
[2] Zie voor een goed overzicht: Hattie, J., & Timperley, H. (2007). The power of feedback. Review of educational research, 77(1), 81-112.