Het belang van een goed beoordelingsmodel

Karen Heij

Zelfstandig toetsexpert bij Parrhesia onderwijsadvies

Geplaatst op 11 april 2023

Een beoordeling is goed als deze objectief is. Dat betekent dat de beoordeling van een product niet afhangt van het humeur van de beoordelaar en dat de beoordeling van de inspanningen van Michiel volgens dezelfde inzichten tot stand komt als de beoordeling van Fleur. Hoe pak je dit aan?

Je bent je er niet altijd van bewust, maar als docent ben je eigenlijk voortdurend bezig met toetsen en beoordelen: je peilt met een aantal vragen of de leerling heeft begrepen wat je uitlegt, je controleert huiswerk, je kijkt proefwerken na en je corrigeert schoolexamens… Het zijn allemaal vormen van toetsing. En steeds doe je, impliciet of expliciet, een uitspraak over iemands vaardigheid. Je beoordeelt. Dat kan tot discussie leiden. Waarom heb ik een 5,4 en hij een 6,8? Waarom krijg ik een onvoldoende? Het zijn vragen waarop je antwoord moet kunnen geven; je zult moeten uitleggen hoe je beoordeling tot stand gekomen is.

Een goede beoordeling

Een beoordeling wordt objectiever naarmate je meer beoordeelt aan de hand van vaste richtlijnen, een beoordelingsmodel. Een beoordelingsmodel zorgt voor een grotere vergelijkbaarheid, en daarmee voor een meer inzichtelijke beoordeling van en voor je leerlingen.

‘Waarom heb ik een onvoldoende en hij niet?’

Beoordelen kan heel makkelijk zijn. De uitkomst van een som kan goed of fout zijn. Het wordt al lastiger als de bewerking die leidt tot de uitkomst, ook meetelt in de beoordeling. Een goede bewerking met een slechte uitkomst; welke waarde kennen we hieraan toe? En het wordt nog moeilijker als je een product moet beoordelen waaraan verschillende kenmerken zitten. Een werkstuk voor CKV? Een technisch project bij Bouwtechniek? Nog ingewikkelder wordt het als je een vaardigheid moet beoordelen die veel aspecten heeft en als er veel variatie is in het proces op weg naar een eindproduct. Dat leidt al snel tot niet-consistente oordelen. Taalvaardigheid is zo’n vaardigheid waarin docenten zich erg wisselend kunnen gedragen als het aankomt op beoordelen.

Taal beoordelen: drie feiten die het lastig maken

Het beoordelen van taalvaardigheid is al lang een punt van aandacht. Hoe beoordeel je of iemand de taal goed beheerst? Welke taaltaken onderscheid je? Wat is belangrijk? Welke rol speelt grammatica, en is dat belangrijker dan uitspraak? Om taal te beoordelen heb je meerdere handvatten die allemaal op een of andere manier met elkaar samenhangen.

Je hebt te maken met de voorschriften uit de methode en met taaleisen uit de examensyllabus. Daarnaast wordt sinds enige tijd gewerkt met taalniveaus, zoals de Referentieniveaus voor Nederlands of de CEF- of ERK-niveaus voor moderne vreemde talen. Die niveaus bevatten ‘pakketjes’ aandachtspunten en taaleisen die mede de beoordeling bepalen wanneer je een uitspraak wil doen over het specifieke taalniveau van iemand. Best lastig om al die bronnen samen te brengen.

Een tweede uitdaging is dat je taalproductie niet eenvoudig kunt classificeren als goed of fout. Je hebt te maken met een continuüm: van uitermate gebrekkig naar uitmuntend en alles wat daar tussenin zit. Iedere docent kan beamen dat een taalproduct, zoals een opstel, debat of presentatie, in meer of mindere mate ‘goed’ kan zijn. Daarbij leiden meerdere wegen naar Rome: verschillende taalproducten kunnen uiteindelijk gewaardeerd worden met hetzelfde cijfer.

Helaas bestaat er niet één ultiem beoordelingsmodel dat je in elke beoordelingssituatie uit de kast kunt trekken. Het beoordelen van taal kun je op verschillende manieren benaderen en de keuze voor een passend beoordelingsmodel vraagt het nodige denkwerk.

Variabelen in een beoordelingsmodel

Beoordelen blijft mensenwerk, hoeveel je ook vastlegt in beoordelingsmodellen – die zijn immers ook door mensen ontwikkeld. Maar zoals gezegd, een goed beoordelingsmodel helpt de beoordeling objectiever te maken. In een goed beoordelingsmodel voor taal wordt een aantal variabelen onderscheiden. Ook deze variabelen zou je kunnen zien als (kleine) continuüms: het is geen kwestie van ‘wel’ of ‘niet’ maar van ‘in meerdere mate’ of ‘in mindere mate’.

Laten we deze variabelen toelichten aan de hand van een voorbeeld: de inhoudelijke eisen aan een schrijfopdracht Nederlands op niveau 2F zijn beschreven in het Referentiekader. Je kunt deze eisen terugvinden als de ‘kenmerken van de taakuitvoering’.

Kenmerk van de taakuitvoering	Beschrijving op niveau 2F
Samenhang	Gebruikt veelvoorkomende verbindingswoorden (als, hoewel) correct. De tekst bevat een volgorde; inleiding, kern en slot. Kan alinea’s maken en inhoudelijke verbanden expliciet aangeven. Maakt soms nog onduidelijke verwijzingen en fouten in de structuur van de tekst.
Afstemming op doel	Kan in teksten met een eenvoudige lineaire structuur trouw blijven aan het doel van het schrijfproduct.
Afstemming op publiek	Past het woordgebruik en toon aan het publiek aan.
Woordgebruik en woordenschat	Varieert het woordgebruik, fouten met idiomatische uitdrukkingen komen nog voor.
Spelling, interpunctie en grammatica	Zie niveaubeschrijving Taalverzorging. Vertoont een redelijke grammaticale beheersing.
Leesbaarheid	Gebruikt titel en tekstkopjes. Heeft bij langere teksten (meer dan twee A4) ondersteuning nodig bij aanbrengen van de lay-out.

Figuur 1. Bron: Referentiekader Taal en Rekenen

Variabele 1 - Benadering taalproduct: van holistisch tot analytisch

De benadering van het taalproduct gaat over de manier waarop je naar dat product kijkt. Je kunt besluiten om het schrijfproduct als geheel te beschouwen als wel of geen niveau 2F-product: een holistische benadering. Aan de andere kant van het continuüm bevindt zich de analytische benadering. Hierbij ga je uit van de verschillende elementen binnen het taalniveau. Niveau 2F wordt gedefinieerd door allerlei elementen, zoals samenhang, grammaticale correctheid, leestekengebruik, enzovoort. De kenmerken van de taakuitvoering uit het Referentiekader zijn hier voorbeelden van. Bij een analytische benadering maak je als het ware een optelsom van al die afzonderlijke elementen: je beoordeelt per element of dat voldoet aan de eisen voor 2F. De optelsom van al die afzonderlijke beoordelingen bepaalt uiteindelijk het eindoordeel.

Variabele 2 - Schaalgrootte: van dichotoom tot polytoon

Soms wil je een schrijfproduct afzetten tegen een ‘meetlat’ die verschillende niveaus van schrijfvaardigheid beschrijft. De beschrijvingen uit het Referentiekader vormen zo’n meetlat voor taalniveaus. In het Referentiekader is er bijvoorbeeld een beschrijving van samenhang op niveau 1F tot en met niveau 4F (zie figuur 2). Nu kun je twee dingen doen. Je kunt al deze beschrijvingen opnemen in het beoordelingsmodel en de beoordelaar laten aangeven welke omschrijving het beste past bij het taalproduct van de leerling. Je hanteert dan een polytone schaal: een schaal met meerdere keuzemogelijkheden. Tegenover deze polytone schaal staat een dichotome schaal. Daarbij geef je slechts één niveau of omschrijving als voorbeeld, waarvan de beoordelaar moet aangeven of het taalproduct wel of niet aan die uitwerking voldoet. Als je bijvoorbeeld niveau 2F wilt meten geef je dus alleen de beschrijving van dat niveau.

Variabele 3 - Informatie voor de beoordelaar: van weinig tot veel sturing

Een andere variabele is de mate van sturing van de beoordelaar: krijgt hij veel richtlijnen waarmee hij de beoordeling moet uitvoeren en waaraan het taalproduct moet voldoen? De mate van sturing wordt bepaald door twee elementen: ten eerste de expertise van een beoordelaar. Een ervaren beoordelaar met veel kennis van taalniveaus heeft minder sturing nodig dan een onervaren beoordelaar. Die onervaren beoordelaar kan vanzelfsprekend minder putten uit zijn ervaring.

Het tweede element is wat ongrijpbaarder dan expertise: persoonlijke voorkeur. Sommigen van ons vinden het nu eenmaal fijn om houvast te hebben aan keuzemogelijkheden en voorbeelden, terwijl anderen het spaans benauwd krijgen van zo’n ‘dichtgetimmerd’ model waarin alle stappen zijn voorgestructureerd.

Variabele 4 - Tijdsinvestering van de beoordeling: van minimaal tot groot

De laatste variabele is het aspect tijd: hoeveel tijd kan en mag de beoordelaar eraan besteden? De keuze die je hierin maakt is in principe afhankelijk van de drie aspecten die hiervoor genoemd zijn: hoe gedetailleerder de beoordeling, des te meer tijd deze kost. Over het algemeen doe je langer over een analytische beoordeling dan over een holistische, is scoren met een dichotome schaal sneller dan met een polytone schaal en levert minder sturing meer tijdwinst op.

‘Waarom heb ik een 5,4 en hij een 6,8?’

‘Hoe sneller hoe beter’ gaat helaas niet in elk geval op: als je meer tijd in details moet steken, levert dat ook meer gedetailleerde informatie op. Vanzelfsprekend geldt ook het omgekeerde: wanneer je drie klassen met elk dertig leerlingen moet beoordelen, moet je soms wat pragmatischer te werk gaan.

In het ontwerpen van een beoordelingsmodel spelen de variabelen benadering, schaalgrootte, sturing en tijd dus een belangrijke rol.

	Niveau 1F	Niveau 2F	Niveau 3F	Niveau 4F
Kenmerken van de taakuitvoering
Samenhang	De informatie is zodanig geordend, dat de lezer de gedachtegang gemakkelijk kan volgen en het schrijfdoel bereikt wordt. De meest bekende voegwoorden (en, maar, want, omdat) zijn correct gebruikt, met andere voegwoorden komen nog fouten voor. Fouten met verwijswoorden komen voor. Samenhang in de tekst en binnen samengestelde zinnen is niet altijd duidelijk.	Gebruikt veel voorkomende verbindingswoorden (als, hoewel) correct. De tekst bevat een volgorde: inleiding, kern en slot. Kan alinea’s maken en inhoudelijke verbanden expliciet aangeven. Maakt soms nog onduidelijke verwijzingen en fouten in de structuur van de tekst.	De gedachtelijn is in grote lijnen logisch en consequent met hier en daar een niet hinderlijk zijspoor. Relaties als oorzaak en gevolg, voor- en nadelen, overeenkomst en vergelijking zijn duidelijk aangegeven. Verband tussen zinnen en zinsdelen in samengestelde zinnen is over het algemeen goed aangegeven door het gebruik van juiste verwijs- en verbindingswoorden. Alinea’s zijn verbonden tot een coherent betoog.	Geeft een complete gedachtegang goed en helder weer. Geeft duidelijk aan wat de hoofdzaken zijn en wat ondersteunend is in het betoog. Geeft relevante argumenten voor het betoog inzichtelijk weer. Verwijzingen in de tekst zijn correct. Lange, meervoudig samengestelde zinnen zijn goed te begrijpen.

Figuur 2. Bron: Referentiekader Taal en Rekenen

Kiezen voor aspecten van beoordeling

Welke keuzes maak je bij het ontwerpen van een beoordelingsmodel? Het antwoord op die vraag is afhankelijk van het doel waarmee je toetst en dus beoordeelt. Je kunt leerlingen beoordelen om verschillende redenen: om hun taalontwikkeling in kaart te brengen (diagnose), om te controleren of ze de lesstof begrepen hebben, om onafhankelijk van de methode het taalniveau vast te stellen, om uiteindelijk te kunnen beoordelen hoe groot de kans is dat een leerling slaagt voor het schoolexamen. Kortom: om keuzes te maken in het ontwerp van je beoordelingsmodel moet je eerst bepalen wat je wilt zeggen over het taalniveau 2F van de leerling.

Voorbeelden

Voor verschillende toetssituaties – primair gericht op het meten van taalniveau 2F – zijn verschillende beoordelingsmodellen geschikt. Op www.toetsmagazine.nl (bij Eerder in Toets!) hebben we een aantal modellen geplaatst die van aard verschillen. Zo krijg je een idee op welke manieren je naar taal kunt kijken en wat dat oplevert aan gegevens. Op de website staan de volgende modellen om schrijfvaardigheid te beoordelen: het beoordelingsmodel van een taalportfolio, twee typen beoordelingsmodellen (globaal en meer diagnostisch) uit de TOA (online toetsenbank en leerlingvolgsysteem) en een beoordelingsmodel om schoolexamens mee te beoordelen. Vier modellen waarmee je een oordeel kunt geven over taalvaardigheid in relatie tot taalniveau 2F, ieder op een andere manier.

Tot slot: het beoordelingsmodel en de beoordelaar

Bij het beoordelen van taal is het belangrijk om een passend beoordelingsmodel te hanteren. Maar daarmee alleen is een objectieve beoordeling nog niet gegarandeerd. Zoals eerder al gezegd, is beoordelen nu eenmaal mensenwerk en de beoordelaar moet het model op juiste wijze hanteren.

Heb je vragen over dit thema? Stel ze in de onderwijs community binnen de Wij-leren.nl Academie!