Wat is het effect van het gebruik van woorden als voldoende op een schoolrapport in plaats van cijfers bij leerlingen in het basisonderwijs?
Geplaatst op 11 januari 2021
Experts zijn behoorlijk eensgezind: het maakt niet uit of een leerkracht in een schoolrapport cijfers of woorden als ‘voldoende’ of ‘ruim voldoende’ gebruikt. Het gaat erom dat de rapportage begrijpelijk is en dat de leerling weet hoe hij zijn leren kan verbeteren. Daarvoor heeft hij een duidelijk beeld nodig van de kwaliteit van zijn werk. Een dialoog tussen leraar en leerlingen over kwaliteit kan bijdragen aan een versterking van dit beeld. Onderzoek naar het effect op leerlingen van cijfers of woorden als rapportageschaal is nauwelijks gedaan.
In het Nederlandse onderwijs gebruiken leraren voor het rapporteren van prestaties van leerlingen veelal de cijferschaal van 1 tot en met 10, waarbij een 6 als voldoende geldt. Op veel basisscholen is echter een rapportage in letters of woorden gebruikelijk, zoals o (onvoldoende), m (matig), v (voldoende), rv (ruim voldoende) en g (goed).
Cijfers en woorden komen grotendeels op hetzelfde neer
Bij gebrek aan onderzoek zijn experts benaderd om hun visie te geven op cijfers en woorden in schoolrapporten. Die visie valt kort samen te vatten: cijfers en letters doen beide een uitspraak over of iets goed, voldoende of minder goed is. Beide systemen verschillen alleen in het label – bijvoorbeeld een 7 of ruim voldoende – en in het aantal punten in de rapportageschaal. Geen van de verschillende rapportageschalen is principieel beter of slechter dan de andere.
Verscheidene experts benoemen dat cijfers of letters als enige vorm van labelen te weinig informatief zijn. Het label geeft het prestatieniveau aan, maar biedt leerlingen geen inzicht hoe ze hun leren kunnen verbeteren. Labels hebben volgens sommige experts mogelijk zelfs negatieve effecten. Cijfers kunnen stigmatiseren en lage cijfers demotiveren. Het onderwijs doet er in die gevallen goed aan om bij een onvoldoende prestatie geen lager cijfer te geven dan een 5.
Dialoog tussen leerkracht en leerlingen over kwaliteit
Een rapportage moet voor leerlingen (en hun ouders) duidelijkheid geven over hun prestatie. Alleen een cijfer of woord geeft leerlingen echter geen inzicht hoe ze hun leren kunnen verbeteren. Daarvoor is het belangrijk dat ze een duidelijk beeld hebben van wat kwaliteit over hun werk inhoudt. Een effectieve manier om dat beeld helder te krijgen, is een dialoog over kwaliteit tussen de leerkracht en de leerlingen. De leerkracht gaat met de leerlingen in discussie over ‘hoe succes eruit ziet’ en zorgt voor verhelderende voorbeelden van bijvoorbeeld werkstukken van verschillende kwaliteitsniveaus. Ook peer assessment kan bijdragen aan een beter beeld bij leerlingen van wat kwaliteit inhoudt.
Rubrics kunnen helpen de dialoog over kwaliteit aan te gaan, zeker als de leerlingen samen met de leerkracht de rubric opstellen. Een rubric bestaat uit criteria voor de beoordeling van een prestatie en verschillende niveaus waarop deze criteria zijn beschreven. Het is echter niet bekend of een complexe cognitieve prestatie is te vangen in van tevoren opgestelde en uniform toegepaste evaluatiecriteria. Bovendien nemen rubrics de negatieve effecten van cijfers of andere labels niet weg. Wanneer de leerkracht de rubric inzet voor formatieve doeleinden, dan kan een cijfer achterwege blijven, waardoor de hieraan verbonden nadelen wegvallen.
Uitgebreide beantwoording
Opgesteld door: Edwin Buijs
Vraagsteller: leerkracht basisonderwijs
Geraadpleegde expert(s): Anton Béguin van Cito, Jacques Dane van het Nationaal Onderwijsmuseum, Gerdineke van Silfhout en Bas Trimbos van Stichting Leerplanontwikkeling (SLO), Ben Wilbrink
Vraag
Wat is het effect van het gebruik van letters/woorden als ‘voldoende’ en ‘ruim voldoende’ op een schoolrapport in plaats van cijfers bij leerlingen in het basisonderwijs?
Kort antwoord
Er is niet tot nauwelijks onderzoek verricht rond de vraag of een rapportageschaal met letters/woorden als ‘voldoende’ en ‘ruim voldoende’ een ander effect op leerlingen heeft dan een rapportageschaal met cijfers. Experts die gevraagd zijn om hun visie op dit vraagstuk zijn behoorlijk eensgezind in de opvatting dat het gebruik van cijfers en letters niet (veel) van elkaar verschilt. De kern van de rapportageschaal is dat deze begrijpelijk is in de communicatie over prestaties. Daarnaast is het belangrijk dat voor de leerling duidelijk is hoe hij zijn leren kan verbeteren en daarvoor heeft hij een duidelijk beeld nodig van wat kwaliteit m.b.t. zijn werk inhoudt; een dialoog tussen leraar en leerlingen over kwaliteit en het aanreiken van voorbeelden kan bijdragen aan een versterking van dit beeld.
Toelichting antwoord
Verschillende rapportageschalen
Er zijn wereldwijd verschillende rapportageschalen in gebruik. Zo wordt in Duitsland een cijferschaal gebruikt van 6 (slecht), via 4 (voldoende) naar 1 (zeer goed) en in de Verenigde Staten een schaal met letters van F (sterk onvoldoende), via C (voldoende) naar A (uitmuntend) (Sanders, 2011). In Nederland wordt voor het rapporteren van prestaties van leerlingen veelal de cijferschaal van 1 tot en met 10 gebruikt, waarbij een 6 (doorgaans) als voldoende wordt gerekend. Op veel basisscholen is echter een rapportageschaal met letters/woorden gebruikelijk; zoals o (onvoldoende), m (matig), v (voldoende), rv (ruim voldoende) en g (goed).
Historisch gezien bestaat er ook een koppeling tussen cijfers en letters/woorden, waarbij bijvoorbeeld een 1 correspondeert met zeer slecht, een 5 met onvoldoende, een 6 met voldoende en een 10 met uitmuntend (Sanders, 2011). Zie Tabel 1 voor een volledig overzicht van de betekenis van de cijfers, zoals in 1929 vastgesteld.
Betekenis cijfers
10 |
uitmuntend |
9 |
zeer goed |
8 |
goed |
7 |
ruim voldoende |
6 |
voldoende |
5 |
onvoldoende |
4 |
sterk onvoldoende |
3 |
zeer sterk onvoldoende |
2 |
slecht |
1 |
zeer slecht |
Tabel 1: Bron: Sanders (2011)
Cijfers en letters komen grotendeels op hetzelfde neer
Er is nauwelijks onderzoek verricht naar de effecten van het gebruik van verschillende rapportageschalen in het onderwijs. Daarom zijn verscheidene experts benaderd om hun visie op dit vraagstuk uiteen te zetten. De experts zijn behoorlijk eensgezind in de opvatting dat het gebruik van cijfers en letters niet (veel) van elkaar verschilt; dit gaat ook op voor andere labels die gebruikt kunnen worden, zoals kleuren of termen als zon, maan, raket en ster.
Gerdineke van Silfhout en Bas Trimbos van Stichting Leerplanontwikkeling (SLO) (persoonlijke communicatie per e-mail, maart en april, 2020) geven aan dat cijfers en letters dezelfde functie hebben: zij doen beide een uitspraak over of iets goed, voldoende of minder goed is. Beide systemen verschillen alleen in het label dat gegeven wordt (bijvoorbeeld een ‘7’ of ‘ruim voldoende’) en in het aantal punten in de rapportageschaal. Anton Béguin van Cito (persoonlijke communicatie per e-mail, maart, 2020) en psycholoog-onderwijsonderzoeker Ben Wilbrink (persoonlijke communicatie per e-mail, maart en april, 2020) geven eveneens aan dat geen van de verschillende rapportageschalen noodzakelijk beter of slechter is dan de andere.
Verscheidene experts benoemen dat zowel cijfers als letters, als enige andere vorm van labelen tekortschieten. Ben Wilbrink, Gerdineke van Silfhout en Bas Trimbos geven aan dat zij te weinig informatief zijn. Zij geven het prestatieniveau aan, maar bieden leerlingen te weinig informatie over waar zij heen moeten, waar ze staan en hoé ze hun leren kunnen verbeteren. Elk cijfer heeft een verhaal nodig en kwaliteit is niet te vatten in een letter, cijfer of kleur. Dat cijfers (of andere labels) zo weinig informatief zijn kan volgens Ben Wilbrink worden verklaard vanuit de ontstaansgeschiedenis van het cijfergeven uit het eeuwenlang in zwang zijnde rangordenen van (prestaties van) leerlingen (zie ook Wilbrink, 1997)
Cijfers, letters en andere labels schieten op zichzelf niet alleen tekort, maar kunnen zelfs negatieve effecten hebben. Anton Béguin wijst erop dat regelmatig wordt benoemd dat cijfers kunnen stigmatiseren en dat lage cijfers kunnen demotiveren. Zie voor meer informatie over het negatieve effect dat cijfers kunnen hebben op (intrinsieke) motivatie bijvoorbeeld Kennisrotonde (2016). Echter, alternatieven voor cijfers of letters die gebruikt worden, bijvoorbeeld in de vorm van figuren (zoals zon, maan, raket en ster), blijken volgens Anton Béguin in de praktijk tot dezelfde demotivatie en stigmatisering te kunnen leiden.
Deze aspecten kunnen hooguit tijdelijk worden doorbroken door in andere termen te rapporteren; zodra leerlingen, docenten en ouders de nieuwe vorm van rapporteren ‘snappen’, steken dezelfde kwesties als die er met cijfers waren weer de kop op. Ook Ben Wilbrink attendeert op het demotiverende effect dat uit kan gaan van lage cijfers. Hij acht de Nederlandse traditie om bij het gebruik van cijfers heel diep te gaan waar het om onvoldoende presteren gaat (de cijfers 1 t/m 5) buitengewoon schadelijk. Omdat (hele) lage cijfers moeilijk te compenseren zijn, zouden leerlingen met veel lage cijfers worden ontmoedigd om hun best te doen.
Of men nu cijfers gebruikt of letters, zou men er daarom in ieder geval goed aan doen om het aantal punten in de rapportageschaal dat voor een onvoldoende prestatie staat te beperken, bijvoorbeeld door geen lagere cijfers te geven dan een 5. Gelet op hoe de letterschaal doorgaans in het Nederlandse basisonderwijs wordt gebruikt, met maar één schaalpunt voor onvoldoende, voldoet deze hieraan.
Enkele benaderde experts verwijzen m.b.t. deze kwestie ook naar het werk van De Groot (1966): Vijven en zessen. Cijfers en beslissingen: het selectieproces in ons onderwijs. In deze veelbesproken publicatie werd de dominante cijfercultuur in het Nederlandse onderwijssysteem bekritiseerd. Cijfers zouden ten onrechte zijn ‘gepromoveerd tot volstrekt onaantastbare, naar eer en geweten gegeven beoordelingen in een absolute schaal, beoordelingen die niet anders hadden kúnnen zijn.’ (Dane, 2014, p.45). Een beoordelingssysteem dat gebaseerd is op lettergraden komt ook in de ogen van De Groot (1966, p.26) echter op hetzelfde neer als een beoordelingssysteem dat gebaseerd is op getallen.
Over het aantal punten dat het beste gebruikt zou kunnen worden in een rapportageschaal bestaan verschillende opvattingen. Jacques Dane van het Nationaal Onderwijsmuseum (persoonlijke communicatie per e-mail, maart, 2020) geeft aan dat een vijfpuntsschaal met letters in Nederland soms als nadelig wordt gezien, omdat je hiermee niet zo snel vooruitgang bij een leerling kan meten. Bij een cijferschoolrapport dat van 1 tot 10 gaat, zie je al vooruitgang bij een half puntje meer. Volgens Dane zijn er pedagogen en onderwijspsychologen die van opvatting zijn dat dit stimulerend kan werken bij leerlingen; ze gaan dan wellicht beter hun best doen als er vooruitgang is. Er zijn echter ook onderzoekers die pleiten voor juist minder punten in een rapportageschaal. Zo pleiten Robins et al. (1995) en White en Fantone (2010) voor het gebruik van een rapportageschaal met twee punten: geslaagd of gezakt. Een rapportageschaal met meerdere punten zou volgens White en Fantone (2010) een extrinsieke motivatie stimuleren, en van extrinsieke motivatie is bekend dat deze een negatief effect kan hebben op intrinsieke motivatie (Kennisrotonde, 2016).
Wat ertoe doet: duidelijke communicatie over prestaties en dialoog over kwaliteit
De kern van een rapportageschaal is dat deze begrijpelijk is in de communicatie over prestaties (Downing, 2006). Het moet voor een leerling (en diens ouders) duidelijk zijn wat zijn prestatie is geweest. Met andere woorden: het moet voor een leerling duidelijk zijn ‘waar hij staat’. Brookhart et al. (2016) beschrijven de geschiedenis van het gebruik van cijfers/letters in de Verenigde Staten. Zij gaan hierbij onder meer in op het feit dat het in de 19e eeuw voor leraren nog gebruikelijk was om ouders (eerst mondeling en later schriftelijk) in verhalende vorm op de hoogte te houden van hoe hun kind presteerde op vaardigheden als lezen en rekenen.
Omwille van de efficiëntie gingen scholen in de loop van de 20e eeuw steeds meer over op het gebruik van percentages om de prestaties van leerlingen uit te drukken. Volgens Brookhart et al. (2016) kan worden betoogd dat deze verandering de communicatie over wat leerlingen kennen en kunnen niet ten goede is gekomen. Bovenstaande in combinatie met de eerdere constateringen van de experts over de tekortkomingen van cijfers, letters en andere labels, kunnen worden gezien als argumenten voor een andere manier van rapporteren, namelijk het woordrapport (zie ook Kohn, 2011).
Het moet voor de leerling duidelijk zijn hoe hij zijn leren kan verbeteren en daarvoor is het belangrijk dat hij een duidelijk beeld heeft van wat kwaliteit m.b.t. zijn werk inhoudt (Sadler, 1989). Om dit te bereiken is volgens Gerdineke van Silfhout en Bas Trimbos een dialoog over kwaliteit van belang. De leraar moet samen met de leerlingen in discussie gaan over ‘hoe succes eruit ziet’ en voor verhelderende voorbeelden zorgen. Naast het tonen van voorbeelden van bijvoorbeeld werkstukken van verschillende kwaliteitsniveaus, kan volgens Sadler (2002) ook peer assessment bijdragen aan een beter beeld bij studenten (of leerlingen) van wat kwaliteit inhoudt.
Rubrics zouden kunnen helpen in de dialoog met leerlingen over kwaliteit (Panadero & Jonsson, 2020), zeker als de rubric gezamenlijk wordt opgesteld en/of aangescherpt. Zo kan men met een rubric bijvoorbeeld aan de hand van drie of vier schalen (vaak met letters o/v/g) de kwaliteit formuleren. Zie voor meer informatie over de rubric als rapportvorm Kennisrotonde (2017). Echter is het, zelfs als het cijfer (of de letter, de kleur, etc.) tot stand is gekomen met behulp van een rubric, nog steeds de vraag in hoeverre kwaliteit in deze vorm is weer te geven (Kohn, 2011; Van der Schoot, 2020). Van der Schoot (2020) plaatst bijvoorbeeld kanttekeningen bij het idee dat de kwaliteit van een product of prestatie gelijk kan worden gesteld aan de optelsom van de kwaliteit van de onderdelen waar het uit bestaat; ook trekt hij in twijfel of een complexe cognitieve prestatie überhaupt te vangen is in van tevoren opgestelde en uniform toegepaste evaluatiecriteria.
Bovendien neemt het gebruik van rubrics volgens Kohn (2006, 2011) de negatieve effecten van het gebruik van cijfers (of andere labels) niet weg. Als de rubric echter niet voor summatieve doelen (zoals een eindbeoordeling) maar voor formatieve doelen (het verbeteren van het leerproces) wordt gebruikt, kan een cijfer of ander label achterwege worden gelaten, waardoor de nadelen die hieraan verbonden zijn weg worden genomen (Panadero & Jonsson, 2020).
Geraadpleegde bronnen
- Brookhart, S., Guskey, T., Bowers, A., McMillan, J., Smith, J., Smith, L., Stevens, M., & Welsh, M. (2016). A Century of Grading Research: Meaning and Value in the Most Common Educational Measure. Review of Educational Research, 86(4), 803-848.
- Dane, J. (2014). Een 5 voor vlijt. Toets! Magazine, 3, 44-45.
- Downing, S.M. (2006). Twelve steps for effective test development. In S.M. Downing & T.M. Haladyna (Eds.) Handbook of test development (pp. 3-25). Mahwah, NJ: Lawrence Erlbaum Associates.
- Groot, A.D. de (1966). Vijven en zessen. Cijfers en beslissingen: het selectieproces in ons onderwijs. Groningen: Wolters.
- Kennisrotonde (2016). Wat is het effect van cijfers (of studiepunten) op de motivatie van studenten? Kan het geven van feedback de motivatie en leerresultaten van studenten positief beïnvloeden en wat is effectieve feedback? (KR.089) Den Haag: NRO.
- Kennisrotonde (2017). Waarin verschillen rapportvormen in het inzicht dat zij geven in de ontwikkeling van kennis en vaardigheden van leerlingen in het basisonderwijs? (KR. 153). Den Haag: NRO.
- Kohn, A. (2006). The trouble with rubrics. The English Journal, 95(4), 12-15.
- Kohn, A. (2011, november). The Case Against Grades. Geraadpleegd op 2 april 2020
- Panadero, E. & Jonsson, A. (2020). A critical review of the arguments against the use of rubrics. Educational Research Review, 30.
- Robins, L., Fantone, J., Oh, M., Alexander, G., Shlafer, M., & Davis, W.K. (1995). The effect of pass-fail grading and weekly quizzes on first-year students’ performances and satisfaction. Academic Medicine, 70(4), 327–329.
- Sadler, D. R. (1989). Formative assessment and the design of instructional systems. Instructional Science, 18, 119–144.
- Sadler, D.R. (2002). Ah! … So That’s ‘Quality’. In P. Schwartz & G. Webb (Eds). Assessment: Case studies, experience and practice from higher education (Chap. 16, 130-136). London: Kogan Page.
- Sanders, P. (2011). Toetsen op school. Arnhem: Cito.
- Schoot, M. van der (2020, 10 februari). Een scriptiebeoordeling past niet in een schema. Geraadpleegd op 2 april 2020.
- White, C.B., & Fantone, J.C. (2009). Pass–fail grading: laying the foundation for self-regulated learning. Advances in Health Sciences Education, 15(4), 469–477.
- Wilbrink, B. (1997). Assessment in historical perspective. Studies in Educational Evaluation, 23(1), 31-48.
Heb je vragen over dit thema? Stel ze in de onderwijs community binnen de Wij-leren.nl Academie!
Gerelateerd

Medilex Onderwijs


oo.nl


Augeo

.png)
Uitgeverij Ten Brink


ANWB


Voedingscentrum


Wij-leren.nl Academie


































