De verleidingen van toegevoegde waarde

Dick van der Wateren

Docent natuurkunde en nlt, edublogger en auteur bij dickvanderwateren.nl

Geplaatst op 1 juni 2015

Er lijkt de laatste tijd in Nederland een gunstiger wind te waaien in het onderwijs, niet in de laatste plaats dankzij de publicatie van ‘Het Alternatief’.

Dat blijkt onder andere uit de woorden van onze minister en staatssecretaris van Onderwijs en de nota Onderwijs 2032 van staatssecretaris Dekker, maar ook uit de notitie Samen Leren, die tot stand kwam in een samenwerking tussen negen onderwijsmensen en vijf kamerleden van de twee regeringspartijen.

Het ziet er dan ook naar uit dat leraren meer zeggenschap krijgen over de inhoud en de praktijk van het onderwijs.

Aan de andere kant zijn er plannen om juist de controle over de onderwijskwaliteit stevig in overheidshanden te houden.

De Onderwijsinspectie onderzoekt hoe leerwinst en toegevoegde waarde kunnen worden gemeten om daarmee scholen verantwoording af te laten leggen. Ruim 30 jaar ervaring met toegevoegde waarde in de VS roepen de vraag op of dat een goed idee is.

Toegevoegde waarde

Het ligt erg voor de hand. Als je als beleidsmaker of bestuurder wilt weten hoe goed een docent is, of een school, kijk je naar de cijfers:

je kijkt hoeveel kinderen overgaan en blijven zitten;
je bekijkt de cijfers op het overgangsrapport;
de Cito-scores;
in- en uitstroom;
aantal geslaagden voor het eindexamen;
gemiddelde examencijfers.

Maar aan die ruwe cijfers zitten allerlei nadelen.

Een betere benadering is meten hoe bij verschillende leraren de cijfers vooruit of achteruit gaan.

Dat is dan de bijdrage van een leraar aan de ontwikkeling van een kind, de ‘toegevoegde waarde’,

en daar kun je zo’n leraar dan op afrekenen. Door toegevoegde waarde te meten denkt de overheid een objectief meetinstrument te hebben waarmee ze de kwaliteit van leraren en scholen kan controleren. Althans, dat wordt aangenomen en dat is de verleiding waaraan beleidsmakers blootstaan.

Economische bril

Ondanks alle positieve geluiden wordt er nog steeds voornamelijk door een economische bril naar het onderwijs gekeken. Zo lezen we in allerlei beleidsnota’s – en tot mijn teleurstelling ook in de eerste versie van ‘Samen Leren’ –

dat het Nederlandse onderwijs tot de beste onderwijssystemen van de wereld moet gaan horen,
dat het onderwijs belangrijk is voor de economische concurrentiepositie op de wereldmarkt,
dat het onderwijs mensen moet voorbereiden op de arbeidsmarkt en belangrijk is voor het Nederlandse bedrijfsleven.

Hoofdstuk 9 van het rapport ‘Naar een lerende economie’ van de Wetenschappelijke Raad voor het Regeringsbeleid begint meteen al goed:

Het verdienvermogen in Nederland is op verschillende manieren afhankelijk van de manier waarop het onderwijs vorm krijgt.

Andere aanwijzingen voor die economische bril zijn bijvoorbeeld:

opbrengstgericht werken;
de sterke nadruk op meetbare prestaties en dan met name in rekenen, wiskunde en taal;
beter scoren op de PISA- en andere ranglijsten.

Het idee ‘levenlang leren’ wordt vaak in een economische context getrokken; ‘life-long learners’ zijn immers de ideale, flexibele werknemers. Maar ook de eis dat er alleen nog excellente leraren en ‘toppers’ voor de klas mogen (‘Samen Leren’) geeft blijk van een economische blik op het onderwijs.

De begrippen leerwinst en toegevoegde waarde zijn ook zulke economische termen die naar het onderwijs zijn overgewaaid. Toegevoegde waarde kwamen we bijvoorbeeld tegen in de scholenonderzoeken door prof. Jaap Dronkers die De Volkskrant jaarlijks publiceerde. Over die scholenlijstjes schreef ik kritischhier en in ‘Het Alternatief’ (van der Wateren, 2013).

Op de site van de Onderwijsinspectie (Pilot Leerwinst en toegevoegde waarde) staat:

Onder toegevoegde waarde verstaan we de bijdrage van de school aan de ontwikkeling (de leerwinst) van leerlingen. Het gaat hierbij dus om dat deel dat met enige zekerheid aan de school kan worden toegeschreven.

Die tweede zin is hierbij cruciaal.

"Het gaat om “enige zekerheid”. Dat is nu precies waardoor toegevoegde waarde in de VS zwaar in diskrediet is geraakt."

Afrekenen

De Onderwijsinspectie ziet twee doelen voor het gebruik van leerwinst en toegevoegde waarde:

het schoolverbeteringsperspectief;
het accountabilityperspectief.

Het eerste veronderstelt dat het bepalen van leerwinst en toegevoegde waarde een hulpmiddel kan zijn voor scholen om zich te verbeteren.

Het tweede veronderstelt dat toegevoegde waarde een eerlijk, betrouwbaar en stabiel hulpmiddel is voor scholen om rekenschap en verantwoording af te leggen (accountability). Aan de hand van ervaringen en wetenschappelijk onderzoek in de VS sinds de jaren ’80 wil ik deze twee veronderstellingen tegen het licht houden.

De Onderwijsinspectie is ervan overtuigd dat een eerlijke beoordeling van leraren en scholen mogelijk is, wanneer gekeken wordt naar toegevoegde waarde, zo blijkt uit het Eindrapport van de pilotstudie leerwinst en toegevoegde waarde in het po (Janssen e.a., 2014):

De Inspectie van het Onderwijs is van mening dat zij, door het betrekken van leerwinst en toegevoegde waarde in de beoordeling van de opbrengsten, een beter beeld krijgt van de bijdrage van de school aan de leerprestaties in het algemeen en aan de leerprestaties van specifieke groepen leerlingen binnen de school in het bijzonder zorgleerlingen of hoogbegaafden. [p. 103]
En:
De beoordeling van de kwaliteit van de leerprestaties wordt een stuk eerlijker als we de prestatiegroei van leerlingen erbij kunnen betrekken en als we zouden kunnen aangeven welke bijdrage de school daaraan heeft geleverd. Met maten voor toegevoegde waarde wordt dat mogelijk. [p. 119]
De Onderwijsinspectie is zich ervan bewust dat

… we in Nederland nog geen ervaring hebben met het gebruik van leerwinst of toegevoegde waarde vanuit het accountabilityperspectief. Daarom heeft de projectgroep in de vorige paragraaf de staatssecretaris voorgesteld voor de verdere ontwikkeling en toepasbaarheid van leerwinst en toegevoegde waarde binnen een accountabilityperspectief een plan te ontwikkelen en daarbij de scholen, de inspectie en de wetenschap te betrekken. [p. 103]

De Inspectie realiseert zich ook dat de mogelijkheden van modellen van toegevoegde waarde hun beperkingen hebben:

Het zou natuurlijk fantastisch zijn als we precies zouden kunnen bepalen welke schoolse factoren de leerwinst hebben veroorzaakt, maar zo ver is de wetenschap niet. Daarvoor zijn de factoren die van invloed zijn op de leerprestaties te complex, te talrijk en lastig te meten. Wat wel mogelijk is, is de invloed van de school statistisch te berekenen door rekening te houden met zoveel mogelijk factoren die de leerwinst kunnen hebben beïnvloed, maar die buiten de invloedssfeer van de school liggen. [p. 12 en 13]

Was het maar zo.

De discussie over value-added models (VAMs), die in de VS is losgebrand en zo langzamerhand bijna op een oorlog lijkt, laat zien dat die laatste bewering op zijn zachtst gezegd optimistisch is.

In Nederland zijn al wat voorzichtig kritische geluiden te horen. Dit zegt de Onderwijsraad in zijn rapport ‘Toegevoegde waarde: een instrument voor onderwijsverbetering – niet voor beoordeling’:

Het bepalen van de ‘leerwinst’ en ‘toegevoegde waarde’ kan waardevol zijn voor een school om het eigen onderwijs te verbeteren, maar is niet geschikt voor een oordeel over de kwaliteit van de school.

Ook al kunnen we bij het eerste deel van deze bewering vraagtekens zetten, dit is een verstandig advies.

AOB-voorzitter Walter Dresscher zegt over toegevoegde waarde in de VS :

Toen daar enkele jaren geleden de inkomsten van scholen, en soms zelfs van leraren, af gingen hangen van de leerwinst of toegevoegde waarde, werd er op grote schaal gefraudeerd met toetsen en resultaten. Het gebeurde zo vaak en zo ingrijpend, dat verschillende schoolbestuurders werden vervolgd, tonnen boete kregen of gevangenisstraffen oplopend tot drie jaar hoorden eisen. De meetmethoden waren los daarvan zo gecompliceerd, dat uiteindelijk niet was uit te leggen aan ouders waarom de ene school een betere beoordeling kreeg dan de andere.
Desondanks waait deze totaal mislukte gedachte nu met vertraging de oceaan over, constateert Dresscher.
En:
Politici hebben een nieuwe soort maakbaarheidsideaal gevonden. Wanneer we leerlingen suftoetsen, denken zij, kunnen we daarna precies berekenen hoe de school presteert. En vervolgens afrekenen, door meer of minder geld te geven. Een heilloze weg. Het onderwijs is te complex om op zo’n smalle basis te worden beoordeeld, zoals de onderwijsraad terecht constateert.

Dat zijn hoopvolle geluiden vanuit invloedrijke hoek. Of staatssecretaris Dekker daar serieus naar luistert moet nog blijken.

Inmiddels is er een lange lijst van wetenschappelijke publicaties, die nu juist laten zien dat het niet mogelijk is bij de berekening van toegevoegde waarde z.g. buitenschoolse factoren statistisch uit te filteren. Zie de publicatielijst op de blog VAMboozled van de Amerikaanse hoogleraar Audrey Amrein-Beardsley.

Invloed van leraren

Het is opvallend dat het Inspectierapport nauwelijks onderzoek bespreekt dat laat zien dat buitenschoolse factoren voor het overgrote deel de prestaties van leerlingen (en daarmee de leerwinst en toegevoegde waarde) bepalen. In het eerste deel van het rapport van de Onderwijsinspectie worden weliswaar enkele critici van toegevoegde-waarde modellen geciteerd (de belangrijkste overigens niet), maar daar worden verder geen consequenties aan verbonden.

Dit jaar verscheen een standpuntverklaring van de American Statistical Association (ASA, 2014) waarin deze beroepsorganisatie waarschuwt voor lichtzinnig gebruik van value-added models. Uit talloze onderzoeken naar VAMs blijkt volgens de ASA dat slechts 1-14% van de resultaten van standaardtests kan worden toegeschreven aan de bijdrage van leraren (teacher effect). Binnen school komen daar nog factoren bij als klassengrootte, leermiddelen en schoolbudget. De rest komt voor rekening van buitenschoolse factoren, waarop de school noch de leraren invloed hebben.

Al bijna 50 jaar geleden noemde de ‘Coleman Study’ (Coleman, 1966)

de sociaal-economische status van de gezinnen van de leerlingen inclusief opleiding van de ouders als veruit de belangrijkste van die factoren;
daarnaast speelt de opvatting van de ouders over het belang van onderwijs een rol;
gezinsstabiliteit;
beschikbaarheid van boeken;
aanwezigheid van technologie zoals computers;
kwaliteit van de gezondheid en voeding;
toegang tot kunst, cultuur en reizen enz.

Met toenemende leeftijd komen daar nog de contacten bij met leeftijdsgenoten en volwassenen buiten het gezin.

Die buitenschoolse factoren verklaren volgens de ASA dus minstens 86% van de schoolresultaten van de leerlingen.

Dat betekent overigens niet dat leraren er niet toe doen. Denk maar aan onze leraren van vroeger. Hun invloed op ons leven, die ons geholpen heeft te worden wie we nu zijn, zit vooral in onmeetbare factoren, die niet statistisch kunnen worden bepaald. Maar ook dat effect valt in het niet bij de invloeden van ouders, familie en vrienden.

Tot nu toe is nog geen van de bestaande toegevoegde-waardemodellen in staat gebleken om volledig te corrigeren voor sociaal-economische status en andere buitenschoolse factoren. Zouden ze dat wel kunnen, dan zouden de verschillen tussen scholen en leraren (op een enkele uitzondering na) marginaal zijn. Daarmee zou de zin van deze ingrijpende en kostbare operatie wegvallen.

Andere onderzoeken, die grote vraagtekens zetten bij de meestgebruikte toegevoegde waarde modellen ontbreken eveneens, zoals die van Goldhaber e.a. (2013) met de veelzeggende ondertitel ‘Different models, different answers?’ of een wat oudere van Papay (2010) getiteld ‘Different tests, different answers: The stability of teacher value-added estimates across outcome measures’.

Het beeld dat uit die onderzoeken oprijst is dat de beoordeling van scholen en leraren sterk afhankelijk is van het gebruikte model. Leraren die volgens het ene model als voldoende, of zelfs goed, worden beoordeeld, blijken volgens het andere model onvoldoende te functioneren (zie bijv. Rothstein, 2010 en dezeblog van Bruce Baker uit 2012). Zulke kritische geluiden missen we in het rapport van de Onderwijsinspectie.

Dat zien we vaker in de discussie rond VAMs. Partijen die een belang hebben bij invoering van gestandaardiseerde testen en toegevoegde waarde modellen – in de VS vaak commerciële partijen, in dit geval de Onderwijsinspectie – springen heel selectief om met hun bronnen. Terwijl het bewijsmateriaal over de beperkte betrouwbaarheid, validiteit en stabiliteit van VAMs zich opstapelt, gaat men onbekommerd voort op de rampzalige weg van standaardtoetsen, toegevoegde waarde berekenen, scholen en leraren beoordelen, publiekelijknaming and shaming van de ‘rotte appels’, tot ontslag en sluiting van scholen.

Slechte maat voor onderwijskwaliteit

De nieuwe onderwijswind in Den Haag heeft bij mij nog niet de zorg weggewaaid dat we het voorbeeld van de VS zullen volgen bij het beoordelen van leraren en scholen. De Onderwijsinspectie is er blijkbaar van gecharmeerd en ook Sander Dekker lijkt erin te geloven.

Voor de internationale versie van Het Alternatief heb ik samen met Audrey Amrein-Beardsley een bijdrage geschreven over value-added models. Zij is auteur van een kritische studie over VAMs die dit jaar verschenen is (Amrein-Beardsley, 2014).

In ons gezamenlijke stuk vatten we de belangrijkste bezwaren tegen VAMs samen. Die baseren we op onderzoeken door onderwijswetenschappers, statistici, wiskundigen, toetsontwikkelaars en zelfs economen en econometristen, die we vaker horen als enthousiaste voorstanders van VAMs.

Kort samengevat, VAMs of toegevoegde-waardemodellen zijn:

onbetrouwbaar. Bijvoorbeeld een leraar die het ene jaar waarde lijkt toe te voegen, heeft 25 tot 50% kans dat het volgende jaar zijn/haar toegevoegde waarde negatief is. Dat is nauwelijks beter dan kruis-of-munt gooien.
niet valide. Er zijn weinig aanwijzingen dat leraren met hoge toegevoegde-waardescores inderdaad effectief zijn, wanneer gekeken wordt naar minstens een ander onafhankelijk criterium. Met andere woorden, het is de vraag of toegevoegde waarde meet wat het moet meten.
onzuiver. Bijvoorbeeld leraren van bepaalde leerlingen die niet willekeurig verdeeld zijn over klassen laten minder vaak groei zien. Denk aan kinderen met leer- en gedragsproblemen, die worden toegewezen aan de meest ervaren leerkracht.
oneerlijk. Toegevoegde-waardemodellen beoordelen alleen de resultaten voor een beperkt aantal vakken, in de VS rekenen/wiskunde en taal. In het basisonderwijs wordt zo een heel eenzijdig beeld gegeven van de kwaliteiten van een leraar. In het voortgezet onderwijs wordt de toegevoegde waarde van maar een deel van de docenten gemeten, terwijl de hele school erop wordt afgerekend.
gevoelig voor fouten. Vaak ontbreken data, variabelen kunnen niet worden gecontroleerd, de data bevatten meetfouten. Daardoor zijn deze modellen ongeschikt voor summatieve beoordeling.
ontransparant. De ingewikkeldheid van de statistische modellen, waarmee toegevoegde waarde wordt berekend, maakt ze ongeschikt voor formatief gebruik. Slechts een handjevol gespecialiseerde statistici is in staat de data en de berekeningen te beoordelen. De gemiddelde leraar en schoolleider kan onmogelijk bepalen of het oordeel over de school juist berekend is en tast daarmee in het duister over wat verbeterd moet worden.
een slechte basis voor ingrijpende beslissingen, zoals prestatiebeloning of ontslag, sluiting van scholen. Het zal in Nederland misschien niet zo’n vaart lopen als in de VS, waar op verkeerde gronden leraren worden ontslagen en scholen van de ene op de andere dag worden gesloten, maar ook hier is het risico op foute beslissingen groot. Daarnaast hebben VAMs
onbedoelde effecten, zoals leraren die weigeren in klassen les te geven waar meting van toegevoegde waarde de grootste consequenties heeft, leraren die uit frustratie het onderwijs verlaten, leraren die weigeren les te geven aan leerlingen die een risico zijn voor de toegevoegde-waardescore, fraude bij het afnemen van de tests enz.

Enkele van deze bezwaren komen ook wel aan de orde in het rapport van de Onderwijsinspectie, maar de voor de hand liggende conclusie, dat toegevoegde waarde een doodlopende weg is, wordt niet getrokken. De aanbeveling in het rapport om in Nederland verder onderzoek te doen om de bestaande modellen te verbeteren komt tamelijk naïef over.

Uit, nogmaals, overvloedig wetenschappelijk bewijsmateriaal in de VS en elders blijkt dat toegevoegde-waardemodellen ongeschikt zijn voor het doel waarvoor ze zijn ontworpen. Bovendien maken die het nodig dat leerlingen nog vaker onderworpen aan standaardtoetsen (bijv. Cito) dan nu al het geval is. Het rapport noemt zelfs halfjaarlijkse evaluaties (pag. 80, 81).

De ervaringen in de VS laten zien dat blindelings toepassen van toegevoegde-waardemodellen rampzalige gevolgen kan hebben, voor scholen, individuele leraren en daarmee uiteindelijk voor de leerlingen. Laten we van die ervaringen leren.

Alternatief

Invoering van toegevoegde-waardemodellen in het Nederlandse onderwijs — in welke vorm en voor welk doel dan ook — kan alleen plaatsvinden in nauwe samenwerking met degenen die door die modellen worden beoordeeld.

In een volgend stuk wil ik een alternatief voorstel doen voor een beoordelingssysteem van leraren en scholen, gebaseerd op degelijk wetenschappelijk onderzoek, dat betrouwbaarder, transparanter en eerlijker is dan een systeem gebaseerd op toegevoegde waarde.

Bronnen

American Statistical Association (ASA) (2014). ASA Statement on Using Value-Added Models for Educational Assessment. https://www.amstat.org/policy/pdfs/ASA_VAM_Statement.pdf
Audrey Amrein-Beardsley (2014). Rethinking Value-Added Models in Education: Critical Perspectives on Tests and Assessment-Based Accountability. New York: Routledge.
James S. Coleman (1966). Equality of Educational Opportunity (COLEMAN) Study (EEOS). ICPSR06389-v3. Ann Arbor, MI: Inter-university Consortium for Political and Social Research [distributor], 2007-04 27. http://doi.org/10.3886/ICPSR06389.v3
John Ewing (2011). Mathematical Intimidation: Driven by the Data. Notices of the American Mathematics Society, vol. 667, nr 5: 667-673. http://www.ams.org/notices/201105/rtx110500667p.pdf
Goldhaber, D. D., Goldschmidt, P., & Tseng, F. (2013). Teacher value-added at the high-school level: Different models, different answers? Educational Evaluation and Policy Analysis, 35(2), 220-236. doi:10.3102/0162373712466938 http://vamboozled.com/wp-content/uploads/2014/03/Goldhaber_EEPA_2013.pdf
Frans J.G. Janssens, Lyset Rekers-Mombarg, Ellen Lacor (2014). Leerwinst en toegevoegde waarde in het primair onderwijs. Eindrapportage. Inspectie van het Onderwijs, Ministerie van Onderwijs, Cultuur en Wetenschap. http://www.rijksoverheid.nl/documenten-en-publicaties/rapporten/2014/01/30/leerwinst-en-toegevoegde-waarde-in-het-primair-onderwijs.html
René Kneyber en Jelmer Evers (2013). Het Alternatief: Weg met de afrekencultuur in het onderwijs!, uitgeverij Boom, Amsterdam.
Los Angeles Times (2011). Los Angeles Teacher Ratings. http://projects.latimes.com/value-added/
McCaffrey, D.F., J.R. Lockwood, D. Koretz, T.A. Louis en L. Hamilton (2004). Models for Value-Added Modeling of Teacher Effects, Journal of Educational and Behavioral Statistics, jg. 29, nr. 1, 67-101.
Onderwijsraad (2014). Toegevoegde waarde: een instrument voor onderwijsverbetering – niet voor beoordeling. Den Haag. Onderwijsraad, 48 pag. ISBN 978-94-6121-000-5. http://www.onderwijsraad.nl/publicaties/2014/toegevoegde-waarde/volledig/item7108
Papay, J. P. (2010). Different tests, different answers: The stability of teacher value-added estimates across outcome measures. American Educational Research Journal, 48(1), 163-193. doi:10.3102/0002831210362589 http://vamboozled.com/wp-content/uploads/2014/03/Papay_AERJ_2011.pdf
Rothstein, J. (2011). Review of “Learning About Teaching: Initial Findings from the Measures of Effective Teaching Project.” Boulder, CO: National Education Policy Center. Retrieved [date] from http://nepc.colorado.edu/thinktank/review-learning-about-teaching.
Dick van der Wateren (2013). Zin en onzin van testen, vergelijken en afrekenen. In: René Kneyber en Jelmer Evers, red. Het Alternatief – Weg met de afrekencultuur in het onderwijs! Amsterdam. Uitg. Boom.
Dick van der Wateren & Audrey Amrein-Beardsley (2015, in druk). Sense and Nonsense of Testing and Accountability. In: René Kneyber & Jelmer Evers (red.) The Alternative (voorlopige titel). New York: Routledge.
WRR (2013). Naar een lerende economie. Investeren in het verdienvermogen van Nederland. WRR-Raport 90. Amsterdam University Press, 440 pag.www.wrr.nl/fileadmin/nl/publicaties/PDF-Rapporten/2013-11-01__WRR_Naar_een_lerende_economie.pdf