Groep 1 en 2: wijzen gestandaardiseerde toetsen de weg?

Geplaatst op 1 mei 2018

Samenvatting

Kleutertoetsen kunnen het beheersingsniveau van cognitieve vaardigheden helpen vast te stellen. Maar het eigen oordeel van de leerkracht over de leerprestaties en de cognitieve ontwikkeling lijkt daarnaast ook belangrijk.
Het is niet eenvoudig om de betrouwbaarheid van de toetsafname bij jonge kinderen te garanderen. Kleutertoetsen blijken een matige voorspellende waarde te hebben voor leerprestaties op het gebied van cognitieve vaardigheden. De voorspellende waarde voor rekenen is groter dan voor taalvaardigheid. En de voorspellende waarde van de cognitieve toetsen is groter als er sprake is van subjectieve beoordeling.

Een toets neem je af om te onderzoeken in welke mate iemand iets weet of kan. Dat kan op verschillende manieren. Bijvoorbeeld met observatie of met toetsen. Bij toetsen kun je gebruik maken van methode-afhankelijke of methode-onafhankelijke toetsen. Methode-afhankelijke toetsen laten zien in hoeverre de leerinhouden beklijven die in de lessen aan bod zijn geweest. Bij methode-onafhankelijke of gestandaardiseerde toetsen gaat het om het beheersingsniveau van kennis of vaardigheden.

De resultaten kunnen worden vergeleken met de gemiddelde prestaties van een groep. Ook kan groei over een langere periode worden vastgesteld. Zo’n methode-onafhankelijk toets is de zogenoemde kleutertoets, die beginnende geletterdheid en rekenvaardigheid meet.

Betrouwbaarheid van toetsen

Om iets te kunnen zeggen over de vaardigheden van de leerling, moet een toets betrouwbaar en nauwkeurig zijn. Dus als we dezelfde vaardigheid twee keer met hetzelfde instrument meten, moeten we twee keer dezelfde uitkomst krijgen.
Onderzoek laat zien dat er bij meerdere afnames van een toets voor motorische en communicatievaardigheden bij jonge kinderen veel variatie in toetsscores is. Ook kan de score per dag verschillen doordat kinderen snel afgeleid zijn.

Daarnaast kunnen kleuters nog niet lezen en hebben ze een korte aandachtspanne. En ze kunnen onverwacht reageren op toetsvragen, bijvoorbeeld door het mooiste plaatje te onderstrepen, in plaats van juiste antwoord. Dit zou kunnen betekenen dat de toetsing niet betrouwbaar was. Pas vanaf 6 jaar wordt het beter mogelijk om leerlingen betrouwbaar te toetsen.

Validiteit van toetsen

Een tweede aspect bij het meten van vaardigheden betreft validiteit. Validiteit heeft betrekking op de geldigheid van de meting. Meet je wat je bedoelt te meten? Om te bepalen of toetsen bij de kleuters ook valide zijn, wordt vaak gekeken naar de voorspellende waarde van een toets. Oftewel, in hoeverre kunnen de uitkomsten op een toets bij de kleuters de prestaties in hogere klassen voorspellen. Kleutertoetsen blijken voor cognitieve vaardigheden een matige voorspellende waarde hebben. Daarbij is de voorspellende waarde voor rekenen groter dan voor taalvaardigheid en blijkt de voorspellende waarde van cognitieve toetsen bij jonge kinderen groter te zijn als er sprake is van subjectieve beoordeling.

Methode-onafhankelijke toetsen kunnen dus wel het beheersingsniveau van kleuters helpen vaststellen, maar vanwege het matige voorspellende effect zijn ze niet allesbepalend. Het oordeel van de leerkracht is daarom minstens zo belangrijk om het beeld over de prestaties en ontwikkeling van een leerling te complementeren.

Uitgebreide beantwoording

Opgesteld door: Annegien Langeloo (antwoordspecialist) en José van der Hoeven (kennismakelaar Kennisrotonde)
Vraagsteller: directeur bestuurder basisonderwijs
Geraadpleegde expert: Niek Frans (Rijksuniversiteit Groningen)

Vraag

Is het waar dat gestandaardiseerde toetsen bijdragen aan het betrouwbaar vaststellen van het beheersingsniveau op het gebied van rekenen en beginnende geletterdheid in groep 1 en 2?

Kort antwoord

De vraag of het toetsen van cognitieve vaardigheden bij kleuters zinvol is, wordt in de discussie hieromtrent niet eenduidig beantwoord. Uit onderzoek is gebleken dat het niet eenvoudig is om de betrouwbaarheid van de toetsafname bij jonge kinderen te garanderen. Daarnaast is uit een substantieel aantal onderzoeken gebleken dat kleutertoetsen een matige voorspellende waarde hebben voor leerprestaties op het gebied van cognitieve vaardigheden in de basisschoolleeftijd.

Daarbij bleek de voorspellende waarde voor rekenen groter dan voor taalvaardigheid. Ten slotte bleek dat de voorspellende waarde van cognitieve toetsen groter is als er sprake is van subjectieve beoordeling. Dat betekent dat kleutertoetsen een bijdrage kunnen leveren aan het vaststellen van het beheersingsniveau van cognitieve vaardigheden, maar dat daarnaast het eigen oordeel van de leerkracht over de leerprestaties en de cognitieve ontwikkeling ook van belang lijkt.

Toelichting antwoord

Een toets neem je af om te onderzoeken in welke mate iemand iets weet of kan. Dat kan op verschillende manieren. Bijvoorbeeld met observatie of met toetsen. Bij toetsen kun je gebruik maken van methode afhankelijke of methodeonafhankelijke toetsen. Methodeafhankelijke toetsen geven een beeld van de beklijving van de leerinhouden die in de lessen aan bod zijn geweest. Bij methodeonafhankelijke of gestandaardiseerde toetsen gaat het om het beheersingsniveau van kennis of vaardigheden.

De resultaten kunnen worden vergeleken met de gemiddelde prestaties van een groep en er kan groei over een langere periode worden vastgesteld (Papenburg en Visser, 2013). Zo’n methodeonafhankelijk toets is de zogenaamde kleutertoets, die beginnende geletterdheid en rekenvaardigheid meet en tot veel discussie leidt.

Betrouwbaarheid van toetsen

Als we een vaardigheidstoets afnemen, willen we zeker weten dat de toets iets zegt over de vaardigheden van de leerling. Een eerste aspect dat hierbij een rol speelt, is betrouwbaarheid. De betrouwbaarheid van een instrument is de mate van nauwkeurigheid van dat instrument. Dat wil zeggen dat als we dezelfde vaardigheid twee keer met hetzelfde instrument meten, we twee keer dezelfde uitkomst zullen krijgen (Slotboom, 1987).

Onderzoek liet zien dat er bij meerdere afnames van een toets voor motorische en communicatievaardigheden bij jonge kinderen veel variatie in toetsscores was (Darrah, Hodge, Magill-Evans & Kembhavi, 2003). Ook ander onderzoek bevestigt dat doordat kinderen snel afgeleid zijn, de score per dag kan verschillen Daarnaast kunnen leerlingen nog niet lezen, hebben een korte aandachtspanne en kunnen onverwacht reageren op toetsvragen, bijvoorbeeld door het onderstrepen van het mooiste plaatje, in plaats van juiste antwoord (Bordignon & Lam, 2004; Colpin et al., 2006; Snow & Van Hemel, 2008).

Dit zou kunnen betekenen dat besluiten genomen op basis van één testmoment tot verschillende conclusies hadden kunnen leiden en dat de toetsing dus niet betrouwbaar was. Pas vanaf een leeftijd van 6 jaar wordt het beter mogelijk om leerlingen betrouwbaar te toetsen (Colpin et al., 2006; Shepard et al., 1998).

Validiteit van toetsen

Een tweede aspect bij het meten van vaardigheden betreft validiteit. Validiteit heeft betrekking op de geldigheid van de meting. Meet je wat je bedoelt te meten (Slotboom, 1987)? Om te bepalen of toetsen bij de kleuters ook valide zijn, wordt vaak gekeken naar de voorspellende waarde van een toets (ook wel predictieve validiteit). Oftewel, in hoeverre de uitkomsten op een toets bij de kleuters de prestaties in hogere klassen kunnen voorspellen.

Er is veel onderzoek gedaan naar de voorspellende waarde van kleutertoetsen. In 2000 publiceerden La Paro en Pianta een overzichtsstudie van meer dan 60 wetenschappelijke onderzoeken die zich hadden gericht op de relatie tussen cognitieve of sociaal-emotionele toetsresultaten bij de kleuters (4-6 jaar) en in groep 3 of 4 (6-8 jaar). Over het algemeen vonden La Paro en Pianta matige effecten voor de voorspellende waarde van cognitieve resultaten en kleine effecten voor voorspellende waarde bij sociaal-emotionele vaardigheden.

Ook recentere studies (Duncan et al., 2007; Romano et al., 2010) onderzochten de voorspellende waarde van resultaten op kleutertoetsen voor latere prestaties op school. In deze studies werden vergelijkbare resultaten gevonden als in de overzichtstudie van La Paro en Pianta (2000). Beide onderzoeken vonden daarnaast dat de voorspellende waarde van taalvaardigheid kleiner was dan die voor rekenen.

Terwijl eerdergenoemde studies alleen onderzochten of toetsresultaten bij de kleuters latere prestaties konden voorspellen, is ook onderzoek gedaan naar de patronen in deze voorspellingen (Dollaghan & Campbell, 2009, Frans et al., 2017). Onderzoek naar de voorspellende waarde van kleutertoetsen voor risicoleerlingen liet zien dat een kleine groep leerlingen consequent tot de laagst scorende groep hoorde. Er is echter ook een grote groep leerlingen die een wisselender patroon liet zien: over de verschillende leerjaren hadden zij soms hoge en soms lage scores.

Een deel van deze kinderen, scoorde bij de kleuters gemiddeld of bovengemiddeld, maar vielen in groep 3 en/of 4 uit op de toets (Frans et al., 2017). Deze kinderen werden bij de kleuters dus niet als zodanig herkend, terwijl dat wel de bedoeling is van een dergelijke toets.

Ten slotte

Ook de manier van toetsen en de toetsen zelf zijn onderwerp van onderzoek. Kim en Suen (2003) lieten zien dat de mate van de voorspellende waarde onder meer verklaard werd door het type test (bijvoorbeeld, intelligentietest of cognitieve test) en het gemeten construct, maar vooral door de manier van scoren. Gebruik van een beoordeling op een checklist of van meerkeuzevragen leidde tot betere voorspellingen dan gebruik van output van kinderen (spraak, tekeningen, nadoen). Verder bleek dat cognitieve en schoolrijpheidtesten die gebruik maken van subjectieve beoordelingen, zoals observaties of leerkrachtbeoordelingen met een checklist, de grootste voorspellende waarde hebben.

Conclusie

Bij het beoordelen van toetsen spelen betrouwbaarheid en validiteit een grote rol. Uit onderzoek is gebleken dat betrouwbaarheid van de toetsing bij kleuters lastig te garanderen is. In het kader van validiteit is uit een substantieel aantal onderzoeken gebleken dat kleutertoetsen voor cognitieve vaardigheden een matige voorspellende waarde hebben. Daarbij kwam naar voren dat de voorspellende waarde voor rekenen groter is dan voor taalvaardigheid.

Ten slotte bleek dat de voorspellende waarde van cognitieve toetsen bij jonge kinderen groter is als er sprake is van subjectieve beoordeling. Dat betekent dat methodeonafhankelijke toetsen een bijdrage kunnen leveren bij het vaststellen van het beheersingsniveau van kleuters, maar vanwege het matige voorspellende effect niet allesbepalend kunnen zijn. Naast methodeonafhankelijke toetsen lijkt het oordeel van de leerkracht van belang om het beeld over de prestaties en ontwikkeling van een leerling te complementeren.

Geraadpleegde bronnen

Bordignon, C. M., & Lam, T. (2004). The early assessment conundrum: Lessons from the past, implications for the future. Psychology in the Schools, 41(7), 737-749.
Colpin, M., Gysen, S., Jaspaert, K., Heymans, R., Van den Branden, K., & Verhelst, M.
(2006). Studie naar de wenselijkheid en haalbaarheid van de invoering van centrale taaltoetsen in Vlaanderen in functie van gelijke onderwijskansen. Leuven: Centrum voor Taal en Onderwijs KU Leuven.
Dollaghan, C. A., & Campbell, T. F. (2009). How well do poor language scores at ages 3 and 4 predict poor language scores at age 6?. International Journal of Speech-Language Pathology, 11(5), 358-365.
Darrah, J., Hodge, M., Magill-Evans, J., & Kembhavi, G. (2003). Stability of serial assessments of motor and communication abilities in typically developing infants—implications for screening. Early human development, 72(2), 97-110.
Duncan, G. J., Dowsett, C. J., Claessens, A., Magnuson, K., Huston, A. C., Klebanov, P., ... & Sexton, H. (2007). School readiness and later achievement.　Developmental psychology,　43(6), 1428.
Frans, N., Post, W. J., Huisman, M., Oenema-Mostert, I. C., Keegstra, A. L., & Minnaert, A. E. (2017). Early identification of children at risk for academic difficulties using standardized assessment: stability and predictive validity of preschool math and language scores.　European Early Childhood Education Research Journal, 1-19.
Kim, J., & Suen, H. K. (2003). Predicting children’s academic achievement from early assessment scores: A validity generalization study.　Early Childhood Research Quarterly,　18(4), 547-566.
La Paro, K. M., & Pianta, R. C. (2000). Predicting children's competence in the early school years: A meta-analytic review.Review of educational research, 70(4), 443-484.
Lansink, N. (2003). Toetsen van jonge kinderen. Arnhem CITO gepubliceerd op: www.paboweb.nl
Papenburg & Visser (2013). Kleutertoetsen: een waardevolle aanvulling! Cito.
Romano, E., Babchishin, L., Pagani, L. S., & Kohen, D. (2010). School readiness and later achievement: replication and extension using a nationwide Canadian survey. Developmental psychology,　46(5), 995.
Shepard, L., Kagan, S. L., & Wurtz, E. (1998). Principles and Recommendations for Early Childhood Assessments.
Slotboom, A. (1987). Statistiek in woorden. De meest voorkomende termen en technieken. Groningen: Wolters Noordhoff.
Snow, K. L. (2006). Measuring school readiness: Conceptual and practical considerations. Early education and development, 17(1), 7-41.
Snow, C., & Van Hemel, S. (2008). Early childhood assessment: Why what and how? Report of the Committee on Developmental Outcomes and Assessments for Young Children.