Samenvatting en bespreking ChatGPT in het onderwijs
Nico den Breejen
Onderwijskundige bij Wij-leren.nl
Geraadpleegd op 20-05-2025,
van https://wij-leren.nl/chatgpt-meta-analyse-bespreking.php
Laatst bewerkt op 13 mei 2025

Samenvatting
Sinds de lancering van ChatGPT eind 2022 is het debat over generatieve AI in het onderwijs in volle gang. De belofte is groot: van gepersonaliseerd leren en verhoogde motivatie tot ondersteuning bij complexe cognitieve taken. Maar wat is daarvan onderbouwd met écht experimenteel bewijs? Deze systematische review en meta-analyse van Deng et al. (2025) brengt voor het eerst de resultaten van 69 experimentele studies samen om één centrale vraag te beantwoorden: bevordert ChatGPT daadwerkelijk het leren van studenten?
Dit artikel is een samenvatting en bespreking van het Engelstalige artikel 'Does ChatGPT enhance student learning? A systematic review and meta-analysis of experimental studies' van dr. Ruiqi Deng et al. (2025). Dit artikel is door Wij-leren ook volledig in het Nederlands vertaald.
Waarom deze studie nodig was
Tot nu toe waren onderzoeken naar ChatGPT in het onderwijs vooral beschrijvend van aard. Veel studies richtten zich op hoe studenten en docenten denken over het gebruik van deze technologie. Studenten zijn vaak positief; zij zien ChatGPT als een handige tool voor brainstormen, tekstgeneratie of het verlagen van cognitieve belasting. Docenten zijn kritischer en maken zich zorgen over plagiaat, afhankelijkheid van technologie en het verlies van schrijf- en denkvaardigheden. Hoewel interessant, leveren deze perceptiestudies geen bewijs voor werkelijke effecten op leeruitkomsten.
Ook cross-sectionele onderzoeken schieten tekort. Ze tonen soms positieve verbanden tussen ChatGPT-gebruik en prestaties, maar zeggen niets over oorzaak en gevolg. Kiezen betere studenten voor meer ChatGPT-gebruik, of leidt meer ChatGPT-gebruik tot betere prestaties? Kortom: om de échte impact te achterhalen is experimenteel onderzoek nodig. En dat is precies wat deze review in kaart brengt.
“Percepties en correlaties zijn niet genoeg: deze studie zoekt naar bewijs met echte experimenten."
Onderzoeksdoelen
Het doel van de studie was drieledig:
- Bepalen of ChatGPT-interventies leiden tot betere leerresultaten bij studenten in het hoger onderwijs.
- In kaart brengen welke factoren (moderatoren) van invloed zijn op de effectiviteit, zoals studiedesign, type leeruitkomst, onderwijscontext of vakgebied.
- Richting geven aan toekomstig onderzoek naar de inzet van generatieve AI.
Deze studie vult daarmee de leemte in wetenschappelijk onderzoek op deze 3 terreinen.
Onderzoeksvragen
De onderzoekers wilden weten:
1. Hoe wordt ChatGPT gebruikt in het onderwijs?
Bijvoorbeeld: op welke educatieve niveaus en in welke vakken wordt ChatGPT ingezet? Wat zijn de kenmerken van de ChatGPT-interventies in de experimentele studies, zoals het onderwijsniveau, de vakgebieden, de duur en de specifieke toepassingen?
2. Welk effect heeft ChatGPT op leeruitkomsten?
De onderzoekers evalueren het gebruik van ChatGPT op vijf leeruitkomsten:
- Academische prestaties: de meetbare vooruitgang in kennis en vaardigheden, bijvoorbeeld cijfers.
- Motivatie en emoties tijdens het leren, zoals interesse en plezier in leren.
- Complexe denkvaardigheden: Het vermogen tot complex denken, zoals kritisch, probleem-oplossend en reflectief denken.
- Zelfeffectiviteit: Het geloof van studenten in hun eigen vermogen om academische taken succesvol uit te voeren.
- Mentale inspanning: De hoeveelheid cognitieve inspanning die nodig is om een taak te voltooien, oftewel de moeite die het leren kost.
3. Hoe goed zijn de reeds bestaande onderzoeken naar het gebruik van ChatGPT uitgevoerd?
Ze keken hierbij naar de grootte van de steekproeven, het gebruik van controlegroepen, de mate van randomisatie, het toepassen van pre- en post-tests, controle voor mogelijke confounders, en de duur van de interventies.
“Wat doet ChatGPT precies in de klas – en wat doet het met de student?"
De opzet van de review
De onderzoekers zochten systematisch naar experimentele studies die de impact van ChatGPT op leren evalueerden. Alleen studies met een experimenteel of quasi-experimenteel design, gepubliceerd in peer-reviewde Engelstalige tijdschriften sinds december 2022, werden opgenomen. In totaal bleken 69 studies aan deze criteria te voldoen. Daarvan werden er 62 geïncludeerd in een meta-analyse.
De studies bestrijken diverse domeinen (Alfa-, Gamma-, en Betastudies) en variëren in inzet van ChatGPT: van tekstproductie tot het beantwoorden van vragen of samenvatten van inhoud.
Onderzoeksvraag 1: Hoe wordt ChatGPT gebruikt in het onderwijs?
De analyse laat zien dat ChatGPT vooral wordt ingezet in het hoger onderwijs (84%) en dan vooral binnen taalonderwijs. Klassikale toepassingen zijn dominant, vaak als direct leermiddel waarin studenten zelf gebruikmaken van ChatGPT. De interventies duren meestal enkele weken en zijn ingebed in reguliere onderwijssituaties, zoals schrijfopdrachten, programmeertaken of projectwerk. Slechts een kleiner deel gebruikt ChatGPT als onderdeel van bredere educatieve tools, bijvoorbeeld in spelvorm of geïntegreerd in leeromgevingen.
“De meeste ChatGPT-experimenten vonden plaats in het hoger onderwijs."
Onderzoeksvraag 2: Welk effect heeft ChatGPT op leeruitkomsten?
De resultaten van de meta-analyse zijn veelbelovend, maar verdienen ook nuance.
1. Academische prestaties
ChatGPT-interventies leiden over het algemeen tot betere academische prestaties. De effectgrootte is groot en statistisch significant. Studenten die ChatGPT gebruikten, scoorden gemiddeld hoger dan studenten die ChatGPT niet gebruikten. Dit effect was vooral duidelijk in Alfa en Gamma-studies (bijvoorbeeld taalstudies of gezondheidsstudies). In Beta-studies (zoals wiskunde of natuurkunde) was het effect minder sterk.
Dit suggereert dat studenten met ChatGPT beter presteren dan zonder. Toch is voorzichtigheid geboden. In veel studies mochten studenten ChatGPT gebruiken tijdens de toets. Dit vertekent de resultaten mogelijk. Toetsen zonder toezicht, of waarbij output van ChatGPT wordt beoordeeld in plaats van eigen werk, maken het lastig om leerwinst van outputkwaliteit te onderscheiden. Toekomstige studies moeten dit onderscheid explicieter maken.
2. Affectief-motivationele factoren
Studenten die met ChatGPT werkten, rapporteerden hogere motivatie, interesse en plezier. Deze positieve effecten zijn significant, maar mogelijk tijdelijk. Veel studies maten motivatie slechts voor en na de interventie, zonder inzicht in fluctuaties over tijd. Is het enthousiasme slechts een “nieuwigheidseffect”? Langetermijnonderzoek moet uitwijzen of deze motivatie duurzaam is.
“ChatGPT-gebruikers presteren beter – maar wie doet het werk: de student of ChatGPT?"
3. Hogere-orde denkvaardigheden
Ook hogere-orde denkvaardigheden (zoals kritisch en creatief denken) lieten verbeteringen zien. De effectgrootte is opnieuw significant en positief. Maar: vrijwel alle studies baseren zich op zelfrapportages. Studenten geven aan dat ze beter denken, maar objectieve metingen ontbreken vaak. Hierdoor blijft onduidelijk of ChatGPT daadwerkelijk het denkvermogen vergroot, of alleen het gevoel daartoe.
4. Zelfeffectiviteit
Hier is het beeld gemengd. Hoewel sommige studies positieve effecten melden, zijn deze effecten niet significant op groepsniveau. Dit kan samenhangen met het beperkte aantal studies én met het feit dat zelfeffectiviteit sterk taak- en contextafhankelijk is. Ook hier is diepgaander onderzoek nodig, liefst met een helder theoretisch kader.
5. Mentale inspanning
ChatGPT blijkt het leren minder belastend te maken: studenten ervaren minder mentale inspanning. Dit kan wijzen op efficiëntie, maar ook op oppervlakkiger leren. In sommige studies ging minder inspanning namelijk gepaard met lagere redeneerscores. Dat roept de vraag op: verlaagt ChatGPT inspanning op een goede of juist problematische manier?
“Minder inspanning kan efficiëntie betekenen, maar ook een verlies aan diepgang."
De effecten van ChatGPT op het leren van studenten zijn samengevat in Figuur 1.
Figuur 1. De effecten van ChatGPT op het leren van studenten, volgens de meta-analyse van Deng et al. (2025).
Wil je deze infographic downloaden in hoge resolutie? Schrijf je dan in voor het gratis kennisdossier van de Wij-leren Academie.
Wat verklaart de verschillen tussen studies?
De moderatoranalyses geven meer inzicht in wanneer ChatGPT het meest effectief is. De grootste effecten op academische prestaties worden gevonden in taalonderwijs, in klassikale settings en bij interventies van 1 tot 4 weken. Interventies korter dan een week of in laboratoriumomgevingen hebben minder effect. Ook voor hogere-orde denken geldt dat kortdurende interventies het meest effect sorteren. Mogelijk raken studenten na verloop van tijd gewend aan ChatGPT en neemt de impact af, of ontstaat er gewenning aan de tool.
Onderzoeksvraag 3: Kwaliteit van het onderzoek
De onderzoekers keken ook naar de kwaliteit van de studies. Wat viel op?
- Kleine steekproeven: Veel studies hadden een beperkt aantal deelnemers. Dit kan de betrouwbaarheid van de resultaten beïnvloeden. Kleine steekproeven verhogen de kans op toevallige resultaten en kunnen de generaliseerbaarheid van de bevindingen beperken.
- Ontbreken van poweranalyse: De meeste studies gebruikten pretesten, randomisatie of covariabelen om uitgangsverschillen te beheersen. Maar slechts 8% van de studies voerde een poweranalyse uit – een cruciale stap om te bepalen of het aantal deelnemers groot genoeg is om betrouwbare conclusies te trekken. Zonder deze analyses is het risico op foutieve conclusies groot: effecten kunnen worden onderschat of juist overschat.
- Gebruik van ChatGPT tijdens toetsen: In verschillende studies mochten deelnemers ChatGPT gebruiken tijdens de toetsen die volgden op de interventie (de zogeheten post-tests). Dit roept vragen op over hoe betrouwbaar de verbeterde prestaties als leeruitkomst kunnen worden gezien. Het is namelijk lastig om te bepalen of de hogere scores echt het gevolg zijn van wat deelnemers hebben geleerd, of simpelweg door de directe hulp van ChatGPT tijdens de toets.
“Zonder poweranalyse blijft het gissen of een effect echt iets betekent."
Implicaties voor de onderwijspraktijk
De studie laat zien dat ChatGPT potentie heeft als educatief hulpmiddel, mits het doelgericht en begeleid wordt ingezet. ChatGPT kan studenten ondersteunen bij het genereren van ideeën, het verbeteren van teksten, het verdiepen van begrip en het versterken van zelfregulerend leren. Dit blijkt vooral effectief wanneer de inzet is ingebed in goed doordachte leeractiviteiten, studenten duidelijke instructies krijgen, en docenten ondersteuning of feedback bieden.
Tegelijkertijd waarschuwen de auteurs voor overschatting. ChatGPT is geen vervanging voor onderwijs, maar een aanvullende tool die alleen onder bepaalde voorwaarden effectief is. Er is risico op afhankelijkheid, en zonder begeleiding kan het kritische denken of eigenaarschap van studenten onder druk komen te staan.
“ChatGPT werkt pas echt als het past binnen een doordachte leeromgeving."
Beperkingen
Hoewel deze review een belangrijke stap is in het begrijpen van ChatGPT in het onderwijs, noemen de auteurs ook beperkingen. De gebruikte studies zijn vaak atheoretisch, verschillen sterk in opzet en gebruiken uiteenlopende meetinstrumenten. Niet-Engelstalige studies zijn buiten beschouwing gelaten en andere generatieve AI-tools zijn niet onderzocht. Dat maakt het lastig om algemene uitspraken te doen over “GenAI in het onderwijs” als geheel.
Conclusie
ChatGPT lijkt veelbelovend als onderwijstool. De technologie kan bijdragen aan betere prestaties, hogere motivatie en versterking van complexe denkprocessen. Tegelijkertijd roept het gebruik ervan vragen op over toetsing, plagiaat, oppervlakkigheid en ongelijkheid. De resultaten van deze review zijn positief, maar niet definitief. Alleen door zorgvuldig, theoretisch onderbouwd en methodologisch sterk onderzoek kunnen we bepalen of ChatGPT echt bijdraagt aan diepgaand leren. Deze review vormt een noodzakelijke eerste stap – het vervolg ligt nu bij onderzoekers, docenten én beleidsmakers.
Kritische bespreking/recensie
Deze systematische review en meta-analyse naar de impact van ChatGPT op studentleren levert een belangrijke bijdrage aan het onderwijskundig onderzoek naar generatieve AI. In deze bespreking wordt eerst algemene informatie gegeven over de studie, waarna zowel de sterke kanten van het onderzoek als enkele belangrijke kanttekeningen worden besproken. Daarbij wordt gekeken naar de opzet, uitvoering en interpretatie van de bevindingen, met als doel de waarde van deze studie kritisch te duiden.
Algemene informatie
Soort studie: Deze studie is een meta-analyse. Een meta-analyse is een onderzoeksmethode waarbij resultaten van meerdere studies over een bepaald onderwerp worden samengevoegd en geanalyseerd om een algemene conclusie te trekken. In deze studie werden 69 studies over het gebruik van ChatGPT in het hoger onderwijs geanalyseerd.
Auteurs: Deze studie is uitgevoerd door vijf onderzoekers uit China: Ruiqi Deng, Maoli Jiang, Xinlu Yu, Yuyan Lu (Hangzhou Normal University) en Shasha Liu (Tourism College of Zhejiang). Ze hebben geen verklaarde financiële of commerciële belangen bij een positief resultaat en geven aan dat er geen belangenverstrengeling is.
Onderzochte doelgroep: De 69 studies in de meta-analyse richtten zich voornamelijk op studenten in bachelor- en masteropleidingen, slechts 10 studies richtten zich op het basisonderwijs of het voorgezet onderwijs.
“Meta-analyses bundelen niet alleen resultaten, maar vergroten ook de zeggingskracht van onderzoek."
Sterke punten
1. Grote hoeveelheid literatuur
De auteurs hebben zich met grote ijver door een indrukwekkende hoeveelheid literatuur gewerkt. Maar liefst 123 experimentele studies zijn systematisch geanalyseerd, waarvan er 62 zijn opgenomen in de meta-analyse. Het is prijzenswaardig hoe grondig de selectie is uitgevoerd, met een strikte set inclusie- en exclusiecriteria en een sterke focus op methodologische betrouwbaarheid. Daarbij valt op hoe de interbeoordelaarsovereenkomst bij de kwaliteitsbeoordeling van de studies (0.88) getuigt van zorgvuldige samenwerking en betrouwbaarheid in het beoordelingsproces.
2: Sterk theoretisch kader
Een ander sterk punt van deze studie is het helder opgebouwde theoretisch kader, waarin zowel de mogelijke voordelen als risico's van ChatGPT in onderwijscontexten worden besproken. De auteurs slagen erin om genuanceerd uiteen te zetten wat ChatGPT kan bijdragen aan het leren van studenten, maar ook waar mogelijke valkuilen liggen. De systematische onderverdeling van uitkomstmaten – zoals academische prestaties, affectieve en motivationele factoren, hogere-orde denkvaardigheden, zelfeffectiviteit en mentale inspanning – biedt overzicht en diepgang.
3. Systematische opzet en transparantie
De auteurs hanteren een duidelijk raamwerk, combineren systematische review met meta-analyse en rapporteren hun zoekstrategie, inclusiecriteria en coderingsprocedures helder. Ook de kwaliteitsbeoordeling op basis van Kmet et al. (2004) is transparant en reproduceerbaar. Dit verhoogt de betrouwbaarheid van de bevindingen en stelt lezers in staat om de gevolgde stappen kritisch te volgen.
“Transparantie in opzet en analyse maakt deze review niet alleen betrouwbaar, maar ook navolgbaar."
4. Nuance in interpretatie van effecten
De auteurs zijn in het algemeen voorzichtig met overhaaste conclusies: zij plaatsen kanttekeningen bij de gevonden effectgroottes, wijzen op mogelijke bias en geven duidelijk aan waar de methodologische beperkingen van de geïncludeerde studies liggen (zoals het ontbreken van poweranalyses of onduidelijkheid over gebruik van ChatGPT tijdens posttests). Echter, in de highlights van de studie staan de effecten wel heel robuust gepresenteerd en ontbreken deze nuanceringen.
Kritische kanttekeningen
Toch zijn er ook een aantal kritische kanttekeningen te plaatsen bij het onderzoek.
1. Leerwinst of output-effect?
De bevindingen over academische prestaties klinken veelbelovend, maar verdienen een kritische blik. In meerdere studies mochten studenten ChatGPT gebruiken tijdens de posttest of beoordelingsmomenten. Dit roept serieuze vragen op over de validiteit van metingen van leerwinst: verbeteren studenten hun leeruitkomsten dankzij ChatGPT, of leveren ze simpelweg betere producten met behulp van ChatGPT? Zonder heldere scheiding tussen ‘leren met ChatGPT’ en ‘laten produceren door ChatGPT’ riskeren we een overschatting van de effectiviteit.
Vooral in schrijfonderwijs is dit een risico: producten die met hulp van ChatGPT zijn opgesteld, kunnen hoog scoren op taalkundige correctheid, maar geven geen eerlijk beeld van de taalvaardigheid van de student. Slechts enkele studies namen maatstaven als originaliteit of authenticiteit mee in de beoordeling. Zonder deze componenten blijft het onduidelijk of er werkelijk sprake is van dieper leren.
“Goede scores zeggen weinig als we niet weten wie - of wat - de tekst werkelijk schreef."
2. Lagere mentale inspanning is niet altijd positief
In de studie ligt vooral de nadruk op de positieve effecten van lagere mentale inspanning. Maar een van de gebruikte studies (Stadler et al., 2024) toont juist aan dat studenten die ChatGPT gebruikten tijdens een toets zwakker redeneerden doordat zij minder mentale inspanning leverden. Dit bevestigt dat een lagere cognitieve belasting niet altijd een positief teken is, maar ook kan duiden op oppervlakkiger leren.
3. Belangrijke leeruitkomsten blijven buiten beeld
Een derde punt betreft de keuze om uitkomsten als samenwerkingsgerichtheid, besluitvormingsconflicten en zelfregulerend leren uit te sluiten van de meta-analyse. Hoewel dit begrijpelijk is vanwege het beperkte aantal studies dat hierover rapporteerde, gaat het hier om uitkomsten die juist bij het gebruik van AI cruciaal kunnen zijn. ChatGPT beïnvloedt niet alleen individuele leerprestaties, maar ook de manier waarop studenten met elkaar en met het leerproces omgaan. Het is dan ook jammer dat deze aspecten buiten beschouwing blijven.
4. Beperkingen in geografische spreiding, culturele bias
Een vierde belangrijke beperking betreft de geografische spreiding van de studies. Bijna driekwart van de geïncludeerde studies is uitgevoerd in Azië, met name in landen als China, Zuid-Korea en India. Hoewel deze regio’s een sterke digitale infrastructuur en een hoog tempo van AI-integratie kennen, roept dit vragen op over de culturele bias in de bevindingen. Slechts een klein deel van de studies is afkomstig uit Europa, Noord- en Zuid-Amerika of Afrika. De invloed van culturele factoren op bijvoorbeeld motivatie, interactie met technologie of onderwijskundige normen is groot. De generaliseerbaarheid van de resultaten naar andere werelddelen is daarom beperkt.
“Driekwart van de studies komen uit Azië - maar leren met AI is geen universeel recept."
5. Beperkte generaliseerbaarheid
Daarnaast blijkt uit de analyse dat vrijwel alle studies gericht zijn op het hoger onderwijs. Slechts tien van de 69 studies vonden plaats in het primair of voortgezet onderwijs. Dit maakt het onverantwoord om de gevonden effecten zomaar door te trekken naar jongere leerlingen. De cognitieve, sociale en technologische vaardigheden van deze leerlingen verschillen aanzienlijk van studenten in het hoger onderwijs. Bovendien is de toegang tot digitale technologie in veel basisscholen en middelbare scholen beperkt en ontbreken vaak duidelijke richtlijnen voor AI-gebruik. Verdere studie naar de toepassing van ChatGPT in het PO en VO is dan ook hard nodig.
Ook vakinhoudelijk zijn er verschillen in effectiviteit van ChatGPT. Zo laten de meeste studies in deze review positieve effecten zien op taalonderwijs, waar de sterke tekstuele mogelijkheden van ChatGPT goed tot hun recht komen. In de gezondheidszorg worden eveneens kansen gezien, mede omdat ChatGPT beter scoort dan zoekmachines bij medische vragen. In contrast daarmee zijn er slechts drie studies uitgevoerd in het wiskundeonderwijs en slechts één in de juridische context. Dit sluit aan bij eerdere bevindingen dat ChatGPT in deze domeinen minder goed presteert, mogelijk vanwege feitelijke onnauwkeurigheden en het gebrek aan contextueel begrip.
6. Beperkte betrouwbaarheid van motivatie- en emotiemetingen.
De meting van motivatie en affectieve beleving in de geïncludeerde studies is methodologisch problematisch. Ten eerste werd in geen enkele studie de motivatie of affectieve beleving op meerdere momenten tijdens de interventie gemeten. Daardoor blijft het onduidelijk of de gemelde positieve effecten stabiel zijn, of slechts het gevolg van een tijdelijk ‘nieuwigheidseffect’. Ten tweede zijn de meeste metingen gebaseerd op zelfrapportage. Dit beperkt de validiteit. Studenten kunnen hun eigen motivatie of betrokkenheid overschatten, beïnvloed door bijvoorbeeld sociale wenselijkheid. Zonder objectieve metingen of herhaalde bevragingen tijdens de interventie is het onmogelijk om conclusies te trekken over de duurzaamheid of echtheid van deze affectieve effecten. Toekomstig onderzoek moet daarom zowel longitudinale als meer valide meetstrategieën inzetten om de werkelijke impact van ChatGPT op motivatie en emotie te beoordelen.
“Zonder herhaalde metingen blijven gevoelens van motivatie vooral gissingen."
7. Ontbrekende poweranalyses ondermijnen betrouwbaarheid van conclusies
Tot slot is het opvallend dat slechts vijf van de 62 studies een poweranalyse uitvoerden. Zonder een dergelijke analyse is het moeilijk te beoordelen of de steekproef groot genoeg was om betrouwbare conclusies te trekken. Ondergepowerde studies vergroten de kans op type II-fouten, waarbij werkelijke effecten onterecht niet worden vastgesteld. Tegelijkertijd kunnen significante bevindingen in kleine steekproeven leiden tot overschatting van effectgroottes. Deze methodologische zwakte ondermijnt deels de betrouwbaarheid van de meta-analytische conclusies. De auteurs zijn zich hiervan bewust en kaarten dit ook zelf aan in hun onderzoek.
8. ChatGPT is een middel, geen onderwijsmethode
Een laatste, maar fundamenteel punt van kritiek betreft een klassieke valkuil in onderwijsonderzoek: het verwarren van technologie met didactiek. ChatGPT wordt in veel studies behandeld als een op zichzelf staande interventie, terwijl het in werkelijkheid een instrument is dat pas effect heeft in combinatie met een duidelijke onderwijskundige strategie. Zonder doordachte didactische inbedding blijft het risico bestaan dat ChatGPT slechts oppervlakkige verbeteringen oplevert—zoals efficiëntere tekstproductie of tijdelijke motivatie—zonder dat dit leidt tot duurzame, diepgaande leerprocessen.
De review maakt dit impliciet zichtbaar: hoewel positieve effecten worden gerapporteerd op onder andere motivatie en hogere-orde denkvaardigheden, blijven veel studies vaag over de didactische context waarin ChatGPT werd ingezet. Was er sprake van expliciete instructie, begeleide toepassing, feedbackmomenten of integratie in een leertraject? In veel gevallen blijft dit onduidelijk. Onderzoek laat juist zien dat technologie pas tot leren leidt wanneer het onderdeel is van een pedagogisch ontwerp dat doelgericht, interactief en reflectief gebruik stimuleert.
Zonder deze didactische verankering bestaat het risico dat ChatGPT wordt overschat: niet de technologie zelf maakt het verschil, maar de manier waarop docenten en studenten ermee leren omgaan. De effectiviteit van ChatGPT zou daarom niet alleen moeten worden beoordeeld op basis van uitkomstmaten, maar ook op basis van de onderwijskundige principes die eraan ten grondslag liggen. Dit vraagt om onderzoek dat expliciet de rol van didactiek meeneemt en de tool niet loskoppelt van het bredere onderwijsontwerp.
“ChatGPT is geen onderwijsmethode, maar een middel dat alleen werkt binnen doordachte didactiek."
In Figuur 2 zijn de beperkingen van de meta-analyse samengevat.
Figuur 2. Beperkingen van de meta-analyse van Deng et al. (2025)
Richting voor toekomstig onderzoek
De auteurs doen enkele aanbevelingen voor verder onderzoek, maar deze aanbevelingen zijn niet compleet. Op basis van de resultaten van de meta-analyse, zijn de volgende onderzoeksrichtingen hoog nodig:
- Onderzoek welke onderwijskundige ontwerpprincipes het gebruik van ChatGPT effectief maken.
- Breng de effecten op uiteenlopende leeruitkomsten beter in beeld, zoals kritisch denken, probleemoplossend vermogen of creativiteit.
- Bestudeer langetermijneffecten op leerprestaties en motivatie.
- Neem verschillen tussen studenten (zoals voorkennis of digitale geletterdheid) expliciet mee.
- Verken de ethische en pedagogische implicaties van AI in het hoger onderwijs.
Ook volgens de auteurs is het essentieel om AI-implementaties te baseren op onderwijskundige theorieën. De vraag is niet alleen wat werkt, maar vooral waarom het werkt en onder welke condities. Alleen dan kan generatieve AI op een verantwoorde en effectieve manier bijdragen aan het leren van studenten.
“Langetermijnonderzoek is nodig om hype van blijvend effect te onderscheiden."
De richtingen voor vervolgonderzoek zijn samengevat in Figuur 3.
Figuur 3. Richtingen voor vervolgonderzoek naar de effectiviteit van ChatGPT.
Slotbeschouwing
Deze systematische review en meta-analyse is zonder twijfel een waardevolle stap in het onderwijskundig onderzoek naar generatieve AI. De auteurs hebben veel werk geleverd en belangrijke inzichten gebundeld over de effecten van ChatGPT op leren. De resultaten zijn hoopgevend, maar vragen tegelijkertijd om stevige nuance. Vooral de context van de interventie, het type beoordeling, de culturele setting en de duur van het effect verdienen nadere analyse. Door toekomstige studies uit te voeren in onderbelichte onderwijslagen, vakgebieden en geografische regio’s – en met aandacht voor robuuste methodologie – kan het veld een volgende, meer volwassen fase bereiken. Tot die tijd moeten conclusies over de effectiviteit van ChatGPT met de nodige terughoudendheid worden geïnterpreteerd.