De effectiviteit van ChatGPT in het onderwijs
Ruiqi Deng
Associate Professor bij Hangzhou Normal University
Geraadpleegd op 20-05-2025,
van https://wij-leren.nl/chatgpt-meta-analyse.php.
Laatst bewerkt op 13 mei 2025

Dit artikel is een vertaling van het Engelstalige artikel 'Does ChatGPT enhance student learning? A systematic review and meta-analysis of experimental studies' van dr. Ruiqi Deng et al. (2025). Het artikel is door Wij-leren ook samengevat en gerecenseerd.
Titel van het artikel: Bevordert ChatGPT het leren van studenten? Een meta-analyse van experimentele studies
Auteurs: Ruiqi Deng, Maoli Jiang, Xinlu Yu, Yuyan Lu, Shasha Liu
Trefwoorden: Onderwijs-/leerstrategieën, Verbetering van het klaslokaalonderwijs, Basisonderwijs, Voortgezet onderwijs, Hoger onderwijs.
Kernpunten
- ChatGPT bevordert academische prestaties.
- ChatGPT versterkt affectieve en motivationele factoren.
- ChatGPT stimuleert hogere-orde denkvaardigheden.
- ChatGPT vermindert de mentale inspanning.
- ChatGPT heeft geen invloed op zelfeffectiviteit.
Samenvatting
Chat Generative Pre-Trained Transformer (ChatGPT) heeft zowel enthousiasme als zorgen opgeroepen in het onderwijs. Waar cross-sectionele onderzoeken weliswaar verbanden aantonen tussen het gebruik van ChatGPT en academische prestaties, schieten ze tekort in het vaststellen van causaliteit. Deze review en meta-analyse onderzoekt experimentele studies naar de impact van ChatGPT op het leren van studenten om deze leemte te vullen.
Een uitgebreide zoekactie in vijf databanken leverde 69 artikelen op, gepubliceerd tussen 2022 en 2024. De bevindingen laten zien dat ChatGPT-interventies voornamelijk worden toegepast in het hoger onderwijs, verschillende vakgebieden bestrijken met een nadruk op taalonderwijs, worden geïntegreerd in de klaspraktijk als onderdeel van regulier onderwijs en meestal direct gebruik van ChatGPT door studenten inhouden.
Over het geheel genomen verbetert ChatGPT de academische prestaties, versterkt het affectieve en motivationele factoren en bevordert het hogere-orde denkwijzen; daarnaast vermindert het de mentale inspanning en heeft het geen significant effect op zelfeffectiviteit. Toch zijn er methodologische beperkingen, zoals het ontbreken van poweranalyses en zorgen over de wijze van meten na interventie, die een voorzichtige interpretatie van de resultaten vereisen.
Op basis van de bevindingen worden vier aanbevelingen gedaan:
- Maak onderscheid tussen de kwaliteit van ChatGPT-uitvoer en de positieve effecten van interventies op academische prestaties. Dit kan door schoolopdrachten complexer en projectmatiger te maken, zodat er andere vaardigheden vereist worden. Ook gebruik maken van toetsvormen waarbij gesurveilleerd wordt, kan helpen. Een andere optie is om indicatoren zoals originaliteit naast het criterium van kwaliteit te hanteren.
- Onderzoek de langetermijneffecten om vast te stellen of de positieve invloed op motivatie en affectie blijft bestaan of slechts het gevolg is van een nieuwsgierigheidseffect.
- Geef prioriteit aan objectieve meetinstrumenten ter aanvulling op subjectieve beoordelingen van hogere-orde denkvaardigheden.
- Pas poweranalyses toe om geschikte steekproefgroottes te bepalen, type II-fouten te voorkomen en betrouwbare schattingen van effectgroottes te verkrijgen.
Deze review biedt waardevolle inzichten voor onderzoekers, docenten en beleidsmakers die de effectiviteit van het integreren van generatieve AI in het onderwijs willen beoordelen.
1. Inleiding
Hoewel grote taalmodellen (LLMs, Large Language Models) hun oorsprong vinden in de vroege ontwikkeling van natuurlijke taalverwerking halverwege de twintigste eeuw (Maatouk et al., 2024), markeerde de lancering van Chat Generative Pre-Trained Transformer (ChatGPT) eind 2022 een keerpunt (Korseberg & Elken, 2024; Yan et al., 2023). Door de drempel voor mensen zonder technologische achtergrond aanzienlijk te verlagen, kunnen ook zij gebruikmaken van de generatieve mogelijkheden van taalmodellen (Pack & Maloney, 2023). Daardoor zijn de ontwikkelingen rondom ChatGPT en vergelijkbare modellen generatieve AI (GenAI) naar de voorgrond van het onderwijskundig debat gebracht. Dit zorgt voor een gemengde respons van enthousiasme en bezorgdheid tot gevolg.
Hoewel ChatGPT wordt geprezen om zijn potentieel op het gebied van contentgeneratie en natuurlijke taalverwerking (Adeshola & Adepoju, 2023), roepen zorgen over academische integriteit, overmatige afhankelijkheid van technologie en mogelijke negatieve effecten op essentiële vaardigheden zoals schrijven, programmeren en probleemoplossing bezorgdheid op bij zowel docenten (Tlili et al., 2023; Wise et al., 2024) als het bredere publiek (L. Li, Ma, et al., 2024; Na et al., 2024).
Ondanks deze zorgen kan het potentieel van ChatGPT om leerervaringen te transformeren en leerresultaten te versterken niet worden genegeerd. Onderwijs en leren zijn bij uitstek domeinen waarin deze technologie ontwrichtend kan werken (Chiarello et al., 2024; Dwivedi et al., 2023; Lian et al., 2024). In tegenstelling tot traditionele chatbots, die vaak werken met vooraf gedefinieerde antwoorden en beperkte interactiepatronen, maken de generatieve mogelijkheden van ChatGPT dynamische, contextbewuste gesprekken mogelijk die zich kunnen aanpassen aan uiteenlopende onderwijssituaties (Hyun Baek & Kim, 2023; Niloy et al., 2024; Yang & Li, 2024). Deze capaciteit om genuanceerde en gepersonaliseerde feedback te genereren, betekent een duidelijke breuk met eerdere AI-technologieën. Eerdere technologie was voornamelijk gericht op het uitvoeren van eenvoudige taken (Su et al., 2023).
Deze review richt zich uitsluitend op ChatGPT en de impact ervan op het leren van studenten, vanwege de brede bekendheid en herkenbaarheid onder studenten (Hamerman et al., 2024). Bovendien is de output van ChatGPT samenhangend en vergelijkbaar in kwaliteit met door mensen geproduceerde teksten (Flodén, 2024; Gencer & Gencer, 2024; Jarry Trujillo et al., 2024; Lin & Chen, 2024). Ook kan de inhoudelijke diepgang en nauwkeurigheid van ChatGPT andere GenAI-tools overtreffen (Dihan et al., 2024; Sallam et al., 2024; Williams, 2024).
De integratie van ChatGPT in onderwijscontexten verloopt in hoog tempo, waarbij studenten het model in toenemende mate gebruiken voor uiteenlopende academische taken (Jo, 2023; Playfoot et al., 2024). Ook docenten zoeken actief naar manieren om ChatGPT in te zetten bij het lesgeven en toetsen, met als doel de efficiëntie te verhogen (Laak & Aru, 2024; Shin & Lee, 2024) en leerprestaties van studenten te optimaliseren (Bower et al., 2024). Ondanks oproepen tot empirisch onderzoek naar de effectiviteit van ChatGPT in het verbeteren van studentleren (bijv. Law, 2024; Lee & Song, 2024), bestaat er nog een aanzienlijke kennislacune over de impact ervan op verschillende leeruitkomsten. Het niet begrijpen van deze effecten vóór brede implementatie kan leiden tot een lagere onderwijskwaliteit, het versterken van ongelijkheid in het onderwijs en zorgen over academische integriteit (Jensen et al., 2024; Jiang et al., 2024).
Deze studie tracht die leemte op te vullen door relevante experimentele bevindingen samen te brengen en zo een integraal inzicht te verkrijgen in het onderzoeksveld, evenals trends en veelbelovende richtingen voor toekomstig onderzoek te identificeren.
Deze systematische review en meta-analyse beoogt een fundamentele vraag te beantwoorden: welke inzichten bieden experimentele studies over de impact van ChatGPT op verschillende dimensies van studentleren? Een genuanceerd begrip van deze impact is cruciaal voor het informeren van didactische strategieën en voor het vormgeven van een verantwoorde implementatie van ChatGPT en soortgelijke generatieve AI-tools in het onderwijs. Indien uit het bewijs blijkt dat ChatGPT een positief effect heeft, is het essentieel om innovatieve pedagogische praktijken te ontwikkelen die studenten voorbereiden op een door GenAI gedreven arbeidsmarkt (Chan, 2023; Dianova & Schultz, 2023), zoals het bevorderen van hun vaardigheden in prompt engineering (Walter, 2024). Positief bewijs zou ook impliceren dat lerarenopleidingen aangepast moeten worden, zodat docenten kunnen meebewegen met nieuwe technologieën in plaats van het risico te lopen achter te blijven (Garofalo & Farenga, 2024).
Anderzijds zou negatief bewijs een meer voorzichtige benadering vereisen, waarbij mogelijke risico’s worden benadrukt en aanvullend onderzoek nodig is om negatieve effecten te beperken. Deze review biedt inzichten voor onderzoekers, docenten en beleidsmakers die hun weg zoeken in de integratie van deze transformerende technologie binnen het onderwijslandschap.
2. Literatuurstudie
2.1. Percepties en houdingen van studenten en docenten ten opzichte van ChatGPT in het onderwijs
De percepties en houdingen van studenten en docenten spelen een cruciale rol bij de acceptatie en integratie van ChatGPT. Er zijn empirische studies uitgevoerd om de mate van acceptatie van ChatGPT in onderwijs en leren te onderzoeken, zowel onder studenten (Niloy et al., 2024) als onder docenten (Al-khresheh, 2024). Over het algemeen tonen bachelor- (Tu & Hwang, 2023) en masterstudenten (Dai et al., 2023) zich positief ten opzichte van ChatGPT, ondanks het ontbreken van duidelijke richtlijnen voor het gebruik ervan (Adams et al., 2023; Zou & Huang, 2023). Hoewel een grote groep studenten ChatGPT omarmt, is er ook een duidelijke groep die onverschillig of terughoudend is over toepassing in het onderwijs (Šedlbauer et al., 2024). Een gangbare opvatting onder studenten is dat ChatGPT vooral gebruikt kan worden voor het genereren van ideeën en het verlichten van cognitieve belasting bij routinetaken, in plaats van als hulpmiddel voor het volledig automatisch schrijven van teksten (Barrett & Pack, 2023; Yan, 2023). Ondanks dat de output van ChatGPT soms onlogisch, problematisch of tegenstrijdig kan zijn (Stojanov, 2023; Urhan et al., 2024), tonen studenten vaak vertrouwen in het vermogen van ChatGPT om juiste antwoorden te geven (Ding et al., 2023).
Docenten laten een ambivalente houding zien ten opzichte van het gebruik van ChatGPT in het onderwijs. Enerzijds zijn er zorgen geuit over mogelijke negatieve effecten van het promoten van ChatGPT-gebruik onder studenten (Nam & Bai, 2023), met name de verspreiding van desinformatie (Su & Yang, 2023), het ontbreken van bewijs voor de gegenereerde antwoorden (Cooper, 2023), het bevorderen van knip-en-plakgedrag (Garcia Castro et al., 2024) en het belemmeren van de ontwikkeling van hogere-orde denkvaardigheden (Mohamed, 2024). Anderzijds zien sommige docenten in het verantwoord gebruik van ChatGPT juist kansen voor versterking van het onderwijs (Yusuf et al., 2024). Deze groep vindt dat ChatGPT efficiënt is in het genereren van output voor uiteenlopende academische taken, zoals het ontwikkelen en optimaliseren van lesplannen (Okulu & Muslu, 2024), beoordelingsrubrieken (Cooper, 2023), quizvragen (U. Lee, Chen, et al., 2024), presentatieslides (Galindo-Domínguez et al., 2023), inhoudelijke kennis (Su & Yang, 2023) en innovatieve didactische werkvormen (Yeh, 2024). Zij verwachten dat ChatGPT studenten kan transformeren van passieve kennisontvangers tot actieve onderzoekers (Jeon & Lee, 2023), maar blijven tegelijkertijd kritisch over het gebruik in toetsing en feedback (ElSayary, 2023).
De snelle ontwikkelingen rond ChatGPT roepen zowel enthousiasme als bezorgdheid op en onderstrepen de noodzaak van empirisch onderzoek naar de mogelijke impact ervan. In vergelijking met docenten zijn studenten over het algemeen enthousiaster over de inzet van ChatGPT in het onderwijs (Chan & Tsi, 2024). Hoewel percepties en houdingen van studenten en docenten waardevolle inzichten bieden in eerste reacties op ChatGPT (Chan & Lee, 2023; Monib et al., 2024; Moorhouse & Kohnke, 2024), leveren zij geen bewijs voor de daadwerkelijke effecten op leeruitkomsten. Om verder te gaan dan subjectieve opinies is empirisch onderzoek nodig dat het verband tussen ChatGPT-gebruik en studentenleren onderzoekt. Cross-sectionele onderzoeken en experimentele studies worden daarbij het meest gebruikt.
2.2. Sterke en zwakke punten van cross-sectionele onderzoeken naar de impact van ChatGPT
Cross-sectionele onderzoeken bieden waardevolle inzichten in de vroege verkenning van ChatGPT in het onderwijs. Veelvoorkomende thema’s zijn de percepties en ervaringen van studenten met ChatGPT (Gao et al., 2024; Grájeda et al., 2024), individuele verschillen hierin op basis van persoonskenmerken (zoals gender; Almazrou et al., 2024; Ofem et al., 2024) en factoren die de intentie en het daadwerkelijke gebruik beïnvloeden (Jo, 2024; Maheshwari, 2024; Tan et al., 2024; Grassini et al., 2024; Salifu et al., 2024; Wijaya et al., 2024). Doordat deze studies een momentopname bieden van percepties, gedrag en prestaties, zijn ze geschikt om snel grootschalige data te verzamelen uit diverse studentengroepen. Ze vormen een effectief vertrekpunt om patronen en percepties te identificeren, evenals associaties tussen ChatGPT-gebruik en studieprestaties.
Hoewel cross-sectionele studies verbanden kunnen aantonen, kunnen ze zelden de richting van deze verbanden verklaren. Zo onderzochten Shahzad et al. (2024) het verband tussen ChatGPT-gebruik en academische prestaties onder 362 Chinese studenten via structurele vergelijkingmodellen. Zij vonden een positief verband en adviseerden het hoger onderwijs om GenAI-tools in te zetten ter versterking van het leren. Omdat het onderzoek echter cross-sectioneel is, blijft onduidelijk of ChatGPT leidt tot betere prestaties, of dat betere studenten vaker ChatGPT gebruiken. Ondanks deze ambiguïteit over de richting van het verband, trekken onderzoekers vaak toch conclusies over de positieve effecten van ChatGPT (bijv. Al-Qaysi et al., 2024; Boubker, 2024; Dahri et al., 2024).
Een ander voorbeeld van de beperkingen is te vinden bij Crawford et al. (2024), die gegevens van 387 studenten analyseerden en een negatieve, zij het statistisch niet-significante, correlatie vonden tussen ChatGPT-gebruik en zelfgerapporteerde prestaties. Zij waarschuwen voor mogelijke negatieve effecten, maar wijzen ook op vertekeningen zoals sociale wenselijkheid (Paulhus, 1991) en herinneringsbias (Coughlin, 1990). Bovendien blijft onduidelijk of ChatGPT bijdraagt aan lage prestaties, of dat studenten met lage prestaties ChatGPT vaker inzetten. Inzicht in deze richting is van groot belang voor het vormgeven van beleid. Als ChatGPT leidt tot slechtere leeruitkomsten, zijn interventies nodig om verantwoord gebruik te bevorderen. Als juist zwakkere studenten er vaker gebruik van maken, kan extra ondersteuning nodig zijn.
Behalve de richting is ook het risico op schijnverbanden een belangrijke beperking van cross-sectioneel onderzoek (Haig, 2003). Zo kan bijvoorbeeld beperkte voorkennis zowel leiden tot lagere prestaties als tot meer gebruik van ChatGPT. Dit kan het verband vertekenen. Daarnaast speelt zelfselectiebias (Titus, 2006): studenten die voor ChatGPT kiezen, verschillen mogelijk systematisch van wie dat niet doen. Ze zijn bijvoorbeeld eerder geneigd tot afhankelijkheid van technologie en tot het leveren van minder inspanningen. Tot slot missen veel studies context, omdat de data vaak verzameld worden via gemakssteekproeven in uiteenlopende onderwijssituaties (bijv. Acosta-Enriquez et al., 2024; Bouteraa et al., 2024; Budhathoki et al., 2024). Onderwijskundige contexten – zoals curriculumopbouw, type opdrachten en aanvullende onderwijstechnologieën (Biggs & Tang, 2011) – beïnvloeden mogelijk de manier waarop ChatGPT gebruikt wordt en zijn dus essentieel voor interpretatie.
Hoewel cross-sectioneel onderzoek snel en kostenefficiënt is en bruikbaar voor het vinden van verbanden tussen ChatGPT-gebruik en leren (bijv. Jaboob et al., 2024; Ngo et al., 2024), is het beperkt in het vaststellen van causaliteit of tijdsvolgorde. De risico’s op schijnverbanden en het ontbreken van context onderstrepen de noodzaak van experimenteel onderzoek om de werkelijke impact van ChatGPT op leren vast te stellen.
2.3. Experimentele studies over de impact van ChatGPT op leren
Waar cross-sectionele onderzoeken zich beperken tot het vaststellen van verbanden op één meetmoment, bieden experimentele studies sterker bewijs voor causaliteit door directe meting van interventie-effecten in gecontroleerde omstandigheden (Gorard & Cook, 2007). Sinds de introductie van ChatGPT zijn diverse experimentele studies uitgevoerd, met onderwerpen als taalonderwijs (Maghamil & Sieras, 2024), programmeren (Donald et al., 2024) en gezondheidszorg (Svendsen et al., 2024). Deze studies beslaan meerdere onderwijsniveaus, van basisschool (Almohesh, 2024) en voortgezet onderwijs (Kim, 2024) tot universiteiten (Xue et al., 2024). Deze spreiding biedt een breed beeld van ChatGPT’s potentieel in uiteenlopende leeromgevingen.
De resultaten zijn echter gemengd: sommige studies tonen significante leerwinst (Emran et al., 2024; Lyu et al., 2024), terwijl andere juist negatieve effecten (Shin et al., 2024; Zhang et al., 2024) of helemaal geen effect rapporteren (Basic et al., 2023; Farah et al., 2023). Deze uiteenlopende bevindingen maken het noodzakelijk om de resultaten via systematische review en meta-analyse te bundelen, om tot heldere conclusies en richtlijnen voor de onderwijspraktijk te komen.
2.4. Bestaande reviews over ChatGPT in het onderwijs
Tabel 1 geeft een chronologisch overzicht van bestaande reviewartikelen over ChatGPT in het onderwijs. De meeste reviews bieden een brede analyse van de implicaties van de technologie (Chen et al., 2024; Grassini, 2023; Lo, 2023), terwijl sommige zich toespitsen op specifieke onderwijsniveaus, zoals het hoger onderwijs (Ansari et al., 2024; Baig & Yadegaridehkordi, 2024; Perera & Lankathilaka, 2023), of specifieke toepassingen zoals ChatGPT als schrijfondersteuner (Imran & Almusharraf, 2023).
Deze bestaande reviews bieden waardevolle inzichten in opkomende trends, potentiële voordelen en uitdagingen bij de integratie van ChatGPT in onderwijscontexten. Ze onderstrepen het transformerende potentieel van ChatGPT voor gepersonaliseerd leren, grotere betrokkenheid van studenten en het ondersteunen van diverse leerbehoeften. Tegelijkertijd signaleren ze structureel zorgen over academische integriteit, nauwkeurigheid en bias en wijzen ze op de noodzaak van zorgvuldige, verantwoorde implementatiestrategieën om risico’s te beperken.
Tabel 1. Bestaande reviews over ChatGPT in het onderwijs
Publicatiedatum | Auteur(s) | Doorzochte databanken | Einde dataverzameling | Aantal gereviewde artikelen | Belangrijkste bijdragen |
---|---|---|---|---|---|
April 2023 | Lo (2023) | Academic Search Ultimate, ACM Digital Library, Education Research Complete, ERIC, IEEE Xplore, Scopus, Web of Science, Google Scholar | Februari 2023 | 50 | Toepassingen en beperkingen van ChatGPT in het onderwijs |
Juni 2023 | Perera en Lankathilaka (2023) | ScienceDirect, Springer, Web of Science, Taylor & Francis, ResearchGate, EBSCOhost, uitgevers | Mei 2023 | 8 | Gebruik van ChatGPT en impact op hoger onderwijs |
Juli 2023 | Grassini (2023) | Google Scholar, Scopus | Mei 2023 | Niet gerapporteerd | Voordelen en uitdagingen van ChatGPT-integratie in onderwijs |
Juli 2023 | İpek et al. (2023) | ScienceDirect, ERIC, Wiley, Springer, Sage, Taylor & Francis, MDPI, JSTOR | Februari 2023 | 40 | Implicaties en zorgen rond ChatGPT-gebruik in onderwijs |
Juli 2023 | Jahic et al. (2023) | Google Scholar, IEEE Xplore, ScienceDirect, Web of Science | Niet gerapporteerd | 41 | Toepassingen, voordelen en nadelen van ChatGPT in onderwijs |
Juli 2023 | Montenegro-Rueda et al. (2023) | Web of Science, Scopus, Google Scholar | Juni 2023 | 12 | Impact van ChatGPT op onderwijs |
Juli 2023 | Vargas-Murillo et al. (2023) | Scopus, ScienceDirect, ProQuest, IEEE Xplore, ACM Digital Library | Niet gerapporteerd | 16 | Toepassingen, uitdagingen, kansen en impact van ChatGPT |
Augustus 2023 | Imran en Almusharraf (2023) | Scopus, ScienceDirect, PubMed, Web of Science | Mei 2023 | 30 | Kansen en uitdagingen van ChatGPT bij academisch schrijven |
Augustus 2023 | Pradana et al. (2023) | Google Scholar | Niet gerapporteerd | 93 | Belangrijke auteurs, subthema’s, opkomende onderzoekslijnen |
September 2023 | Dempere et al. (2023) | PubMed, Web of Science, IEEE Xplore, Scopus, Google Scholar, ACM, ScienceDirect, JSTOR, ProQuest, SpringerLink, EBSCOhost, ERIC | Niet gerapporteerd | 143 | Potentieel en beperkingen van ChatGPT in hoger onderwijs |
Oktober 2023 | Ansari et al. (2024) | Google Scholar, Taylor & Francis, Emerald, Sage, Elsevier, ScienceDirect, PubMed | Mei 2023 | 69 | Gebruik van ChatGPT in hoger onderwijs |
December 2023 | Polat et al. (2024) | Scopus | Juli 2023 | 212 | Trends, thema’s en auteurs in ChatGPT-onderzoek |
December 2023 | Zhang en Tur (2023) | Web of Science, Scopus, ERIC, SpringerLink, IEEE Xplore, ACM Digital Library | Niet gerapporteerd | 13 | ChatGPT in primair en voortgezet onderwijs |
Februari 2024 | Mai et al. (2024) | Scopus, ERIC, Google Scholar | December 2023 | 51 | SWOT-analyse van ChatGPT in onderwijs |
Februari 2024 | Mahrishi et al. (2024) | Scopus | December 2023 | 109 | Ontwikkeling en trends van ChatGPT in onderwijs en onderzoek |
Februari 2024 | Wong et al. (2024) | Web of Science, Altmetric | Augustus 2023 | 175 | Verband media-aandacht en wetenschappelijke citaties |
April 2024 | Bhullar et al. (2024) | Scopus | Mei 2023 | 47 | ChatGPT in hoger onderwijs: toepassingen en impact |
Mei 2024 | Yun en Surianshah (2024) | Scopus | Niet gerapporteerd | 58 | Trends, thema’s en auteurs in ChatGPT-onderwijsonderzoek |
Juni 2024 | Ali et al. (2024) | Academic Search Premier, Web of Science, IEEE | Oktober 2023 | 112 | Voordelen en beperkingen van ChatGPT in leren en lesgeven |
Juli 2024 | Amarathunga (2024) | Scopus | Mei 2024 | 45 | Trends, auteurs en lacunes in ChatGPT-onderzoek in onderwijs |
Juli 2024 | Baig en Yadegaridehkordi (2024) | Emerald, ERIC, MDPI, SAGE, Elsevier, SpringerLink, Frontiers, PLoS ONE, Wiley, Taylor & Francis | Januari 2024 | 57 | Trends, meetmethoden, toepassingen, beperkingen in hoger onderwijs |
Augustus 2024 | Samala et al. (2024) | Web of Science, Scopus | December 2023 | 453 | Toepassingen, voordelen, beperkingen, ethiek en toekomst van ChatGPT |
Noot: Indien de publicatiedatum niet beschikbaar is, wordt de eerstvolgende acceptabele datum vermeld.
Hoewel bestaande reviews bijdragen aan een breder begrip van ChatGPT in het onderwijs, ontbreekt het hen aan een diepgaande analyse van experimenteel bewijs. Deze reviews zijn grotendeels gebaseerd op theoretische discussies, meningen en beperkte cross-sectionele onderzoeken, die geen causale verbanden vaststellen tussen het gebruik van ChatGPT en het leren van studenten. Sommige reviews uiten zorgen dat overmatige afhankelijkheid van ChatGPT het kritisch denken zou kunnen belemmeren (Perera & Lankathilaka, 2023; Samala et al., 2024; İpek et al., 2023), terwijl andere suggereren dat het gebruik van ChatGPT juist kan bijdragen aan het ontwikkelen van deze vaardigheden, doordat het een platform biedt voor het verkennen van ideeën en het stimuleren van diepgaander denken en analyseren (Jahic et al., 2023; Montenegro-Rueda et al., 2023). Dit onderstreept de noodzaak van een systematische review en meta-analyse van experimentele studies, om de impact van ChatGPT op het leren van studenten te beoordelen en onderwijskundigen van onderbouwde richtlijnen te voorzien.
Om conceptuele duidelijkheid te verschaffen, wordt in deze review het leren van studenten operationeel gedefinieerd als de meetbare verbetering in cognitieve, emotionele en psychologische uitkomsten die voortvloeien uit ChatGPT-interventies, beoordeeld aan de hand van diverse methoden zoals gestandaardiseerde toetsen, prestatietaken en zelfevaluaties. De impact van ChatGPT wordt in deze review opgevat als het effect van zowel de standaardtoepassing van ChatGPT als van onderwijstoepassingen die ChatGPT gebruiken.
2.5. Onderzoekskansen
De bestaande literatuur over ChatGPT in het onderwijs vertoont vaak een smalle focus, waarbij vooral de toepassingen worden verkend en zowel voordelen als uitdagingen worden onderkend. Om verder te gaan dan louter conceptuele verkenning (bijv. García et al., 2024; Lambert & Stevens) en het daadwerkelijke effect van ChatGPT op het leren van studenten te begrijpen, is experimenteel onderzoek noodzakelijk. Alleen via experimenten kunnen causale verbanden worden vastgesteld en robuuste conclusies worden getrokken over de effectiviteit van ChatGPT in het onderwijs (Ansari et al., 2024).
Deze review heeft tot doel bevindingen uit experimentele studies over de impact van ChatGPT op studentleren samen te brengen, om zo een dieper inzicht te bieden in de integratie ervan in onderwijscontexten en besluitvorming te ondersteunen op basis van wetenschappelijk bewijs. Onderwijs vindt niet plaats in een contextloos vacuüm (Deng et al., 2019). Inzicht in de context van interventies is essentieel voor het interpreteren van patronen en trends in experimentele studies over de impact van ChatGPT en de bredere implicaties daarvan (McGrath et al., 2024).
Daarom onderzoekt deze review zowel de kenmerken als de effecten van ChatGPT-interventies en worden de volgende twee onderzoeksvragen geformuleerd:
Onderzoeksvraag 1 (RQ1)
Wat zijn de onderwijsniveaus, vakgebieden, contexten, duur en toepassingsvormen van ChatGPT-interventies in experimentele studies?
Onderzoeksvraag 2 (RQ2)
Wat zijn de gedifferentieerde effecten van ChatGPT-interventies op verschillende dimensies van het leren van studenten?
Gezien het belang van methodologische zorgvuldigheid voor het trekken van geldige conclusies over de impact van ChatGPT op het leren van studenten (Lo et al., 2024; Wong et al., 2024), beoordeelt deze review niet alleen de interventiekenmerken en gemelde effecten, maar ook de methodologische kwaliteit van de studies.
Hoewel deze review geen uitgebreide methodologische analyse biedt van alle beoordelingscriteria per studie, worden wel twee cruciale methodologische aspecten specifiek belicht: de steekproefgrootte en controle van beginsituaties (baselineverschillen). Deze factoren zijn essentieel voor het beoordelen van de kwaliteit van experimenteel onderzoek (Shadish et al., 2002) en worden vaak opgenomen in richtlijnen voor kwaliteitsbeoordeling van experimentele studies (Kmet et al., 2004; NHLBI, 2021).
Een adequate steekproefomvang zorgt voor voldoende statistische power om betekenisvolle effecten te kunnen detecteren en voorkomt dat werkelijke effecten over het hoofd worden gezien door een te kleine steekproef (Abraham & Russell, 2008; Peng et al., 2012). Een goede controle van baselineverschillen verhoogt de nauwkeurigheid van effectschattingen, waardoor effecten betrouwbaarder aan de interventie kunnen worden toegeschreven in plaats van aan bestaande verschillen tussen groepen (Critical Appraisal Skills Programme, 2023; Howitt & Cramer, 2017).
Dit is bijzonder relevant bij opkomende technologieën zoals ChatGPT, waar zowel aanzienlijke onderwijsvoordelen als onbedoelde neveneffecten mogelijk zijn. Op basis hiervan wordt een derde onderzoeksvraag geformuleerd:
Onderzoeksvraag 3 (RQ3)
Hoe bepalen experimentele studies naar ChatGPT-interventies de steekproefgrootte en hoe controleren zij voor beginsituatieverschillen?
3. Methode
3.1. Informatiebronnen en zoekstrategie
Deze systematische review en meta-analyse is uitgevoerd volgens het PRISMA-raamwerk (Preferred Reporting Items for Systematic Reviews and Meta-Analyses; Page et al., 2021). Het reviewproces bestond uit het opstellen van een uitgebreide zoekstrategie, het definiëren van duidelijke inclusie- en exclusiecriteria en het zorgvuldig identificeren van relevante publicaties.
Twee auteurs waren betrokken bij het zoekproces naar artikelen. Vooronderzoek in bestaande reviews en afzonderlijke empirische studies wees op het gebruik van uiteenlopende terminologie in onderzoek naar de impact van ChatGPT op het leren van studenten. De eerste en vijfde auteur ontwikkelden een uitgebreide zoekreeks (zie Tabel 2) om deze variatie te ondervangen. Dit deden zij door verkennende zoekacties uit te voeren en kernwoorden te extraheren uit artikelen die gepubliceerd zijn in toonaangevende onderwijstijdschriften, zoals Computers & Education.
Synoniemen en aanverwante termen werden eveneens opgenomen om de reikwijdte van de zoekactie te verbreden en een groter aantal relevante studies te identificeren. De zoekreeks maakte gebruik van logica, waarbij termen werden gecombineerd die betrekking hebben op ChatGPT (bijv. ‘GPT-3.5’), experimentele onderzoeksmethoden (bijv. ‘randomised controlled trial’) en de onderwijskundige context (bijv. ‘student’). Deze zoekreeks werd toegepast in systematische zoekacties in de volgende databanken: EBSCOhost, IEEE Xplore, PsycINFO, Scopus en Web of Science, met als peildatum 31 augustus 2024.
Tabel 2. Zoekwoorden in de zoekreeks
Termen gerelateerd aan ChatGPT | Termen gerelateerd aan experimenteel onderzoek | Termen gerelateerd aan de onderwijskundige context |
‘ChatGPT’ OR ‘chat generative pre-trained transformer’ OR ‘GPT-3.5’ OR ‘GPT-4’ OR ‘GPT-4o’ OR ‘generative AI’ OR ‘generative artificial intelligence’ OR ‘GenAI’ OR ‘generative model’ OR ‘artificial intelligence generated content’ OR ‘AIGC’ OR ‘AI-generated’ | ‘experiment∗’ OR ‘randomised controlled trial’ OR ‘randomized controlled trial’ OR ‘RCT’ OR ‘quasi-experiment’ OR ‘intervention’ | ‘education’ OR ‘student’ OR ‘learner’ |
Geleid door de onderzoeksvragen zijn specifieke inclusiecriteria vastgesteld om de relevantie van de geselecteerde studies te waarborgen (zie Tabel 3). Artikelen moesten aan alle vooraf bepaalde criteria voldoen om te worden opgenomen. De criteria richtten zich op studies die direct de impact van ChatGPT op het leren van studenten onderzochten, een experimenteel of quasi-experimenteel onderzoeksontwerp gebruikten en gepubliceerd waren in peer-reviewed tijdschriften in het Engels, vanaf december 2022, kort na de marktintroductie van ChatGPT in november 2022. Op deze manier werd recente en kwalitatief hoogstaande literatuur geselecteerd, die aansloot bij de reikwijdte van deze review.
Tabel 4 toont de exclusiecriteria. Studies die aan deze criteria voldeden, zijn uitgesloten van verdere analyse.
Studies zijn uitgesloten als zij:
- gebruikmaakten van kwalitatieve onderzoeksmethoden,
- zich richtten op ondersteunende AI of niet-generatieve AI,
- uitkomstmaten onderzochten anders dan studentleren,
- vergelijkende analyses uitvoerden zonder leeruitkomsten te meten,
- een experimentele groep includeerden waarin deelnemers andere GenAI-tools dan ChatGPT gebruikten,
- of een within-subject design hanteerden (waarbij dezelfde deelnemers meerdere condities doorliepen).
Deze selectieprocedure zorgde ervoor dat de review zich volledig richtte op de kernvraag van het onderzoek.
Tabel 3. Inclusiecriteria
Inclusiecriterium | Toelichting |
De studie gebruikte ChatGPT in de interventie. | Dit criterium waarborgt dat uitsluitend studies worden opgenomen die zich specifiek richten op ChatGPT (en niet op andere generatieve AI-tools), zodat een gerichte analyse van de impact op het leren van studenten mogelijk is. Vanwege de unieke generatieve mogelijkheden van ChatGPT is het essentieel de effecten ervan los te zien van andere GenAI-toepassingen (Jošt et al., 2024). |
De studie gebruikte experimentele of quasi-experimentele onderzoeksontwerpen. | Dit criterium geeft prioriteit aan studies die gebruikmaken van experimentele ontwerpen met controlegroepen, zodat causale verbanden tussen ChatGPT-gebruik en studentleren kunnen worden vastgesteld. |
De studie gebruikte studenten als deelnemers. | Hiermee wordt gewaarborgd dat de studie zich richt op het effect van ChatGPT op het leren van studenten en niet op dat van professionals (bijv. Noy & Zhang, 2023). |
De studie bevatte minimaal één controlegroep zonder ChatGPT (of ChatGPT-gebaseerde toepassingen) en één experimentele groep met ChatGPT. | De aanwezigheid van een controlegroep maakt het mogelijk om effecten toe te schrijven aan de ChatGPT-interventie en niet aan andere verklaringen zoals natuurlijke ontwikkeling of toetstrainings-effecten. |
De studie onderzocht het effect van ChatGPT op cognitieve (bijv. kennisverwerving), emotionele (bijv. plezier) en psychologische uitkomsten (bijv. zelfeffectiviteit). | Dit criterium biedt een holistisch beeld van hoe ChatGPT verschillende aspecten van studentleren beïnvloedt. Door de focus op meerdere dimensies wordt het veelzijdige effect van deze technologie zichtbaar. |
De studie onderzocht het gedifferentieerde effect van ChatGPT op verschillende leeftijdsgroepen en onderwijsniveaus. | Dit criterium maakt het mogelijk om ChatGPT’s effecten te evalueren binnen diverse leerpopulaties, in de wetenschap dat de impact per leeftijd of context kan verschillen. |
De studie is beperkt tot peer-reviewed tijdschriftartikelen en conferentiepapers. | Dit criterium garandeert methodologische kwaliteit en betrouwbaarheid van de bevindingen. Peer-review biedt een minimumniveau van wetenschappelijke zorgvuldigheid. |
De studie is gepubliceerd in december 2022 of later. | Dit criterium houdt rekening met het effect van de lancering van ChatGPT op de populariteit en ontwikkeling van generatieve AI. Studies van vóór deze datum doen geen recht aan de specifieke dynamiek van deze generatie AI. |
De studie is gepubliceerd in het Engels. | Dit criterium zorgt voor consistentie en uitvoerbaarheid binnen deze review. Hoewel dit de generaliseerbaarheid naar niet-Engelstalige contexten beperkt, sluit het aan bij de expertise van de onderzoekers. |
Tabel 4. Exclusiecriteria
Exclusiecriterium | Toelichting |
De studie richtte zich uitsluitend op de analyse van rijke kwalitatieve data (bijv. Liu et al., 2024) en week daarmee af van een kwantitatieve benadering gebaseerd op statistische analyse en hypothesetoetsing. | Deze review geeft prioriteit aan kwantitatieve studies met meetbare uitkomsten, omdat deze statistische analyses en hypothesetoetsing mogelijk maken om de impact van ChatGPT op leren te beoordelen. Kwalitatieve data, hoewel waardevol, vallen buiten de reikwijdte van deze review. |
De studie onderzocht de bredere impact van ondersteunende of niet-generatieve AI (bijv. Tai, 2024) en ging daarmee voorbij aan het specifieke geval van ChatGPT. | De impact van ondersteunende of niet-generatieve AI-technologieën, zoals spraakassistenten die verzoeken begrijpen en beantwoorden, valt buiten de focus van deze review. Deze technologieën beschikken niet over de generatieve mogelijkheden die ChatGPT uniek maken. Studies naar chatbots die expliciet gebruikmaken van ChatGPT zijn wel opgenomen (bijv. Ng et al., 2024). |
De studie onderzocht uitkomstmaten die niet direct gerelateerd zijn aan studentleren (bijv. Cingillioglu et al., 2024). | Deze review richt zich uitsluitend op de directe impact van ChatGPT op leeruitkomsten. Studies die andere factoren onderzoeken, zoals inschrijvingsbeslissingen, zijn niet direct relevant voor het primaire doel van deze review en zijn daarom uitgesloten. |
De studie vergeleek ChatGPT met menselijke docenten (bijv. Steiss et al., 2024) of andere AI-tools (bijv. Seth et al., 2024), zonder de gevolgen voor leren te meten. | Vergelijkingen tussen ChatGPT en menselijke docenten of andere technologieën zonder directe evaluatie van leeruitkomsten dragen niet bij aan inzicht in de educatieve impact van ChatGPT. |
De studie bevatte een experimentele groep waarin deelnemers niet alleen ChatGPT, maar ook andere GenAI-tools gebruikten (bijv. Saritepeci & Yildiz Durak, 2024). | De review maakt een duidelijk onderscheid tussen de effecten van ChatGPT en andere GenAI-tools en sluit daarom studies uit waarbij meerdere tools tegelijk werden ingezet. |
De studie hanteerde een within-subject design (bijv. Çelik, Yangın Ersanlı & Arslanbay, 2024). | Studies met een within-subject design brengen risico’s met zich mee zoals volgorde-effecten (bijv. studenten presteren beter in latere taken ongeacht ChatGPT-gebruik) en overdrachteffecten (bijv. het gebruik van ChatGPT in een latere fase beïnvloedt prestaties doordat cognitieve vaardigheden al zijn ontwikkeld in de eerdere conditie). |
Het proces van de systematische review en meta-analyse werd uitgevoerd volgens de PRISMA-richtlijnen, zoals weergegeven in Figuur 1. Een eerste zoekactie leverde 1.683 publicaties op uit verschillende databanken: Web of Science (585), EBSCOhost (226), Scopus (637), PsycINFO (30) en IEEE Xplore (205). Na het verwijderen van 656 duplicaten bleven 1.027 publicaties over voor screening.
In deze fase werden 899 publicaties uitgesloten op basis van titel en samenvatting, waarna 128 rapporten overbleven voor volledige raadpleging. Van deze 128 rapporten bleken er vijf niet toegankelijk. Na volledige tekstscreening van de resterende 123 rapporten, werden er 51 uitgesloten.
Na een grondige kwaliteitsbeoordeling zijn er nog eens drie publicaties verwijderd. Dit resulteerde in 69 studies die werden opgenomen in de uiteindelijke review. Van deze 69 artikelen werden 62 opgenomen in de meta-analyse, gericht op het onderzoeken van de impact van ChatGPT-interventies op de vijf meest voorkomende uitkomstmaten.
Het zorgvuldige zoek- en selectieproces garandeerde dat uitsluitend relevante en kwalitatief hoogwaardige studies in de review werden meegenomen.
Figuur 1. Zoek- en selectieproces van artikelen
3.2. Kwaliteitsbeoordeling
De kwaliteit van de artikelen werd beoordeeld aan de hand van de Standard Quality Assessment Criteria (SQAC) ontwikkeld door Kmet et al. (2004). SQAC is een veelzijdig instrument dat kan worden ingezet voor de beoordeling van zowel kwantitatieve als kwalitatieve studies. Het is veelvuldig gebruikt in bestaande reviews binnen het onderwijsonderzoek en heeft zijn effectiviteit bewezen bij het evalueren van empirische studies (bijv. Hehir et al., 2021; Schott et al., 2020). Voor deze review werd gebruikgemaakt van de checklist en scoringshandleiding voor kwantitatief onderzoek.
Drie auteurs namen deel aan de kwaliteitsbeoordeling. Om objectiviteit en betrouwbaarheid te waarborgen, beoordeelden de tweede en derde auteur onafhankelijk van elkaar de kwaliteit van de publicaties. De interbeoordelaarsovereenkomst bedroeg 0,88. Dit wijst op een hoge mate van consistentie in het beoordelingsproces (McHugh, 2012). Verschillen tussen de beoordelingen werden opgelost via overleg en consultatie van de eerste auteur.
Elke publicatie werd beoordeeld op veertien dimensies: (1) onderzoeksvraag of doelstelling, (2) onderzoeksopzet, (3) selectie van deelnemers, (4) beschrijving van deelnemerkenmerken, (5) willekeurige toewijzing, (6) blindering van onderzoekers, (7) blindering van deelnemers, (8) uitkomstmaten, (9) steekproefgrootte, (10) analysemethode, (11) variantieschatting, (12) controle van storende variabelen, (13) rapportage van resultaten en (14) conclusies.
Elke dimensie werd gescoord op een schaal van Ja = 2, Gedeeltelijk = 1 en Nee = 0. De optie ‘Niet van toepassing’ werd niet gebruikt, aangezien alle dimensies relevant waren voor de opgenomen publicaties.
Om consensus in de beoordelingsprocedure te bevorderen, stelde de eerste auteur een tabel op met voorbeelden van elke dimensie (volgens Kmet et al., 2004), inclusief instructies over hoe de scores toe te kennen. Bijvoorbeeld: de eerste dimensie betreft de vermelding van de onderzoeksvraag. ‘Ja’ werd gescoord wanneer de onderzoeksvraag en bijbehorende informatie in de inleiding of eerste alinea van de methodesectie werden beschreven, ‘Gedeeltelijk’ als deze elders in het artikel stond en ‘Nee’ als de informatie ontbrak of onduidelijk was.
De kwaliteitsscore van elke publicatie werd berekend door de totaalscore te delen door de maximale score van 28. Hogere scores duiden op hogere kwaliteit. Op basis van eerder onderzoek werd een gemiddelde score < 0,50 beschouwd als onvoldoende, tussen 0,50–0,70 als voldoende, tussen 0,71–0,80 als goed en > 0,80 als van hoge kwaliteit (Lee et al., 2008). Gezien het prille stadium van dit onderzoeksveld werd een conservatieve ondergrens van 0,5 gehanteerd. De scores van de opgenomen studies varieerden van 0,50 tot 0,89, met een gemiddelde van 0,68. Drie publicaties werden uitgesloten op basis van onvoldoende kwaliteit. Dit resulteerde in 69 artikelen voor de systematische review.
3.3. Gegevensextractie
De gegevensverzameling in deze review volgde de aanbevelingen van Higgins et al. (2019). Twee auteurs voerden het extractieproces uit. De eerste auteur las 75% van de publicaties volledig door en haalde kerninformatie relevant voor de onderzoeksvragen uit de tekst (bijv. onderzoeksdoelen, statistische analysemethoden) en voerde de eerste codering uit.
Om de samenwerking te ondersteunen, werd een online tabel aangemaakt op een kennis- en samenwerkingsplatform. Hierin werden de PDF-bestanden van de publicaties geüpload, relevante passages gemarkeerd en gelinkt aan specifieke items in de tabel. Bijvoorbeeld: de zin “We invited the second-year master's students from the University Department of Forensic Sciences, to voluntarily participate in research on essay writing as a part of the course …” (Basic et al., 2023, p. 2) werd gemarkeerd in de PDF, gecodeerd als ‘Universiteit’ in de kolom ‘Onderwijsniveau’ en voorzien van een link naar de gemarkeerde passage.
Deze werkwijze zorgde voor transparantie en verifieerbaarheid van de gecodeerde gegevens. De vierde auteur valideerde de eerste codering door dezelfde 75% van de publicaties te lezen. Eventuele verschillen werden visueel gemarkeerd met kleurcoderingen en beschrijvende labels. Na overleg en consensus werden deze visuele hulpmiddelen verwijderd en de definitieve gegevens vastgelegd. De vierde auteur las vervolgens de resterende 25% van de publicaties en voerde de gegevensverzameling uit, waarna de eerste auteur deze controleerde.
Voor RQ1 werden de volgende variabelen verzameld:
- Onderwijsniveau (universitair of primair/voortgezet [K-12]);
- Vakgebied (gebaseerd op UNESCO-classificatie, samengevoegd in o.a. geesteswetenschappen, gezondheidswetenschappen, exacte wetenschappen en sociale wetenschappen);
- Interventiecontext (klaslokaal of laboratorium);
- Duur van de interventie (minder dan 1 week, 1–4 weken, 5–10 weken, meer dan 10 weken);
- Toepassingsvorm (direct gebruik door studenten of geïntegreerde toepassingen met ChatGPT-ondersteuning).
Voor RQ2 werden de volgende variabelen verzameld:
- Academische prestaties (objectief gemeten via toetsen, opdrachten, projecten, enz.);
- Affectieve-motivationele factoren (bijv. interesse, motivatie, betrokkenheid, plezier);
- Hogere-orde denkwijzen (bijv. kritisch, creatief, probleemoplossend en reflectief denken);
- Zelfeffectiviteit (bijv. geloof in eigen kunnen bij academische taken);
- Mentale inspanning (als maat voor cognitieve belasting).
Voor RQ3 werden de volgende methodologische variabelen verzameld:
- Gebruik van poweranalyse (ja/nee);
- Pretests (ja/nee);
- Gebruik van covariaten (ja/nee);
- Willekeurige toewijzing (ja/nee).
3.4. Gegevensanalyse
3.4.1. Overzicht van gegevensanalyse
Om algemene patronen in experimentele studies met ChatGPT-interventies te identificeren, werden alle 69 studies geanalyseerd om RQ1 te beantwoorden. Beschrijvende statistieken werden berekend voor de gecodeerde variabelen, zoals onderwijsniveau, vakgebied, interventiecontext, duur en toepassingsvorm. Deze variabelen fungeerden daarnaast als moderatorvariabelen bij het beantwoorden van RQ2.
Voor RQ2 werden meta-analyses uitgevoerd om de effecten van ChatGPT-interventies op verschillende dimensies van studentenleren te analyseren. De uitkomstmaten voor RQ2 werden niet vooraf gedefinieerd, maar geïdentificeerd op basis van hun frequentie in de geïncludeerde studies. Alleen de vijf meest onderzochte leeruitkomsten werden opgenomen in de meta-analyse. Minder vaak gerapporteerde uitkomsten, zoals zelfregulerend leren (Ng et al., 2024), samenwerkingsgerichtheid (Darmawansah et al., 2024) en besluitvormingsconflicten (Hu, 2024a), werden uitgesloten.
Van de 69 studies werden er 62 opgenomen in de meta-analyse, waarin de impact van ChatGPT werd geanalyseerd op:
- Academische prestaties
- Affectieve-motivationele factoren
- Hogere-orde denkwijzen
- Zelfeffectiviteit
- Mentale inspanning
Daarnaast werd in deze 62 studies gekeken naar steekproefgroottebepaling en controle van beginsituatieverschillen (RQ3).
3.4.2. Meta-analyse
Voor RQ2 werden meta-analyses uitgevoerd met behulp van Comprehensive Meta-Analysis (CMA) 3.0 (Borenstein, 2022). Vanwege de bias van gestandaardiseerde gemiddelde verschillen bij kleine steekproeven, werd Hedges’ g gekozen als effectgrootte (Hedges, 1981). Volgens Hattie (2008) worden Cohen’s d-waarden van 0,20, 0,40 en 0,60 geïnterpreteerd als kleine, middelgrote en grote effecten in onderwijsonderzoek; deze afspraken gelden ook voor Hedges’ g.
Wanneer de benodigde gemiddelden en standaarddeviaties niet beschikbaar waren, werden alternatieve statistische gegevens gebruikt (bijv. t- of F-waarden). Om studies met grotere precisie meer gewicht te geven, werden gewogen gemiddelde effectgroottes (g) berekend (Borenstein et al., 2009).
Voor 18 studies waarin meerdere uitkomstmaten werden onderzocht, zijn aparte meta-analyses per uitkomst uitgevoerd. Als een studie meerdere experimenten bevatte, werd per experiment een aparte effectgrootte berekend. Bij meerdere metingen binnen één cohort werd een gecombineerde gemiddelde effectgrootte berekend.
Vanwege variatie in vakgebieden en studiedesigns werd gekozen voor een random effects-model, dat rekening houdt met verschillen in ware effecten tussen studies. Heterogeniteit werd geanalyseerd met de I²-test, waarbij 25%, 50% en 75% respectievelijk lage, matige en hoge heterogeniteit aangeven (Higgins & Thompson, 2002).
Bij substantiële heterogeniteit werden moderatoranalyses uitgevoerd, mits het aantal studies dit toeliet.
Publicatiebias werd getest via drie methoden:
- Inspectie van funnel plots
- Begg en Mazumdar’s rangcorrelatietest
- Egger’s regressietest
Indien bias werd vastgesteld, werd de trim-and-fill methode (Duval & Tweedie, 2000) toegepast. Daarnaast werd Grubbs’ test gebruikt om uitschieters te detecteren.
4. Resultaten
4.1. Overzicht van de bronpublicaties
De basisinformatie over de geïncludeerde publicaties is weergegeven in Tabel 5. Verreweg de meeste artikelen zijn gepubliceerd in 2024 (n = 57); de overige 12 verschenen in 2023 – dit duidt op een stijgende trend in experimenteel onderzoek. De meeste publicaties zijn tijdschriftartikelen (n = 58) en een kleiner deel zijn conferentiepapers (n = 11).
Wat betreft publicatiebronnen is Education and Information Technologies het vaakst vertegenwoordigd (n = 6), gevolgd door Computers and Education: Artificial Intelligence (n = 4) en IEEE Transactions on Learning Technologies (n = 3). Negen tijdschriften en conferenties, waaronder het Journal of Educational Computing Research en de International Conference on Innovative Technologies and Learning, leverden elk twee bijdragen. De resterende 38 artikelen zijn afkomstig uit een breed scala aan andere tijdschriften en conferenties, elk met één bijdrage.
Geografisch gezien zijn de eerste auteurs voornamelijk afkomstig uit Azië (n = 49), gevolgd door Europa (n = 12), Noord-Amerika (n = 5), Zuid-Amerika (n = 2) en Afrika (n = 1). De studies zelf werden primair uitgevoerd in Azië (n = 39), gevolgd door Europa (n = 9), Noord-Amerika (n = 4) en Afrika (n = 2); bij 15 studies werd de locatie niet gerapporteerd.
Tabel 5. Informatie over de bronpublicaties (n = 69)
Jaar van publicatie | Frequentie | Percentage |
2024 | 57 | 82,61% |
2023 | 12 | 17,39% |
Type publicatie | ||
Tijdschriftartikel | 58 | 84,06% |
Conferentiebijdrage | 11 | 15,94% |
Publicatiebron | ||
Education and Information Technologies | 6 | 8,70% |
Computers and Education: Artificial Intelligence | 4 | 5,80% |
IEEE Transactions on Learning Technologies | 3 | 4,35% |
Journal of Educational Computing Research | 2 | 2,90% |
Journal of Computer Assisted Learning | 2 | 2,90% |
International Review of Research in Open and Distributed Learning | 2 | 2,90% |
International Journal of Educational Technology in Higher Education | 2 | 2,90% |
International Journal of Engineering Pedagogy | 2 | 2,90% |
International Conference on Innovative Technologies and Learning | 2 | 2,90% |
Educational Technology & Society | 2 | 2,90% |
Asia Pacific Journal of Education | 2 | 2,90% |
Arab World English Journal | 2 | 2,90% |
Overige bronnen | 38 | 55,07% |
Geografische herkomst (eerste auteur) | ||
Azië | 49 | 71,01% |
Europa | 12 | 17,39% |
Noord-Amerika | 5 | 7,25% |
Zuid-Amerika | 2 | 2,90% |
Afrika | 1 | 1,45% |
Locatie van de studie | ||
Azië | 39 | 56,52% |
Europa | 9 | 13,04% |
Noord-Amerika | 4 | 5,80% |
Afrika | 2 | 2,90% |
Niet gerapporteerd | 15 | 21,74% |
Noot: Door afronding kunnen de totalen iets afwijken van 100%.
De volgende sectie presenteert de bevindingen per onderzoeksvraag. Interpretaties en bespreking van deze resultaten worden behandeld in sectie 4.5.
4.2. RQ1: Wat zijn de onderwijsniveaus, vakgebieden, contexten, duur en toepassingsvormen van ChatGPT-interventies in experimentele studies?
4.2.1. Onderwijsniveau
Het onderwijsniveau in de onderzochte publicaties werd gecategoriseerd als (1) universiteit en (2) primair/secundair onderwijs (K-12). Van de 69 geïncludeerde studies vonden 58 studies (84,06%) plaats in het hoger onderwijs (bijv. Shin et al., 2024; Silitonga et al., 2023). Tien studies (14,49%) werden uitgevoerd in K-12-contexten (bijv. Khuibut et al., 2023; Ng et al., 2024). Eén studie vermeldde het onderwijsniveau niet expliciet (Suciati et al., 2024).
4.2.2. Vakgebied
De bestudeerde publicaties besloegen diverse vakgebieden. Van de 69 studies richtten 22 studies (31,88%) zich op taalonderwijs (bijv. Kim, 2024; Meyer et al., 2024), waarmee dit het meest onderzochte domein was. Dit werd gevolgd door computerwetenschappen (n = 9, 13,04%), gezondheidszorg (n = 8, 11,59%), natuurkunde (n = 8, 11,59%), onderwijskunde (n = 7, 10,14%), bedrijfskunde en economie (n = 3, 4,35%), wiskunde en statistiek (n = 3, 4,35%) en kunst (n = 2, 2,90%). Daarnaast was er één studie (1,45%) per vakgebied voor landbouw (Donald et al., 2024), techniek (Zhang et al., 2024), recht (Shi et al., 2024) en levenswetenschappen (Basic et al., 2023). Drie studies (4,35%) specificeerden het vakgebied niet.
Voor de moderatoranalyse in RQ2 werden deze vakgebieden gegroepeerd in:
- Geesteswetenschappen en kunsten (n = 24, 34,78%)
- Exacte en natuurwetenschappen (n = 21, 30,43%)
- Sociale wetenschappen (n = 11, 15,94%)
- Gezondheidswetenschappen (n = 8, 11,59%)
- Overig (n = 5, 7,25%)
4.2.3. Interventiecontext
De interventies vonden hoofdzakelijk plaats in klassikale omgevingen: 60 van de 69 studies (86,96%) (bijv. Aydın Yıldız, 2023; Farah et al., 2023) werden uitgevoerd in een klaslokaal. Zes studies (8,70%, bijv. Niloy et al., 2023; Stadler et al., 2024) vonden plaats in een laboratoriumomgeving. Drie studies (4,35%) meldden geen context voor de interventie (bijv. Chandrasekera et al., 2024).
4.2.4. Duur van de interventie
De duur van de interventies varieerde sterk. Dit weerspiegelt de uiteenlopende toepassing van ChatGPT in het onderwijs. De duur liep uiteen van een sessie van 10 minuten (Zhang et al., 2024) tot een semester van 16 weken (Gao, 2024). Voor een betere vergelijking zijn de interventieduren in vier categorieën ingedeeld:
- 5–10 weken: 22 studies (31,88%; bijv. Huesca et al., 2024)
- Minder dan 1 week: 15 studies (21,74%; bijv. Maghamil & Sieras, 2024)
- 1–4 weken: 12 studies (17,39%; bijv. Kavadella et al., 2024)
- Meer dan 10 weken: 10 studies (14,49%; bijv. Emran et al., 2024)
- Onbekend: 10 studies (14,49%; bijv. Ironsi & Ironsi, 2024)
4.2.5. Toepassingsvorm
De toepassing van ChatGPT werd ingedeeld in twee vormen:
- Direct leermiddel: standaard ChatGPT werd rechtstreeks gebruikt door studenten.
- ChatGPT-ondersteunde leerapplicatie: ChatGPT geïntegreerd in bredere leerplatforms via API’s of aangepaste tools.
Van de 69 studies gebruikten 55 studies (79,71%) ChatGPT als direct leermiddel (bijv. Ameen et al., 2024; Kucuk, 2024). Studenten gebruikten ChatGPT onder meer voor het genereren van ideeën (Mahapatra, 2024), het verduidelijken van misvattingen (Essel et al., 2024), of voor schrijf- en feedbacktaken (Boudouaia et al., 2024).
Veertien studies (20,29%) gebruikten ondersteunde toepassingen (bijv. H.-Y. Lee et al., 2024; Chen & Chang, 2024). Voorbeelden zijn gamified leerplatforms of programmeeromgevingen waarin ChatGPT ondersteuning biedt via geïntegreerde functionaliteit (Shang & Geng, 2024).
4.3. RQ2: Wat zijn de gedifferentieerde effecten van ChatGPT-interventies op verschillende dimensies van studentleren?
4.3.1. Uitschieters en publicatiebias
Grubbs’ test identificeerde één uitschieter op het gebied van academische prestaties (Ironsi & Ironsi, 2024). Deze studie werd echter niet uitgesloten, omdat er geen aanwijzingen waren voor methodologische afwijkingen in interventie, meting of berekening. Wel werd een verkennende meta-analyse uitgevoerd zonder deze studie, om te controleren of de totale effectgrootte hierdoor beïnvloed werd.
Vervolgens werd publicatiebias onderzocht (Tabel 6). Visuele inspectie van funnel plots (zie Bijlage A) suggereerde in sommige gevallen asymmetrie. Dit kan wijzen op publicatiebias.
De rangcorrelatietest toonde significante publicatiebias aan bij:
- Academische prestaties: τ (N = 51) = 0,321, p < .001
- Affectieve-motivationele factoren: τ (N = 20) = 0,484, p = .003
Geen significante bias werd gevonden voor:
- Hogere-orde denkwijzen: τ (N = 15) = 0,371, p = .054
- Zelfeffectiviteit: τ (N = 7) = 0,048, p = .881
- Mentale inspanning: τ (N = 4) = −0,333, p = .497
Ook Egger’s regressietest wees op mogelijke publicatiebias voor academische prestaties en affectieve-motivationele factoren (p > .05). Daarom werden de meta-analytische effecten voor deze twee uitkomstmaten aangepast met de trim-and-fill-methode.
Tabel 6. Publicatiebias test
Uitkomstmaat | k | Rangcorrelatie | Egger’s lineaire regressietest | ||||
Kendall’s t | p-waarde | Intercept | SF | 95%-BI | p-waarde | ||
Academische prestaties | 51 | 0,321 | < 0,001 | 5,512 | 0,925 | [3,653; 7,371] | < 0,001 |
Affectieve-motivationele factoren | 20 | 0,484 | 0,003 | 4,849 | 1,681 | [1,317; 8,381] | 0,010 |
Hogere-orde denken | 15 | 0,371 | 0,054 | −2,021 | 2,514 | [−7,451; 3,409] | 0,436 |
Zelfeffectiviteit | 7 | 0,048 | 0,881 | 1,903 | 5,380 | [−11,928; 15,733] | 0,738 |
Mentale inspanning | 4 | −0,333 | 0,497 | −1,397 | 3,215 | [−15,229; 12,435] | 0,706 |
Noot: SF = standaardfout; 95%-BI = 95%-betrouwbaarheidsinterval van Egger’s intercept.
4.3.2. Algemene effecten
Tabel 7 geeft een overzicht van de gewogen gemiddelde effectgroottes voor alle uitkomstvariabelen, berekend op basis van een random-effectenmodel.
Uitkomstmaat | Effectgrootte | Heterogeniteitstest | |||||
k | g+ | SF | 95%-BI | Q | df (Q) | p-waarde | |
Academische prestaties | 51 | 0,712*** | 0,109 | [0,497; 0,926] | 608,968 | 50 | < 0,001 |
Affectieve-motivationele factoren | 20 | 0,881*** | 0,178 | [0,531; 1,231] | 265,744 | 19 | < 0,001 |
Hogere-orde denken | 15 | 0,703*** | 0,182 | [0,345; 1,060] | 144,697 | 14 | < 0,001 |
Zelfeffectiviteit | 7 | 0,441 | 0,297 | [−0,141; 1,023] | 58,896 | 6 | < 0,001 |
Mentale inspanning | 4 | −0,675* | 0,304 | [−1,271; −0,079] | 12,179 | 3 | 0,007 |
Academische prestaties (trim-and-fill) | 57 | 0,881 | - | [0,606; 1,155] | 1350,694 | - | - |
Affectieve-motivationele factoren (trim-and-fill) | 23 | 1,122 | - | [0,685; 1,560] | 628,117 | - | - |
Noot:
k = aantal effectgroottes;
g+ = gemiddelde effectgrootte;
SF = standaardfout;
Q = Cochran's homogeneiteitstest;
I² = schaalvrije heterogeneiteitsindex.
* p < .05, ** p < .01, *** p < .001
Academische prestaties
44 van de 51 effectgroottes waren positief. Dit wijst erop dat de meeste ChatGPT-interventies de academische prestaties verbeterden. De gewogen gemiddelde effectgrootte bedroeg g+ = 0,712, 95%-BI [0,497; 0,926], SF = 0,109, p < .001. Dit duidt op een significant groot effect van ChatGPT-interventies. Een trim-and-fill-analyse resulteerde in de toevoeging van zes studies. Dit leidde tot een aangepaste effectgrootte van g+ (trim-and-fill) = 0,881, iets groter dan het oorspronkelijke effect (g+ = 0,712). Dit resultaat suggereert dat het positieve effect van ChatGPT-interventies op academische prestaties mogelijk nog sterker is wanneer rekening wordt gehouden met potentiële publicatiebias. De betrouwbaarheidsintervallen van zowel de oorspronkelijke [0,497; 0,926] als de aangepaste schatting [0,606; 1,155] sloten nul uit. Dit ondersteunt de consistentie van dit positieve effect verder. De heterogeniteit was significant: I² = 91,789%, Q = 608,968, df = 50, p < .001. Dit wijst op aanzienlijke variatie tussen de studies, mogelijk verklaard door één of meerdere moderatoren.
Affectieve motivationele factoren
17 van de 20 effectgroottes waren positief. Dit wijst erop dat de meeste studies ondersteunen dat ChatGPT-interventies bijdragen aan de affectief-motivationele factoren van studenten. De berekende significante effectgrootte was groot: g+ = 0,881, 95%-BI [0,531; 1,231], SF = 0,178, p < .001. Een trim-and-fill-analyse voegde drie studies toe, dit leidde tot een aangepaste effectgrootte van g+ (trim-and-fill) = 1,122, hoger dan het oorspronkelijke g+ = 0,881. Deze toename wijst erop dat het positieve effect op motivatie en betrokkenheid mogelijk nog sterker is wanneer gecorrigeerd wordt voor publicatiebias. Opmerkelijk is dat de betrouwbaarheidsintervallen van zowel de oorspronkelijke [0,531; 1,231] als de aangepaste schatting [0,685; 1,560] nul uitsluiten. Dit bevestigt de robuustheid van dit effect. Ook hier waren de heterogeniteitstests significant: I² = 92,850%, Q = 265,744, df = 19, p < .001.
Hogere/orde denkvermogens
14 van de 15 effectgroottes waren positief. Dit geeft aan dat de meeste ChatGPT-interventies hogere-orde denkvermogens verbeterden, zoals computationeel, kritisch en reflectief denken. De berekende significante effectgrootte was groot: g+ = 0,703, 95%-BI [0,345; 1,060], SF = 0,182, p < .001. De heterogeniteitstests waren eveneens significant: I² = 90,325%, Q = 144,697, df = 14, p < .001.
Zeleffectiviteit
Vijf van de zeven effectgroottes waren positief. Dit wijst erop dat de meeste ChatGPT-interventies de zelfeffectiviteit verhoogden. De berekende effectgrootte was matig, maar niet significant: g+ = 0,441, 95%-BI [−0,141; 1,023], SF = 0,297, p = 0,137. De heterogeniteitstests waren wel significant: I² = 89,812%, Q = 58,896, df = 6, p < .001.
Mentale inzet
Drie van de vier effectgroottes waren negatief. Dit suggereert dat de meeste studies bevestigen dat ChatGPT-interventies de mentale inspanning van studenten verminderden. De gewogen gemiddelde effectgrootte was groot en significant: g+ = −0,675, 95%-BI [−1,271; −0,079], SF = 0,304, p = 0,026. De heterogeniteitstests toonden aan dat er sprake was van significante en substantiële heterogeniteit: I² = 75,368%, Q = 12,179, df = 3, p = 0,007.
Samenvattend laten de resultaten zien dat ChatGPT-interventies een significant positief effect hadden op:
- academische prestaties (g+ = 0,712),
- affectieve-motivationele factoren (g+ = 0,881),
- hogere-orde denkvermogens (g+ = 0,703),
en een significant negatief effect op:
- mentale inspanning (g+ = −0,675).
Er werd geen significant effect gevonden voor:
- zelfeffectiviteit (g+ = 0,441).
4.3.3. Moderator analyses
Aparte moderatoranalyses werden uitgevoerd voor academische prestaties, affectieve-motivationele factoren en hogere-orde denkwijzen om mogelijke oorzaken van heterogeniteit te onderzoeken. Verschillen tussen de afzonderlijke moderatoren werden getoetst op significantie met behulp van 95%-betrouwbaarheidsintervallen.
Er werd een moderatoranalyse uitgevoerd om te onderzoeken of onderwijsniveau, vakgebied, interventiecontext, duur en toepassingsvorm het effect van ChatGPT-interventies op academische prestaties beïnvloeden (zie Tabel 8).
- Het vakgebied was een significante moderator (Qbetween = 10,478; df = 4; p = 0,033).
Positieve effecten werden gevonden voor onderwijs in:- geesteswetenschappen en kunsten (g+ = 1,045),
- gezondheidswetenschappen (g+ = 0,916),
- exacte wetenschappen (g+ = 0,354),
- sociale wetenschappen (g+ = 0,561).
Voor onderwijs in overige vakgebieden werd geen significant effect vastgesteld (g+ = −0,012).
- Ook de interventiecontext bleek een significante moderator (Qbetween = 8,754; df = 2; p = 0,013).
ChatGPT-interventies in klassikale omgevingen lieten een significant positief effect zien op academische prestaties (g+ = 0,783), terwijl interventies in laboratoriuminstellingen een niet-significant effect opleverden (g+ = −0,213). - Duur was eveneens een significante moderator (Qbetween = 21,851; df = 4; p < .001).
ChatGPT bleek effectief bij interventies van uiteenlopende duur, behalve bij interventies van korter dan 1 week. De grootste effecten werden gevonden bij: - 1–4 weken (g+ = 1,231),
- gevolgd door 5–10 weken (g+ = 0,913),
- en meer dan 10 weken (g+ = 0,754).
- onderwijsniveau (Qbetween = 1,283; df = 1; p = 0,257),
- toepassingsvorm (Qbetween = 1,966; df = 1; p = 0,161).
- Er werden geen modererende effecten gevonden voor:
Tabel 8. Moderatoranalyses voor academische prestaties
Moderator | k | g+ | SF | 95%-BI voor g+ | Q-between | df (Q) | p-waarde |
---|---|---|---|---|---|---|---|
Onderwijsniveau | |||||||
K-12 | 10 | 0,547*** | 0,118 | [0,314; 0,779] | |||
Universiteit | 41 | 0,754*** | 0,140 | [0,480; 1,028] | 1,283 | 1 | 0,257 |
Vakgebied | |||||||
Geesteswetenschappen en kunsten | 23 | 1,045*** | 0,219 | [0,615; 1,475] | |||
Gezondheids- en medische wetenschappen | 5 | 0,916** | 0,340 | [0,250; 1,581] | |||
Exacte wetenschappen | 14 | 0,354** | 0,119 | [0,122; 0,587] | |||
Sociale wetenschappen | 6 | 0,561* | 0,257 | [0,057; 1,065] | |||
Overige | 3 | −0,012 | 0,445 | [−0,885; 0,861] | 10,478 | 4 | 0,033 |
Interventiecontext | |||||||
Klassikale setting | 43 | 0,783*** | 0,097 | [0,592; 0,974] | |||
Laboratoriumsetting | 5 | −0,213 | 0,335 | [−0,870; 0,444] | |||
Niet gerapporteerd | 3 | 1,268 | 0,714 | [−0,131; 2,666] | 8,754 | 2 | 0,013 |
Duur van interventie | |||||||
< 1 week | 12 | −0,048 | 0,186 | [−0,413; 0,317] | |||
1–4 weken | 10 | 1,231*** | 0,272 | [0,698; 1,765] | |||
5–10 weken | 15 | 0,913*** | 0,155 | [0,610; 1,217] | |||
> 10 weken | 9 | 0,754*** | 0,171 | [0,420; 1,088] | |||
Niet gerapporteerd | 5 | 0,741 | 0,409 | [−0,061; 1,543] | 21,851 | 4 | < 0,001 |
Toepassingsvorm | |||||||
ChatGPT-ondersteunde leerapplicatie | 9 | 0,488*** | 0,141 | [0,212; 0,765] | |||
Directe leertoepassing | 42 | 0,757*** | 0,130 | [0,503; 1,012] | 1,966 | 1 | 0,161 |
Noot:
k = aantal effectgroottes;
g+ = gemiddelde effectgrootte;
SF = standaardfout;
Q-between = teststatistiek van Cochran voor verschillen tussen groepen.
* p < .05, ** p < .01, *** p < .001
Daarnaast werd in deze review een moderatoranalyse uitgevoerd om te beoordelen of onderwijsniveau, vakgebied, duur en toepassingsvorm het effect van ChatGPT-interventies op affectief-motivationele factoren modereren (zie Tabel 9). Er werd geen moderatoranalyse uitgevoerd voor de interventiecontext, aangezien alle relevante studies werden uitgevoerd in klassikale omgevingen.
De enige significante moderator was het onderwijsniveau (Qbetween = 11.138; df = 2; p = .004). Een positief effect werd waargenomen voor interventies in universitaire contexten (g+ = 1,155), terwijl er geen significant effect werd vastgesteld voor K-12-contexten (g+ = 0,378).
Er werden geen modererende effecten gevonden voor:
- het vakgebied (Qbetween = 7.275; df = 4; p = .122),
- de duur van de interventie (Qbetween = 6.130; df = 3; p = .105),
of de toepassingsvorm (Qbetween = 0.272; df = 1; p = .602).
Tabel 9. Moderatoranalyses voor affectief-motivationele factoren
Moderator | k | g+ | SF | 95%-BI voor g+ | Q-between | df (Q) | p-waarde |
---|---|---|---|---|---|---|---|
Onderwijsniveau | |||||||
K-12 | 5 | 0,378 | 0,229 | [−0,070; 0,826] | |||
Universiteit | 14 | 1,155*** | 0,252 | [0,661; 1,648] | |||
Niet gerapporteerd | 1 | 0,028 | 0,233 | [−0,429; 0,485] | 11,138 | 2 | 0,004 |
Vakgebied | |||||||
Geesteswetenschappen en kunsten | 6 | 0,454 | 0,313 | [−0,161; 1,068] | |||
Gezondheids- en medische wetenschappen | 2 | 1,521*** | 0,279 | [0,975; 2,067] | |||
Exacte wetenschappen | 5 | 1,076* | 0,452 | [0,190; 1,962] | |||
Sociale wetenschappen | 5 | 1,143** | 0,353 | [0,451; 1,835] | |||
Overige | 2 | 0,475 | 0,673 | [−0,843; 1,794] | 7,275 | 4 | 0,122 |
Duur van interventie | |||||||
< 1 week | 4 | 0,655 | 0,444 | [−0,215; 1,526] | |||
1–4 weken | 9 | 1,432*** | 0,366 | [0,714; 2,149] | |||
5–10 weken | 6 | 0,356 | 0,234 | [−0,103; 0,816] | |||
> 10 weken | 1 | 0,626* | 0,285 | [0,067; 1,186] | 6,130 | 3 | 0,105 |
Toepassingsvorm | |||||||
ChatGPT-ondersteunde leerapplicatie | 8 | 1,007** | 0,309 | [0,401; 1,614] | |||
Directe leertoepassing | 12 | 0,805*** | 0,233 | [0,348; 1,262] | 0,272 | 1 | 0,602 |
Noot:
k = aantal effectgroottes;
g+ = gemiddelde effectgrootte;
SF = standaardfout;
Q-between = teststatistiek van Cochran voor verschillen tussen groepen.
* p < .05, ** p < .01, *** p < .001
De review voerde daarnaast een moderatoranalyse uit om te onderzoeken of het vakgebied, de interventiecontext, de duur van de interventie en de toepassingsvorm het effect van ChatGPT-interventies op hogere-orde denkvermogens modereren (zie Tabel 10). Er werd geen moderatoranalyse uitgevoerd voor het onderwijsniveau, aangezien alle relevante studies werden uitgevoerd op universitair niveau.
Duur van de interventie bleek een significante moderator (Qbetween = 15.471; df = 4; p = .004). Studies met een looptijd van 1–4 weken toonden de grootste effectgrootte (g+ = 1,173), vergeleken met studies met een duur van 5–10 weken (g+ = 0,499). De effectgrootte voor studies die langer dan 10 weken duurden was niet significant (g+ = 0,117). Hoewel ChatGPT-interventies met een duur van korter dan 1 week (g+ = 1,409) ook een positief effect lieten zien op hogere-orde denkvermogens, was de steekproefgrootte in deze categorie beperkt (één studie), waardoor er onvoldoende informatie beschikbaar was om het effect betrouwbaar vast te stellen.
Er werden geen significante modererende effecten gevonden voor:
- het vakgebied (Qbetween = 3.490; df = 3; p = .322),
- de interventiecontext (Qbetween = 3.194; df = 1; p = .074),
- of de toepassingsvorm (Qbetween = 0.024; df = 1; p = .878).
Tabel 10. Moderatoranalyses voor hogere-orde denkvermogens
Moderator | k | g+ | SE | 95%-BI voor g+ | Qbetween | df(Q) | p-waarde |
---|---|---|---|---|---|---|---|
Vakgebied | |||||||
Geesteswetenschappen en kunsten | 1 | 0,613* | 0,247 | [0,128; 1,097] | |||
Gezondheids- en medische wetenschappen | 2 | 0,735 | 0,645 | [−0,529; 2,000] | |||
Exacte wetenschappen | 5 | 0,357* | 0,155 | [0,053; 0,661] | |||
Sociale wetenschappen | 7 | 0,955** | 0,297 | [0,372; 1,537] | |||
Overige | – | – | – | – | 3,490 | 3 | 0,322 |
Interventiecontext | |||||||
Klassikale setting | 12 | 0,806*** | 0,218 | [0,379; 1,233] | |||
Laboratoriumsetting | 3 | 0,318 | 0,164 | [−0,003; 0,639] | 3,194 | 1 | 0,074 |
Duur van interventie | |||||||
< 1 week | 1 | 1,409*** | 0,312 | [0,797; 2,020] | |||
1–4 weken | 3 | 1,173* | 0,577 | [0,043; 2,304] | |||
5–10 weken | 6 | 0,499*** | 0,120 | [0,263; 0,735] | |||
> 10 weken | 1 | 0,117 | 0,163 | [−0,202; 0,436] | |||
Niet gerapporteerd | 4 | 0,658 | 0,416 | [−0,157; 1,473] | 15,471 | 4 | 0,004 |
Toepassingsvorm | |||||||
ChatGPT-ondersteunde leerapplicatie | 7 | 0,671** | 0,242 | [0,196; 1,146] | |||
Directe leertoepassing | 8 | 0,727** | 0,273 | [0,192; 1,262] | 0,024 | 1 | 0,878 |
Noot:
k = aantal effectgroottes;
g+ = gemiddelde effectgrootte;
SF = standaardfout;
Q-between = teststatistiek van Cochran voor verschillen tussen groepen.
* p < .05, ** p < .01, *** p < .001
4.4. RQ3: hoe bepalen experimentele studies met ChatGPT-interventies de steekproefgrootte en controleren zij voor uitgangsverschillen?
4.4.1. Steekproefgroottebepaling
De steekproefgroottes in de 62 studies varieerden sterk: van slechts 18 deelnemers (Basic et al., 2023) tot maximaal 600 deelnemers (Niloy et al., 2023), met een gemiddelde van 106 deelnemers. Om dit beter te kunnen duiden, werden de steekproefgroottes onderverdeeld in vier categorieën: ≤50, 51–100, 101–200 en >200 deelnemers. De meest voorkomende categorie was 51–100 deelnemers (n = 24), gevolgd door ≤50 (n = 19), 101–200 (n = 11) en >200 (n = 8). Slechts in vijf van de 62 studies (8,06%) werd een poweranalyse uitgevoerd om de benodigde steekproefgrootte te bepalen (Alneyadi & Wardat, 2023; Chen & Chang, 2024; Donald et al., 2024; Svendsen et al., 2024; Urban et al., 2024). Dit wijst erop dat de meeste studies mogelijk niet formeel hebben vastgesteld of hun steekproefgrootte voldoende was om betekenisvolle effecten op te sporen.
4.4.2. Controle op uitgangsverschillen
De gemeta-analiseerde studies gebruikten verschillende strategieën om voor uitgangsverschillen te controleren, waaronder voormetingen (n = 52), randomisatie (n = 39) en het gebruik van covariaten (n = 24).
Voormetingen werden vaak ingezet om de equivalentie tussen experimentele en controlegroepen te beoordelen en om beginwaarden van uitkomstvariabelen vast te leggen vóór de interventie. Dit levert essentiële gegevens voor statistische analyses waarbij covariaten worden meegenomen (Howitt & Cramer, 2017). Van de 62 studies namen 52 (83,87%) voormetingen af, zoals conceptuele testen (Chen & Chang, 2024), begrijpend leestoetsen (Wang et al., 2024) en diagnostische toetsen (Zhou & Kim, 2024). Tien studies (16,13%; bijv. Beltozar-Clemente & Díaz-Vega, 2024; Kosar et al., 2024) bevatten geen enkele vorm van voormeting.
Van de 62 studies gebruikten 24 studies (38,71%; bijv. Darmawansah et al., 2024; Wu et al., 2023) covariaten in de analyse (bijv. via ANCOVA, MANCOVA of regressieanalyse), terwijl 38 studies (61,29%; bijv. Chandrasekera et al., 2024; Lyu et al., 2024) dit niet deden. Opvallend is dat 23 studies (37,10%; bijv. Hu, 2024b; Svendsen et al., 2024) zowel voormetingen als covariaten gebruikten, terwijl negen studies (14,52%; bijv. Ahmed Moneus & Al-Wasy, 2024; Liu et al., 2023) geen van beide toepasten. Daarnaast bevatte 29 studies (46,77%; bijv. Mugableh, 2024; Mun, 2024) wél voormetingen maar gebruikten deze niet als covariaten en één studie (1,61%; Shang & Geng, 2024) gebruikte covariaten zonder deze voorafgaand aan de interventie te meten.
Naast voormetingen en covariaten werd de methodologische kwaliteit ook versterkt door het toepassen van randomisatie. Randomisatie zorgt ervoor dat elke deelnemer een gelijke kans heeft om in een bepaalde groep terecht te komen. Dit minimaliseert selectiebias en verhoogt de interne validiteit (Bryman & Bell, 2018). In totaal pasten 39 van de 62 studies (62,90%; bijv. Y. Li, Ma, et al., 2024; Shi et al., 2024) randomisatie toe. Van deze 39 studies bevatten er 16 (41,03%; bijv. Wahba et al., 2024; Xiao, 2024) zowel voormetingen als covariaten. Dit versterkt de betrouwbaarheid van de bevindingen. Daarentegen gebruikten drie studies (4,84%; bijv. Ahmed Moneus & Al-Wasy, 2024) géén voormetingen, covariaten of randomisatie.
5. Discussie
In dit hoofdstuk worden de resultaten geïnterpreteerd in relatie tot de onderzoeksvragen, in samenhang met bestaande empirische bevindingen en eerder gepubliceerde reviewstudies. De kernbevindingen per onderzoeksvraag zijn samengevat in Figuur 2 en worden hieronder in meer detail besproken.
Figuur 2. Hoofdbevindingen per onderzoeksvraag.
5.1. RQ1: wat zijn de onderwijsniveaus, vakgebieden, interventiecontexten, duur en toepassingsvormen van ChatGPT-interventies in experimentele studies?
De beantwoording van RQ1 laat zien dat ChatGPT-interventies voornamelijk worden ingezet in klassikale omgevingen op universitair niveau, met een sterke nadruk op taalonderwijs. Deze interventies duren meestal enkele weken en maken gebruik van ChatGPT als direct leermiddel. Deze kernbevindingen worden hieronder verder toegelicht.
Onderwijsniveau.
Van de 69 geïncludeerde studies vond 84,06% plaats op universitair niveau, terwijl 14,49% betrekking had op het primair of voortgezet onderwijs (K-12). Deze bevinding toont aan dat ChatGPT-interventies grotendeels worden uitgevoerd bij universitaire studenten. Een combinatie van enthousiasme en bezorgdheid onder academici (Islam & Islam, 2024), docenten (Jochim & Lenz-Kesekamp, 2024) en bestuurders (Korseberg & Elken, 2024) binnen het hoger onderwijs kan deze trend deels verklaren. Daarnaast speelt mogelijk mee dat de toegang tot computers en mobiele apparaten onder K-12-leerlingen beperkter is (Gao et al., 2014), terwijl het gebruik van dergelijke technologieën in het hoger onderwijs veel gangbaarder is. De complexiteit van leerdoelen in het hoger onderwijs vraagt van studenten niet alleen het verwerven van basiskennis en -vaardigheden, maar ook het uitvoeren van complexe taken zonder eenduidige oplossingen (Biggs & Tang, 2011). ChatGPT kan deze processen verstoren, doordat studenten geneigd kunnen zijn gemak te verkiezen boven diepgaand leren. Begrip van de impact van ChatGPT is daarom essentieel voor een optimale integratie op universitair niveau.
Toonaangevende universiteiten publiceren vaak richtlijnen voor het gebruik van GenAI (Dang & Wang, 2024; Moorhouse et al., 2023), terwijl het basis- en voortgezet onderwijs vaak geen duidelijke beleidslijnen of administratieve ondersteuning biedt. Leraren vragen om schoolbrede afspraken over ethisch gebruik van GenAI (Hays et al., 2024). Empirisch onderzoek is dringend nodig om de impact op K-12-leerlingen te begrijpen en effectief beleid te kunnen ontwikkelen. Het rechtstreeks overnemen van bevindingen uit het hoger onderwijs biedt hiervoor geen garantie, omdat factoren zoals leeftijd de effectiviteit van onderwijskundige interventies kunnen beïnvloeden (Deng & Gao, 2023). De nadruk op hoger onderwijs laat zien dat het potentieel van ChatGPT voor jongere leerlingen nog nauwelijks is onderzocht. Dit blijkt ook uit eerdere reviews: een overzicht van ChatGPT in het hoger onderwijs omvat 69 studies (Ansari et al., 2024), terwijl een vergelijkbare review voor K-12 slechts 13 studies bespreekt (Zhang & Tur, 2023). Deze observatie sluit aan bij recente literatuur (Lo et al., 2024; Park & Doo, 2024) én bij opvattingen van leerkrachten (Chiu, 2023) en schoolleiders (Dunnigan et al., 2023). Dit onderstreept het belang van vervolgonderzoek naar ChatGPT in K-12-contexten.
Vakgebied.
De bestudeerde publicaties beslaan uiteenlopende vakgebieden, met een duidelijke nadruk op taalonderwijs (31,88%). Dit suggereert dat taalonderwijs bijzonder geschikt is voor integratie van ChatGPT. Eerder onderzoek ondersteunt dit en toont aan dat ChatGPT effectief is in taalonderwijs door heldere formuleringen, het verbeteren van academisch schrijven, vertalingen en grammaticale correctheid (Lo et al., 2024). Ook in het gezondheidsdomein laat ChatGPT potentieel zien, mede doordat het zoekmachines overtreft bij medische diagnoses (Sandmann et al., 2024). Daarentegen zijn slechts drie studies uitgevoerd binnen het wiskundeonderwijs en één binnen het juridisch onderwijs. Dit bevestigt eerdere bevindingen dat ChatGPT slechts matig presteert in domeinen zoals wiskunde en recht (Lo, 2023), mogelijk door feitelijke onnauwkeurigheden of een te grote afhankelijkheid van opgeslagen kennis in plaats van begrip (Collins et al., 2024). Het is daarom van belang om te onderzoeken of nieuwere modellen hierin verbetering brengen. Over het algemeen ondersteunen de bevindingen het idee dat de uitlegcapaciteit van ChatGPT vooral waardevol is in bepaalde vakgebieden (Chiasson et al., 2024). Tegelijkertijd benadrukken ze de noodzaak van verder empirisch onderzoek naar onderbelichte vakgebieden zoals wiskunde (Lo et al., 2024).
Interventiecontext en duur.
De meeste studies vonden plaats in klaslokalen (86,96%), een kleiner deel in laboratoriumomgevingen (8,70%). Dit duidt op een voorkeur voor authenticiteit boven controleerbaarheid. Hoewel het in klaslokalen lastiger is om alle variabelen constant te houden, verhoogt het de ecologische validiteit van het onderzoek. Qua duur varieerden de interventies van minder dan een week tot meer dan 10 weken, met 5–10 weken als meest voorkomend (31,88%). Deze variatie is in lijn met eerder onderzoek, waarin interventies uiteenlopen van enkele lessen tot een heel semester (Lo et al., 2024). De combinatie van langere duur en authentieke contexten wijst op een toenemend besef dat ChatGPT geen tijdelijke oplossing is, maar potentie heeft voor duurzame verandering in onderwijspraktijken (Korseberg & Elken, 2024; Rawas, 2024).
Toepassingsvormen.
De meerderheid van de studies (79,71%) gebruikte ChatGPT als direct leermiddel. In deze studies vergelijken onderzoekers situaties waarin studenten direct met ChatGPT werkten met condities zonder ChatGPT (Wang & Feng, 2023), of met andere technologieën zoals Termbot (Hsu, 2023). Dit wijst op een interesse in de effectiviteit van ChatGPT als op zichzelf staand instructiemiddel. Een kleiner deel van de studies (20,29%) integreerde ChatGPT in bredere educatieve platforms, met twee motieven. Ten eerste willen onderzoekers overmatig afhankelijk gebruik voorkomen en kiezen zij ervoor om ChatGPT alleen ondersteuning te laten bieden in plaats van directe antwoorden te geven—met als doel hogere-orde denkvaardigheden te stimuleren (H.-Y. Lee, Chen, et al., 2024). Ten tweede willen ze de mogelijkheden van ChatGPT benutten voor het versterken van bestaande tools, zoals educatieve spellen (Chen & Chang, 2024). Deze observaties maken duidelijk dat zowel directe toepassing als creatieve, geïntegreerde vormen van gebruik nader onderzocht moeten worden om diepgaand en gepersonaliseerd leren te bevorderen.
5.2. RQ2: wat zijn de differentiële effecten van ChatGPT-interventies op verschillende dimensies van studentleren?
Het onderzoek naar RQ2 laat zien dat ChatGPT-interventies significante verbeteringen teweegbrengen in academische prestaties, affectief-motivationele factoren en hogere-orde denkvermogens. Daarnaast tonen de resultaten aan dat ChatGPT-interventies mentale inspanning significant verlagen, maar geen significant effect hebben op zelfeffectiviteit. De belangrijkste bevindingen worden hieronder besproken.
5.2.1. Academische prestaties
De meta-analyse liet zien dat het gebruik van ChatGPT in het onderwijs significante verbeteringen opleverde in de academische prestaties van studenten vergeleken met situaties waarin ChatGPT niet werd gebruikt. ChatGPT kan het leerproces versterken door gepersonaliseerde leerervaringen mogelijk te maken (Wang et al., 2024), directe toegang tot informatie en perspectieven te bieden (Urban et al., 2024) en studenten te helpen om zich dieper in de lesstof te verdiepen (Meyer et al., 2024).
Toch moeten deze veelbelovende resultaten met voorzichtigheid worden geïnterpreteerd. Een alternatieve verklaring voor de hogere prestaties kan zijn dat studenten met hulp van ChatGPT werk van hogere kwaliteit inleveren. Dit kan vervolgens geïnterpreteerd worden als betere leeruitkomsten. In negen van de geanalyseerde studies mochten deelnemers ChatGPT gebruiken tijdens de postinterventiemetingen (bijv. Basic et al., 2023; Li, 2023), terwijl 33 studies niet expliciet vermelden of ChatGPT wel of niet toegankelijk was tijdens de beoordeling van academische prestaties. Dit is methodologisch van belang, omdat het positieve effect mogelijk voortkomt uit de kwaliteit van de output van ChatGPT, in plaats van uit het leerproces zelf.
Om deze verwarring te voorkomen, zouden beoordelingen idealiter plaatsvinden in gecontroleerde omstandigheden (bijv. klassikaal en onder toezicht) om de invloed van GenAI-ondersteunde plagiaat te minimaliseren (Chaudhry et al., 2023; Newton & Xiromeriti, 2024). Toekomstig onderzoek moet explicieter rapporteren of studenten ChatGPT mogen gebruiken bij eindbeoordelingen (bijv. Stadler et al., 2024; Urban et al., 2024) en hoe ze dit dan inzetten.
Wanneer het gebruik van ChatGPT tijdens beoordelingen is toegestaan of onvermijdelijk is, kunnen onderzoekers strategieën gebruiken om onderscheid te maken tussen de kwaliteit van ChatGPT-output en werkelijke leereffecten. Een voorbeeld is het gebruik van projectmatige beoordelingen (Liu, 2024), waarin studenten worden gevraagd om kennis toe te passen, vaardigheden te integreren en eigen analyses en creativiteit te tonen. Ook kan het toevoegen van mondelinge onderdelen (Wise et al., 2024) helpen om onderscheid te maken tussen door ChatGPT gegenereerde inhoud en authentiek studentwerk. Dit soort opdrachten overstijgt vaak de capaciteiten van GenAI en stimuleert bovendien intrinsieke betrokkenheid bij het leerproces (Waltzer et al., 2024).
Deze review wijst er ook op dat er in de evaluatie van schrijfprestaties meer indicatoren gebruikt zouden moeten worden dan enkel kwaliteit. In taalonderwijs worden schrijfproducten doorgaans beoordeeld op samenhang, grammatica en woordenschat (Boudouaia et al., 2024), maar zelden op originaliteit. Eén studie (Niloy et al., 2023) die wel originaliteit meeneemt, vond een negatief effect van ChatGPT. Dit sluit aan bij zorgen van docenten (Gammoh, 2024; Pack & Maloney, 2024) en studenten (Karkoulian et al., 2024; Zhao et al., 2024) over plagiaat. Aangezien ChatGPT beter kan schrijven dan veel studenten (de Winter, 2023; Vázquez-Cano et al., 2023), kan het zijn dat producten wel goed scoren, maar geen afspiegeling zijn van het werkelijke kunnen van de student (Tsai et al., 2024). Daarom zouden beoordelingen van kwaliteit altijd vergezeld moeten gaan van criteria als authenticiteit of originaliteit (Higgs & Stornaiuolo, 2024; Ironsi & Ironsi, 2024).
De moderatoranalyse liet zien dat het vakgebied, de setting en de duur van de interventie significante moderatoren zijn van het effect van ChatGPT op academische prestaties. De grootste effecten werden gevonden binnen de geesteswetenschappen (voornamelijk taalonderwijs), gevolgd door de gezondheidszorg, sociale wetenschappen en natuurwetenschappen. ChatGPT’s kracht in tekstproductie sluit goed aan bij taalvaardigheidsonderwijs, zoals woordenschat, grammatica en schrijfvaardigheid (KarataÅŸ et al., 2024; Ma et al., 2024). Verder waren interventies in klaslokalen effectiever dan in laboratoriumomgevingen. Interventies van 1–4 weken leverden de grootste effecten op, terwijl interventies korter dan 1 week geen significant effect lieten zien.
De beperkte effectiviteit van laboratoriuminterventies of korte interventies is mogelijk te wijten aan een gebrek aan ecologische validiteit (Anderson & Shattuck, 2012). In een laboratorium is de motivatie lager en ontbreken authentieke interacties. Ook is het waarschijnlijk dat studenten meer tijd nodig hebben om met ChatGPT te leren werken. Toch moet worden opgemerkt dat veel studies niet melden of ChatGPT beschikbaar was tijdens de evaluatiemomenten. Hierdoor is het moeilijk om uitspraken te doen over het precieze effect van deze moderatoren. Er is aanvullend onderzoek nodig dat explicieter onderscheid maakt tussen ChatGPT-output en leerresultaten.
5.2.2. Affectief-motivationele factoren
De meta-analyse liet zien dat het gebruik van ChatGPT een significant positief effect had op de affectieve en motivationele beleving van studenten. Dit bevestigt eerdere bevindingen dat ChatGPT positieve emoties en motivatie kan oproepen (Koltovskaia et al., 2024; Lo et al., 2024; Woo et al., 2024). ChatGPT lijkt dus in staat om leren leuker en motiverender te maken.
Toch moeten ook hier kanttekeningen worden geplaatst. In 13 van de 16 studies waarin positieve effecten werden gevonden, werd motivatie gemeten vóór en na de interventie (bijv. Silitonga et al., 2023); drie studies deden dit alleen na afloop (bijv. Wu et al., 2024). Geen enkele studie mat de motivatie op meerdere momenten tijdens de interventie. Dat is opvallend, aangezien veel interventies meerdere weken duurden (zie 5.1). Daardoor blijft onduidelijk of de positieve emoties stabiel waren of slechts een tijdelijk ‘nieuwigheidseffect’ weerspiegelden (Zhai & Wibowo, 2023).
Kwalitatieve studies laten zien dat studenten wisselende ervaringen hebben met ChatGPT op het gebied van motivatie en emotionele steun (Rienties et al., 2024). Mogelijk is het enthousiasme vooral te danken aan de eerste kennismaking met een nieuwe technologie. Toekomstig onderzoek zou daarom moeten nagaan hoe de motivatie zich ontwikkelt tijdens langere interventies (Croes & Antheunis, 2021) en of de effecten standhouden (Polyportis, 2024).
De moderatoranalyse liet zien dat de positieve effecten van ChatGPT op motivatie vooral zichtbaar zijn bij studenten in het hoger onderwijs. In K-12 settings werden geen significante effecten gevonden. Een mogelijke verklaring is dat de complexere opdrachten in het hoger onderwijs beter aansluiten bij wat ChatGPT kan, of dat studenten in het hoger onderwijs meer ervaring hebben met digitale technologie (Baig & Yadegaridehkordi, 2024; Ansari et al., 2024). Deze verschillen verdienen verder onderzoek om beter te begrijpen waarom ChatGPT mogelijk minder effectief is voor jongere leerlingen.
5.2.3. Hogere-orde denken
De meta-analyse liet zien dat de integratie van ChatGPT in het onderwijs de hogere-orde denkvermogens van studenten significant versterkt. Hoewel sommige onderzoekers benadrukken dat ChatGPT kan bijdragen aan het ontwikkelen van hogere-orde denkvaardigheden (van den Berg & du Plessis, 2023), stellen anderen daar vraagtekens bij (Yang & Li, 2024). De verbetering in hogere-orde denkvermogens lijkt erop te wijzen dat ChatGPT complexe cognitieve processen kan ondersteunen en zorgen over een negatieve invloed op hoger cognitief functioneren kan wegnemen (Valcea et al., 2024).
Toch baseren de meeste studies zich op zelfrapportages van studenten over hun denkvermogens, in plaats van op objectief gemeten vaardigheden. Vertrouwen op subjectieve metingen van neiging, bewustzijn of zelfperceptie is mogelijk onvoldoende om het werkelijke effect van ChatGPT op hogere-orde denken vast te stellen. Onderzoek laat zien dat studenten zichzelf kunnen overschatten of onderschatten: zij kunnen het gevoel hebben minder geleerd te hebben terwijl zij juist meer geleerd hebben, of omgekeerd (Deslauriers et al., 2019). Zelfoverschatting kan voortkomen uit sociale wenselijkheid (Paulhus, 1991) of uit de neiging om het zelfbeeld te versterken (Kwan et al., 2008).
Toekomstig onderzoek zou daarom zelfrapportages moeten aanvullen met objectieve metingen, zoals gestandaardiseerde toetsen voor kritisch denken (Roohr et al., 2019) of probleemopdrachten waarbij studenten hun denkvaardigheden daadwerkelijk moeten demonstreren (Kapur et al., 2023), om een vollediger beeld te krijgen van de effecten van ChatGPT-interventies.
De moderatoranalyse liet zien dat kortdurende interventies een groter effect hebben op hogere-orde denkvermogens. Mogelijk neemt de effectiviteit af naarmate de interventie langer duurt, of ontwikkelen studenten in de loop van de tijd een realistischer beeld van hun denkvaardigheden (Dunning et al., 2003; Veenman et al., 2006). Toekomstig onderzoek zou moeten nagaan waarom de duur van de interventie van invloed is op dit effect.
5.2.4. Zelfeffectiviteit
De meta-analyse liet zien dat ChatGPT-interventies geen significant effect hebben op de zelfeffectiviteit van studenten. Sommige studies vonden wel een positief effect (bijv. Li, 2023; Urban et al., 2024), terwijl andere studies geen effect aantoonden (bijv. Aydın Yıldız, 2023; Donald et al., 2024). Een mogelijke verklaring voor het niet-significante gemiddelde effect is de diversiteit in de wijze waarop ChatGPT is geïntegreerd in het leerproces, in combinatie met de contextuele en taakafhankelijke aard van zelfeffectiviteit (Bandura, 1997).
Hoewel er variatie is tussen de studies, is het aantal dat specifiek kijkt naar zelfeffectiviteit klein, waardoor het uitvoeren van moderatoranalyses mogelijk onbetrouwbare resultaten oplevert (Baker et al., 2018). In plaats van te concluderen dat ChatGPT geen invloed heeft, is vervolgonderzoek nodig wanneer meer experimentele studies beschikbaar zijn.
Positieve effecten op zelfeffectiviteit zijn nog onvoldoende verklaard. Volgens Bandura (1997) zijn er vier bronnen van zelfeffectiviteit: mastery experiences, vicarious experiences, sociale aanmoediging en emotionele/fysiologische factoren. Het is denkbaar dat studenten zich zelfverzekerder voelen omdat ChatGPT hen helpt moeilijke opdrachten te volbrengen (Li, 2023). Daarnaast kan de positieve impact van ChatGPT op motivatie en emoties (zie 5.2.2) bijdragen aan zelfeffectiviteit. Vervolgonderzoek zou moeten verkennen onder welke omstandigheden ChatGPT bijdraagt aan het versterken van zelfeffectiviteit en via welke mechanismen dat precies gebeurt.
5.2.5. Mentale inspanning
De meta-analyse liet zien dat het gebruik van ChatGPT mentale inspanning significant verlaagt, waardoor het leren als minder belastend wordt ervaren. Mentale inspanning verwijst naar de hoeveelheid cognitieve capaciteit die nodig is voor een leertaak en wordt vaak als proxy gebruikt voor cognitieve belasting vanwege de relatief eenvoudige meetbaarheid (Krieglstein et al., 2022; Mutlu-Bayraktar et al., 2019).
Eerder onderzoek toont aan dat schrijven met ChatGPT een zware cognitieve belasting kan veroorzaken (Woo et al., 2024), maar het is onduidelijk of dit komt door de nieuwheid van de technologie, de moeilijkheidsgraad van de taak of tijdsdruk. Experimenteel onderzoek dat deze factoren controleert, zoals Ji et al. (2023), laat zien dat ChatGPT het cognitieve proces kan verlichten in vergelijking met situaties zonder ChatGPT. Dit onderstreept het belang van experimenteel onderzoek om de invloed van ChatGPT op cognitieve belasting nauwkeurig te bepalen.
Volgens Paas et al. (2005) is een instructie effectief wanneer studenten goede prestaties leveren met relatief weinig mentale inspanning. Verschillende studies in deze review lieten zowel minder mentale inspanning als hogere academische prestaties zien. Dit wijst erop dat ChatGPT effectief kan bijdragen aan een efficiënter leerproces. Toch is voorzichtigheid geboden. In twee studies mochten studenten ChatGPT gebruiken tijdens de posttest (Ji et al., 2023; Urban et al., 2024) en één studie vermeldt dit niet (T. Li, Ma, et al., 2024). Eén studie verbood expliciet het gebruik van ChatGPT tijdens de posttest en liet zien dat studenten die ChatGPT gebruikten minder mentale inspanning rapporteerden, maar tegelijkertijd zwakker redeneerden en minder goed argumenteerden in de test (Stadler et al., 2024).
Deze bevinding onderstreept dat een afname in mentale inspanning niet altijd positief is: het kan ook duiden op oppervlakkiger leren. Daarom is het van groot belang dat toekomstige studies expliciet vermelden of ChatGPT beschikbaar was tijdens beoordelingen, zodat beter kan worden vastgesteld wat het daadwerkelijke effect is van ChatGPT-interventies.
De effecten van ChatGPT op het leren van studenten zijn samengevat in Figuur 3.
Figuur 3. De effecten van ChatGPT op het leren van studenten, volgens de meta-analyse van Deng et al. (2025).
Wil je deze infographic downloaden in hoge resolutie? Schrijf je dan in voor het gratis kennisdossier van de Wij-leren Academie.
5.3. RQ3: hoe bepalen experimentele studies naar ChatGPT-interventies de steekproefgrootte en beheersen zij baselineverschillen?
De beantwoording van RQ3 laat zien dat in de meeste studies geen poweranalyse is uitgevoerd om een adequate steekproefgrootte vast te stellen. Wel maken veel studies gebruik van randomisatie, pretests of covariabelen om baselineverschillen tussen experimentele en controlegroepen te beheersen. In de volgende paragrafen worden de belangrijkste bevindingen besproken.
Steekproefgrootte en poweranalyse
De steekproefgroottes in de geanalyseerde studies variëren van slechts 18 tot maar liefst 600 deelnemers. Slechts 8,06% van de studies rapporteert het uitvoeren van een poweranalyse om te bepalen of de steekproefgrootte voldoende was om betekenisvolle effecten te detecteren. Het ontbreken van een poweranalyse roept vragen op over de betrouwbaarheid van de bevindingen. Ondergepowerde studies lopen immers het risico op type II-fouten, waarbij echte effecten niet worden gevonden door een te kleine steekproef (Abu-Bader, 2021; Sommet et al., 2023).
Zo zou bijvoorbeeld het ontbreken van een significant effect op schrijfvaardigheid bij een steekproef van slechts 18 deelnemers (Basic et al., 2023) het gevolg kunnen zijn van een te kleine steekproef. Dit kan onterecht leiden tot de conclusie dat ChatGPT weinig toevoegt. Tegelijkertijd kan een ondergepowerde studie met een significant effect (zoals Wiboolyasarin et al., 2024, bij n = 39) een overschatting geven van de werkelijke effectgrootte. Zonder poweranalyse is onduidelijk of het gevonden effect daadwerkelijk representatief is voor de populatie (Cohen, 1994). Deze bevindingen benadrukken het belang van voldoende steekproefgroottes en het gebruik van poweranalyses in toekomstig onderzoek naar ChatGPT, om betrouwbare en generaliseerbare inzichten te verkrijgen.
Beheersing van baselineverschillen
Meer dan 83% van de studies maakt gebruik van randomisatie, pretests, covariabelen of een combinatie hiervan om groepsverschillen bij aanvang van het onderzoek te controleren. Randomisatie is hierin essentieel: het toewijzen van deelnemers aan groepen op basis van toeval zorgt voor een evenwichtige verdeling van bekende en onbekende variabelen, waardoor verstorende invloeden worden verminderd (Sterne et al., 2019). Van de 62 geanalyseerde studies gebruiken 39 (62,90%) randomisatie, waarvan 16 (41,03%) daarnaast pretests en covariabelen gebruiken om baselineverschillen ook statistisch te controleren. Deze combinatie draagt bij aan de interne validiteit van de studie, doordat het effect van de interventie beter losgemaakt kan worden van bestaande groepsverschillen (Shadish et al., 2002).
Toch is randomisatie in onderwijsonderzoek niet altijd haalbaar, bijvoorbeeld door ethische of organisatorische beperkingen (Lee et al., 2017). In zulke gevallen kunnen onderzoekers een pretest uitvoeren en de uitkomsten hiervan als covariabelen gebruiken in de analyses. Deze aanpak is zichtbaar in zeven studies (11,29%) die geen randomisatie toepassen, maar wél pretests gebruiken en statistisch corrigeren voor verschillen. Het nadeel hiervan is dat alleen gecontroleerd wordt voor bekende variabelen – onbekende verschillen blijven onopgemerkt. Variabelen zoals motivatie, houding of eerdere ervaring met ChatGPT kunnen invloed hebben op leergedrag, maar worden vaak niet meegenomen in pretests (Hsu, 2023; Mahapatra, 2024).
Om deze beperkingen te ondervangen, is het aan te bevelen om quasi-experimentele ontwerpen te versterken met uitgebreidere baselinemetingen, geavanceerdere matchingmethoden en het gebruik van meerdere controlegroepen (Shadish et al., 2002). Dit vergroot de kans dat gevonden effecten daadwerkelijk aan de interventie kunnen worden toegeschreven.
6. Implicaties voor toekomstig onderzoek
Deze review levert vier belangrijke aanbevelingen op voor toekomstig experimenteel onderzoek naar ChatGPT en andere generatieve AI (GenAI)-toepassingen in het onderwijs:
1. Maak onderscheid tussen outputkwaliteit en leerproces
Onderzoek moet duidelijk maken of verbeterde leerprestaties voortkomen uit de kwaliteit van ChatGPT-output of uit de samenwerking tussen student en tool. Hiervoor kunnen onderzoekers overstappen op complexere, projectmatige evaluaties die brede vaardigheden vereisen, proctoring inzetten bij toetsen en naast kwaliteitsmetingen ook originaliteit meten. Dit onderscheid is cruciaal omdat veel studies studenten ChatGPT laten gebruiken tijdens de posttest, waardoor het lastig is te achterhalen wat het werkelijke effect van de interventie is.
2. Onderzoek langetermijneffecten op motivatie en affectie
Toekomstige studies zouden moeten nagaan of de positieve effecten op motivatie en affectieve beleving blijven bestaan of slechts voortkomen uit de nieuwheid van de technologie. Dit kan door studenten over langere perioden te volgen (bijvoorbeeld een semester) en op meerdere momenten hun motivatie en gevoelens te meten.
3. Combineer subjectieve en objectieve metingen van hogere-orde denken
Onderzoekers zouden zelfrapportages over hogere-orde denkvaardigheden (zoals kritisch of creatief denken) moeten combineren met objectieve metingen. Denk aan authentieke opdrachten waarin studenten zonder ChatGPT hun denkvaardigheden moeten inzetten en deze vergelijken met opdrachten mét ChatGPT. Deze triangulatie laat zien of ChatGPT echte vaardigheidsontwikkeling stimuleert of slechts de perceptie daarvan versterkt.
4. Zorg voor voldoende steekproefgrootte en robuuste onderzoeksopzet
Door poweranalyses uit te voeren kunnen onderzoekers bepalen hoeveel deelnemers nodig zijn om betrouwbare uitspraken te doen. Ook het toepassen van randomisatie, pretests en statistische controle verhoogt de robuustheid van studies en de betrouwbaarheid van conclusies. Zo wordt voorkomen dat gevonden effecten het gevolg zijn van vooringenomenheid of groepsverschillen bij aanvang van het onderzoek.
7. Beperkingen en toekomstige onderzoekslijnen
Deze review biedt verschillende aanknopingspunten om het onderzoeksveld verder te ontwikkelen, maar vier beperkingen met betrekking tot de gehanteerde aanpak dienen in overweging te worden genomen.
Ten eerste heeft deze review zich gericht op de directe impact van ChatGPT als innovatieve onderwijstechnologie op het leren van studenten, zonder deze impact te kaderen binnen een specifiek leerpsychologisch model of theoretisch raamwerk. Deze keuze is gemaakt omdat 41 van de 69 geïncludeerde studies atheoretisch zijn, terwijl de overige studies zich baseren op uiteenlopende theorieën. De meest genoemde theorie is het constructivisme (n = 7), gevolgd door zelfgereguleerd leren (n = 4), het Technology Acceptance Model (n = 3) en cognitieve belastingtheorie (n = 3). Andere theoretische kaders, zoals de sociale leertheorie, scaffolding theory, ervaringsgericht leren en de control-value theory, komen elk tweemaal voor. Daarnaast worden theorieën zoals zelfdeterminatietheorie, flowtheorie en distributed learning elk één keer genoemd. Het toepassen van één overkoepelend theoretisch kader zou de reikwijdte van deze review aanzienlijk beperkt hebben. Daarom is gekozen voor een pragmatische benadering, zoals gebruikelijk in eerdere meta-analyses (bijv. Schroeder et al., 2023), waarin het effect van een geselecteerde onderwijstechnologie centraal staat. Naarmate het onderzoeksveld volwassener wordt, wordt aanbevolen dat toekomstige systematische reviews en meta-analyses wel gebruikmaken van een specifiek theoretisch perspectief om beter te begrijpen hoe ChatGPT leeruitkomsten beïnvloedt.
Ten tweede helpt het categoriseren van uitkomstvariabelen zoals zelfeffectiviteit (Bandura, 1982) en mentale inspanning (Sweller et al., 1998) om de impact van ChatGPT op leren te begrijpen, maar deze concepten zijn geworteld in verschillende theoretische tradities. Het combineren ervan kan leiden tot ontologische spanningen en er bestaan zeker alternatieve manieren om leeruitkomsten te ordenen. Toekomstig onderzoek wordt aangemoedigd om een samenhangend conceptueel kader te ontwikkelen waarin deze diverse constructen geïntegreerd worden, zodat het effect van ChatGPT op leren in zijn volle breedte geëvalueerd kan worden. Alternatieve indelingen van leeruitkomsten kunnen helpen om de effectiviteit van ChatGPT gerichter en preciezer te beoordelen in onderwijskundige contexten.
Ten derde zijn publicaties die niet in het Engels zijn geschreven uitgesloten van de literatuuranalyse, vanwege de taalexpertise van de onderzoekers. Niet-Engelstalige studies kunnen echter waardevolle inzichten bieden in de effectiviteit van ChatGPT voor leerlingen van wie Engels niet de eerste taal is. Toekomstig onderzoek dat deze studies wel meeneemt, kan leiden tot een beter begrip van de impact van ChatGPT op diverse taalgroepen en onderwijscontexten wereldwijd.
Ten slotte is deze review uitsluitend gericht op de effecten van ChatGPT op het leren van studenten, zonder andere generatieve AI-producten mee te nemen. Hoewel ChatGPT momenteel een van de meest gebruikte modellen is, kunnen andere GenAI-tools unieke kenmerken bevatten die gunstig zijn voor specifieke vakgebieden of leerdoelen. Toekomstig onderzoek zou de effectiviteit van verschillende GenAI-modellen kunnen vergelijken. Dit kan bijdragen aan een breder inzicht in hoe diverse technologieën leerprocessen ondersteunen in uiteenlopende onderwijssituaties en studentpopulaties.
8. Conclusies
Vroeg onderzoek naar ChatGPT in het onderwijs richt zich voornamelijk op de percepties en attitudes van zowel studenten (Lee & Zhai, 2024) als docenten (Cambra-Fierro et al., 2024) ten opzichte van deze technologie. Uit deze studies blijkt dat studenten over het algemeen positief staan tegenover ChatGPT (Dube et al., 2024; Haindl & Weinberger, 2024), terwijl docenten vaker een ambivalente houding aannemen (Al-khresheh, 2024; Derakhshan & Ghiasvand, 2024). Echter, percepties en attitudes alleen bieden geen concreet bewijs voor de daadwerkelijke impact van ChatGPT op leren. Bovendien tonen cross-sectionele studies zowel positieve (Shahzad et al., 2024) als negatieve verbanden (Crawford et al., 2024) tussen het gebruik van ChatGPT en academische prestaties. Deze studies maken het echter niet mogelijk om te bepalen of ChatGPT leidt tot verbeterde of verslechterde prestaties, of dat het omgekeerde het geval is. Deze beperkingen benadrukken de noodzaak van experimenteel onderzoek om de impact van ChatGPT op leren daadwerkelijk vast te stellen.
Bestaande reviews over ChatGPT in het onderwijs (bijv. Samala et al., 2024) bieden inzicht in de potentiële manieren waarop onderwijsprocessen kunnen veranderen door deze technologie. Hoewel waardevol, geven deze reviews geen uitsluitsel over de daadwerkelijke effecten op leeruitkomsten. Tot op heden ontbrak een systematische review die deze impact op leren expliciet onderzoekt of de uiteenlopende effecten in afzonderlijke experimentele studies met elkaar in verband brengt.
Om dit kennishiaat te overbruggen, is in deze studie een systematische review en meta-analyse uitgevoerd om onderzoeksbevindingen over de impact van ChatGPT-interventies op studentenleren te synthetiseren. Deze review levert een belangrijke bijdrage aan het onderzoeksveld rond technologie-ondersteund leren, door inzicht te bieden in de algemene kenmerken van experimentele studies naar ChatGPT, de verschillende uitkomsten tussen studies te verklaren en de methodologische kwaliteit ervan kritisch te beoordelen.
Concreet toont de review aan dat ChatGPT-interventies voornamelijk plaatsvinden in het hoger onderwijs, een breed scala aan vakgebieden beslaan (met een nadruk op taalonderwijs), meestal worden ingezet in authentieke klassensituaties als onderdeel van reguliere onderwijspraktijken en doorgaans gebruikt worden als direct leermiddel. Slechts een kleiner deel wordt geïntegreerd in bredere educatieve platforms. De meeste geanalyseerde studies maken gebruik van randomisatie, pretesten, het controleren van covariaten of een combinatie hiervan, waarmee gepoogd wordt om verschillen tussen groepen voorafgaand aan de interventie op te vangen. Een opvallende tekortkoming is echter het zelden uitvoeren van een poweranalyse. Dit kan leiden tot type II-fouten en onbetrouwbare schattingen van effectgroottes.
De review suggereert dat ChatGPT mogelijk de academische prestaties van studenten kan verbeteren. Dit blijkt uit het grote en positieve gemiddelde effect. Tegelijkertijd wordt gewaarschuwd voor overhaaste conclusies, gelet op methodologische beperkingen (zoals het ontbreken van poweranalyses) en beoordelingskwesties (zoals het toestaan van ChatGPT-gebruik tijdens posttesten). Daarnaast toont de review aan dat ChatGPT-interventies bijdragen aan positieve affectief-motivationele factoren en hogere-orde denkvaardigheden en dat ze de mentale inspanning verlagen. Toch ontbreekt experimenteel onderzoek naar de schommelingen of langetermijneffecten van ChatGPT en worden er weinig objectieve metingen gebruikt om hogere-orde denkvaardigheden werkelijk te toetsen.
Deze bevindingen hebben belangrijke implicaties voor toekomstig onderzoek naar de impact van ChatGPT. Toekomstige studies wordt aangeraden om strategieën te hanteren waarmee het effect van de interventie beter kan worden onderscheiden van de kwaliteit van de output van ChatGPT. Ook wordt geadviseerd om fluctuaties en langetermijneffecten op affectief-motivationele aspecten te onderzoeken, om te bepalen of de positieve effecten het gevolg zijn van een novelty effect. Verder dient onderzocht te worden in hoeverre studenten die een verbetering in hogere-orde denkvaardigheden ervaren, ook daadwerkelijk aantoonbare cognitieve groei doormaken.
Credit auteursbijdragen
- Ruiqi Deng: schrijven – oorspronkelijke versie, schrijven – revisie en redactie, visualisatie, supervisie, projectbeheer, middelenbeheer, methodologie, onderzoek, data-analyse, fondsenwerving, dataverzameling, conceptualisering
- Maoli Jiang: validatie, dataverzameling
- Xinlu Yu: validatie, dataverzameling
- Yuyan Lu: validatie, dataverzameling
- Shasha Liu: schrijven – revisie en redactie, validatie, methodologie, conceptualisering
Referenties
Abraham, W. T., & Russell, D. W. (2008). Statistical power analysis in psychological research. Social and Personality Psychology Compass, 2(1), 283–301. https://doi.org/10.1111/j.1751-9004.2007.00052.x
Abu-Bader, S. H. (2021). Using statistical methods in social science research (3rd ed.). Oxford University Press.
Acosta-Enriquez, B. G., Arbulú Ballesteros, M. A., Huamaní Jordan, O., Lopez ´ Roca, C., & Saavedra Tirado, K. (2024). Analysis of college students’ attitudes toward the use of ChatGPT in their academic activities: Effect of intent to use, verification of information and responsible use. BMC Psychology, 12(1), 255. https://doi.org/10.1186/s40359-024-01764-z
Adams, D., Chuah, K.-M., Devadason, E., & Azzis, M. S. A. (2023). From novice to navigator: Students’ academic help-seeking behaviour, readiness, and perceived usefulness of ChatGPT in learning. Education and Information Technologies, 29, 13617–13634. https://doi.org/10.1007/s10639-023-12427-8
Adeshola, I., & Adepoju, A. P. (2023). The opportunities and challenges of ChatGPT in education. Interactive Learning Environments. Advance online publication. https://doi.org/10.1080/10494820.2023.2253858
Ahmed Moneus, A. M., & Al-Wasy, B. Q. (2024). The impact of artificial intelligence on the quality of Saudi translators’ performance. Al-Andalus journal for Humanities & Social Sciences, 11(96), 201–230. https://doi.org/10.35781/1637-000-096-006.
Al-khresheh, M. H. (2024). Bridging technology and pedagogy from a global lens: Teachers’ perspectives on integrating ChatGPT in English language teaching. Computers & Education: Artificial Intelligence, 6, Article 100218. https://doi.org/10.1016/j.caeai.2024.100218
Al-Mamary, Y. H., Alfalah, A. A., Shamsuddin, A., & Abubakar, A. A. (2024). Artificial intelligence powering education: ChatGPT’s impact on students’ academic performance through the lens of technology-to-performance chain theory. Journal of Applied Research in Higher Education, Advance online publication.
Ali, D., Fatemi, Y., Boskabadi, E., Nikfar, M., Ugwuoke, J., & Ali, H. (2024). ChatGPT in teaching and learning: A systematic review. Education Sciences, 14(6), 643. https://doi.org/10.3390/educsci14060643
Almazrou, S., Alanezi, F., Almutairi, S. A., AboAlsamh, H. M., Alsedrah, I. T., Arif, W. M., Alsadhan, A. A., AlSanad, D. S., Alqahtani, N. S., AlShammary, M. H., Bakhshwain, A. M., Almuhanna, A. F., Almulhem, M., Alnaim, N., Albelali, S., & Attar, R. W. (2024). Enhancing medical students critical thinking skills through ChatGPT: An empirical study with medical students. Nutrition and health. Advance online publication. https://doi.org/10.1177/02601060241273627
Almohesh, A. R. I. (2024). AI application (ChatGPT) and Saudi Arabian primary school students’ autonomy in online classes: Exploring students and teachers’ perceptions. International Review of Research in Open and Distance Learning, 25(3), 1–18. https://doi.org/10.19173/irrodl.v25i3.7641
Alneyadi, S., & Wardat, Y. (2023). ChatGPT: Revolutionizing student achievement in the electronic magnetism unit for eleventh-grade students in Emirates schools. Contemporary Educational Technology, 15(4), Article ep448. https://doi.org/10.30935/cedtech/13417
Alneyadi, S., & Wardat, Y. (2024). Integrating ChatGPT in grade 12 quantum theory education: An exploratory study at Emirate school (UAE). International Journal of Information and Education Technology, 14(3), 398–410. https://doi.org/10.18178/ijiet.2024.14.3.2061
Amarathunga, B. (2024). ChatGPT in education: Unveiling frontiers and future directions through systematic literature review and bibliometric analysis. Asian education and development studies. Advance online publication. https://doi.org/10.1108/AEDS-05-2024-0101
Ameen, L. T., Yousif, M. R., Alnoori, N. A. J., & Majeed, B. H. (2024). The impact of artificial intelligence on computational thinking in education at university. International Journal of Engineering Pedagogy, 14(5), 192–203. https://doi.org/10.3991/ijep.v14i5.49995.
Anderson, T., & Shattuck, J. (2012). Design-based research. Educational Researcher, 41(1), 16–25. https://doi.org/10.3102/0013189x11428813
Ansari, A. N., Ahmad, S., & Bhutta, S. M. (2024). Mapping the global evidence around the use of ChatGPT in higher education: A systematic scoping review. Education and Information Technologies, 29, 11281–11321. https://doi.org/10.1007/s10639-023-12223-4
Avello-Martínez, R., Gajderowicz, T., & Gomez-Rodríguez, ´ V. G. (2024). Is ChatGPT helpful for graduate students in acquiring knowledge about digital storytelling and reducing their cognitive load? An experiment. Revista de Educaci on a Distancia, 24(78), 8.
https://doi.org/10.6018/red.604621.
Aydin Yidiz, T. (2023). The impact of ChatGPT on language learners’ motivation. Journal of Teacher Education and Lifelong Learning, 5(2), 582–597.
Baig, M. I., & Yadegaridehkordi, E. (2024). ChatGPT in the higher education: A systematic literature review and research challenges. International Journal of Educational Research, 127, Article 102411. https://doi.org/10.1016/j.ijer.2024.102411
Baker, J. P., Goodboy, A. K., Bowman, N. D., & Wright, A. A. (2018). Does teaching with PowerPoint increase students’ learning? A meta-analysis. Computers & Education, 126, 376–387. https://doi.org/10.1016/j.compedu.2018.08.003
Bandura, A. (1982). Self-efficacy mechanism in human agency. American Psychologist, 37(2), 122–147. https://doi.org/10.1037/0003-066X.37.2.122
Bandura, A. (1997). Self-efficacy: The exercise of control. W. H. Freeman and Company.
Barrett, A., & Pack, A. (2023). Not quite eye to A.I.: Student and teacher perspectives on the use of generative artificial intelligence in the writing process. International Journal of Educational Technology in Higher Education, 20(1), 59. https://doi.org/10.1186/s41239-023-00427-0
Basic, Z., Banovac, A., Kruzic, I., & Jerkovic, I. (2023). ChatGPT-3.5 as writing assistance in students’ essays. Humanities and Social Sciences Communications, 10, 750. https://doi.org/10.1057/s41599-023-02269-7
Begg, C. B., & Mazumdar, M. (1994). Operating characteristics of a rank correlation test for publication bias. Biometrics, 50(4), 1088–1101. https://doi.org/10.2307/2533446
Beltozar-Clemente, S., & Díaz-Vega, E. (2024). Physics XP: Integration of ChatGPT and gamificatio to improve academic performance and motivation in physics 1 course. International Journal of Engineering Pedagogy, 14(6), 82–92. https://doi.org/10.3991/ijep.v14i6.47127
Bhullar, P. S., Joshi, M., & Chugh, R. (2024). ChatGPT in higher education - a synthesis of the literature and a future research agenda. Education and information technologies. Advance online publication. https://doi.org/10.1007/s10639-024-12723-x
Biggs, J. B., & Tang, C. S. (2011). Teaching for quality learning at university (3rd ed.). Open University Press. Borenstein, M. (2022). Comprehensive meta-analysis software. In M. Egger, J. P. T. Higgins, & G. D. Smith (Eds.), Systematic reviews in health research: Meta-analysis in context (3rd ed., pp. 535–548). John Wiley & Sons. https://doi.org/10.1002/9781119099369.ch27
Borenstein, M., Hedges, L. V., Higgins, J. P. T., & Rothstein, H. R. (2009). Introduction to meta-analysis. John Wiley & Sons. https://doi.org/10.1002/9780470743386
Boubker, O. (2024). From chatting to self-educating: Can AI tools boost student learning outcomes? Expert Systems with Applications, 238, Article 121820. https://doi.org/10.1016/j.eswa.2023.121820
Boudouaia, A., Mouas, S., & Kouider, B. (2024). A study on ChatGPT-4 as an innovative approach to enhancing English as a foreign language writing learning. Journal of Educational Computing Research, Advance online publication. https://doi.org/10.1177/07356331241247465
Bouteraa, M., Bin-Nashwan, S. A., Al-Daihani, M., Dirie, K. A., Benlahcene, A., Sadallah, M., Zaki, H. O., Lada, S., Ansar, R., Fook, L. M., & Chekima, B. (2024). Understanding the diffusion of AI-generative (ChatGPT) in higher education: Does students’ integrity matter? Computers in Human Behavior Reports, 14, Article 100402. https://doi.org/10.1016/j.chbr.2024.100402
Bower, M., Torrington, J., Lai, J. W. M., Petocz, P., & Alfano, M. (2024). How should we change teaching and assessment in response to increasingly powerful generative artificial intelligence? Outcomes of the ChatGPT teacher survey. Education and Information Technologies, 29, 15403–15439. https://doi.org/10.1007/s10639-023-12405-0
Brom, C., Dˇechtˇerenko, F., Frollova, ´ N., St´ arkova, ´ T., Bromov´ a, E., & D’Mello, S. K. (2017). Enjoyment or involvement? Affective-Motivational mediation during learning from a complex computerized simulation. Computers & Education, 114, 236–254. https://doi.org/10.1016/j.compedu.2017.07.001
Bryman, A., & Bell, E. (2018). Social research methods (5th ed.). Oxford University Press. Budhathoki, T., Zirar, A., Njoya, E. T., & Timsina, A. (2024). ChatGPT adoption and anxiety: A cross-country analysis utilising the unified theory of acceptance and use of technology. Studies in Higher Education, 49(5), 831–846. https://doi.org/10.1080/03075079.2024.2333937
Dit is het eerste deel van de referentielijst. Voor de volledige referentielijst, klik hier.