AI en programmatisch toetsen: zitten we in een schijnzekerheid?

Even een vraag aan mijn contacten,

Ik zie dat steeds meer onderwijsinstellingen de afgelopen jaren zijn overgestapt op programmatisch toetsen. Een ontwikkeling die goed te verklaren is: minder focus op momentopnames, meer nadruk op groei, ontwikkeling en het totaalbeeld van de student. Portfolio’s, reflecties, feedback en bewijslast vormen samen een rijk beeld van leren.

Maar in het tijdperk van generatieve AI moeten we ons een ongemakkelijke vraag durven stellen: Wat zegt dat portfolio eigenlijk nog?

De illusie van bewijs: studenten leveren tegenwoordig reflecties, feedbackverwerkingen, kritische vragen, onderzoeksdocumenten en volledige opdrachten in. We kunnen stellen dat een groot deel van deze aangeleverde content steeds vaker gegenereerd of sterk ondersteund wordt door AI.

Wanneer AI goed en verantwoord wordt ingezet, hoeft dat geen probleem te zijn. Sterker nog: het gebruik van AI is een essentiële vaardigheid voor de toekomstige professional. Het is onze taak als docent om studenten daarin te begeleiden.

Maar laten we eerlijk zijn… ik merk dat zowel studenten als docenten weten dat AI niet altijd zorgvuldig of ethisch wordt ingezet. Reflecties en feedback worden gegenereerd door AI. Onderzoeksrapporten worden opgebouwd met prompts in plaats van denkprocessen.

Dan stel ik me de volgende vragen: Wanneer komt iets volledig uit AI, deels uit AI, of volledig uit de student die AI gebruikt om te structureren? Dit komt vaak niet terug in documentatie.

Ik denk dat daarmee een fundamenteel probleem ontstaat. De kans is groot dat we niet langer het proces van de student beoordelen, maar het product van een systeem. Onderzoek laat zien dat studenten bij het gebruik van generatieve AI minder kritisch denken en sneller geneigd zijn om output te accepteren zonder deze te bevragen (Kharbach, 2026).

Een nog zorgelijkere ontwikkeling is de opkomst van wat je een AI-loop zou kunnen noemen: studenten leveren AI-gegenereerde output aan, docenten gebruiken AI om dit werk te voorzien van feedback of te beoordelen, en zo gaat het rond.

Zo ontstaat een cyclus waarin AI met AI communiceert en de progressie van een student steeds minder zichtbaar wordt. De vraag die we ons moeten stellen is dan ook: “Zijn we op deze manier nog aan het leren?”

Als D&P-, MVI- en AI-docent probeer ik ervoor te zorgen dat we ook in een tijd van AI leren van zowel AI als onderwijs zonder AI. We kunnen uitstekend nadenken, processen doorlopen, onderzoeken, oplossingen vinden en projecten of documenten maken met AI maar dit is niet altijd noodzakelijk.

Het probleem in mijn ogen is dan ook: ‘Meer bewijs, minder betekenis’, kortom programmatisch toetsen is volgens iets mij dat het sterk leunt op documentatie: portfolio’s, reflecties, bewijsstukken en geschreven verantwoording. Juist deze vormen zijn het meest vatbaar voor AI.

Daardoor ontstaat een paradox, we hebben méér bewijs dan ooit, maar dat bewijs zegt minder dan ooit. Een portfolio kan volledig “kloppen” en toch niets zeggen over het daadwerkelijke niveau of leerproces van de student. Wanneer docenten geen zicht hebben op hoe werk tot stand komt, neemt de betrouwbaarheid van toetsresultaten af (Van Dijk et al., 2025).

Van documentatie naar dialoog

Als we eerlijk zijn, ligt de oplossing niet in strengere regels of AI-detectie. Die strijd gaan we verliezen en zouden we ook niet moeten willen voeren. De echte verschuiving zit ergens anders. In mijn ogen een open deur: ‘We moeten van documentatie naar dialoog’ en dan vervolgens van dialoog naar documentatie.

De rol van de docent verandert fundamenteel: van beoordelaar van producten naar regisseur van leerprocessen. Een docent die zijn groep goed kent, ziet ontwikkeling in gedrag en denken, kwaliteit, progressie en herkent patronen. Hij stelt de juiste (kritische) vragen op het juiste moment gedurende het gehele vakblok.

Niet het portfolio, maar het gesprek wordt de kern van beoordelen.

Dit lijkt logisch, maar toch zie ik dit in de praktijk nog niet altijd zo gebeuren. We lijken nog veel te leunen op (AI-gegenereerde) feedback en zelfreflecties. Merken jullie dit ook? Ik zou hier een enorme shift verwachten, en toch zet deze nog niet door. Hoe komt dit? Moeten we niet continu interactie gaan implementeren? Meer contact met de individuele student, regelmatig gesprekken voeren, doorvragen op gemaakte keuzes en redeneringen, studenten laten presenteren en uitleggen waarom ze iets doen bij elke veranderende fase in hun leerproces.

Waar we het volgen mij allemaal over eens zijn: we beoordelen niet alleen het eindproduct, maar vooral de weg ernaartoe. Maar de manier waarop we toetsen mag in mijn ogen aangescherpt worden. Docenten zullen hun oordeel meer moeten baseren op observaties, gesprekken en ontwikkeling over tijd, dit proces gebeurd nu al wel echter heb ik het idee dat de docent wacht tot dat dit uitgeschreven staat in een portfolio alvorens er een mening wordt gevormd over de betreffende student. In mijn ogen moet je niet wachten tot de teksten in het portfolio maar dient een docent zijn mening per student te vormen tijdens het vakblok. Ook dit gebeurt vaak automatisch wanneer een docent zijn lessen geeft, maar documentatie hiervan blijft vaak uit. Echter denk ik juist hier dat wij als docent verschil kunnen maken bij de student en de validiteit van een portfolio. Door voorafgaand goed te vertalen wat de wens is en om te zetten naar heldere criteria, bijvoorbeeld gebaseerd op NLQF-niveaus, beroepsvaardigheden en transfer naar de praktijk weet iedere docent waar hij/zij zijn student op kan bevragen/beoordelen/toetsen.

Wat we nu zien, is dat studenten zich gemakkelijk vergrijpen aan AI bij het vastleggen van progressie om leeruitkomsten aan te tonen. Wanneer dit ethisch gebeurt, is dat geen probleem. Maar we weten dat dit in de praktijk ook anders gaat.

Wanneer we bang zijn voor fraude, moeten we innovaties niet verbieden, maar juist omarmen, wel dienen we na te denken of we daarmee onze manier van toetsen moeten aanpassen. AI verbieden is geen optie, echter: portfolio-toetsing in een tijd van AI nodigt bijna uit tot fraude.

Studenten kunnen binnen enkele minuten overtuigende verhalen genereren. Iedereen kan op papier uitblinken maar doen ze dat in het echt ook?

De enige die dat echt weet, is (hopelijk) de vakdocent, de stagebegeleider, het werkveld. Wanneer ik als extra assessor aansluit bij een CGI, hoef ik de hoofddocent maar één vraag te stellen: “Welke student heeft afgelopen blok wel of niet voldoende progressie gemaakt, en waarom?”

Binnen 15 minuten krijg ik een helder beeld van wie daadwerkelijk groei heeft doorgemaakt. Stel je voor dat dit proces niet incidenteel, maar structureel wordt vastgelegd door de docent in gesprekken, observaties en interacties. Dan ontstaat een veel betrouwbaarder beeld dan wanneer studenten dit zelf vastleggen met behulp van AI.

Kortom,AI is niet het probleem. Het probleem is dat we onze toetsing nog niet hebben aangepast aan een wereld waarin AI normaal is.

Want laten we eerlijk zijn: waarom toetsen we eigenlijk? Niet om te meten om het meten, niet om een portfolio te vullen of een vinkje te zetten bij leeruitkomsten. We toetsen om inzicht te krijgen in waar een student staat, welke groei hij doormaakt en of hij zich ontwikkelt tot een professional die klaar is voor de praktijk en dit willen we zo valide en betrouwbaar mogelijk doen.

Juist daar wringt het. Wanneer studenten met behulp van AI moeiteloos overtuigende documentatie kunnen produceren, bestaat de mogelijkheid dat de inhoudt steeds minder zegt over hun daadwerkelijke denken, handelen en ontwikkeling. Iedereen kan op papier uitblinken, maar dat betekent niet dat iemand ook daadwerkelijk op niveau functioneert.

De waarde van toetsing moet daarom verschuiven van vastleggen naar begrijpen. Van documentatie naar dialoog. Want in het gesprek gebeurt iets wat in een document nooit zichtbaar wordt: een docent kan doorvragen, twijfels blootleggen en redeneringen toetsen. Daar wordt zichtbaar of iemand iets echt begrijpt.

Dat vraagt om een andere rol van de docent: niet alleen beoordelaar, maar actieve volger van het leerproces. Door dit proces zelf vast te leggen in plaats van het volledig bij de student te leggen ontstaat een betrouwbaarder en eerlijker beeld van wat een student daadwerkelijk kan.

Want uiteindelijk leiden we geen studenten op om goede portfolio’s te maken, maar om professionals te worden die zelfstandig kunnen denken, handelen en blijven leren in een veranderende wereld. AI is daarin een hulpmiddel, geen einddoel.

De vraag is dus niet hoe we AI-gebruik voorkomen, maar hoe we toetsing zo inrichten dat het weer gaat over waar het echt om draait: ontwikkeling, vakmanschap en het vermogen om te blijven leren.

Misschien is dat wel de kernvraag: toetsen we om iets vast te leggen, of om iemand verder te brengen?

Literatuur:

Kharbach, M. (2026). Critical thinking activities for the age of AI: Hands-on exercises for faculty and students. Educators Technology. https://www.educatorstechnology.com

Van Dijk, E., Raaijmakers, S., Koenders, L., & Prins, F. (2025). Taking a closer look at assessment programs: What does genAI do to the validity of an assessment program? Utrecht University. https://www.uu.nl/en/education/educational-development-training/knowledge-dossiers/knowledge-dossier-generative-ai-in-education/taking-a-closer-look-at-assessment-programs-what-does-genai-do-to-the-validity-of-an-assessment