Waarover gaat het?

Reeds geruime tijd zien we hoe de boodschap van het dalende onderwijspeil in Vlaanderen zich als een epidemie verspreidt binnen de media. En dan wordt nogal gemakkelijk gesteld dat we internationaal zakken in bepaalde rankings. Het wondermiddel om de kwaliteit te verhogen zijn dan centrale, opgelegde toetsen.

Er is echter niet zo iets als DE onderwijskwaliteit. Onderwijssystemen zijn uitermate complex en zijn het resultaat van een veelheid van interagerende factoren. Het onderwijs is al om te beginnen de neerslag van wat er in een bepaalde samenleving leeft. Het hoeft daarom niet veel uitleg om te stellen dat samenlevingen en identiteiten over de wereld grondig van elkaar verschillen. Samenlevingen in China, Zuid-Korea en Singapore bijvoorbeeld verschillen grondig van de onze. Maar ook korter bij huis is dat zo. Het Nederlandse onderwijssysteem, nochtans met eenzelfde moedertaal, is nauwelijks vergelijkbaar met het Vlaamse. De klemtonen die de diverse samenlevingen leggen voor hun onderwijs zijn dan ook logischerwijze verschillend. Het kan nuttig zijn om te weten welke klemtonen men in een bepaalde maatschappij legt, maar dat wil nog niet zeggen dat je die op één lijn kan zetten en dus kan vergelijken. Kort gesteld bestaan er geen wereldwijde eindtermen buiten het feit dat kinderen best leren lezen, rekenen en schrijven. Rankings maken van de kwaliteit van het onderwijs in de diverse landen heeft dus evenveel zin als stellen dat je een Chinese Chowchow hond vergelijkt met een Finse Spits herdershond en een Mechelse Scheper. Het zijn allemaal honden, maar welke is de leukste?

Vele doemboodschappen komen uit dergelijke internationale toetsen, met vooral de PISA-toetsen.  Die zijn gesponsord door een bij uitstek economisch georiënteerde organisatie, die in de resultaten op die proeven een verleidelijke indicator vindt om er een verband met economisch vooruitgang in te zien. Economen werken graag met indicatoren en omdat geld een vrij hapklare materie is, leent zich dat ook goed tot indicatoren voor economische situaties. Dat is echter niet zo voor onderwijskunde, psychologie, sociologie en andere menswetenschappen. Je hebt daar geen graden, meters, seconden, voltages en dergelijke meer. Er is geen nulpunt van geschiedenis, taal, fysica, lichamelijke opvoeding of eender welk vak. Metingen in de menswetenschappen gaan steeds uit van aannames, die men dan in cijfervorm omzet. Maar het gaat precies om die aannames, wanneer je over kwaliteit praat. De statistiek die men – vaak zeer gesofistikeerd –  op die cijfers uitvoert, is uiteraard wiskundig correct. Alleen worden de aannames toegedekt. En die aannames zijn in feite de eigen normen en waarden van een samenleving (met eindtermen), van een opvoedingsproject of van een school. Cijfers op toetsen en examens hebben dus maar waarde voor zover ze de eigen doelen op een overeengekomen wijze mathematiseren, met in het achterhoofd dat het steeds om vereenvoudigingen van de werkelijkheid gaat. Cijfers zijn verleiders tot simplificeren en dat geldt nog in het kwadraat als je die cijfers internationaal gaat vergelijken tussen onderwijssystemen die grondig van elkaar verschillen.

Uitspraken doen over kwaliteit op basis van internationale proeven zijn dus nog meer onderhevig aan onvergelijkbaarheid dan cijfers, die betrekking hebben op bijvoorbeeld de eigen eindtermen. Het gaat steeds om benaderingen.

Aannames als vereenvoudiging

Toetsen en proeven zijn dus steeds benaderingen van een leergedrag op basis van aannames. Naarmate die aannames breder gedragen zijn en dus het resultaat van een democratische consensus, is de benadering beter bruikbaar. Aannames kunnen variëren van strikt persoonlijke tot in groep of democratisch overeengekomen axioma’s. Dergelijke vereenvoudigingen van het te meten leergedrag kunnen duidelijker worden met enkele voorbeelden.

Voorbeeld 1

Leraar X maakt een samenvattende toets over zijn vak. Hij heeft twaalf vragen voorbereid. Hij zet op iedere vraag een aantal punten, maar zorgt ervoor dat het geheel 100 is.

  • Maar waarom 12 vragen en geen 10 of een ander aantal?
  • Heeft hij dan een goed staal van alle concrete doelen?
  • Waarom op 100 en niet op 50 of 20?
  • Collega’s met hetzelfde vak en in hetzelfde jaar hebben andere vragen gemaakt en dus ook een andere puntenbedeling.

Voorbeeld 2

Door het gemak van elektronische correctie stellen we een toets op met 40 meerkeuzevragen.

  • Opnieuw: waarom 40 en niet 30 of 50 of een ander aantal?
  • Op iedere vraag zetten we 1 punt. Maar: is iedere vraag even belangrijk? Uiteraard niet, maar het telt wel gemakkelijk.
  • Bij meerkeuzevragen worden vaak fouten gemaakt doordat afleiders de leerlingen in verwarring brengen. Het wordt vaak spitstechnologie om nog goede afleiders te vinden. Vandaar ook heel wat ruis in de validiteit van die vragen.

Voorbeeld 3: centrale toetsen

We gaan nu de aannames centraliseren. Er is dan maar één mogelijke aanname.

  • Hoe komen we tot een algemene aanname?  Uiteraard kunnen we tot een democratisch verantwoorde aanname komen door eindtermen of doelstellingen een draagvlak te geven. Dat kan na een zorgvuldig georganiseerde, democratische procedure om eindtermen vast te leggen.

Voorbeeld 4: complexe doelen

In vorige voorbeelden ging het om doelen waarvan je de oplossing kan controleren als fout of niet fout. Maar wat als je te doen hebt met een opstel, een verhandeling, een ontwerp van een elektrische installatie, een boekbespreking, een project, een ontwerpmenu voor een feestmaaltijd, een artistieke prestatie enzovoort?

Daar zit je met gestandaardiseerde toetsen muurvast. Dan kom je bij evaluatievormen uit, die meer kwalitatief zijn en dus ook moeilijker.

Van aannames naar cijfers

Wanneer we vragen ontwerpen om doelen te meten, zien we ook een opvallende diversiteit. Je kan iedere doelstelling via diverse items proberen te meten. Stel dat je de doelstelling hebt: “de oppervlakte van een driehoek berekenen”. Als je de oefening maakt, zie je dat er bijvoorbeeld zes mogelijke vragen opduiken. Gemiddeld kom je toch uit op een zestal varianten, die wel logisch lijken, maar toch verschillen in moeilijkheidsgraad bij de antwoorden. Vaak zijn er meningsverschillen of de vraag ook wel voldoende de inhoud dekt. Dat is dus al niet zo gemakkelijk.
Maar dan komt het vervolg: iedere vraag krijgt immers een cijfer. We wegen dus iedere vraag en quoteren ze met een cijfer volgens belangrijkheid. Dat is een subjectieve ingreep. Je kan wiskundig als oplossing werken met een normaalverdeling zodat je de vragen van een toets zodanig ‘masseert’ dat ze in moeilijke, middelmatig moeilijke en moeilijke kunnen worden ingedeeld. En dan kan je daar uiteraard de hele vergelijkingsstatistiek op toepassen. Maar die moeilijkheidsgraad hangt dan weer af van de samenstelling van de groep waarmee je werkt.

Als je discussies wil vermijden, kan je gemakshalve iedere meerkeuzevraag één punt laten opleveren. Als we statistisch willen werken en bewerken, moeten we dus wel op iedere aanname een cijfer zetten. Zo niet kunnen we geen gemiddeldes, standaarddeviaties, significantieniveaus, meerniveau-analyses berekenen. En als je dan de ruwe uitslagen wil corrigeren voor socio-economisch milieu, etniciteit, thuistaal… moet je daar ook een maat voor kiezen. Als je die maat (zeg maar becijferde aanname) verandert, wijzigt je formule en dus ook de rangschikking.

Als we de proeven hebben opgesteld met de mathematisering ervan in cijfers, nemen we dus als een soort erfzonde de aannames mee, die hierboven werden geïllustreerd. In de menswetenschappen en dus ook in de toetsenpraktijk bestaat geen natuurwetmatige exactheid. Alle cijfers zijn de zichtbare ijstop, maar verbergen de onderliggende ijsdelen.

De verleiding

Doordat we met toetsen en proeven werken, hebben we kwalitatief gedrag van een leerling in een cijfer omgezet. Daarmee hebben we de realiteit gereduceerd. Maar aantrekkelijk is dan wel de mathematische verwerking waarbij we statistisch allerlei gevolgen kunnen trekken met gemiddeldes, standaardafwijkingen, correlaties, significantieniveaus, meerniveau-analyses. En zoals wiskunde een eigen strikte logica heeft, zo heeft ook de statistiek die logica. Bij natuurwetenschappelijke schalen van graden, meters, stralingen, druk, bloeddruk en noem maar op kan je dat onbeperkt doen. Alle metingen zijn overal dezelfde. Maar dat is niet zo met begrijpend lezen, geschiedenis, wetenschappen, mondeling taalgebruik, lichamelijke opvoeding, burgerzin, mediawijsheid enzovoort. Daar bestaan geen universeel geldende schalen voor.

Toetsen als hulpmiddel

Als we ons bewust zijn van de aannames, zijn toetsen wel degelijk een interessant hulpmiddel. Ze helpen ons om een complexe realiteit iets duidelijker voor te stellen. Vergelijkingen binnen een afgelijnde groep kunnen leraren op weg helpen om de positie van een leerling beter te zien.

Op die focus zijn ook de peilingsproeven, de paralleltoetsen, de ijkings-en instaptoetsen, de netgebonden toetsen gebaseerd. Ze helpen leraren, scholen en leerlingen om zichzelf te situeren en om remediëring of uitbreiding toe te passen. De aannames zijn goed afgesproken voor de betrokken doelgroep en we blijven dan binnen die aannames de bekomen resultaten interpreteren.

Dan werken toetsen kwaliteitsbevorderend.

Wanneer het opgelegde toetsen worden die voor iedereen verplicht worden, dan komt het spook van de beperkte meetbaarheid, de verschraling van het curriculum en het’ teaching-to-the-test’ om de hoek kijken. Dan zetten we de deur open voor centrale examens met alle nefaste gevolgen daarvan. Het vergelijken van scholen en het klaarstomen van leerlingen op die toetsen, zitten in het kielzog van centraal opgelegde toetsen. Het onderwijs wordt dan in zijn vormingsopdracht meer en meer gereduceerd tot een toetsinstituut. Wat niet getoetst wordt, valt dan meer en meer buiten de focus van de vorming. Op termijn kiezen we dan voor de vorming van conformistische, geüniformiseerde burgers ten nadele van doelstellingen voor creatief denken, waardevorming, artistieke vorming, ethiek en mentale en lichamelijke gezondheid. Complexe en moeilijk meetbare doelen zullen in het gedrang komen.

Overigens, in een tijd van bezuinigingen, is het belangrijk het kostenplaatje van ‘regelmatige, gevalideerde en netoverschrijdende proeven’ te bekijken. Het zal gaan om heel wat miljoenen. De bestaande peilingsproeven, paralleltoetsen, ijkings-en instaptoetsen vervullen een kwaliteitsverhogende rol. Gecombineerd met een degelijk inspectiesysteem en een flink beleidsvoerend vermogen van scholen, is de (dure) meerwaarde van de voorgestelde proeven uitermate twijfelachtig.

Bronnen

  • Kahneman, D. (2016). Ons feilbaar denken. Business Contact, 557 blz.
  • Koretz, D. (2018). The testing charade: pretending to make schools better. Chicago: University of Chicago Press, 214 blz.
  • Meyer, H.D. & Benavot, A. (eds) (2013). PISA, power and policy. The emergence of global educational governance. Oxford: Symposium Books, 355 blz.
  • Muller, J.Z. (2018). The tyranny of metrics.  Princeton: University of Princeton Press, 219 blz.
  • Smith, W.C. (Ed) (2016). The global testing culture shaping education policy, perceptions and practice. Oxford: Symposium Books, 202 blz.
  • Standaert, R. (2014). De becijferde school. Leuven-Den Haag: Acco, 273 blz.
  • VLOR (2019). Advies over ijkings-en instaptoetsen. Brussel: Vlaamse onderwijsraad, 7 blz.
  • Wiliam, D. (2013). Cijfers geven werkt niet. Meppel: Ten Brinke/Didactief, 73 blz.

Lees Impuls. Leiderschap in onderwijs

Je team kunnen begeesteren en engageren, daar draait het vandaag om. Als schoolleider ben je niet alleen leidinggevende. Je bent ook people manager, veranderingsmanager en communicator. Vernieuwing, innovatietrajecten, veranderingsprocessen? Steeds bijleren is de boodschap.

Wil jij je onderwijsvisie verdiepen en in een ruimer kader plaatsen? Je kennis up-to-date houden? Dat kan met ImpulsLeiderschap in onderwijs. 

Geef een reactie

Sluit Menu