07-04-2016

Big data voor het onderwijs - student analytics bij het Albeda College

Veel instellingen zijn momenteel bezig om op basis van 'business intelligence' of 'big data' de kwaliteit van het onderwijs en de begeleiding te verbeteren. Wat zou het mooi zijn als je op basis van een intake al kunt voorspellen dat een student in het tweede jaar extra wiskunde nodig zal hebben om de kans op een diploma aanzienlijk te vergroten. Zo ver is het nog (lang) niet.

Het Albeda College is met dat doel in samenwerking met Deloitte een project gestart om op basis van bepaalde kenmerken van studenten het studiesucces te bepalen. Het gaat om kenmerken die bekend zijn bij de start van de opleiding. Daarbij worden geslacht, leeftijd, vooropleiding, taal die thuis gesproken wordt, beschikbaarheid van een computer thuis en dergelijke betrokken maar ook de resultaten van de intake inclusief een intaketoets. Dat levert een berg aan data op die je kunt analyseren. Daarbij kun je proberen een correlatie te vinden tussen bepaalde kenmerken of een combinatie aan kenmerken en het behalen van een diploma.
Op basis van historische data zijn studenten in categorieën onderverdeeld. Elke cel in de honingraat bevat een aantal studenten met dezelfde kenmerken.

Vervolgens is gekeken naar de correlatie tussen de categorie waar de studenten ingedeeld waren en bepaalde kenmerken, zoals studiesucces. In onderstaand schema is met retentie weergegeven welk deel van de studenten in de desbetreffende cel na één jaar nog bij het Albeda studeerden (0.8 = 80%). Op basis van dergelijke visualisaties zou je conclusies kunnen trekken over de mate waarin bepaalde bepaalde kenmerken bijdragen aan studiesucces.

Het verhaal laat zien, dat er voortgang wordt geboekt bij het analyseren van studentgegevens om de kwaliteit van het onderwijs en de begeleiding te verbeteren. Ik heb nog wel een paar kanttekeningen / aandachtspunten
  • De ambities van het Albedacollege zijn erg hoog. Om vanuit een correlatie zoals weergegeven in bovenstaand schema te komen tot een gericht studieadvies aan een specifieke student is er nog wel een weg te gaan. Dat is een boeiend leertraject wat wel een lange termijn inspanning en daarmee commitment van de hele organisatie vraagt.
  • Het onderzoek is gebaseerd op historische data. Dat is op zichzelf geen probleem. De gegevens kun je beschouwen als een 'trainingset'. Dat wil zeggen: een set gegevens die je gebruikt om het algoritme de correlatie tussen verschillende grootheden te laten bepalen. Nu is het niet zo moeilijk om het algoritme een perfecte correlatie te laten vinden. Als je de formule maar ingewikkeld genoeg maakt.
    Het algoritme moet je dus nog een keertje loslaten op een testset. Dat is een andere hoeveel bekende gegevens waarmee je kunt toetsen of het algoritme goed is afgestemd. Vaak zie je daar dan veel grotere afwijkingen dan bij de trainingset. Het is mij niet helemaal duidelijk hoe de validiteit hier is getoetst.
  • Er zijn meer roc's bezig met vergelijkbare onderzoeken. Ik merk eigenlijk nog niets van een samenwerking of afstemming. Het wiel wordt dus weer op veel plekken uitgevonden!
    Die aparte initiatieven moeten niet gaan leiden tot een wedstrijdje, wie de hoogste nauwkeurigheid haalt (in dit onderzoek 72%, bij andere instellingen heb ik getallen boven de ruim boven de 80% gehoord). Een zekere nauwkeurig is nodig (anders heb je er niks aan), het nastreven van een te grote nauwkeurigheid is zonde van de moeite in het kader van de 80-20 regel. (80% van het resultaat haal je in 20% van de tijd, het een beetje verder opkrikken van de nauwkeurigheid levert geen beter onderwijs op maar kost wel veel extra tijd). 
Alles bij elkaar een boeiend initiatief om te volgen!

Geen opmerkingen:

Een reactie posten