
Sluitstuk | De eerlijkheid van algoritmes
Hilde Weerts onderzoekt hoe we algoritmes kunnen maken die niemand benadelen
Belangrijke beslissingen worden steeds vaker niet door mensen, maar door algoritmes genomen. Ze bepalen bijvoorbeeld wie als fraudeur wordt aangemerkt, of welke sollicitant een uitnodiging krijgt voor een gesprek. Toch zijn deze systemen verre van objectief. Hoe zorgen we ervoor dat ze eerlijk zijn en geen discriminatie veroorzaken? Die vraag staat centraal in het PhD-onderzoek van Hilde Weerts, die deze week cum laude promoveerde aan de TU/e.
Hoewel zelflerende modellen voordelen bieden ten opzichte van menselijke beslissingen – zoals efficiëntie en consistentie – zijn ze niet neutraal, stelt Hilde Weerts, AI-engineer en PhD-onderzoeker bij de faculteit Mathematics & Computer Science. “Bij het ontwikkelen van algoritmes worden veel keuzes door mensen gemaakt. Dat kan leiden tot vooringenomenheid en discriminatie van bepaalde groepen. Bovendien worden deze systemen getraind op echte data, waarin vaak al bias zit. Het algoritme neemt die dan over.”
Discriminatie
Er zijn tal van voorbeelden van discriminerende algoritmes. Zo ontwikkelde Amazon een model dat mannelijke cv’s vaker selecteerde dan vrouwelijke. “Dat kwam doordat in het trainingsmateriaal vooral cv’s van mannen voorkwamen, omdat er in het bedrijf al veel meer mannen werkten”, legt Weerts uit. “Het model gebruikte dat om te voorspellen wie de grootste kans had aangenomen te worden.” En daarmee is een belangrijk probleem aangestipt: algoritmes leren van historische gegevens, maar als die geschiedenis oneerlijk was, dan zet je die ongelijkheid voort in het systeem.
Een oplossing ligt minder voor de hand dan we misschien denken. “Machinelearningsystemen zijn gebouwd om op basis van input de best mogelijke voorspelling te doen. Daarvoor zoeken ze actief naar verbanden tussen variabelen. Zelfs als je informatie zoals gender uit de data haalt, kunnen ze via omwegen toch achterliggende verbanden vinden”, zegt Weerts. “In dit geval herkende het model bijvoorbeeld het woord ‘women’ op een cv – omdat de sollicitant lid was van een ‘women’s chess club’ – en gebruikte dat indirect als genderindicator.”
Interdisciplinaire aanpak
In de literatuur is veel te vinden over manieren om bias uit modellen te halen. Toch zijn veel van die methodes niet efficiënt en schieten ze volgens Weerts hun doel voorbij. “Er was bijvoorbeeld een algoritme dat bij wijze van spreken een muntje opgooide voor bepaalde beslissingen. Op die manier produceert het model dan wel gelijke uitkomsten, maar voornamelijk omdat het voor alle groepen even slecht werkt – en dat maakt het niet eerlijker.”
Om te begrijpen wat eerlijkheid werkelijk betekent, dook Weerts in de filosofie. “Ik wilde weten welke argumenten er bestaan voor wat als eerlijk geldt en wat niet.” Dat was best een stap buiten haar comfortzone als computerscientist, geeft ze lachend toe. Toch is juist die brede blik en interdisciplinaire aanpak volgens haar essentieel om zo’n complex vraagstuk goed aan te pakken.
In haar onderzoek bekijkt ze bestaande technologische oplossingen vanuit verschillende perspectieven – van filosofie en recht tot sociale wetenschappen – en probeert ze te achterhalen welke methodes zinvol zijn, en waar nog belangrijke open vragen liggen. “Veel van de bestaande methodes worden in de praktijk nog weinig toegepast, omdat er veel twijfel bestaat over hun effectiviteit en wanneer je welke methode zou moeten gebruiken”, legt ze uit. Ze onderzocht hoe we verschillende methodes zo kunnen toepassen dat de wereld er echt eerlijker van wordt.
Metrics
Om te beoordelen hoe eerlijk een algoritme is, worden zogeheten kwantitatieve fairness metrics gebruikt – meetinstrumenten die in cijfers uitdrukken of het systeem bepaalde groepen bevoordeelt of benadeelt. Er zijn verschillende manieren om dat te doen.
“Met group fairness metrics kijk je bijvoorbeeld naar het selectiepercentage van mannen en vrouwen in de voorspellingen, en wat het verschil daartussen is. Hoe dichter die bij elkaar liggen, hoe eerlijker het model, is het idee”, legt Weerts uit. “Maar in sommige gevallen is het juist belangrijk dat het vals-negatieve percentage gelijk is: dus de kans dat iemand ten onrechte niet geselecteerd wordt, terwijl die persoon wél geschikt was voor de baan.” De cruciale vraag is dan ook: waarom kies je voor het ene meetinstrument en niet voor het andere?
Ongelijkheid rechtzetten
“Eigenlijk moet je eerst goed nagaan waarom er een verschil zit in je dataset”, zegt Weerts. “Neem het selectiemodel van Amazon: dat selecteerde vaker mannen dan vrouwen, omdat er in het verleden simpelweg meer mannen aangenomen waren. Maar waar ligt dat precies aan? Hebben er misschien meer mannen gesolliciteerd? Was er sprake van onbewuste bias bij de selectie? Of zijn er maatschappelijke oorzaken, zoals het feit dat er meer mannen met de juiste kwalificaties beschikbaar waren voor die baan?”
Je kunt pas iets rechtzetten als je begrijpt waar het scheef is gegaan
Volgens Weerts zijn dit fundamentele vragen. “Er kunnen veel verschillende redenen zijn voor de ongelijkheid in je data. Die moet je eerst onderzoeken, voordat je kunt bepalen of – en hoe – je die ongelijkheid moet corrigeren. Je kunt pas iets rechtzetten als je begrijpt waar het scheef is gegaan.”
Contextafhankelijk
De juridische benadering leverde ook belangrijke inzichten op. “Rechters moeten in de praktijk beoordelen of iets discriminerend is, wat concrete handvatten kan bieden”, vertelt Weerts. Ze onderzocht hoe discriminatiewetgeving is opgebouwd en aan welke eisen practitioners – mensen die zulke modellen ontwikkelen en gebruiken – moeten voldoen. Ook bestudeerde ze jurisprudentie, oftewel de manier waarop rechters in eerdere zaken hebben geoordeeld.
“Computerwetenschappers willen het liefst precies weten welk meetinstrument ze moeten gebruiken en welke waarde ‘goed genoeg’ is. Maar zo werkt het in het recht niet”, legt Weerts uit. “Het gaat om vragen als: waarom is voor een bepaalde methode gekozen? Had het eerlijker gekund met een andere aanpak? Is er een objectieve rechtvaardiging voor het verschil dat we zien? Er zijn wel richtlijnen, maar over het algemeen is het sterk contextafhankelijk en draait het veel meer om logisch redeneren dan om een getalletje.”
Kritisch denkwerk
Een van haar belangrijkste conclusies is dan ook dat we situaties per geval moeten beoordelen en heel goed moeten nadenken over de keuzes die we maken. Ook is het essentieel om te overwegen welke problemen we überhaupt met machine learning willen oplossen.
“Neem de algoritmes van DUO die moesten opsporen of studenten onterecht een uitwonende beurs kregen”, vertelt ze. Daarbij nam het model onder andere factoren mee als opleidingsniveau en de afstand tussen het woonadres van een student en diens ouders. Studenten die een mbo-opleiding volgden of dicht bij hun ouders woonden, werden vaker geselecteerd voor controle. Dit zijn juist kenmerken die relatief vaak voorkomen bij studenten met een niet-westerse migratieachtergrond. Het gevolg: deze groep werd aanzienlijk vaker gecontroleerd – en dat leidde indirect tot discriminatie.
“De manier waarop de wereld is ingericht, hoe data worden verzameld en welke keuzes mensen maken bij het trainen van een model, beïnvloeden allemaal de uitkomst. Wie eerlijkere en betere resultaten wil bereiken, moet met al deze factoren rekening houden – en dat vereist zorgvuldigheid en kritisch denkwerk”, concludeert ze. Eerlijke algoritmes beginnen dus niet bij techniek, maar bij inzicht, reflectie en de bereidheid om moeilijke vragen te stellen – en dat is misschien wel de grootste uitdaging van allemaal.
PhD in the picture
Wat zien we op je proefschriftkaft?
“Ik wilde de verbinding tussen het technische aspect en de echte wereld weergeven. Alles is met elkaar verbonden, en je moet altijd naar het geheel kijken om tot de beste oplossingen te komen.”
Je bent op een verjaardagsfeestje. Hoe leg je in één zin uit wat je onderzoekt?
“Ik onderzoek hoe je kunt voorkomen dat algoritmes discriminerende effecten hebben, zoals bij de toeslagenaffaire. Dat is een duidelijk voorbeeld van de enorme impact die zulke systemen kunnen hebben op mensenlevens.”
Hoe kun je naast je onderzoek stoom afblazen?
“Ik maak muziek en zing graag. Ook sport ik veel, hoewel ik mezelf nog niet als sporter beschouw. Mijn man heeft een gym op de zolder gebouwd, waardoor ik nu vier tot vijf keer per week daar te vinden ben.”
Welke tip had je als beginnende PhD-onderzoeker willen krijgen?
“Toen ik begon, werkte ik al bij de TU/e als research engineer. Daardoor had ik het geluk dat ik mijn PhD-onderzoek zelf kon vormgeven, zonder de tijdsdruk van een tijdelijk contract en strikte deadlines waar promovendi vaak mee te maken hebben. Dat was een luxe, en ik ben daar erg dankbaar voor.”
“Wat ik beginnende PhD-onderzoekers zou adviseren, is om niet meteen naar een oplossing te zoeken, maar eerst een goed overzicht van het vakgebied te krijgen. Anders ontwikkel je misschien wel een paar nieuwe algoritmes, maar los je het daadwerkelijke probleem niet op.”
Wat is je volgende hoofdstuk?
“Ik heb gesolliciteerd naar een positie van assistant professor aan de TU/e en overweeg ook een externe onderzoeksfunctie. Wat ik ook ga doen, ik wil me blijven richten op hoe we computer science effectief kunnen vertalen naar de praktijk: hoe mensen technologie gebruiken en waar ze tegenaan lopen. Ik wil bijdragen aan betere richtlijnen, zodat technologie eerlijk is en écht werkt.”
Discussie