DATA-PATERNALISME & PROFILING PARADOX in onderwijs

De afschrijving op de investering die de Algemene Verordening Gegevensbescherming (AVG) vereiste, is nog niet begonnen, of de minister van Rechtsbescherming pleit voor een aanscherping van de AVG. Ondertussen loopt de Autoriteit Persoonsgegevens (AP) warm om te rol van profiling-politie te spelen. Deze neiging tot data-paternalisme moet weerstaan worden.

De risico’s van profiling
In de brief die Sander Dekker 7 juni 2019 aan de Tweede Kamer zond over horizontale privacy schrijft de minister het toezichtkader van de AP over. Bedrijven en organisaties verzamelen steeds meer data, stellen daarmee profielen op, en nemen met die profielen op de automatische piloot beslissingen die mensen in hun belang raken, zoals het weigeren van een lening of nemen verzekering. De AP vindt dit op zichzelf een risico. Dit risico wordt in theorie gedekt door artikel 22 van de AVG dat volledig geautomatiseerde beslissingen verbiedt als gewichtige belangen in het geding zijn. Daarnaast signaleert de AP het risico dat data of profielen onjuist zijn. Dat risico wordt niet gedekt door de AVG, en maakt een aanscherping van de AVG nodig. Dat klinkt logisch. We willen immers niet, zo schijnt, dat van een ouder met een tweede nationaliteit de kindgebonden toeslag wordt stopgezet omdat de belastingdienst uit de data heeft geconcludeerd dat er bij mensen met een tweede nationaliteit een hoger risico op fraude is. Laat staan dat we zouden willen dat dat gebeurt bij iemand waarvan de belastingdienst ten onrechte heeft aangenomen dat die een tweede nationaliteit heeft.

De Profiling Paradox
De mantra waarmee de minister en de AP de risico’s van profiling in het daglicht stellen, illustreert de Profiling Paradox. Sinds Aristoteles pleiten denkers ervoor beslissingen te nemen op basis van data, in plaats van op intuïties of religieuze ingevingen. In de moderne tijd is dit advies aangescherpt tot “neem beslissingen op basis van repliceerbare data in plaats van op anekdotische ervaringen”. Oftewel: “gebruik data-profielen”. Na 25 eeuwen is deze Heilige Graal van het westerse denken bijna binnen handbereik. Een kleine organisatie heeft anno 2019 meer data tot de beschikking dan alle wetenschappers tot 1980 bijeen verzameld hadden, en er zijn ‘slimme’ algoritmes die volautomatisch uit de data volautomatische conclusies trekken. Nu we dan eindelijk ten volle profijt kunnen trekken van data en algoritmes, willen wetgever en toezichthouder daarvoor gaan liggen. “Man says ‘NO’.” De mantra die ze daarbij inzetten, is zo aantrekkelijk dat privacy-bewuste burgers denken dat hun privacy vroeger, toen gewichtige beslissingen nog op basis van intuïties, religieus moralisme, of anekdotes werden genomen, beter was gewaarborgd. Naarmate beslissingen meer weloverwogen genomen kunnen worden, worden de risico’s van beslissingen als groter ervaren.

Het gevaar van data-paternalisme
De aanscherping van de AVG die Sander Dekker en de AP voorstaan, is zowel ridicuul als gevaarlijk. Het is ridicuul omdat het eigen is aan statistische verwerking van data dat fouten en onrechtvaardigheden daarbij niet vermeden kunnen worden. Wie geen fouten en onrechtvaardigheden wil, moet geen statistiek beoefenen. Het is gevaarlijk omdat het organisaties en bedrijven de mogelijkheid ontneemt processen efficiënter en effectiever te maken.

Stel dat Hbo-instellingen selectie aan de poort mogen toepassen, bijvoorbeeld door studenten met een dyslexieverklaring niet toe te laten tot taalgerichte studies. Als dyslexie een negatief effect heeft op de studievoortgang, dan zou deze maatregel een positief effect hebben op de uitstroomresultaten. Vanwege de matige betrouwbaarheid van dyslexieverklaringen is de kans dat een student met een dyslexieverklaring daadwerkelijk dyslexie heeft niet hoger dan 15%. Door de maatregel zouden veel studenten ten onrechte niet toegelaten worden, maar het effect van de maatregel voor de hbo-instellingen is volgens het statistisch model positief en, via de bekostigingssystematiek, ook voor de maatschappij. (zie kader)
Bij elk model zijn valide wetenschappelijke kanttekeningen te plaatsen. Het is mogelijk dat een statistisch model dat bij profiling gebruikt wordt, niet klopt of dat er onjuiste data in gepompt worden. Het risico, daarop willen we natuurlijk zoveel als mogelijk beperken. Het is echter onredelijk dat de overheid zich de bevoegdheid toekent te oordelen over wanneer welk model al dan niet gebruikt mag worden. Een overheid die zich bemoeit met de wijze waarop data verwerkt worden, bezondigt zich aan data-paternalisme. Dat is een vorm van overheidsingrijpen die dieper in de burgerlijke vrijheid snijdt dan censuur ooit deed.

Zelfregulatie in het publieke domein
De recente ophef over het gebruik van ‘etnische’ gegevens door de belastingdienst suggereert dat we als samenleving niet willen dat overheidsdiensten bij het uitvoeren van de wet gebruik maken van de mogelijkheden die de statistiek biedt. Dat is, gegeven het belang van de wetsuitvoering, niet redelijk. Maar overheidshandelen is volledig onderhorig aan democratische besluitvorming. Dus als de wetgever wil dat de belastingdienst niet profileert op basis van geslacht, etniciteit, woonplaats, strafblad, belastbaar inkomen of andere parameters, dan willen we als samenleving kennelijk de extra kosten van inefficiënte fraudeopsporing dragen. Dat is de keuze van het collectief, en bij de dwaasheid van het collectief is er geen hoger beroep mogelijk. Dat we als politieke samenleving dwaas mogen handelen, rechtvaardigt het echter niet private instellingen en bedrijven te verplichten de bedrijfsprocessen suboptimaal in te richten.

Dr. W.W
Vught, 13 juni 2019

Noot:
 De Profiling Paradox is door mij geïntroduceerd bij een lezing over Big Data die ik in november 2016 heb gegeven voor onderwijsbestuurders. De paradox is nadien onder meer uitgewerkt in paragraaf 3.2.3. van het boekje “Hoe symbolen onze privacy beschermen, anamnese van een stukje wetgeving”. Tijdens literatuuronderzoek is mij nog niet gebleken dat deze paradox elders in de literatuur voorkomt.
 Het dyslexie-voorbeeld is geïnspireerd op een voorstel dat de toenmalige voorzitter van het Windesheim College, de heer Albert Cornelissen, deed in een interview met Rudolf Hemmen op BNR van 31 augustus 2015. De doorrekening die hier als kader-voorstel bij de tekst wordt gegeven, is gepresenteerd in een lezing die ik in februari 2016 heb gegeven aan onderwijsbestuurders.
Kader-voorstel
N = 1000
Dyslexie JA
Dyslexie NEE
Verklaring JA
32
192
224
Verklaring NEE
8
768
776
40
960
1000
Aannames (op basis van wetenschappelijke literatuur):
Base-ratio: 4%
Specificiteit dyslexieverklaring: 0,80
Selectiviteit dyslexieverklaring: 0,80
Doorrekening: Indien studiesucces (in enige mate) negatief gecorreleerd is met dyslexie  studiesucces is bij weren studenten met dyslexieverklaring procentueel hoger dan bij toelaten van studenten met dyslexieverklaring.