Art. 10 stelt strenge eisen aan trainingsdata van high-risk AI-systemen. Niet alleen "we hebben veel data" maar gedocumenteerde data-governance-praktijken. Wat erin zit.
Relevantie en representativiteit
Trainingsdata moet relevant en representatief zijn voor de beoogde gebruikscontext. Een CV-screening-AI getraind op Amerikaanse data zonder NL-context is niet compliant voor NL-deployment. Dataset-review op contextuele fit verplicht.
Bias en discriminatie
Datasets moeten worden onderzocht op mogelijke biases. Per beschermde categorie (geslacht, etniciteit, leeftijd, religie, etc.) onderzoek of de data over- of onder-representeert. Mitigatie waar nodig: re-sampling, weighting, fairness-constraints in training.
Foutloosheid en volledigheid
Datasets moeten zo accuraat en volledig mogelijk zijn. Data-cleaning-stappen documenteren: deduplicatie, outlier-handling, missing-value-strategie. Bij gevoelige domains (medisch, juridisch) review door domeinexpert.
Documentatie per dataset
Datasheet per dataset (Datasheets for Datasets-template of Model Card-template): bron, verzamelmethode, preprocessing, splits, bekende beperkingen, licenties. Bij audit reproduceerbaar wat er in de training zat.
Verwant: Freelance AI consultant inhuren, AI Act technische documentatie.