Art. 10 stelt strenge eisen aan trainingsdata van high-risk AI-systemen. Niet alleen "we hebben veel data" maar gedocumenteerde data-governance-praktijken. Wat erin zit.

Relevantie en representativiteit

Trainingsdata moet relevant en representatief zijn voor de beoogde gebruikscontext. Een CV-screening-AI getraind op Amerikaanse data zonder NL-context is niet compliant voor NL-deployment. Dataset-review op contextuele fit verplicht.

Bias en discriminatie

Datasets moeten worden onderzocht op mogelijke biases. Per beschermde categorie (geslacht, etniciteit, leeftijd, religie, etc.) onderzoek of de data over- of onder-representeert. Mitigatie waar nodig: re-sampling, weighting, fairness-constraints in training.

Foutloosheid en volledigheid

Datasets moeten zo accuraat en volledig mogelijk zijn. Data-cleaning-stappen documenteren: deduplicatie, outlier-handling, missing-value-strategie. Bij gevoelige domains (medisch, juridisch) review door domeinexpert.

Documentatie per dataset

Datasheet per dataset (Datasheets for Datasets-template of Model Card-template): bron, verzamelmethode, preprocessing, splits, bekende beperkingen, licenties. Bij audit reproduceerbaar wat er in de training zat.

Verwant: Freelance AI consultant inhuren, AI Act technische documentatie.