LLMs zijn niet-deterministisch. De output kan vandaag goed zijn en morgen verschuiven door een vendor-update of subtiele prompt-wijziging. Productie-LLM-systemen vereisen continuous evaluation.
Welke metrics
Voor RAG: groundedness (klopt de output met de bron), relevance (beantwoordt de output de vraag), context recall (zijn de juiste sources opgehaald). Voor algemene LLM: fluency, helpfulness, safety. Per use-case anders gewogen.
Methodieken: eval sets en LLM-as-judge
Eval set: een vaste set vragen plus verwachte uitkomsten (golden set). LLM-as-judge: een sterk model evalueert output van het productie-model tegen criteria. Gecombineerd geeft kwantitatieve plus schaalbare evaluatie.
Continuous monitoring
Op productie-traffic sample-evaluation. Drift-alerts wanneer scores wegzakken. Per release een eval-vergelijking voor regression-detection. Dashboard met scores per use-case voor de hele stack.
Tooling: Langfuse, Weights & Biases, eigen build
Langfuse voor open-source observability, W&B voor enterprise ML-ops, custom Python-stack voor specifieke needs. Per organisatie kiezen we op basis van schaal en team-skills.
Verwant: Freelance AI consultant inhuren, LLMOps platform.