RAG (Retrieval-Augmented Generation) is nu de dominante aanpak voor enterprise AI: laat LLM antwoorden geven op basis van uw documenten, niet alleen training-data. Maar het werkende RAG-systeem bouwen is geen kwestie van een vector-database installeren. Het is een specifieke discipline waar veel implementaties op stranden.
De vier RAG-componenten
1) Document processing: PDF's, Word, HTML, mail naar tekst en metadata. 2) Chunking: opdelen in retrieval-bare stukken. Strategie maakt verschil (vaste grootte, semantic, hierarchical). 3) Embedding: vector-representaties via OpenAI, Cohere, Voyage, open-source models. 4) Retrieval: query-rewriting, vector-search, hybrid search, re-ranking.
Chunking-strategie
Vaste-grootte chunking (512 of 1024 tokens): simpel, vaak suboptimaal voor mensen-documenten. Semantic chunking: opdelen op betekenis-grenzen. Sterker voor verschillende document-types. Hierarchical chunking: paragraaf, sectie, document niveau. Beste voor lange technische documenten. Per use-case experimenteren is werk apart.
Embedding-keuzes
OpenAI text-embedding-3-large: marktstandaard, hoge kosten bij volume. Cohere Embed v3: competitieve alternatief, sterker voor multilingual (NL en EN). Voyage AI: gespecialiseerd voor enterprise context. Open-source (BGE, Nomic): voor cost-sensitivity of regulated context. Embedding-modellen worden snel beter; jaarlijkse re-evaluatie zinvol.
Vector database keuze
Pinecone: managed cloud-service, snel ingericht. Hoge prijs bij volume. Weaviate: open-source en managed cloud. Sterker in hybrid search. Qdrant: open-source, sterke performance, self-hosted of cloud. Snowflake Cortex Search: native integratie met Snowflake-data. Databricks Vector Search: native binnen Databricks-context. Microsoft Fabric AI: voor Fabric-stack organisaties.
Retrieval-tuning
Pure vector-search levert vaak suboptimale resultaten. Hybrid search (vector en keyword/BM25) verbetert merkbaar. Re-ranking met dedicated model (Cohere Rerank, jina-reranker) verhoogt relevantie nog verder. Query-rewriting met LLM voor edge-cases. Bij enterprise: continue eval-pipeline met menselijke feedback.
Realistische doorlooptijd
POC RAG-systeem met één document-domein: 6 tot 10 weken. Production-ready RAG voor mid-market use-case: 4 tot 8 maanden. Enterprise RAG-platform met meerdere use-cases: 9 tot 18 maanden.
Kosten
POC-traject: 30.000 tot 80.000 euro. Mid-market production RAG: 150.000 tot 500.000 euro. Enterprise platform: 500.000 tot 2 miljoen euro. Doorlopende kosten: embedding compute, vector DB licenties, evaluation-pipeline. 30.000 tot 300.000 euro per jaar.
De drie veelvoorkomende fouten
Direct naar production zonder evaluation-baseline. Resultaat: niemand weet of antwoorden correct zijn. Embedding-model en chunking niet testen per use-case. Resultaat: suboptimale retrieval. Geen menselijke feedback-loop. Resultaat: systeem verbetert niet over tijd.
Een gesprek aanvragen
Mail kort: documenttypen, use-cases en target accuracy-eisen. Ik regel binnen één werkdag een gesprek met een freelance consultant die de situatie kent.
Verwant: Data specialist, Data foundation voor AI.