Document-classificatie is een onzichtbare basis-functionaliteit: zonder goede classificatie geen retentiebeleid, geen findability, geen sensitivity-labels. AI maakt classificatie schaalbaar zonder dat een dossierbeheerder elk stuk leest.
Taxonomie eerst, model daarna
Een goede classifier hangt op een goede taxonomie. Wij valideren met u welke categorieen er zijn (factuur, contract, HR-dossier, projectdoc) voordat we het model trainen. Te veel categorieen geeft slechte precisie; te weinig geeft te grove indeling.
Few-shot vs fine-tune
Voor 5 tot 15 categorieen werkt few-shot prompting met een sterk LLM (GPT-4-class) goed genoeg. Voor 50+ categorieen of voor zeer specifieke domein-taal werkt fine-tuning beter (en goedkoper per call). De keuze hangt af van schaal en budget.
Sensitivity labels en AVG
Documenten met persoonsgegevens of vertrouwelijke business-data automatisch labelen via Microsoft Purview of een eigen layer. AI verlaagt de drempel voor labels-uitrol substantieel. AVG-compliance verbetert nadat classificatie kwantitatief de norm wordt.
Continuous learning
Per maand een steekproef labelen en het model bijscholen. Document-types verschuiven (nieuwe contractsoort, nieuwe leverancier-formats); een model dat niet bijleert verouderde drift binnen een jaar.
Verwant: Freelance AI consultant inhuren, AI PDF extractie.