Een eigen LLM-server lijkt aantrekkelijk: geen vendor lock-in, geen data naar externen, voorspelbare kosten. De praktijk is dat het voor de meeste organisaties duurder en beperkter is dan API-gebruik. Wanneer het wel zin heeft.
Wanneer on-prem en wanneer niet
Wel zinvol bij: regelgeving die on-prem verplicht (defensie, sommige zorg-cases), zeer hoge constante load, of een team dat ML-engineering al doet. Niet zinvol bij: experimentele use-cases, variabele load, of organisaties zonder eigen ML-team.
Hardware-keuze
Voor 70B-class modellen: minimaal 2x H100 of A100 80GB met NVLink. Voor 8B-class: een enkele L40S of A100 40GB volstaat. Voor inference-only met quantization (Q4 of Q5): consumer-hardware (RTX 4090) is haalbaar maar niet productie-klaar.
vLLM, TensorRT-LLM of Ollama
vLLM voor productie multi-tenant met PagedAttention. TensorRT-LLM voor maximale throughput op NVIDIA-stack. Ollama voor pilot of single-user. De keuze is een afweging tussen complexiteit en performance.
Total cost of ownership
Hardware-afschrijving over drie jaar plus stroom plus rack plus engineering-tijd. Voor de meeste organisaties is een H100-server boven een miljoen euro per drie jaar TCO. Vergelijk dat met API-kosten op eenzelfde volume voordat u beslist.
Verwant: Freelance AI consultant inhuren, Ollama zelf hosten.