Ollama is een lichte runtime voor open-source LLMs op uw eigen hardware. Voor een dev-team of een afdeling met behoefte aan een privacy-veilige LLM zonder API-kosten, een snelle start. De grenzen kennen voor wie verder wil.
Setup en eerste model
Ollama installeert op Linux, macOS en Windows. Een ollama pull llama3.1 haalt het model. ollama serve maakt een lokale OpenAI-compatible API. Voor een dev-laptop zijn 8B-modellen prima, voor een server tot 70B met de juiste GPU.
Web-UI met Open WebUI
Ollama heeft geen ingebouwde UI. Open WebUI als Docker-container biedt een ChatGPT-achtige interface, met multi-user, RAG-functionaliteit en model-management. Voor een team van 10 tot 50 een werkbare setup.
Grenzen voor productie
Geen multi-tenant rate-limiting, geen audit-logging op API-niveau, geen built-in monitoring. Voor productie-load met SLA-eisen is Ollama niet de juiste keuze; vLLM of een managed service is dan beter.
Hardware en model-keuze
Llama 3.1 8B op een RTX 4090 of A40 voor klein team. Llama 3.1 70B op 2x A100 80GB voor zwaardere taken. Mistral Small en Qwen 2.5 zijn sterke alternatieven. Quantization (Q4 of Q5) brengt grotere modellen op kleinere hardware met beperkte kwaliteits-impact.
Verwant: Freelance AI consultant inhuren, Open-source LLM on-prem.