Een voicebot is geen IVR-menu met AI-glans. Het is een conversational AI die natuurlijke spraak begrijpt, context vasthoudt en weet wanneer hij naar mens moet doorzetten. Dat opzetten vereist meer dan een ChatGPT-API-aansluiting.

Latency als sleutelmetric

Een voicebot mag niet meer dan 1.5 seconde wachten voor het antwoorden. Streaming speech-to-text (Whisper-large-v3 turbo, AssemblyAI), kleine LLM (GPT-4o-mini of Claude Haiku) en streaming text-to-speech (ElevenLabs, Azure Neural). Architectuur draait om latency, niet alleen kwaliteit.

Intent en barge-in

De gebruiker mag tussendoor praten (barge-in). De bot mag niet doorgaan met zijn antwoord als de gebruiker nieuwe info geeft. Frame-level voice activity detection plus state machine. Standaard-tooling zoals Vapi, LiveKit Agents of zelfgebouwd op Twilio.

Handover naar agent

Niet elk gesprek eindigt automatisch goed. Bij frustratie (sentiment-detectie), expliciete vraag ("wil ik met iemand praten") of complex topic: doorzetten naar agent met context-overdracht. De agent ziet de transcript-samenvatting al voordat het gesprek hem bereikt.

Compliance en opname

Gespreksopnames vallen onder AVG. Toestemmingsmelding bij start gesprek, retentie-beleid expliciet, AI-disclosure (ook bij voice-bot). Voor sectoren onder DORA of NIS2 ook audit-trail per gesprek. Wij richten dat in op design.

Verwant: Freelance AI consultant inhuren, Meertalige klantenservice.