Wat in 2018 nog 'ETL' heette, heet vaker 'ELT' of 'modern data pipeline': data eerst landen in een data warehouse, dan transformeren met SQL via dbt. Dat verschuift de complexiteit van custom code naar configuratie en versionering. Voor mid-market is dit de juiste aanpak.

De moderne ELT-stack

Ingestion: Fivetran, Airbyte, Hevo of Stitch voor SaaS-bron-systemen. Pre-built connectors voor 200+ bronnen. 50 tot 1.000 euro per maand per bron afhankelijk van data-volume. Transformatie: dbt (data build tool) als standaard. SQL-gebaseerd, version-controlled, test-able. Orchestration: Airflow, Prefect, Dagster of dbt Cloud zelf voor scheduling.

Wanneer custom code wel zinvol is

Voor on-prem bron-systemen zonder connector. Voor real-time streaming (Kafka, Kinesis). Voor zeer specifieke transformaties met machine learning. Voor bronnen waar API-rate-limits creatief omzeild moeten worden. In de meeste mid-market situaties is custom code minder dan 20 procent van het werk.

Architectuur-principes

  1. Raw layer: één-op-één kopie van bron, geen transformatie. Behoud audit-trail.
  2. Staging layer: type-casting, naam-normalisatie, deduplicatie.
  3. Marts layer: business-domain modeling (fact, dimension tabellen) met dbt.
  4. Tests op elke laag: niet-null, uniciteit, referential integrity, accepted values.
  5. Lineage automatisch via dbt-docs zichtbaar voor business-stakeholders.

Tijdslijnen

Eerste 5 bronnen ingericht en eerste business-domein gemodelleerd: 6 tot 12 weken. 15 tot 25 bronnen volledig operationeel: 6 tot 12 maanden. Volledig dekkende ELT-pipeline architectuur met dbt-tests en lineage: 12 tot 18 maanden voor mid-market.

Kosten

Setup-fase (eerste 6 maanden): 80.000 tot 250.000 euro inclusief tooling-licenties. Doorlopende tooling-kosten: 25.000 tot 200.000 euro per jaar voor mid-market. Onderhoud-werk: 20 tot 60 uur consultant- of engineer-tijd per maand. Senior analytics engineer freelance: 110 tot 160 euro per uur.

Wat NIET werkt

Custom Python-scripts in production zonder orchestration (Airflow of vergelijkbaar noodzakelijk). dbt zonder tests (creëert dezelfde data-quality problemen die u probeert op te lossen). Real-time streaming voor use-cases die batch toelaten (overengineered). Spaghetti-pipelines zonder lineage (na 18 maanden onbeheersbaar).

Klaar voor een specialist?

Geef ons mee: aantal bron-systemen, refresh-frequentie en transformatie-complexiteit. Binnen één werkdag staat een freelance consultant klaar die deze combinatie uit eigen praktijk kent.

Verwant: Data specialist, dbt implementatie aanpak.