Wat in 2018 nog 'ETL' heette, heet vaker 'ELT' of 'modern data pipeline': data eerst landen in een data warehouse, dan transformeren met SQL via dbt. Dat verschuift de complexiteit van custom code naar configuratie en versionering. Voor mid-market is dit de juiste aanpak.
De moderne ELT-stack
Ingestion: Fivetran, Airbyte, Hevo of Stitch voor SaaS-bron-systemen. Pre-built connectors voor 200+ bronnen. 50 tot 1.000 euro per maand per bron afhankelijk van data-volume. Transformatie: dbt (data build tool) als standaard. SQL-gebaseerd, version-controlled, test-able. Orchestration: Airflow, Prefect, Dagster of dbt Cloud zelf voor scheduling.
Wanneer custom code wel zinvol is
Voor on-prem bron-systemen zonder connector. Voor real-time streaming (Kafka, Kinesis). Voor zeer specifieke transformaties met machine learning. Voor bronnen waar API-rate-limits creatief omzeild moeten worden. In de meeste mid-market situaties is custom code minder dan 20 procent van het werk.
Architectuur-principes
- Raw layer: één-op-één kopie van bron, geen transformatie. Behoud audit-trail.
- Staging layer: type-casting, naam-normalisatie, deduplicatie.
- Marts layer: business-domain modeling (fact, dimension tabellen) met dbt.
- Tests op elke laag: niet-null, uniciteit, referential integrity, accepted values.
- Lineage automatisch via dbt-docs zichtbaar voor business-stakeholders.
Tijdslijnen
Eerste 5 bronnen ingericht en eerste business-domein gemodelleerd: 6 tot 12 weken. 15 tot 25 bronnen volledig operationeel: 6 tot 12 maanden. Volledig dekkende ELT-pipeline architectuur met dbt-tests en lineage: 12 tot 18 maanden voor mid-market.
Kosten
Setup-fase (eerste 6 maanden): 80.000 tot 250.000 euro inclusief tooling-licenties. Doorlopende tooling-kosten: 25.000 tot 200.000 euro per jaar voor mid-market. Onderhoud-werk: 20 tot 60 uur consultant- of engineer-tijd per maand. Senior analytics engineer freelance: 110 tot 160 euro per uur.
Wat NIET werkt
Custom Python-scripts in production zonder orchestration (Airflow of vergelijkbaar noodzakelijk). dbt zonder tests (creëert dezelfde data-quality problemen die u probeert op te lossen). Real-time streaming voor use-cases die batch toelaten (overengineered). Spaghetti-pipelines zonder lineage (na 18 maanden onbeheersbaar).
Klaar voor een specialist?
Geef ons mee: aantal bron-systemen, refresh-frequentie en transformatie-complexiteit. Binnen één werkdag staat een freelance consultant klaar die deze combinatie uit eigen praktijk kent.
Verwant: Data specialist, dbt implementatie aanpak.