

Binnen het data landschap zien we bij onze klanten vaak dezelfde uitdagingen terugkomen. Het ontsluiten van enkele databronnen is één ding; dit schaalbaar en gestandaardiseerd doen is een heel ander verhaal. Hoe zorg je ervoor dat je datastromen en de benodigde infrastructuur stabiel in productie krijgt? En hoe gaat dit in zijn werk wanneer er meerdere developers – laat staan developer teams – tegelijk bezig zijn dit voor elkaar te krijgen?
Een belangrijk deel van het antwoord ligt bij Databricks; de go-to voor organisaties waar meerdere developers – of zelfs meerdere developer teams – verantwoordelijk zijn voor het ontsluiten van data en het creëren van data producten.
Daarbij zijn Databricks Asset Bundles (DABs) je beste vriend: een tool om data pipelines en bijbehorende resources as-code te configureren – vergelijkbaar met Infrastructure-as-Code, maar dan voor je data. Deze bundles kunnen vervolgens eenvoudig geïntegreerd worden met CI pipelines, om van omgeving naar omgeving te kunnen deployen. Met DABs leg je de basis voor gestandaardiseerde, herhaalbare en schaalbare deployments van je Databricks-omgevingen – en precies dát maakt het verschil tussen proof-of-concept en productie.


Met Databricks Asset Bundles (DABs) configureer je op een declaratieve manier welke resources je nodig hebt en waar ze moeten draaien. Welke notebooks vormen samen een job? Met andere woorden; welke stukjes code vormen samen de pipeline die rauwe data omvormt tot data producten die waarde leveren voor de business? Welke clusters zijn er nodig om deze pipelines op te draaien? Welke omgevingen hebben we en welke jobs horen op welke omgeving te draaien?
De declaratieve manier waarop je DABs configureert, verzekert een eenvoudige, schaalbare en repliceerbare oplossing voor al deze vragen. Declaratief betekent dat je niet de stappen beschrijft om resources te koppelen en te deployen, maar alleen de gewenste eindtoestand. Ter illustratie; je beschrijft simpelweg welke notebooks op welke volgorde er samen voor zorgen dat rauwe financiële data uit bron A in een bruikbare kwartaalrapportage gegoten wordt. Je configureert welk cluster deze berekeningen uit moet voeren én op welke Databricks omgeving je deze job wenst uit te voeren. Een eenvoudig ‘deploy’ commando van de Databricks CLI zorgt vervolgens voor de automatische provisioning en updates.
Zoals bewezen bij verschillende klanten is Blenddata dé kennispartner voor het inrichten en automatiseren van jouw Databricks omgevingen. Zo hebben we een van onze klanten succesvol geholpen bij het migreren van een Dataiku platform naar een Databricks platform, waardoor kosten gedrukt zijn én stabiliteit van de data toe is genomen. Een andere tevreden klant is een grote financiële dienstverlener, waar we vanaf het begin hebben meegebouwd aan een robuust Databricks platform waar meer dan 10 teams op dagelijke basis honderden datastromen draaien. We denken met jou mee en zoeken samen naar de beste oplossing voor jouw organisatie.
Kortom, Databricks Asset Bundles geven de gebruiker de mogelijkheid om een Databricks workspace declaratief te configureren, infrastructuur en code te bundelen, en deze geautomatiseerd te reproduceren over meerdere omgevingen.
Benieuwd hoe jouw organisatie hier gebruik van kan maken? Neem dan contact op!