Blog door Thye Jansman, Business Intelligence (BI) consultant
Vandaag de dag wordt data binnen organisaties steeds belangrijker. Marketingtermen als big data, data lakes, machine learning & artifical intelligence vliegen je om de oren, om maar zo snel mogelijk een data-driven organisation te worden. Veruit de meeste data binnen organisaties is afkomstig van interne applicaties als ERP, CRM of HR-software. En hoewel veel organisatie hun handen vol hebben aan het op orde brengen van deze interne datavoorziening, ligt er vaak nog een mooie kans voor het oprapen: externe data.
Hiermee bedoelen we (in deze context) niet de data van bedrijfssoftware die extern draait (SaaS-applicaties, cloud), maar data van bronnen die niet direct gerelateerd zijn aan het primaire bedrijfsproces. Demografische gegevens bijvoorbeeld, om informatie uit het klantenbestand te verrijken. Of, het klassieke voorbeeld: weergegevens koppelen aan de omzet, om een verband te ontdekken.
Belang van externe data
Het belang van externe data kan vrij groot zijn. Denk bijvoorbeeld aan inkomensgegevens uit bepaalde regio’s, om klanten gerichter te benaderen. Of het koppelen van het kentekenregister, om aan de hand van de nieuw registreerde kentekens het eigen marktaandeel te bepalen. Maar het kan ook concreter: adresinformatie op basis van postcode, om het eigen klantbestand op te schonen. Allemaal externe informatie, dat een positief effect kan hebben op bestaande bedrijfsprocessen, of het resultaat hiervan.
Er zijn veel partijen die deze externe data kunnen aanleveren, vaak uit bronnen die niet direct voor iedereen toegankelijk zijn. Deze partijen verzamelen de data, halen de fouten of inconsistente gegevens eruit en presenteren het in een formaat waar de klant direct iets mee kan. Echter, daar hangt vaak een prijskaartje aan, vaak in de vorm van een abonnement om de gegevens actueel te houden.
Waar vind je open data?
Maar het kan ook anders: Gratis! Vanzelfsprekend is niet alle data beschikbaar, maar er zijn een hele hoop interessante bronnen wel gratis beschikbaar. Open Data is hierbij het toverwoord. Er zijn veel publieke organisaties en overheidsinstanties die data gratis beschikbaar stellen, in zogenaamde open datasets. Het bekendste voorbeeld is misschien wel het Centraal Bureau de Statistiek (CBS). Onder de naam StatLine stellen zijn honderden datasets gratis beschikbaar.
Hoe analyseer je open data?
Een mooi startpunt om al deze gratis data te ontdekken, is de website data.overheid.nl. Hierop zijn momenteel ruim 12 duizend datasets verzameld, van onder andere het CBS, Rijkswaterstaat, het RDW en veel provincies. Om de data uit één van deze datasets te analyseren, kun je gebruik maken van een tool als Power BI. De desktop applicatie is voor iedereen gratis te gebruiken en hier te downloaden. Eenmaal gedownload, is het mogelijk om via de Get Data optie gegevens op te halen van diverse bronnen. Open datasets zijn, net als veel andere bronnen op internet, toegankelijk via een url waarmee JSON of XML data wordt opgehaald. De technische naam hiervoor is een API (Application Programming Interface).
Data downloaden en weergeven
Als voorbeeld kunnen we de energieprijzen voor consumenten van de afgelopen jaren analyseren. Deze dataset, afkomstig van het CBS, is te vinden via deze website.
Als de juiste dataset gevonden is, dan is het belangrijk om de toegangslink te kopiëren. Deze link (API Endpoint) is vervolgens te plakken in de Get Data > From Weboptie binnen Power BI. In het geval van een onbeveiligde dataset, wat vaak het geval is bij Open Data, hoeft er verders niets geconfigureerd te worden.
Als de data succesvol is gedownload, is deze op ‘Excel-achtige’ manier te bekijken en te filteren.
Vervolgens zijn er verschillende visualisaties en filtermogelijkheden om de data weer te geven en te analyseren.
Met of zonder hulp
Zoals te zien, is het vrij eenvoudig om gegevens op te halen en weer te geven. Hoe eenvoudig dit is, heeft vooral te maken met de dataset: soms zijn er tussenstappen noodzakelijk om de data te bewerken, voordat er zinvolle informatie getoond kan worden. In het geval van het CSB, zijn de meeste datasets goed gedocumenteerd en is er uitleg beschikbaar over hoe de gegevens geïnterpreteerd moeten worden. Over het algemeen is dit voor de enthousiaste hobbyist, met wat basis Excel kennis, prima te doen. Als het complexer wordt, of als er gegevens gecombineerd moeten worden, is het vaak verstandig een professional in te schakelen. Deze kan niet allen helpen bij het ophalen en combineren van data, maar ook adviseren hoe rapportages binnen een organisatie verspreid en beveiligd kunnen worden.