Open datasets: goed, beter, best

Data uitpakken

Open Data is een ding in 2012. Het was al een ding een paar jaar geleden, maar nu krijgen ondernemers en bedrijven ook interesse in dit spannende veld. Op dinsdag 19 juni vond Utrecht Open(t) Data  plaats, georganiseerd door Taskforce Innovatie en de stichting Dat Zou Jij Wel Willen Weten. Op deze dag werden bedrijven, ondernemers en nerds uitgedaagd om na te denken over de verschillende uitdagingen die werken met open data presenteren.

De overheid en open data

De overheid doet haar best om een platform te bieden voor open datasets. Dit blijkt lastig te zijn, omdat er veel factoren een rol spelen. De overheid definieert open data als bronnen van onbewerkte overheidsinformatie:
- die openbaar zijn;
- waar geen auteursrecht of andere rechten van derden op berust;
- die bekostigd zijn uit publieke middelen, beschikbaar gesteld voor de uitvoering
- van die taak;
- die bij voorkeur voldoen aan ‘open standaarden’ (geen barrières voor het
- gebruik door ICT-gebruikers of door ICT-aanbieders), en
- die bij voorkeur computerleesbaar zijn, zodat zoekmachines informatie in documenten kunnen vinden. (kamerbrief in PDF uit mei 2011 over open data)

Open data is geen sinecure

"Open uw data". Dat is makkelijker gezegd dan gedaan. Je hebt -zoals de afbeelding laat zien-gereedschap nodig om deze data te ‘openen’. Het is meer dan een cadeau uitpakken op kerstavond. Bureaucratie en onbeperkt delen van informatie snijden elkaar veelal in de vingers. Staat de data eenmaal online, dan moet deze ook geschikt zijn voor gebruik.

Formele randvoorwaarden

De ons aller bekende uitvinder van het WWW, Tim Berners Lee heeft een mooi classificatie systeem ontwikkeld voor open datasets. Van 1 tot 5 sterren. Waarbij 1 ster betekent dat de data beschikbaar is (in 'een' formaat) en 5 sterren dat de data beschikbaar is in een open formaat en tevens gelinkt aan andere data. Hiermee hebben we een aantal zeer bruikbare formele randvoorwaarden, waarmee instanties aan de slag kunnen. Berners Lee blijft echter steken in de vorm waarin open data gepresenteerd moet worden. Wat hier mist zijn nog inhoud, regels voor de omgeving waarin deze data gepresenteerd worden en een bepaling van wat maatschappelijk nut heeft.

De 5+ van Tim’s sterren

Nog te weinig worden de echt spannende sets vrijgegeven. Wat geeft onze overheid waar aan uit, wie stemt op wat in de tweede kamer. Met dit soort sets kan open data pas echt iets toevoegen aan de verbetering van het democratisch proces.

Kiesbeter.nl heeft bijvoorbeeld nu ook een dataset waar iedereen gebruik van kan maken. Dit wordt aangeleverd in een XML-bestand en biedt weinig meer dan NAW gegevens van verschillende ziekenhuizen.

Het Centraal Bureau voor Statistiek (CBS) heeft zeer veel data en is potentieel een plek voor uren speelplezier voor de datafreak. Van vakantie tot criminaliteit en van demografie tot het vertrouwen; alle onderwerpen zijn in datasets gevat. Een groot nadeel is het ontbreken van een API. Het is niet mogelijk om vanuit eigen software te linken naar een vaste URL voor gegevens. Eugene Tjoa heeft voor Regiohack  een stuk geschreven hoe men om kan gaan met de beperkingen van het CBS.

Lange weg

De juiste weg is ingeslagen. Mede door lokale initiatieven als Open Data Enschede, Regiohack en Utrecht Open(t) Data, komen de voordelen van open data steeds meer aan het licht. Er is echter nog ruimte voor verbetering. Niet alle datasets zijn de '5 sterren' van Tim Berners Lee. Om daar te komen, is er meer aandacht nodig aan bovenstaande.

Heb je aanvullingen, tips voor beter database-design of verbeteringen voor dit artikel, laat het dan achter in de comments hieronder.