Big data?! Small en medium is beter!

Eens zien hoe ik je dit ga uitleggen.

De wereld van de informatie kent gelaagdheid. Helemaal onderaan, de basis van alles, staat de laag data, de ruwe onbewerkte gegevens. Die data zijn betekenisloos. In de laag erboven wordt die betekenis toegevoegd en ontstaat informatie. Informatie kun je, denk ik, nog het best vergelijken met het aanbrengen van ordening in de data. Informatie is betekenisvol. Dat lijkt een open deur. Maar het impliceert ook dat informatie die je níet begrijpt, voor jou geen informatie is. Ik haal dan meestal het voorbeeld van de scheikunde aan; mijn kennis daarvan is te gering om daarover informatie te vinden die ik echt snap.

In die laatste zin zat een belangrijke laatste stap verborgen: van informatie naar kennis. Dat betekent dat je niet alleen de betekenis moet snáppen, maar er ook iets mee moet kunnen dóen. Dat doen moet je niet meteen plat opvatten als iets praktisch ermee doen. Ook de vermeerdering van kennis – creativiteit – is belangrijk!
Het is een werkelijk belangrijke. In deze stap onderscheiden zich de mensen die feitjes kennen van de intelligentsia, de creatieve denkers. Dat zou veel vaker moeten worden benadrukt, want we zien toch eigenlijk vaak de verwisseling. Dat wordt gedacht dat iemand die een encyclopedische hoeveelheid informatie heeft ook intelligent is. Nee, dus. Kennis is te leren en heb je nodig om data naar informatie om te zetten. Intelligentie kun je níet leren: dat heb je of niet. Overigens – maar het is niet mijn vakgebied – vraag ik me vaak af wat we meten in onze intelligentietesten. Mijn indruk is: het kennisniveau en niet je creatieve vermenigvuldigingsvermogen.

Maar goed: data, informatie, kennis, intelligentie. En eventueel mag die laatste ook worden vervangen door wijsheid.

Momenteel is een rondzingende term big data. Kort gezegd: (bovenmenselijk) grote dataverzamelingen. Die grote dataverzamelingen zijn je-van-het. Want ze bevatten (informatie)goud. En dat moet worden gedolven.

20121216-155108.jpg

Wat mij opvalt, is dat er zo bar weinig wordt gedolven. De situatie lijkt vooral te zijn – zoals vaak – dat men roept dat open data de oplossing zijn. En zoals we ook roepen dat ‘de jeugd de toekomst heeft en moet bepalen’ of ‘de cultuur-, media- of uitgeefsector zichzelf zal moeten uitvinden’. Voor mij zijn het zinnen die horen bij een vooruitgangsgeloof dat niet weet of vooruitgang wel vooruitgang is omdat er geen enkel beeld is bij die vooruitgang. Pracht zin, vind ikzelf. De vertaling? Men heeft geen idee wat te doen en schuift alles op de redenering dat ‘nieuw kansen en oplossingen biedt’.

Big data doet dat ook. De datasets zijn geen enkele garantie dat er ook chocola, informatie van wordt gemaakt. Het aantal werkelijk interessante applicaties is nog heel beperkt. Dat is een teken aan de wand. Dat is een teken dat we wonderen verwachten van een bron die geen wonderen kan verrichten.

Voor de duidelijkheid: ik ben een groot voorstander van open data – de beschíkbaarstelling van data aan anderen dan jezelf -, van open standaarden en van folksonomieën. Ik ben er eveneens van overtuigd dat er kracht schuilt in de massa en zijn denkkracht. Evenzo verwacht ik dat grote aantallen neigen naar een stabiel evenwicht. Allemaal mooi, maar ook allemaal met een andere kant.

Bij big data heb ik wat vraagtekens bij dat big. Want zoals gezegd, die data zijn de basis. En als er één wet in de informatiewetenschappen is die klopt, dan is het wel garbage in, garbage out. Als je software voedt met rotzooi, krijg je er rotzooi uit. Net zoals een wiskundige vergelijking je een fout antwoord geeft als je de verkeerde gegevens gebruikt.

En die datasets zíjn vaak vervuild en slecht. Ik denk dat je de stelling kunt verdedigen dat het verstandiger is kleine en middelgrote datasets te bouwen en onderhouden dan grote. Die kleine en middelgrote zijn voor een beheerder nog enigszins overzichtelijk. En, mocht er iets misgaan, dan is de ellende beperkt tot een beperkte set. Nogmaals, er ís veel mis bij de grote sets en dat is niet eens de beheerder verwijtbaar, tenzij je werkelijk meent dat honderd procent accuraat haalbaar is.

Het is natuurlijk prachtig als ook ‘wij’ aan de slag zouden kunnen met grote datasets die nu exclusief tot de mogelijkheden van overheden en financieelkrachtige partijen horen. Zo bouwt mijn ex-werkgever al ruim een jaar aan een mobiele applicatie op basis van de data onder werk.nl. Dat zou mooi zijn, ware het niet dat de kritiek op die set is dat-i verouderd en corrupt zou zijn. Dan krijg je dus een nutteloze applicatie: garbage in, garbage out.

20121216-155152.jpg

Een belangrijke stap in de richting van een oplossing is denken dat overheidsdata zo betrouwbaar zijn. Dat is maar de vraag. Niet alleen zijn de sets groot – en neemt de foutkans toe – maar ook is de verzameling niet verzameld om gedeeld te worden. Cru gezegd: in de tijd dat anderen die data niet konden controleren was eenoog koning in het land der blinden. Met het openstellen van zulke sets zullen ongetwijfeld vreemde effecten aan het licht gaan komen.

Dat neemt niet weg dat big data wel interessant kúnnen zijn. Interessant zijn de verzamelingen waarvan je wéét dat ze door samenwerking worden opgebouwd en waarvan je dus ook weet dat de betrouwbaarheid twijfelachtig kán zijn. Een prachtvoorbeeld vind ik nog steeds de app The Human Face of Big Data. Met de data die daar wordt verzameld kun je leuke dingen doen.

Persoonlijk ben ik een groot voorstander van ‘gedecentraliseerde databanken‘. Met de huidige technische mogelijkheden is het zelfs mogelijk om kleinere databanken op verzoek samen te voegen tot één grotere. En ja, het Internet ís zoiets. Mijn voorkeur heeft het daarom dat iedereen die data verzamelt die-i nodig heeft en dat zo goed als mogelijk doet. Die sets maak je publiek toegankelijk. En dan maar koppelen.

Goed. We moeten dan nog wel koppelingsafspraken maken, want definities zullen nooit helemaal kloppen. Nooit?! Maar waarom proberen we dan toch zo hardnekkig de hele wereld in data te vangen als we weten dat sommige sets onkoppelbaar zijn vanwege hun origine? Hou daar dan eens mee op en erken onkoppelbaarheid in plaats van datamodelterreur in te zetten.

Maar veel belangrijker als we die toegang hebben: wat dóen we er dan mee? Iets goeds? Wat ons welzijn verbetert? Of iets wat ons in een keurslijf dwingt? Hébben we enig idee welke richting we dan willen gaan? Mijn idee is dat het juist dááraan schort: wat te doen met al die data?

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s