Data-mining: een blijvertje! Of trekt deze hoosbui wel over?

Weblog

(links de kop uit het NRC, rechts de kaart met hoosbuien van de NOS

Het NRC-Handelsblad gaf twee weken terug weer eens aan hoe mooi onze wereld er binnenkort uit komt te zien dankzij moderne technologie. De veelheid aan gedetailleerde informatie, die ons tegemoetkomt, wordt steeds vaker door de overheid gebruikt. Die juiste fraudeur, de tot op heden onzichtbare belastingfraudeur en die ene groep draaideurcriminelen kunnen nu voortijdig worden opgepakt. Politie, provincies en gemeentes doen er hun voordeel mee. Informatie uit facebook, lokatiegegevens van mobieltjes, the-internet-of-things en allerlei monitoringsprogramnma’s leiden dankzij ‘wiskundige algoritmes’ tot allerlei besparende beslissingen die wij voorheen als mens niet konden maken. AVG of niet, de overheid gaat gewoon door!

(zie figuur boven: links de kop uit het NRC, rechts de kaart met hoosbuien van de NOS).

Mooi toch? En ik moet eerlijk zijn, dit is ook mooi. En ook bij ProRail doen we hier - terecht en goed – vol op aan mee.

Zouden we dat niet doen, dan mist ProRail de boot. Big-data, Data-mining, Datalab, allemaal termen waar ProRail de afgelopen 5 jaar bekend mee zijn geworden. Voorbeelden zijn het voorspellen van wissels die het eerste uitvallen, waar en wanneer spoorlopers onze punctualiteit verzieken of welk wiel van welke wagon onze spoorstaaf bovenmatig degenereert. ProRail wil het allemaal weten. En meer. En we boeken er successen mee. We besparen er mee of beperken de dispunctualiteit. Onze omgeving en onze eigen successen tonen aan dat we hier in moeten investeren. Al was het alleen maar omdat we, de laatste jaren daar ook informatie voor verzameld hebben: bergen gestructureerde monitoringsdata over kwaliteit, berijding, prestaties en onderhoud van het spoor.

Maar… Zit er een adder onder het gras? Zijn de statische verbanden die die programma’s ophoesten, ook causale verbanden? Zijn de cijfers uit het verleden ook de voorspellers voor morgen? Het NRC-Handelsblad kwam gelukkig ook met een serie kanttekeningen. Een voorbeeld: als jij in een tokkie-straat woont (althans, volgens het ongrijpbare logaritme van dat programma van de gemeente), ben jij dan ook écht die ene fraudeur? Als 90% van de wissels met onderhoudsregiem X, bouwdatum Y en berijding Z de afgelopen A jaar begaven – heel specifiek dus –, zullen ze dat dan komend jaar ook doen? Wie weet dat? Jij? De statistiek? De computer zeg ‘t…

Wij mensen zijn er op gebrand en getraind om zo snel mogelijk patronen, regelmaat, verbanden te zien. Daar zijn onze hersens op gebouwd. De rust, reinheid en regelmaat die we dan ontdekken ervaren we als een soort hogere orde schoonheid. Dat zorgt in ons lichaam voor het aanmaken van het verslavende en gelukmakende stofje endorfine. We zullen en móeten gewoon leren op die manier. Door te weten waar en wanneer de meeste bessen geplukt kunnen worden en waar het makkelijkst een mammoet gevangen kan worden, zijn we immers geworden tot de mens die we nu zijn. De Homo Analyticus.

Maar we draven door als we deze drang naar begrijpen en vernieuwen belangrijker vinden dan de daadwerkelijke kans van slagen op een zinnige uitkomst in de praktijk. We hebben wel steeds meer informatie, maar die gaat dan vaak over een steeds hoger detailniveau. Vaak bevat die data meer van hetzelfde, omdat we hetzelfde vaker en meer meten. Meer data is niet altijd meer informatie, laat staan meer wijsheid.

Heel fijn dat daarom ook het omgekeerde in de media te lezen is, zoals dit zeer leesbare bericht over hoosbuien. Hoosbuien zorgen namelijk tot veel schade en overlast. Gemeenten willen weten waar ze mogelijk preventief maatregelen willen kunnen nemen.

Maar helaas… na 10 jaar hoosbuien meten, blijkt dat ze qua locatie en tijdstip niet te voorspellen zijn. Op geen enkele plek in Nederland. Toch lijkt de bijbehorende kaart ons iets te willen vertellen… We zien toch die prachtige patronen, uitschieters en witte gebieden waar in tien jaar geen enkele hoosbui is gevallen? Nee dus. Ga die kaart niet interpreteren, zo leert de NOS het en zo zegt de deskundige. Over 10 jaar ziet deze kaart er héél anders uit. Sommige zaken zijn niet te voorspellen, vooral de extreme gebeurtenissen.

De moraal uit dit verhaal? Meer meten betekent niet meteen meer weten. Willen we zeldzame spoorstaafbreuken, ernstige spoorstaafdefecten en grootste storingen met veel overlast voorspellen, – om maar eens wat voorbeelden te noemen - dan is meer nodig dan weten waar en wanneer die in optraden.

Maar meer meten is wel het begin.