Digital

Digital

Nieuws

Big Data zetten je op het verkeerde been (soms)

De hele wereld gonst van Big Data. Toch kunnen analyses met Big Data je makkelijk misleiden. Dat stellen enkele wetenschappers die een van de ‘showcases’ van Big Data uitgebreid hebben onderzocht: Google Flu Trends, het grieponderzoek van Google.

Google Flu Trends gaat ervan uit dat er een verband is tussen het aantal zoekopdrachten naar woorden als ‘griep’ en het aantal personen dat griep heeft. Het lijkt voor de hand liggend. Google zou daarmee een actueel beeld kunnen geven van de verspreiding van griep, ook in landen waar griep niet wordt geregistreerd.

Vier wetenschappers hebben deze claim van Google onderzocht. In Science publiceren ze hun bevindingen onder de titel The Parable of Google Flu: Traps in Big Data Analysis.
Samenvattend: Google Flu Trends zat in de Verenigde Staten in de griepseizoenen 2011-2012 als in 2012-2013 helemaal mis. In ruim negentig procent van de weken schatte Google het aantal griepgevallen hoger in dan het in werkelijkheid was. Tijdens het hoogtepunt van het griepseizoen 2012-2013 zat Google Flu Trends er zelfs een factor twee naast: niet elf procent van de Amerikanen was geveld door de griep, maar slechts zes procent.

Waarom kloppen de cijfers van Google niet? De wetenschappers geven twee redenen aan. Allereerst zijn de zoektermen die Google gebruikt om griepgevallen te schatten niet altijd een goede graadmeter van het lijden aan griep. Daarnaast ziet Google onverwachte ontwikkelingen, bijvoorbeeld zoals het opduiken van het H1N1-A-virus, over het hoofd. Ook niet handig is dat de zoekalgoritmes van Google steeds veranderen.

Meer algemene conclusie van het onderzoek: je kunt pas iets doen met Big Data als je inzicht hebt in de wijze waarop gegevens zijn verzameld die aan de basis van Big Data-analyses liggen. Dus: combineer Big Data met traditionele vormen van informatieverzameling en gegevensanalyse.

Bron: Automatiseringgids maart 2014