BLOG: De 5 uitdagingen van data-onderzoek in het sport- en beweegdomein

Er is een datarevolutie gaande. ‘Data zijn de nieuwe olie’ is een veel gehoorde uitspraak. Er zijn bedrijven die eerder weten dat jij op vakantie gaat, dan jijzelf. De grootste bedrijven ter wereld drijven op data. Voor veel mensen een angstaanjagende gedachte, maar het kan ook een hoop mooie dingen opleveren. Ook in het sport- en beweegdomein en de gezondheidszorg. Data bieden geweldige kansen voor geweldig onderzoek. Echter, om met moderne technieken, data science en zogenaamde machine learning-inzichten uit data te halen zijn een aantal zaken essentieel. Van datamanagementplannen tot Artificial intelligence (AI) en van AVG-wetgeving tot representativiteit van data. 

Binnen Sport Data Valley werken we al een aantal jaar aan data-onderzoek in het sport- en beweegdomein en ontwikkelen we een platform waarop gezondheidsdata verzameld, opgeslagen, geanalyseerd en gedeeld kan worden. Dit gaat niet zonder slag of stoot. Vijf uitdagingen die wij tegenkomen bij data-onderzoek.

1. Geen succes zonder gezamenlijk doel

Het is misschien een open deur, maar zonder gezamenlijk doel is het lastig om een succesvol project te starten. Hoe meet je of een project succesvol is geweest, zonder dat je weet welk doel je nastreeft. Elk project dat Sport Data Valley start, begint bij het definiëren van het gezamenlijke doel. Wanneer je samenwerkt met partijen kunnen er verschillende belangen zijn. Zo is een klant vaak geïnteresseerd in het eindproduct, maar SDV ook geïnteresseerd in de achterliggende processen en methodes. Dat is prima, zolang er maar een gezamenlijk doel geformuleerd is waar alle partijen naartoe werken. Bij beide partijen ontstaan eigenaarschap en de verantwoordelijkheid om het project tot een succes te maken. Hoe beter dit gezamenlijke doel is gedefinieerd, hoe beter je weet welke data je nodig hebt, hoe je deze moet verwerken en wat de gewenste uitkomsten zijn.

Heb ik je nog niet overtuigd van het hebben van een gezamenlijk doel? AVG-wetgeving maakt het noodzakelijk. Het is namelijk voor de AVG-wetgeving van belang om duidelijk te beschrijven met welk doel je data gaat verzamelen, opslaan en verwerken. Als je dit aan de voorkant netjes regelt, dan scheelt dit een hoop gedoe na afloop. Dus zonder gezamenlijk doel kun je wettelijk gezien niet eens een data-project starten.

2. Begrijpen wat de klant nodig heeft

Ook essentieel bij data-onderzoek is begrijpen wat een klant nodig heeft. Beroemd is de uitspraak van Henri Ford: ‘als ik mensen had gevraagd wat ze wilden, hadden ze gezegd: een sneller paard’. Dit betekent echter niet dat je klanten niets moet vragen, je moet alleen de vraag achter de vraag zien te achterhalen. Voor veel organisaties is werken met data nog vrij nieuw en zijn de mogelijkheden nog deels onbekend. Als je vraagt wat een organisatie wil dan zegt bijna iedereen: zoveel mogelijk data verzamelen. We willen meer meten, meer sensoren, meer data. Meer data verzamelen klinkt mooi, maar is geen doel op zich.

We hebben ooit een organisatie gesproken die een heel sportveld vol met sensoren had neergelegd. Bakken data, maar nu? Bij projecten die we doen gaan we daarom altijd op zoek naar het ‘waarom’ achter het ‘wat’. Waarom wil je data verzamelen? Waarom wil je een sportveld vol sensoren? Hoe vaker je de ‘waarom’ vraag stelt, hoe verder je komt bij de kern van wat de echte uitdagingen van een organisatie zijn. Zo komen we vaak tot de conclusie dat meer data verzamelen niet nodig is, maar dat we de juiste data moeten verzamelen en structureren. Dat is direct een mooie brug naar uitdaging.

3. Garbage in = garbage out

Wanneer het gezamenlijk doel helder is en je weet op welke vragen je een antwoord zoekt kan je starten met data verzamelen, verwerken, opslaan en analyseren. Het verkrijgen van ‘goede’ data is daarbij essentieel, want ‘garbage in = garbage out’. Uit data kun je geweldige inzichten halen, maar als de data niet representatief, niet gestandaardiseerd en niet gestructureerd zijn, dan zijn de inzichten meestal ook niet goed. De kwaliteit van de data is vaak vele malen belangrijker dan de kwantiteit. Dit wordt ook wel de Big Data Paradox genoemd.

Een voorbeeld: een peiling onder duizend mensen, waarbij veel aandacht is besteed aan het representatief maken van deze groep zegt meer dan een peiling onder een miljoen mensen waarbij de representativiteit onduidelijk is. In 2016 kwam Donald Trump in bijna alle peilingen als verliezer uit de bus voorafgaand aan de Amerikaanse verkiezingen. Dit komt mede omdat er onvoldoende rekening werd gehouden met mensen die geen antwoord wilden geven op de vraag op wie ze zouden gaan stemmen.

Ook in sport, bewegen en gezondheidszorg is het ontzettend belangrijk om representatieve data te hebben voordat conclusies worden getrokken. Zo worden er nog steeds veel analyses gemaakt zonder rekening te houden met het geslacht (‘de man als norm’).

4. Ethisch, juridisch en privacy

En dan zijn er nog de ethische, juridische en privacy-technische uitdagingen. Stel je voor, je wilt een onderzoek doen naar hoe je van een bankzitter een Ironman triatleet maakt. Hier komen talloze vragen en uitdagingen bij kijken: welke data mag je voor je onderzoek verzamelen? Waar mag je data opslaan? Staat de data veiliger op een usb-stick of op een server? In hoeverre mag je iemand vragen om een fysieke inspanning te doen? Wat doe je als je een medische afwijking ontdekt als ‘bij-product’ van de data-analyse? Sommige onderzoekers zien door de bomen het bos niet meer. Sport Data Valley heeft al talloze onderzoekers en organisaties geholpen bij deze vraagstukken en heeft inmiddels veel oplossingen op de plank liggen.

Om nog maar te zwijgen over het veilig opslaan van je data. Dat mag meestal niet buiten de EU zijn en de beveiliging van de data moet op orde zijn. Daarnaast moet je wanneer je gegevens van iemand verwerkt, diegene ook in staat stellen om zicht en controle te houden over hun eigen data. Mensen hebben bijvoorbeeld het recht op inzage en het ‘recht op vergetelheid’, wat betekent dat mensen de mogelijkheid moeten hebben om hun persoonsgegevens te (laten) verwijderen.

5. Vertrouwen in Artificial intelligence en Data Science is laag

Big Data en Artificial Intelligence (AI) kunnen helpen bij het oplossen van verschillende problemen, maar vertrouwen in Big Data en AI is laag. Onderzoek geeft aan dat een meerderheid van de bevolking (in EU, VS en Japan) denkt dat AI niet onbevooroordeeld beslissingen kan nemen. En slechts 25% van de consumenten heeft meer vertrouwen in de beslissing van een AI-systeem boven die van een persoon als het gaat om de kwalificatie voor een banklening (bron: klik hier). Voordat je data en AI inzet, moet je dus werken aan het vertrouwen in deze data.

Conclusie

Data kunnen zeker het nieuwe goud of de nieuwe olie zijn, mits op de juiste wijze verzameld, gestructureerd, opgeslagen, geanalyseerd en beveiligd. Bij Sport Data Valley (SDV) ondersteunen we meer dan honderd projecten met het oplossen van deze uitdagingen. Zo hebben we een infrastructuur waarmee coaches, sport-en beweegprofessionals en onderzoekers verschillende soorten data veilig en AVG-proof kunnen verzamelen en analyseren en hebben we expertise in huis om te adviseren hoe je omgaat met de technische, wetenschappelijke en organisatorische aspecten van data-onderzoek. Nieuw is het ELSA-lab, waar we specifiek kijken naar de ethische en juridische aspecten van AI en het gebruik van data.

Sport Data Valley maakt data-onderzoek in sport, bewegen en gezondheid makkelijker. Als non-profit organisatie zijn we opgezet door wetenschap, overheid en de sportpraktijk en ondersteunen we een groeiend aantal projecten. Stuur ons vooral je vraag of probleem. We gaan graag het gesprek aan.

Auke Damstra – Managing Director Sport Data Valley 

2 augustus, 2022

Meer nieuws