In dit artikel legt Daan Dirven, Datamanagement & Data Governance expert, uit wat Datakwaliteitsdimensies zijn en hoe je door middel van deze dimensies, je datakwaliteit kan specificeren en toetsen. Dit zorgt ervoor dat iedereen dezelfde kaders en een gemeenschappelijke taal heeft om over datakwaliteit te praten. We houden van interactie dus reageer gerust via de link onderaan het artikel van Daan.
Ik wil wat kwijt over datakwaliteit…..
Bij het uitleggen van datakwaliteitsdimensies gebruik ik in mijn training graag het volgende reclamefilmpje uit de jaren tachtig: Duyvis reclame – een pinda van Duyvis is altijd oké
Van Vleuten is nog lang ‘aan de arbeid’ met het testen van pinda’s op de volgende eigenschappen: kleur, grootte, glans en smaak. Dit zijn voor Van Vleuten blijkbaar de eigenschappen waar de kwaliteit van de pinda’s in wordt uitgedrukt. Meneer van Ooyen vindt het allemaal maar onzin, omdat een pinda van Duyvis “altijd oké” is. Dit is een gevaarlijke aanname, die ik ook regelmatig bij andere bedrijven tegenkom. Deze uitspraak kan je niet doen zonder duidelijk te definiëren wanneer een pinda dan oké is en daar ook op te toetsen. Ik ben meer ‘team van Vleuten’. Hij begrijpt dat je alleen uitspraken kan doen over kwaliteit als je deze ook gedefinieerd en geverifieerd hebt.
Maar wij zijn in ons vakgebied zelden bezig met het meten van de kwaliteit van pinda’s, maar wel vaak met de kwaliteit van data. Ook voor data geldt dat je pas kan zeggen dat de data oké is, als je ook daadwerkelijk hebt gedefinieerd wat voor jou oké data is en je daar de data ook op toetst.
Datakwaliteit wordt gedefinieerd als: “de mate waarin de gegevens geschikt zijn om te gebruiken door de producenten, beheerders en gebruikers van de data” oftewel: “fitness for use”. Om die geschiktheid te bepalen moet je naar specifieke kenmerken van de gegevens kijken. Kleur, grootte, glans en smaak zijn, in het geval van data, onhandige kenmerken. We hebben dus andere eigenschappen nodig om de kwaliteit van data uit te drukken. Daarvoor gebruiken we Datakwaliteitsdimensies.
Datakwaliteitsdimensies
Datakwaliteitsdimensies bieden een gemeenschappelijke taal om over datakwaliteit te praten. In plaats van vage termen als “goede” of “slechte” data, kunnen we specifieke dimensies gebruiken, zoals volledigheid, juistheid, consistentie, etc. Dit zorgt ook voor een duidelijker begrip tussen technische en niet-technische stakeholders.
DAMA-DMBoK geeft in hun hoofdstuk over datakwaliteit verschillende lijsten met ‘DQ Dimensions’ en bijbehorende definities verdeeld over meerdere pagina’s. Omdat ik door de bomen het bos niet meer kon zien, gaat mijn voorkeur uit naar de “List of Conformed Dimensions of Data Quality” van Dan Myers, MBA, IQCP . Zijn website biedt een net overzicht van alle datakwaliteitsdimensies en een heldere uitleg met voorbeelden en zelfs hoe je deze dimensies kan meten. In de Revised Edition van DAMA-DMBok, is overigens gelukkig wel gekozen voor één lijst van dimensies.
Ik heb de definities van Myers in onderstaande tabel gezet, met een Nederlandse vertaling van de term en omschrijving
Spraakverwarring
Bij het vertalen van de DQ Dimensions naar het Nederlands raken we meteen een interessant punt: Vaak worden de Engelse termen in het Nederlands iets té letterlijk vertaald. Zo wordt “completeness” vaak “compleetheid”, wat mijns inziens een bijzonder luie vertaling is. De term compleetheid zou ik in het dagelijks leven niet snel gebruiken. Een zin als: “Voor de compleetheid heb ik ook eieren en melk op de boodschappenlijst gezet” zal je niet snel in het wild tegenkomen. Hier gebruik je toch eerder de term “volledigheid”.
De term “accuracy” wordt in het Nederlands vaak vertaald naar “accuratesse” en soms zelfs “precisie”. Dit nederlandse begrip gaat over nauwgezetheid, nauwkeurigheid, stiptheid of zorgvuldigheid. Allemaal zaken die ik dan weer zou relateren aan de Engelse term “precision”. Ik vertaal de “accuracy” liever naar “juistheid” omdat de definitie daarvan meer aansluit bij de definitie die Myers hanteert. “De mate waarin de gegevens overeenkomen met de gerepresenteerde objecten in de echte wereld”.
Stokpaardjes
Hierbij komen we meteen bij een van mijn andere stokpaardjes. In veel organisaties zie ik dat het verschil tussen Accuracy en Validity niet duidelijk is. De begrippen worden door elkaar gebruikt, en soms ontbreekt de dimensie Validityzelfs helemaal.
Voor de duidelijkheid: Accuracy is de mate waarin de gegevens overeenkomen met de gerepresenteerde objecten in de echte wereld. Als je gegevens dus toetst op juistheid en de gegevens voldoen aan de juistheidscriteria, moet je er als data consument van uit kunnen gaan dat de gegevens ook echt juist zijn. Een regel die de juistheid van een klantadres toetst, zou dus ook daadwerkelijk moeten toetsen of het adres van de betreffende klant ook daadwerkelijk hun adres is. Als je een regel gemaakt hebt, die controleert of de postcode van het adres voldoet aan het formaat “9999 AA” en in de postcodetabel voorkomt, toets je echter niet op juistheid, maar op geldigheid.
Ander voorbeeld: Stel we controleren op ‘juistheid’ van geboortedatum door te controleren of een datum opgeslagen is in formaat “YYYY-MM-DD”. Een geboortedatum die een maand heeft die groter dan 12 is, kan immers geen juiste datum zijn. Stel, we toetsen de geboortedatum van Nikola Tesla “1856-10-07”. Deze voldoet en wordt dus als ‘juist’ gekwalificeerd. Alleen Tesla is geboren op 10 juli 1856, wat dus in voornoemd formaat “1856-07-10” zou moeten zijn. Die hier beschreven toets is dus niet meer dan een toets op geldigheid!
Het nut van Datakwaliteitsdimensies
Waarom hebben we dan zoveel verschillende datakwaliteitsdimensies? Eigenlijk hoef je alleen maar te controleren of gegevens juist zijn, dan zijn de andere dimensies toch overbodig? Dat klopt in zekere zin, alleen is het lastig om echte juistheidscontroles geautomatiseerd te toetsen. Vaak wordt voor dit soort controles wel gebruikgemaakt van een database waar een ‘geaccordeerde versie van de werkelijkheid’ in staat. Bijvoorbeeld een actuele Kamer van Koophandel download voor adresgegevens van bedrijven. Dit soort tabellen is echter niet voor alle gegevens aanwezig. Je kan dan teruggrijpen op steekproeven van de data die je wilt toetsen. Neem een steekproef uit de data en controleer deze gegevens handmatig. Op basis van de steekproef kan je dan een indicatie geven van welk percentage van gegevens er juist zijn. Wélke gegevens er exact juist zijn is (uitgezonderd de daadwerkelijk geteste gegevens) niet vast te stellen.
Wil je de kwaliteit van gegevens geautomatiseerd meten, kun je veel eenvoudiger meten op dimensies als Volledigheid, Geldigheid en Consistentie. Als de gegevens volledig, geldig én consistent zijn, zegt dat al heel wat over de betrouwbaarheid van gegevens. Maar er blijft altijd onzekerheid over de daadwerkelijke juistheid van gegevens. Voor de meeste toepassingen is het voldoende om te weten of de gegevens voldoen aan de meeste datakwaliteitsdimensies en is een juistheid controle niet per se nodig. Hierbij is het ook een kwestie van afwegen van belangen: Hoeveel tijd en geld wil je investeren in het exact juist krijgen van je gegevens? Als je juistheid niet kan toetsen, kun je vaak wel wat zeggen over de andere kwaliteitsdimensies. Dat is voor de meeste toepassingen van data al voldoende om tot een betrouwbare indicatie van kwaliteit te komen.
Meer weten?
Wil je meer weten over datakwaliteitsdimensies? Reageer op dit artikel via Linkedin, dan ga ik wat dieper in op de verschillende dimensies. Laat dan even weten over welke DQ dimension het volgende artikel zou moeten gaan.