Hoe zorg je ervoor dat je testdata voldoet aan de AVG?

Comments Off on Hoe zorg je ervoor dat je testdata voldoet aan de AVG?

We weten inmiddels allemaal dat je productiedata (of een kopie daarvan) niet mag gebruiken voor testdoeleinden. De Algemene Verordening Gegevensbescherming (AVG) stelt dat persoonlijk identificeerbare informatie niet mag worden gebruikt voor secundaire doeleinden zoals marketing, training en testen. De kans bestaat dat persoonsgegevens in verkeerde handen komen of uitlekken. Maar als softwaretester of quality engineer heb je toch (productie-achtige) data nodig voor je testen. Want hoe kun je anders je applicaties testen en ervoor zorgen dat ze in productie goed werken? Gelukkig zijn er drie (vrij eenvoudige) manieren om je testdata AVG-compliant te maken, zodat je kunt blijven testen met kwalitatief hoogwaardige data:

  1. Datamaskering
  2. Synthetische gegevensgeneratie
  3. Combinatie van technieken

Datamaskering

Datamaskering (of data masking) is het proces van het verbergen van privacygevoelige gegevens die in je database zijn opgeslagen. Het belangrijkste doel is dat persoonlijke informatie zoals namen, adressen, IBAN, BSN-nummers, salarissen et cetera niet meer herleidbaar zijn tot een natuurlijk persoon. Maar wat maakt informatie persoonlijk of privacygevoelig? Een naam op zich is niet privacygevoelig, het feit dat de persoon met deze naam een gigantische schuld heeft wel. Met behulp van data maskeertechnieken zorg je ervoor dat verschillende stukjes persoonlijke informatie niet meer aan elkaar gekoppeld worden. Je kunt namen shufflen, tekst of cijfers scramblen, verjaardagen instellen op een andere dag van dezelfde maand of hetzelfde jaar (zodat het geboortejaar, de leeftijd, functioneel blijft), custom expressions gebruiken, velden blanken die je niet nodig hebt voor je tests en meer. Al deze maskeerregels (die zijn gecombineerd in een maskeertemplate) helpen je ervoor te zorgen dat je persoonlijke gegevens niet meer privacygevoelig zijn.

Synthetische datageneratie

Als alternatief voor data masking tools kun je ervoor kiezen om synthetisch data voor je testdatabase te genereren. Synthetische data kan worden gebruikt als maskeringstechniek of je kunt helemaal opnieuw gegevens genereren als je nog geen data in productie hebt (bijvoorbeeld wanneer je een gloednieuwe applicatie test). Synthetisch gegenereerde data is ook handig als je uitschieters of specifieke gevallen in je dataset hebt. Het hoogste salaris kan bijvoorbeeld eenvoudig aan een bepaalde persoon worden toegekend (je hebt vast wel een idee welke medewerker van jouw organisatie bijvoorbeeld het meeste verdient). Door synthetische data voor deze velden te gebruiken, kun je deze gevallen van onbedoelde herkenning uitsluiten.

Combinatie van technieken

We hoeven waarschijnlijk niet uit te leggen waarom het gebruik van een combinatie van data masking en synthetische datageneratie de beste methode is. Je krijgt het beste van twee werelden. Enerzijds blijft je data (en de datastructuur) zoveel mogelijk intact, zodat het dicht bij productie blijft. Anderzijds maak je gebruik van alle voordelen die synthetische data met zich meebrengt.

Conclusie

Zowel het maskeren van data als het genereren van synthetische data helpen je om je testdata AVG-compliant te maken. De beste manier is om een combinatie van technieken te gebruiken om zowel een compliant als een functionele (hoge kwaliteit) testdataset te krijgen. Met een goede data masking tool maskeer (of genereer) je niet alleen je data, maar genereer je ook een auditrapport waarmee je jouw maskeerinspanningen kunt aantonen. Een mooi document om te overhandigen aan de privacy autoriteiten als ze besluiten langs te komen voor een audit.

May 4, 2022 |

Comments are closed.

Vantage Theme – Powered by WordPress.
Skip to toolbar