Datennutzung im Rahmen von Softwaretests

In vielen Unternehmen wird im Rahmen der Softwareentwicklung nach wie vor mit produktiven Daten getestet, obwohl gem. geltender Datenschutzbestimmungen (BDSG & TKG) keine nicht anonymisierten Produktionsdaten verwendet werden dürfen.

Daher ist es generell und insbesondere für den Off- und NearShore Entwicklungs- und Testbereich sehr wichtig geeignete Verfahren zu entwickeln, wie konsistente Testdaten für einfache sowie für komplexe System-Integrations-, Verbund- und Solutiontests mit zahlreichen Schnittstellen generiert werden können, bei denen die referentielle Integrität für wesentliche Schlüsselfelder erhalten bleiben muss.

Hierzu kommen grundsätzlich in Frage:

1.    Anonymisierte Produktionsdaten für

    • Cube- und Reportentwicklung im DWH-Umfeld
    • Performance-, Integrations- und Solutionstest
    • User Acceptance Tests der Fachseiten

2.    Synthetische Testdaten für

    • Entwicklertests
    • automatisierte Regressionstests.

Da nicht jede Art von Testdaten (anonymisierte oder synthetische Daten) für jeden Test geeignet ist, muss im Vorfeld genau überlegt werden, welche Daten wofür erzeugt werden müssen, um die Anforderungen des Datenschutzes sowie die individuellen Testanforderungen zu erfüllen.

Derzeit auf dem Markt verfügbare Lösungen zur Generierung von Testdaten sind z.B. Oracle Data Masking, IBM Optim, Micro Focus Data Express, AXIS DM Suite.

Darüber hinaus lassen sich auch individuell entwickelte Lösungen in vielen Bereichen sehr gut bzw. wegen der optimalen Anpassung an die jeweiligen Testanforderungen z.T. sogar besser einsetzen als vergleichbare Standardlösungen.

Begriffe im Testdatenumfeld

Im Testdatenumfeld werden häufig verschiedene Begriffe verwendet, die nachfolgend erläutert werden:

    • Anonymisierung: die schützenswerten Informationen werden hier so verändert, dass die Einzelangaben nicht mehr oder nur mit einem unverhältnismäßig großen Aufwand an Zeit und Kosten beispielsweise einer bestimmten natürlichen Person zugeordnet werden können. Von einem solch unverhältnismäßigen Aufwand ist auszugehen, wenn es für die verantwortliche Stelle mit weniger Aufwand verbunden ist, eine erneute Datenerhebung durchzuführen, als die Wiederherstellung des Personenbezugs der faktisch anonymen Daten zu betreiben. Durch eine Anonymisierung sind die Daten nicht mehr personenbezogen.
    • Pseudonymisierung: ein relevantes Identifikationsmerkmal (z.B. Name) wird durch einen anderes Merkmal (Pseudonym) oder eine Buchstabenfolgen ersetzt. Charakteristisch für pseudonyme Daten ist das Bestehen einer Zuordnungsregel, welche die unter einem Pseudonym erfassten Daten den Identifikationsmerkmalen bspw. einer Person zuweist. Pseudonymisierte Daten sind somit niemals absolut anonym sind.
    • Maskierung, Verschlüsselung/Encryption: Sind technische Methoden zu Erreichung der Anonymisierung oder Pseudonymisierung.
    • Synthetisch: synthetische Testdaten werden künstlich erzeugt und haben keinen direkten Bezug zur Realität. Bei der Erzeugung von solchen Daten ist zwingend darauf zu achten, dass eindeutig zu erkennen ist, dass es sich hierbei um synthetische Daten handelt.