Testdaten für die digitale Transformation – rechtskonforme Nutzung von Dokumentenschätzen
Die Digitalisierung interner Abläufe oder ganzer Geschäftsprozesse birgt immense Chancen für Unternehmen. Neben Kostensenkungen sind Qualitätsverbesserungen und gänzlich neue Geschäftsfelder möglich. Ein Ansatzpunkt für die „Digitale Transformation“ ist die konsequente Analyse vorhandener – teils riesiger – Informationssammlungen. Werkzeuge der Analyse basieren vielfach auf Verfahren des maschinellen Lernens. Damit diese treffsicher ihre Aufgabe verrichten, ist eine Trainingsphase im Vorfeld zwingend nötig. Die Qualität und Menge von Trainings- und Testdaten wird so zum Schlüssel für viele Bemühungen.
Die Schwierigkeit besteht darin, dass die Informationsschätze personenbezogene Daten enthalten und ein Training nie Zweck ihrer Erhebung, Speicherung und Verarbeitung war. Die Vereinbarkeit von datengetriebenen Geschäftsmodellen – basierend auf personenbezogenen Massendaten und geltendem Recht – steht im Fokus dieses Vorhabens.
Im Projekt PoP „Protection of Privacy“ werden Methoden und Werkzeuge zur automatischen Identifikation, Benennung und Maskierung sensibler Inhalte in digitalisierten Schriftstücken erforscht. Entscheidend ist, dass schützenswerte Bestandteile nicht entfernt, sondern durch fiktive Angaben ersetzt werden. Der Personenbezug wird getilgt, die Bedeutung der Inhalte bleibt bestehen. Aus ursprünglichen Verträgen, Anträgen, Bewerbungen, Lieferscheinen oder Steuererklärungen werden fiktive Äquivalente. Diese dienen als Datenmaterial für Training und Validierung. Um Namen, Adressen, Berufsbezeichnungen oder Angaben zum Gesundheitszustand in komplexen Dokumenten zu erkennen, sollen Verfahren des maschinellen Lernens zum Einsatz kommen, die sich in der Sprach- und Schrifterkennung bewährt haben. Diese gestatten die Erfassung der Wortbedeutung in einem Kontext. Eine weitere Klasse von Lernverfahren wird eingesetzt, um im zweiten Schritt diese Information so zu ersetzen, dass Bedeutungen erhalten bleiben. Diese Klasse wird bis dato erfolgreich für die fotorealistische Darstellung (z.B. zur Entfernung von Objekten aus Bildern) eingesetzt.
Während es sich Großunternehmen teilweise leisten können, aufwändig Trainings- und Testdaten zu erstellen, fehlen KMU dazu die Möglichkeiten. Die Verwendung von Echtdaten ist rechtlich stark eingeschränkt bzw. ausgeschlossen. Das Projektziel ist es eine Software-Suite zu entwickeln, die komplette Workflows der Dokumentenanalyse zur Gewinnung von Trainingsmaterial abbildet und so KMU unterstützt.
Eine zweite Anwendung wird dabei nicht ausgespart: Wenn personenbezogene Daten in Dokumenten zielsicher identifiziert werden können, ist deren zuverlässige Schwärzung bzw. Löschung deutlich einfacher. Beide Aspekte verschaffen Unternehmen und insbesondere KMU Rechtsicherheit in Sachen Datenschutz und ermöglichen es ihnen, die hohen deutschen und europäischen Datenschutz-Anforderungen als Standortvorteil zu nutzten.