SynthiClick

Synthetische Datenerzeugung anhand von Nutzungsverhalten im World Wide Web

Frau mit Laptop auf dem Schoß
Eine eigenschaftstreue Synthetisierung von Daten trägt zu einer datenschutzkonformen Datennutzung bei. © Adobe Stock / Monster Ztudio

Motivation

Sämtliche Onlineaktivitäten hinterlassen Datenspuren, die von diversen Akteuren mithilfe von Tracking erhoben, gespeichert, ausgewertet und letztlich als Produkt an Werbeagenturen oder Marktforschende verkauft werden können. Dies passiert in der Regel ohne das Wissen oder eine informierte Einwilligung der Nutzenden - obwohl das Web-Tracking sehr tiefe Einblicke in ihre täglichen Aktivitäten, Präferenzen und Eigenschaften erlaubt. Verbunden mit den Zeitstempeln der Aufrufe lassen sich leicht Lebensumstände und Entwicklungen auch sensibler Information über den Gesundheitszustand, soziale Beziehungen, Arbeitsleistung und politische Präferenzen identifizieren. Eine effektive Anonymisierung der Navigationsverläufe im Internet ist jedoch kaum möglich, ohne ihre Nützlichkeit vollkommen zu zerstören. Eine Möglichkeit datenschutzkonformer Analysen besteht beispielsweise in der Nutzung synthetisierter Datensätze.

Ziele und Vorgehen

Im Projekt „Anonymisierung und Synthese von Klickpfaden und Verhalten im Web (SynthiClick)“ wird das Ziel verfolgt, neue Konzepte zur Anonymisierung und Datensynthese zu entwickeln, die Reichweitenmessungen, Nutzungsanalysen und Benchmarking im Online-Marketing datenschutzkonform erlauben. Dazu werden mit generativen Methoden des Maschinellen Lernen aus Befragungs- und Bewegungsdaten deutscher Websites eigenschaftstreue Datensätze synthetisiert. Die Forschenden entwickeln Metriken, mit denen die anonymen, synthetisierten Daten mit den Befragungs- und Bewegungsdatensätzen verglichen werden. Gleichzeitig überprüfen sie, ob tatsächlich keine personenbeziehbaren Informationen mehr enthalten sind. Im Anschluss werden die Metriken genutzt, um nachhaltige Anonymisierungen unter Verwendung von Synthesealgorithmen durchzuführen, die dann frei nutzbare Datensätze generieren. Die entwickelten Algorithmen und generierten Daten sollen in die Public-Domain überführt werden, sodass sie von jeder Person ohne irgendwelche Restriktionen genutzt werden dürfen.

Innovationen und Perspektiven

Das Projekt SynthiClick trägt dazu bei, neue Konzepte zur Anonymisierung und Datensynthese zu entwickeln. Sie ermöglichen es, das Verhalten von Nutzerinnen und Nutzern im gesamten Web zu erfassen, ohne invasives Web-Tracking zu nutzen. Die Nutzerinnen und Nutzer sind damit nicht mehr einer Vielzahl verschiedener Tracker ausgesetzt und die Firmen erhalten trotzdem aussagekräftige Informationen. Dies ist ein wichtiger Schritt auf dem Weg in eine Zukunft der digitalen Souveränität eines jeden Einzelnen bei der Verarbeitung personenbezogener Daten.