MLens

Datenschutzfreundliches Maschinelles Lernen für eine sichere Selbstvermessung

Läufer schaut auf Smartwatch
Moderne Medizin mit sicherer Selbstvermessung. © Adobe Stock / Maridav

Motivation

Die Zahl der Menschen, die selbst Messungen vornehmen, um gesundheitsbezogene Daten von sich zu erhalten, hat in den letzten Jahren kontinuierlich zugenommen. Die Selbstvermessungen kommen sowohl für prädiktive als auch für präventive Zwecke zum Einsatz, etwa um Herzfrequenzmessungen bei Stress durchzuführen, Trainingszyklen beim Leistungssport zu optimieren oder auch für Medikamentenstudien. Bei immer mehr dieser Gesundheitsdienstleistungen und Messgeräten wird für die Datenverarbeitung Künstliche Intelligenz eingesetzt. Sie benötigen eine große Menge an sensiblen Endnutzerdaten, um maschinell Modelle zu entwickeln und zu lernen. Dabei kommen zweierlei Datenschutzbedenken zum Tragen: zentralisierte Datensammlung und modellbasierte Informationsflüsse. Ein Kernproblem für klassische Lernverfahren besteht darin, dass Daten zum Lernen zumeist zentral gespeichert und verarbeitet werden müssen. Für viele medizinische Anwendungen ist das inakzeptabel. Neueste Arbeiten zeigen darüber hinaus, dass maschinell gelernte Modelle über die erhobenen Trainingsdaten häufig Rückschlüsse auf die Probandinnen und Probanden erlauben. Auch dies ist, insbesondere für medizinische Daten, sehr kritisch zu bewerten.

Ziele und Vorgehen

Im Vorhaben „Datenschutzfreundliches Maschinelles Lernen für endgerätzentrierte Selbstvermessung“ (MLens) sollen Techniken entwickelt werden, die eine zentralisierte Datensammlung überflüssig machen und stattdessen sichere, verteilte, maschinelle Lernverfahren einsetzen. Es wird erforscht, wie durch ein initiales Training mit öffentlichen, nicht personenbeziehbaren Daten, verteilte Lernverfahren effizienter und effektiver gestaltet werden können. Um modellbasierte Informationsflüsse möglichst zu verhindern, sollen Daten in der Lernphase gezielt manipuliert (verrauscht) werden. Robuste Statistikverfahren modifizieren die Daten dann so, dass keine Rückschlüsse über die Trainingsdaten möglich sind.

Innovationen und Perspektiven

Die Kerninnovation des Vorhabens liegt darin, zwei wesentliche Hemmnisse bei der Nutzung von sensiblen Daten für maschinelles Lernen auszuräumen: Durch den Einsatz von lokalem Lernen müssen Daten nicht mehr Dritten gegeben werden, und durch spezielle Lernverfahren lassen sich auch aus dem Gelernten keine Rückschlüsse mehr ziehen. So können Datenschutzbedenken ausgeräumt und medizinische Daten der Selbstvermessung sicher genutzt werden. Das Vorhaben hat das Potenzial, den Markt für Gesundheitsdienstleistungen in Deutschland zu stärken und zugleich den Datenschutz der Bürgerinnen und Bürger zu gewährleisten.