KI-basierte Anonymisierung personenbezogener Patientendaten in klinischen Text- und Sprachdatenbeständen
Die fortschreitende wissenschaftliche Weiterentwicklung von Technologien auf Basis Künstlicher Intelligenz (KI) befördert medizinische Anwendungspotenziale. Einer reellen Nutzung dieser Technologien durch eine Vielzahl an Anwendern wie Bürgerinnen und Bürger, Behörden, Mitarbeitenden des Gesundheitswesens und kleinen sowie mittelständischen Unternehmen steht die Schwierigkeit des datensicheren und datengeschützten Umgangs gegenüber. Gerade bei der automatisierten Verarbeitung von medizinischen Daten können oftmals innovative Technologien nicht eingesetzt werden, da aufgrund der sensiblen Inhalte, der Schutz der Identität zu Recht einen hohen Stellenwert einnimmt. Die Schutzwürdigkeit klinischer Daten und der dadurch erschwerte Zugang damit führt auch dazu, dass Maschinelle Lernverfahren (ML), beispielsweise für klinische Diagnosen, Prognosen sowie Therapie- oder Entscheidungsunterstützung nicht ohne größere Hürden entwickelt werden können.
Das Projekt „KI-basierte Anonymisierung personenbezogener Patientendaten in klinischen Text- und Sprachdatenbeständen“ (Medinym) untersucht die Möglichkeit der Weiterverwertung sensibler Daten durch das Entfernen der empfindlichen Informationen mittels Anonymisierung. Im Projekt werden zwei medizinische Anwendungsfälle, textbasierte Daten aus der elektronischen Patientenakte sowie Sprachdaten aus diagnostischen Ärztin-Patient-Gesprächen, exemplarisch umgesetzt. Dazu werden im Projekt offene Technologien zur Anonymisierung untersucht, weiterentwickelt und auf reale Daten angewandt. Außerdem untersuchen die Forschenden, wie die Aussagekraft solch anonymisierter Daten für die weitere Nutzung erhalten werden kann. Zusätzlich sollen Methoden betrachtet werden, die einen Missbrauch der Technologie außerhalb des beabsichtigten Anwendungsfalls verhindern oder erschweren.
Durch die informationserhaltende Anonymisierung soll es möglich werden, klinische Daten weiterzuverarbeiten, da eine De-Anonymisierung nicht mehr möglich ist. Diese Datensätze können dann dazu dienen, KI-Modelle auf klinischen Daten datenschutzkonform zu trainieren oder auf andere Kohorten ausgedehnt werden. Damit wäre eine kumulative Sammlung entsprechender Datenmengen auch für kleine und mittelständische Unternehmen möglich. Denn so könnten sensible Daten über mehrere Anwendungszwecke hinweg zusammengefasst und für KI-Trainingsroutinen verwendet werden; eine entsprechende Anonymisierung stets vorausgesetzt. Die angestrebte Anonymisierung soll zudem die Bereitschaft von Patientinnen und Patienten steigern, in die Teilnahme an Studien, Datenanalysen sowie allgemeinen Spenden von Gesundheitsdaten einzuwilligen. Schlussendlich erlaubt die informationserhaltene Anonymisierung die Integration der Technologie in gängige Entwicklungsmethoden und Diagnostiksysteme und stärkt damit den Wissenschafts- und Wirtschaftsstandort Deutschland in den Bereichen Diagnostik, Behandlung und damit allgemein der Gesundheitsversorgung.