BfArM - Bundesinstitut für Arzneimittel und Medizinprodukte

Navigation und Service

Forschung meets Datenschutz: Mit Künstlicher Intelligenz synthetische Gesundheitsdaten analysieren

Das Forschungsdatenzentrum Gesundheit am BfArM will hochsensible Gesundheitsdaten zur Anonymisierung in neue, „synthetische“ Datensätze umwandeln. Deren Nutzung soll in virtuellen Umgebungen stattfinden – in diesen geschützten Bereichen können Forschende die Daten dann mittels Künstlicher Intelligenz untersuchen.

Big Data, Machine Learning und der Einsatz Künstlicher Intelligenz (KI) spielen eine immer größere Rolle im Gesundheitswesen: Wie kann man für jede Patientin und jeden Patienten die optimale Therapie finden? Wie kann man Risikofaktoren für schwere Verläufe von Erkrankungen frühzeitig erkennen?

Um solche Fragen zu beantworten, benötigt die medizinische Forschung vor allem eines - riesige Datenmengen. Solche Daten wird künftig das Forschungsdatenzentrum Gesundheit (FDZ) am BfArM Forschenden zur Verfügung stellen. Dabei geht es um Abrechnungsdaten, die vom Spitzenverband Bund der Krankenkassen pseudonymisiert an das FDZ übermittelt werden. Sie enthalten beispielsweise Angaben zu Diagnosen, Therapien und Kosten. Das Besondere daran: Diese Daten werden im alltäglichen Versorgungsgeschehen erhoben und lassen sich im Vergleich zu den Ergebnissen aus standardisierten Studienbedingungen oft leichter auf die Allgemeinbevölkerung übertragen. Die Daten bieten damit wissenschaftlichen Publikationen eine Grundlage, die zur Verbesserung der medizinischen Versorgung beitragen.

Schutz sensibler Gesundheitsdaten

Abrechnungsdaten stellen damit ein wertvolles Forschungsgut dar – und sind gleichzeitig sensible persönliche Daten, die besonders geschützt werden müssen. Das FDZ muss die Sicherheit der Daten nach dem Stand der Technik gewährleisten. Es arbeitet dazu eng mit dem Bundesamt für Sicherheit in der Informationstechnik (BSI) und dem Bundesbeauftragten für den Datenschutz und die Informationsfreiheit (BfDI) zusammen.

Grundsätzlich sind die von den Krankenkassen übermittelten Daten bereits pseudonymisiert. Ohne zusätzliche Informationen lassen sie sich also nicht mehr einer bestimmten Person zuordnen. Und eindeutige Identifikationsmöglichkeiten wie Namen, Adressen oder Telefonnummern werden selbstverständlich nicht übermittelt. In dem Projekt „Künstliche Intelligenz am Forschungsdatenzentrum - Erforschung von Anonymisierungsmöglichkeiten und AI-Readiness“ wird nun ein weiterer Schritt zum Schutz der Daten untersucht: Es geht dabei um die Frage, ob sogenannte synthetische Daten als hochwertige Alternative zu anonymisierten Originaldaten eingesetzt werden können.

Forschung mit künstlichen Daten in virtuellen Umgebungen

Was sind „synthetische Daten“? Sie werden künstlich erzeugt, beispielsweise, indem man maschinelle Lernalgorithmen auf die Information und Struktur von Originaldatensätzen trainiert. Die so entstehenden Daten behalten die statistischen Eigenschaften der ursprünglichen Daten. Sie enthalten aber keine realen Informationen mehr über Patientinnen und Patienten. Eine Rückverfolgung wird damit erheblich erschwert, beziehungsweise weitestgehend unmöglich gemacht. So könnten im Verlauf umfangreiche und detaillierte Daten, wie sie für den Einsatz Künstlicher Intelligenz notwendig sind, zur Verfügung gestellt und dabei die Identität der Patienten geschützt werden.

Bislang ist jedoch wenig erforscht, ob synthetische Krankenkassendaten als hochwertige Alternative zu anonymisierten Originaldaten eingesetzt werden können. In einem ersten Schritt werden dabei in diesem Projekt die beiden Strategien gemeinsam mit dem Institut für angewandte Gesundheitsforschung (InGef) und der AG Medizininformatik des Berlin Institute of Health (BIH) der Charité- Universitätsmedizin Berlin einander gegenübergestellt. Da das FDZ sich noch im Aufbau befindet, werden hierfür Testdaten des InGef verwendet. Es ist wichtig, dass die Daten durch die Synthetisierung möglichst wenige für die Forschung wichtige Informationen verlieren. Gleichzeitig soll ein möglichst hohes Datenschutzniveau erreicht werden. Dazu tragen auch die gesicherten virtuellen Umgebungen, sogenannte „Analyseräume“, bei, in denen die Daten anschließend bereitgestellt werden sollen. Hier können die Forschenden dann von ihrem Institut aus Auswertungen durchführen, obwohl die Daten am FDZ verbleiben.

Wegbereiter für den Einsatz Künstlicher Intelligenz

Anschließend wird im Projekt untersucht, ob und inwiefern sich die anonymisierten/synthetisierten Gesundheitsdaten für Analysen durch Künstliche Intelligenz („AI-Readiness“) eignen. Problematisch für KI-Methoden ist insbesondere, wenn Datensätze zu klein, nicht repräsentativ oder zu heterogen sind. Mit solchen Herausforderungen wird das Forschungsdatenzentrum konfrontiert, wenn die Versicherten ab dem Jahr 2023 die Daten ihrer elektronischen Patientenakte (ePA) für die Forschung freigeben können. Denn die ePA-Daten sind oft weniger strukturiert als die Abrechnungsdaten und, wenn sich nur wenige Versicherte für eine Freigabe entscheiden, werden KI-Analysen erschwert. Daher wird hierzu gemeinsam mit dem Fraunhofer-Institut für Digitale Medizin (MEVIS) ein „Sandbox“-System im FDZ aufgebaut, also ein virtueller Raum und nutzungsfreundlicher KI-Werkzeugkasten, der ein Austesten der Möglichkeiten in einer geschützten Umgebung möglich macht. Das FDZ will damit Anträgen für Forschungsprojekte, die KI-Methoden erfordern, den Weg bereiten.

Die Maßnahmen sollen auch dazu beitragen, dass das FDZ im europäischen Kontext anschlussfähig sein wird. Die Ergebnisse können dann im Rahmen von internationalen Initiativen, an denen sich das FDZ aktiv beteiligt (TEHDAS, DARWIN EU), den Aufbau von europäischen Strukturen zur Nutzung von Gesundheitsdaten unterstützen.

Das Forschungsprojekt wird vom Bundesministerium für Gesundheit gefördert und läuft bis zum 31.12.2024.

Dr. Katharina Schneider

Dr. Katharina Schneider

Die Wissenschaftlerin arbeitet seit Juni 2021 im Forschungsdatenzentrum Gesundheit des BfArM. Sie ist am Aufbau des FDZ beteiligt, insbesondere im Projektmanagement nationaler und internationaler Weiterentwicklungsprojekte (z. B. KI-FDZ und TEHDAS). Dr. Katharina Schneider ist Mitglied des EMA DARWIN EU Advisory Boards.
Nach dem Studium der Humanmedizin an der Universität Bonn war sie von 2013 bis 2014 Assistenzärztin im Bereich Gynäkologie und Geburtshilfe. 2015 bis 2019 arbeitete sie als Wissenschaftlerin in der Forschungsabteilung des BfArM mit fachlichem Schwerpunkt in den Bereichen Pharmakogenomik und Versorgungsforschung. Von 2019 bis 2021 war sie als Referentin im Bundesamt für Soziale Sicherung (Referat "Datenschutz im Aufsichtsbereich") tätig. Schwerpunkte lagen hier auf Prüfungstätigkeiten und der Prozessweiterentwicklung im Bereich Sozialdatenübermittlung zu Forschungszwecken.