Ansätze für datenschutzkonforme Datensätze für wissenschaftliche Anallysen am Beispiel Forschungsdatenzentrum Gesundheit

Ansätze für datenschutzkonforme Datensätze für wissenschaftliche Analysen  am Beispiel Forschungsdatenzentrum Gesundheit

Forschende im Gesundheitsbereich sind auf valide Daten angewiesen, um belastbare wissenschaftliche Erkenntnisse zu gewinnen. Gleichzeitig zählen Gesundheitsdaten zu den besonders schutzbedürftigen Kategorien personenbezogener Daten (vgl. Art. 9 DSGVO). Das Forschungsdatenzentrum Gesundheit (FDZ Gesundheit) verfolgt daher das Ziel, Wissenschaftlerinnen und Wissenschaftlern Test- und Beispieldatensätze bereitzustellen, die eine Entwicklung und Erprobung von Analyseskripten im gesicherten Analyseraum ermöglichen – ohne Zugriff auf die hochsensiblen Originaldaten und des Risikos der Reidentifizierbarkeit.

Zur Minimierung des Risikos der Reidentifizierbarkeit existieren verschiedene technische Ansätze. Klassische Verfahren wie die Pseudonymisierung trennen Identifikationsschlüssel und Daten, erfordern jedoch strenge organisatorische Maßnahmen und schließen eine Reidentifikation nicht aus. Das Verfahren der Anonymisierung basiert auf Originaldaten und verändert diese so, dass eine Zuordnung zu Personen nur mit unverhältnismäßigem Aufwand möglich wäre. Bei Gesundheitsdaten müssen die hierfür notwendigen Vergröberungs- oder Randomisierungsverfahren jedoch sehr weit gehen, sodass die wissenschaftliche Nutzbarkeit teilweise erheblich eingeschränkt wird.

Ein alternativer Ansatz ist die Erzeugung synthetischer Daten, der im FDZ Gesundheit für die Bereitstellung eines Scientific Use Files genutzt wird. Grundlage ist ein evidenz- und prozessbasierter Abhängigkeitsgraph. Auf Basis statistischer Muster (z. B. Alter und Geschlecht in der Bevölkerung) wird eine künstliche Population generiert. Der Synthesealgorithmus bildet dabei nicht nur Querschnittsinformationen, sondern auch longitudinale Verläufe nach und schafft damit eine strukturierte Repräsentation der Routinedaten.

Quellen:

BfArM (2025). Datensatzbeschreibung FDZ Gesundheit. Verfügbar unter https://fdz-gesundheit.github.io/datensatzbeschreibung_fdz_gesundheit/#entity-relationship-diagramme (letzter Zugriff: 03.12.2025)

BfArM (2025). Public Use File. Verfügbar unter https://www.forschungsdatenzentrum-gesundheit.de/infoportal/datenbereitstellungsformen/public-use-file (letzter Zugriff: 03.12.2025)

Drechsler J., Pauly H. (2024). Das Reidentifikationspotenzial von strukturierten Gesundheitsdaten Bundesgesundheitsblatt Gesundheitsforschung Gesundheitsschutz. DOI: 10.1007/s00103-023-03820-Z

FDZ Gesundheit. Datensatzbeschreibung des Forschungsdatenzentrum Gesundheit. Verfügbar unter https://zenodo.org/records/17789383 (letzter Zugriff: 03.12.2025)

Prasser F., Riedel N., Wolter S., Corr D., Ludwig M. (2024). Künstliche Intelligenz und sichere Gesundheitsdatennutzung im Projekt KI-FDZ: Anonymisierung, Synthetisierung und sichere Verarbeitung für Real-World-Daten Bundesgesundheitsblatt Gesundheitsforschung. DOI: 10.1007/s00103-023-03823-z.