Dr. Carina Vorisek: Wie fair sind KI-Anwendungen im Gesundheitswesen?

Audio Aufzeichung des Vortrags

Es war ein Kulturschock, als Carina Vorisek nach drei Jahren klinischer Forschung in Boston nach Deutschland zurückkehrte. "Wir haben wieder handschriftlich dokumentiert, wir konnten keine Daten transferieren, nicht einmal über Abteilungen hinweg." Um Abhilfe zu schaffen, beschäftigt sie sich inzwischen am Berlin Institute of Health mit digitaler Medizin, Interoperabilität und der Fairness digitaler Anwendungen.

Doch schon die Beschaffung von Gesundheitsdaten erschwert die Entwicklung solcher Anwendungen. Diese sind oft unstrukturiert, liegen isoliert in sogenannten "Datensilos", es gibt keine einheitlichen Datenformate und kein gemeinsames Vokabular. Schließlich wird der Zugang zu den Daten nicht nur technisch beschränkt, sondern auch durch Datenschutz und Ethikregelungen.

Vorisek stellte allerdings mehrere Ansätze zur Verbesserung dieser Situation vor. So propagieren die FAIR-Prinzipien einen einheitlichen Standard für maschinenlesbare Gesundheitsdaten. "F" steht für findable, "A" für accessible, "I" für interoperable und "R" für reusable. Zudem trat Deutschland 2021 dem Snomed CT bei, der größten medizischen Terminologie weltweit, die ein einheitliches Vokabular bereitstellt, das über 300.000 Begriffe umfasst.

Doch Gesundheitsdaten kranken an einem "Gender data gap" - sie stammen hauptsächlich von männlichen Probanden. Das begann 1977, als die US-Gesundheitsbehörde FDA Frauen im gebärfähigen Alter komplett aus einzelnen Phasen von medizinischen Studien ausschloss, und das galt laut einer Vergleichsstudie auch noch im Jahr 2020: Nur 18 Prozent aller zu Covid-19 durchgeführten klinischen Studien berücksichtigten Geschlechter-Unterschiede, obwohl sich beim Outcome von Covid-Erkrankungen deutliche Geschlechter-Unterschiede gezeigt hatten.

Tragbare Geräte wie Smartphones und Fitness-Bänder generieren zwar viele Daten; diese stammen aber hauptsächlich von Männern, weil vor allem in ärmeren Ländern Frauen keinen Zugang zu solchen Geräten haben.

Die Verzerrungen ("bias"), die durch den "Gender data gap" entstehen, dürften signifikant sein, sind aber bislang kaum erforscht. So fand eine aktuelle Pubnet-Literaturrecherche, die Vorisek durchführte, 52 Publikationen für das Schlagwort "bias" im Zusammenhang mit künstlicher Intelligenz, aber nur elf für "gender bias".

Vorisek verwies aber auch darauf, dass es nicht nur einen unerwünschten, sondern auch einen erwünschten Bias gibt: "Wir wollen ja diese Präzisionsmedizin, wir wollen diese feinen Unterschiede entdecken, und die KI kann sie herausfiltern, wenn wir die Daten haben."

Und wie schätzen KI-Entwickler:Innen die Datenlage ein? In einer Umfrage, die demnächst veröffentlicht wird, bewertete rund ein Drittel der 151 Teilnehmer:innen ihr KI-Projekt als fair oder zumindest teilweise fair, und nur 13 Prozent als kaum oder gar nicht fair. Allerdings war der Großteil der Befragten männlich und mittleren Alters. Daraus leitete Vorisek die Forderung nach diversen Entwicklerteams ab, zumal auch Studien gezeigt hätten: je diverser die Teams, desto diverser die Forschung.

Selbst IT-Standards können Verzerrungen fördern, wenn sie lückenhafte Vorgaben mitbringen. So kennt der IT-Kommunikationsstandard HL-7, der in Deutschland mit der elektronischen Patientenakte eingeführt wird, nur das administrative Geschlecht bei Geburt mit vier Möglichkeiten: mail, female, other, unknown.

Allerdings gebe es einen positiven Ausblick, so Vorisek. So hat sich bei HL7 mit dem Gender Harmony Project eine Initiative gebildet, die gender und sex besser dokumentieren will; auch die Internationale Standardisierungs-Organisation ISO arbeitet an einem Standard für Sex and Gender in Electronic Health Records