Test - 2.1 Leitfaden Annotation medizinischer und klinischer Daten

Leitfaden Annotation medizinischer und klinischer Daten

 

 

Was sind annotierte Daten?

Annotierte Daten sind Daten, die mit einem Tag oder Label versehen wurden, damit KI-Techniken wie z.B. Machine Learning diese verstehen können. Sie bilden die Grundlage für eine gute Modellbildung und dienen als treibende Kraft für die Weiterentwicklung KI-gestützter Modelle. 

Bei der Datenannotation werden die Daten in einem Datensatz manuell oder automatisch „beschriftet“ (mit Tag, Label, Transkription), um diese aussagekräftiger oder informativer zu machen. Bei der klinischen Annotation geschieht dies durch das Extrahieren klinischer Informationen wie Textdateien, Dokumente, Bilder, Audio- und Videodateien und deren automatische oder manuelle Beschriftung durch erfahrene Datenannotatoren oder -beschrifter. Annotierte Daten offenbaren Merkmale, mit denen Algorithmen trainiert werden, dieselben Merkmale in nicht annotierten Daten zu erkennen. 

 

Für die Datenannotation existieren inzwischen verschiedene Ansätze, Verfahrensweisen und auch Tools. Ein relativ neuer Ansatz ist die Klassifizierung von Daten in MEDIZINISCHE INFORMATIONSOBJEKTE (MIO). 

 

MEDIZINISCHE INFORMATIONSOBJEKTE (MIO)

MIO: neue Standards für den Datenaustausch

 

MIOs (Abkürzung für: Medizinische Informationsobjekte) dienen dazu, medizinische Daten - etwa in einer elektronischen Patientenakte - standardisiert, also nach einem festgelegten Format, zu dokumentieren. Sie können als kleine digitale Informationsbausteine verstanden werden, die universell verwendbar und kombinierbar sind. Ziel ist es, dass MIO im Sinne der Interoperabilität für jedes System lesbar und bearbeitbar sind. Informationen sollen so deutlich leichter zwischen den einzelnen Akteuren im Gesundheitswesen ausgetauscht werden können. 

Hier ein Video und Anleitung zu MIO der Kassenärztlichen Bundesvereinigung (KBV): 

https://www.kbv.de/html/mio.php

 

 

Eine hilfreiche weil strukturierte Verfahrensweise der Annotation medizinischer Daten kann über Shaip erlangt werden:

https://de.shaip.com/healthcare-ai/medical-data-catalog/

https://de.shaip.com/healthcare-ai/medical-data-annotation/ 

 

Prozess und Definition der Annotation medizinischer Daten

 

1. Erkennung/Anmerkung der klinischen Entität

In den Krankenakten liegt eine große Menge an medizinischen Daten und Wissen überwiegend in unstrukturierter Form vor. Medical Entity Annotation ermöglicht es , unstrukturierte Daten in ein strukturiertes Format umzuwandeln.

 

2. Attributionsanmerkung

 

2.1 Arzneimittelattribute

Medikamente und ihre Eigenschaften sind in fast jeder Krankenakte dokumentiert, was ein wichtiger Teil des klinischen Bereichs ist. Wir können die verschiedenen Attribute von Medikamenten leitliniengerecht identifizieren und annotieren.

 

2.2 Labordatenattribute

Labordaten werden meist von ihren Attributen in einer Krankenakte begleitet. Wir können die verschiedenen Attribute von Labordaten richtlinienkonform identifizieren und annotieren.

 

2.3 Körpermaßattribute

Körpermaße werden meistens von ihren Attributen in einer Krankenakte begleitet. Es umfasst hauptsächlich die Vitalzeichen. Wir können die verschiedenen Attribute der Körpermaße identifizieren und kommentieren. 

 

3. Onkologiespezifische NER-Anmerkung

Neben generischen medizinischen NER-Annotationen können wir auch an domänenspezifischen Annotationen wie Onkologie, Radiologie usw. arbeiten. Hier sind die onkologiespezifischen NER-Entitäten, die annotiert werden können: Krebsproblem, Histologie, Krebsstadium, TNM-Stadium, Krebsgrad, Dimension, Klinischer Status, Tumormarkertest, Krebsmedizin, Krebschirurgie, Strahlung, untersuchtes Gen, Variationscode, Körperstelle 

 

4. NER- und Beziehungsanmerkung zu unerwünschten Wirkungen

Neben der Identifizierung und Kommentierung wichtiger klinischer Entitäten und Beziehungen können wir auch die Nebenwirkungen bestimmter Medikamente oder Verfahren kommentieren. Der Geltungsbereich ist wie folgt: Kennzeichnung von Nebenwirkungen und deren Verursachern. Zuordnung der Beziehung zwischen der Beeinträchtigung und der Ursache der Wirkung. 

 

5. Beziehungsanmerkung

Nachdem wir klinische Entitäten identifiziert und kommentiert haben, weisen wir auch relevante Beziehungen zwischen den Entitäten zu. Beziehungen können zwischen zwei oder mehr Konzepten bestehen. 

 

6. Behauptungsanmerkung

Neben der Identifizierung klinischer Einheiten und Beziehungen können wir auch den Status, die Negation und das Thema der klinischen Einheiten zuweisen. 

 

7. Zeitliche Anmerkung

Das Kommentieren zeitlicher Entitäten aus einer Krankenakte hilft bei der Erstellung eines Zeitplans für die Reise des Patienten. Es bietet Referenz und Kontext zu dem Datum, das mit einem bestimmten Ereignis verbunden ist. Hier sind die Datumseinheiten: Diagnosedatum, Eingriffsdatum, Beginndatum der Medikation, Enddatum der Medikation, Startdatum der Bestrahlung, Enddatum der Bestrahlung, Datum der Aufnahme, Datum der Entlassung, Datum der Konsultation, Datum der Notiz, Beginn. 

 

8. Abschnittsanmerkung

Es bezieht sich auf den Prozess der systematischen Organisation, Kennzeichnung und Kategorisierung verschiedener Abschnitte oder Teile von gesundheitsbezogenen Dokumenten, Bildern oder Daten, d. h. die Annotation relevanter Abschnitte aus dem Dokument und die Klassifizierung der Abschnitte in ihre jeweiligen Typen. Dies hilft bei der Erstellung strukturierter und leicht zugänglicher Informationen, die für verschiedene Zwecke wie klinische Entscheidungsunterstützung, medizinische Forschung und Analyse von Gesundheitsdaten verwendet werden können. 

 

9. ICD-10-CM- und CPT-Kodierung

Annotation von ICD-10-CM- und CPT-Codes gemäß den Richtlinien. Für jeden gekennzeichneten medizinischen Code werden die Beweise (Textausschnitte), die die Kennzeichnungsentscheidung untermauern, zusammen mit dem Code auch mit Anmerkungen versehen. 

 

10. RXNORM-Codierung

Annotation von RXNORM-Codes gemäß den Richtlinien. Für jeden gekennzeichneten medizinischen Code werden auch die Beweise (Textausschnitte), die die Kennzeichnungsentscheidung untermauern, zusammen mit dem Code.0 kommentiert. 

 

11. SNOMED-Codierung

Annotation von SNOMED-Codes gemäß den Richtlinien. Für jeden gekennzeichneten medizinischen Code werden die Beweise (Textausschnitte), die die Kennzeichnungsentscheidung untermauern, zusammen mit dem Code auch mit Anmerkungen versehen. 

 

12. UMLS-Codierung

Annotation von UMLS-Codes gemäß den Richtlinien. Für jeden gekennzeichneten medizinischen Code werden die Beweise (Textausschnitte), die die Kennzeichnungsentscheidung untermauern, zusammen mit dem Code auch mit Anmerkungen versehen. 

 

 

 

Ein Tool zur generellen Annotation von Daten, welches sich als Leitfaden kontinuierlich weiterentwickelt, wird von cloudfactory zur Verfügung gestellt:

https://www.cloudfactory.com/data-annotation-tool-guide

 

Ein Datenannotationstool ist eine cloudbasierte, vor Ort oder in einem Container bereitgestellte Softwarelösung, mit der produktionsreife Trainingsdaten für maschinelles Lernen annotiert werden können. Während einige Organisationen einen Do-it-yourself-Ansatz verfolgen und ihre eigenen Tools erstellen, sind viele Datenannotationstools als Open Source oder Freeware verfügbar. 

 

Die sechs wichtigsten Funktionen eines Datenannotationstools sind:

  1. Datensatzverwaltung
  2. Annotationsmethoden
  3. Datenqualitätskontrolle
  4. Personalmanagement
  5. Sicherheit
  6. Integrierte Kennzeichnungsdienste 

 

In diesem generellen Leitfaden werden weiterhin diese Themen behandelt:

- Datenannotationstools: Bauen oder Kaufen?

- Auswahlkriterien für Datenannotationstools

- Übersicht über kommerzielle und open source Tools

- Iteration und Evolution von Datenannotationstools