Wprowadzenie

In der medizinischen Forschung ist die Extraktion relevanter klinischer Daten aus wissenschaftlichen Artikeln eine wichtige, aber herausfordernde Aufgabe. Eine von Therapyte durchgeführte Studie hatte zum Ziel, verschiedene Natural Language Processing (NLP)-Modelle zur Automatisierung der Extraktion wesentlicher Informationen zur chronisch obstruktiven Lungenerkrankung (COPD) aus einer Vielzahl wissenschaftlicher Literatur zu bewerten.

COPD umfasst verschiedene Krankheiten, die zu einer Verengung der Atemwege und Atembeschwerden führen, darunter Erkrankungen wie Emphysem und chronische Bronchitis. In Europa leiden etwa 36,5 Millionen Menschen an Atembeschwerden aufgrund von COPD, und Millionen von Menschen bleiben undiagnostiziert oder unbehandelt. Das rasche Wachstum der medizinischen Literatur erfordert effiziente Tools zur Extraktion relevanter klinischer Daten. Daher konzentrierte sich diese Studie darauf, verschiedene NLP-Tools zur Analyse von Literatur über COPD zu identifizieren und zu bewerten, um den Prozess der Datenextraktion zu optimieren und die Suchgenauigkeit zu verbessern.

Methodik

Die Studie umfasste mehrere Stufen:

A. Artikel-Extraktion: In dieser Phase wurden Artikel und Daten basierend auf der Klassifikation von Krankheiten in verschiedenen Quellen wie PubMed, Google Scholar und clinicaltrials.gov gefiltert.

B. Artikel-Auswahl: In dieser Phase wurden zusätzliche Kriterien angewendet, darunter Behandlungsoptionen, Alter, Krankheitstyp, Geschlecht und Stadium klinischer Studien.

C. Erkennung von Entitäten und Beziehungen: Die anfängliche Qualität der ausgewählten Modelle war nicht ausreichend hoch, um die Projektziele zu erreichen. Um die Qualität zu verbessern, wurden die Modelle mit speziell vorbereiteten Datensätzen trainiert. INCEpTION wurde zur Annotation von Entitäten und Beziehungen verwendet. Die erfassten Parameter umfassten Spirometrie, alpha-1-Antitrypsin-Test, Pulsoxymetrie, arterielle Blutgasanalyse, gezielte Medikamentendosierung und Medikamententyp.

D. Feinabstimmung und Training: In dieser Phase wurden die Modelle anhand vorbereiteter Datensätze trainiert und feinabgestimmt, um ihre Effektivität zu maximieren. In dem Projekt wurden die folgenden NLP-Modelle getestet: ClinicalTransformer, SynSPERT, BioBERT, EHR, RoBERTa, Electra und GPT-Modelle.

E. Inferenz und Evaluation: Die abgestimmten Modelle wurden auf alle Artikel angewendet und die Ergebnisse wurden evaluiert. Falls die Ergebnisse nicht zufriedenstellend waren, wurden die Phasen C und D wiederholt.

Herausforderungen

Die Studie stieß auf verschiedene Herausforderungen:

A. Darstellung von tabellarischen Daten: Die automatische Analyse tabellarischer Daten erwies sich als schwierig und erforderte manuelle Eingriffe.

B. Erkennung klinischer Ereignisse: Die Unterscheidung zwischen klinischen Ereignissen und Verbesserungen war bei den Modellen nicht signifikant effektiv.

C. Seltene Parameter: Die Seltenheit bestimmter medizinischer Begriffe erschwerte den Prozess des Trainings der Modelle.

Ergebnisse

Die vorliegende Studie zeigte, dass die Modelle in bestimmten Aufgabentypen besser abschnitten. Es wurde kein universelles Modell festgestellt, das in allen Aufgabentypen am besten war. Das BioBERT-Modell, das auf medizinischen Domänendaten trainiert wurde, erzielte jedoch die besten Ergebnisse bei der Entitätsparsing mit einem durchschnittlichen F1-Score von 0,75. Die Qualität der Entitätenextraktion hing stark von der Häufigkeit des Auftretens in den Artikeln und der Qualität des Trainingsdatensatzes ab. So war der F1-Score für häufig vorkommende Entitäten signifikant höher und erreichte einen Score von 0,9. Was die Erkennung beliebter Entitätsbeziehungen betrifft, erzielte das ClinicalTransformers-Modell die besten Ergebnisse mit einem F1-Score von 0,83. Dieses Modell wurde vom SynSPERT-Modell unterstützt, das sich durch die Erkennung einzigartiger Beziehungen auszeichnete und einen F1-Score von 0,76 erzielte.

Zusammenfassung und zukünftige Richtungen

Zusammenfassend zeigten die BioBERT- und ClinicalTransformers-Modelle den höchsten Genauigkeitsgrad. GPT-Modelle (vor GPT 3.0) wurden in der Studie nur für bestimmte Aufgaben verwendet, da sie zum Zeitpunkt der Studie noch nicht so beliebt waren. Die weit verbreitete Anwendung von GPT-Modellen in verschiedenen Aufgabenstellungen bietet jedoch vielversprechende Möglichkeiten für die Extraktion klinischer Daten aus wissenschaftlichen Artikeln.

Quellen:

1. Adam Benjafield, Daniela Tellez, Meredith Barrett, Rahul Gondalia, Carlos Nunez, Jadwiga Wedzicha, Atul Malhotra European Respiratory Journal 2021 58: OA2866; DOI: 10.1183/13993003.congress-2021.OA2866

2. Chronisch obstruktive Lungenerkrankung (COPD). Centers for Disease Control and Prevention. Abruf am 20. Dezember 2023, von link

Über Therapyte

Therapyte bietet eine Vielzahl von Real-World-Evidence (RWE)-Lösungen durch den Zugriff auf Millionen von elektronischen Patientenakten. Therapyte entwickelt einzigartige künstliche Intelligenz-Algorithmen zur Erfassung und Auswahl von Daten aus Millionen von elektronischen Patientenakten (EHRs). Intern entwickelte KI-gesteuerte Werkzeuge werden zur Datenbereinigung, Auswahl, Harmonisierung und Validierung verwendet, um Informationen für umfassende Forschungsprojekte zu generieren. Um wertvolle Datensätze zu extrahieren, baut das Unternehmen ein breites Netzwerk von Gesundheitsorganisationen und Datenanbietern aus den Regionen EU, EAEU, MENA und APAC auf. Weitere Informationen finden Sie unter therapyte.com.

FAQ-Bereich:

1. Was ist das Ziel der von Therapyte präsentierten Studie?
Das Ziel der Studie ist es, verschiedene Natural Language Processing (NLP)-Modelle zur Automatisierung der Extraktion wesentlicher Informationen zur chronisch obstruktiven Lungenerkrankung (COPD) aus einer Vielzahl wissenschaftlicher Literatur zu bewerten.

2. Welche Hauptkrankheiten sind mit COPD verbunden?
Die Gruppe verschiedener Krankheiten, die als COPD bezeichnet wird, umfasst Emphysem, chronische Bronchitis und andere Erkrankungen, die zu einer Verengung der Atemwege und Atembeschwerden führen.

3. Welche Herausforderungen traten in der Studie auf?
Die Herausforderungen umfassten die automatische Analyse tabellarischer Daten, die Unterscheidung zwischen klinischen Ereignissen und Verbesserungen sowie die Seltenheit bestimmter medizinischer Begriffe.

4. Welche NLP-Modelle zeigten die besten Ergebnisse?
Das BioBERT-Modell erzielte die besten Ergebnisse beim Entitätsparsing, während das ClinicalTransformers-Modell die besten Ergebnisse beim Parsen von Entitätsbeziehungen erzielte.

5. Welche zukünftigen Richtungen hat die Studie?
Zukünftige Richtungen der Studie umfassen die weitere Anwendung von GPT-Modellen zur Extraktion klinischer Daten aus wissenschaftlichen Artikeln.

6. Welche Referenzen wurden im Artikel angegeben?
Die genannten Referenzen sind: 1. Adam Benjafield, Daniela Tellez, Meredith Barrett, Rahul Gondalia, Carlos Nunez, Jadwiga Wedzicha, Atul Malhotra European Respiratory Journal 2021 58: OA2866; DOI: 10.1183/13993003.congress-2021.OA2866 und 2. Chronisch obstruktive Lungenerkrankung (COPD). Centers for Disease Control and Prevention.

Definitionen der Schlüsselbegriffe:

COPD (Chronisch obstruktive Lungenerkrankung): Eine Gruppe von Lungenerkrankungen, die durch Atemwegsverengung, eingeschränkten Luftstrom und Atembeschwerden gekennzeichnet ist.

NLP (Natural Language Processing): Das Gebiet der Informatik, das sich mit der Analyse, dem Verständnis und der Generierung menschlicher Sprache durch Computer befasst.

PubMed: Eine kostenlose Datenbank mit Zusammenfassungen und wissenschaftlichen Artikeln aus der Medizin.

Google Scholar: Eine Internet-Suchmaschine, die wissenschaftliche Literatur aus verschiedenen Fachbereichen indexiert.

ClinicalTrials.gov: Ein Register klinischer Forschungsstudien, die vom Nationalen Institut für Gesundheitsforschung in den USA durchgeführt werden.

INCEpTION: Ein Werkzeug zur Annotation von Entitäten und Beziehungen in Texten.

BioBERT: Ein NLP-Modell basierend auf BERT (Bidirectional Encoder Representations from Transformers), das speziell für medizinische Domänendaten trainiert wurde.

ClinicalTransformers: Ein NLP-Modell basierend auf Transformers, das zur Analyse medizinischer Daten verwendet wird.

GPT-Modelle: Generative Pre-trained Transformers (GPT) ist eine Familie von NLP

The source of the article is from the blog macnifico.pt