Wprowadzenie

In der medizinischen Forschung ist es eine wichtige, aber herausfordernde Aufgabe, relevante klinische Daten aus wissenschaftlichen Artikeln zu extrahieren. Eine von Therapyte durchgeführte Studie hatte zum Ziel, verschiedene Modelle für die automatisierte Extraktion wesentlicher Informationen über chronisch obstruktive Lungenerkrankungen (COPD) aus einer breiten Palette wissenschaftlicher Literatur zu bewerten.

COPD umfasst verschiedene Erkrankungen, die zu Atemwegsverengung und Atembeschwerden führen, darunter Emphysem und chronische Bronchitis. In Europa leiden etwa 36,5 Millionen Menschen unter Atembeschwerden aufgrund von COPD, und Millionen von Menschen bleiben unerkannt oder unbehandelt. Angesichts des rapiden Wachstums medizinischer Literatur ist der Einsatz effizienter Werkzeuge zur Extraktion relevanter klinischer Daten notwendig. Daher konzentrierte sich diese Studie darauf, verschiedene Modelle der natürlichen Sprachverarbeitung (NLP) zur Analyse von Literatur über COPD zu identifizieren und zu bewerten, um den Prozess der Datenextraktion zu verbessern und die Suche genauer zu machen.

Methodik

Die Studie umfasste mehrere Phasen:

A. Artikel-Extraktion: In dieser Phase wurden Artikel und Daten basierend auf der Klassifikation von Krankheiten in verschiedenen Quellen wie PubMed, Google Scholar und clinicaltrials.gov gefiltert.

B. Artikel-Auswahl: In dieser Phase wurden zusätzliche Kriterien angewendet, darunter Behandlungsmöglichkeiten, Alter, Art der Erkrankung, Geschlecht und Stadium klinischer Studien.

C. Erkennung von Entitäten und Relationen: Die anfängliche Qualität der ausgewählten Modelle genügte nicht den Projektzielen. Um die Qualität zu verbessern, wurden die Modelle anhand speziell vorbereiteter Datensätze trainiert. Für die Annotation von Entitäten und Relationen wurde INCEpTION verwendet. Die erfassten Parameter umfassten Spirometrie, Alpha-1-Antitrypsin-Tests, Pulsoximetrie, arterielle Blutgasanalyse, gezielte Medikamentendosierung und Medikamententyp.

D. Feinabstimmung und Training: In dieser Phase wurden die Modelle anhand vorbereiteter Datensätze trainiert und optimiert, um ihre Effektivität zu maximieren. Folgende NLP-Modelle wurden im Rahmen des Projekts getestet: ClinicalTransformer, SynSPERT, BioBERT, EHR, RoBERTa, Electra und GPT-Modelle.

E. Inferenz und Evaluation: Die optimierten Modelle wurden auf alle Artikel angewendet und die Ergebnisse wurden evaluiert. Falls die Ergebnisse unbefriedigend waren, wurden die Phasen C und D wiederholt.

Herausforderungen

Die Studie stieß auf verschiedene Herausforderungen:

A. Präsentation tabellarischer Daten: Die automatische Analyse tabellarischer Daten erwies sich als schwierig und erforderte manuellen Eingriff.

B. Erkennung klinischer Ereignisse: Die Unterscheidung zwischen klinischen Ereignissen und Verbesserungen war bei den Modellen nicht besonders effektiv.

C. Seltene Parameter: Die Seltenheit bestimmter medizinischer Begriffe erschwerte den Trainingsprozess der Modelle.

Ergebnisse

Die vorliegende Studie zeigte, dass verschiedene Modelle in spezifischen Aufgabenstellungen bessere Leistungen erzielten. Es wurde kein universelles Modell beobachtet, das in allen Aufgabenstellungen am besten abschnitt. Das BioBERT-Modell, das mit Daten aus dem medizinischen Bereich trainiert wurde, erzielte die besten Ergebnisse bei der Erkennung von Entitäten mit einem durchschnittlichen F1-Score von 0,75. Die Qualität der Entitätsextraktion war stark abhängig von der Häufigkeit des Vorkommens in den Artikeln, was die Qualität des Trainingsdatensatzes beeinflusste. Zum Beispiel war der F1-Score für häufig vorkommende Entitäten signifikant höher und erreichte einen Wert von 0,9. In Bezug auf die Erkennung beliebter Entitätsrelationen erzielte das ClinicalTransformers-Modell mit einem F1-Score von 0,83 die besten Ergebnisse. Dieses Modell wurde vom SynSPERT-Modell unterstützt, das bei der Erkennung einzigartiger Relationen mit einem F1-Score von 0,76 herausragte.

Zusammenfassung und zukünftige Perspektiven

Zusammenfassend zeigten das BioBERT- und das ClinicalTransformers-Modell den höchsten Grad an Genauigkeit. GPT-Modelle (vor GPT 3.0) wurden in der Studie nur für bestimmte Aufgabenstellungen verwendet, da sie zum Zeitpunkt der Studie noch nicht so beliebt waren. Die weit verbreitete Nutzung von GPT-Modellen in verschiedenen Aufgabenstellungen erscheint vielversprechend bei der Analyse klinischer Daten aus wissenschaftlichen Artikeln.

Quellen:

1. Adam Benjafield, Daniela Tellez, Meredith Barrett, Rahul Gondalia, Carlos Nunez, Jadwiga Wedzicha, Atul Malhotra European Respiratory Journal 2021 58: OA2866; DOI: 10.1183/13993003.congress-2021.OA2866

2. Chronisch obstruktive Lungenerkrankung (COPD). Centers for Disease Control and Prevention. Abgerufen am 20. Dezember 2023, von www.cdc.gov

Über Therapyte

Therapyte bietet eine Vielzahl von Echtzeitdatenlösungen (RWE) durch den Zugang zu Millionen von elektronischen Gesundheitsakten. Therapyte entwickelt einzigartige künstliche Intelligenz-Algorithmen zur Datenerfassung und -auswahl aus Millionen von elektronischen Gesundheitsakten (EHR). Intern entwickelte KI-gesteuerte Tools werden für die Datenaufbereitung, Auswahl, Harmonisierung und Validierung verwendet, um Informationen für umfassende Forschungsprojekte zu generieren. Um wertvolle Datensätze zu extrahieren, baut das Unternehmen ein breites Netzwerk von Gesundheitsorganisationen und Datenanbietern aus den EU-, EAWU-, MENA- und APAC-Regionen auf. Weitere Informationen finden Sie unter therapyte.com.

FAQ-Bereich:

1. Was ist das Ziel der von Therapyte vorgestellten Studie?
Das Ziel der Studie ist es, verschiedene Modelle der natürlichen Sprachverarbeitung (NLP) zur automatisierten Extraktion wesentlicher Informationen über chronisch obstruktive Lungenerkrankungen (COPD) aus einer breiten Palette wissenschaftlicher Literatur zu bewerten.

2. Welche Haupterkrankungen sind mit COPD verbunden?
Der Begriff COPD umfasst Emphysem, chronische Bronchitis und andere Erkrankungen, die zu Atemwegsverengung und Atembeschwerden führen.

3. Welche Herausforderungen traten in der Studie auf?
Die Herausforderungen bestanden unter anderem in der automatischen Analyse tabellarischer Daten, der Unterscheidung zwischen klinischen Ereignissen und Verbesserungen sowie der Seltenheit bestimmter medizinischer Begriffe.

4. Welche NLP-Modelle zeigten die besten Ergebnisse?
Das BioBERT-Modell erzielte die besten Ergebnisse bei der Erkennung von Entitäten, während das ClinicalTransformers-Modell die besten Ergebnisse bei der Erkennung von Entitätsrelationen erzielte.

5. Welche zukünftigen Perspektiven gibt es für die Studie?
Zukünftige Perspektiven der Studie beinhalten den weiteren Einsatz von GPT-Modellen zur Analyse klinischer Daten aus wissenschaftlichen Artikeln.

6. Welche Referenzen wurden im Artikel angegeben?
Die angegebenen Referenzen sind: 1. Adam Benjafield, Daniela Tellez, Meredith Barrett, Rahul Gondalia, Carlos Nunez, Jadwiga Wedzicha, Atul Malhotra European Respiratory Journal 2021 58: OA2866; DOI: 10.1183/13993003.congress-2021.OA2866 und 2. Chronisch obstruktive Lungenerkrankung (COPD). Centers for Disease Control and Prevention.

Definitionen der Schlüsselbegriffe:

COPD (Chronisch obstruktive Lungenerkrankung): Eine Gruppe von Lungenerkrankungen, die durch Atemwegsverengung, eingeschränkten Luftstrom und Atembeschwerden gekennzeichnet sind.

NLP (Natürliche Sprachverarbeitung): Das Gebiet der Informatik, das sich mit der Analyse, dem Verständnis und der Generierung menschlicher Sprache durch Computer befasst.

PubMed: Eine kostenlose Datenbank mit Zusammenfassungen und wissenschaftlichen Artikeln zur Medizin.

Google Scholar: Eine Suchmaschine im Internet, die wissenschaftliche Literatur aus verschiedenen Fachbereichen indexiert.

ClinicalTrials.gov: Ein Register für klinische Forschungsstudien, die von den National Institutes of Health in den USA durchgeführt werden.

INCEpTION: Ein Werkzeug zur Annotation von Entitäten und Relationen in Texten.

BioBERT: Ein NLP-Modell auf Basis von BERT (Bidirectional Encoder Representations from Transformers), das speziell für medizinische Daten trainiert wurde.

ClinicalTransformers: Ein NLP-Modell auf Basis von Transformers, das zur Analyse medizinischer Daten eingesetzt wird.

GPT-Modelle: Generative Pre-trained Transformers (GPT) ist eine Familie von NLP

The source of the article is from the blog elblog.pl

Web Story