Automatyzacja wydobywania danych klinicznych w badaniu przewlekłej obturacyjnej choroby płuc (POChP)

W dziedzinie badań medycznych wydobywanie istotnych danych klinicznych z artykułów naukowych stanowi istotne, ale trudne zadanie. Badanie przeprowadzone przez firmę Therapyte miało na celu ocenę różnych modeli przetwarzania języka naturalnego (NLP) w celu automatyzacji wydobywania istotnych informacji o przewlekłej obturacyjnej chorobie płuc (POChP) z różnych typów literatury naukowej.

POChP obejmuje różne choroby powodujące zwężenie dróg oddechowych i trudności w oddychaniu, w tym takie schorzenia jak rozedma płuc i przewlekłe zapalenie oskrzeli. Około 36,5 miliona osób w Europie cierpi z powodu trudności w oddychaniu związanych z POChP, a miliony osób pozostaje nierozpoznanych lub nieleczonych. Szybki wzrost publikacji medycznych wymaga skutecznych narzędzi do wydobywania istotnych danych klinicznych. W związku z tym badanie to skupiło się na identyfikacji i ocenie różnych narzędzi NLP do analizy literatury na temat POChP w celu usprawnienia procesu wydobywania danych i poprawy dokładności wyszukiwania.

Metodologia

Badanie obejmowało kilka etapów:

A. Wydobywanie artykułów: Na tym etapie artykuły i dane były filtrowane na podstawie klasyfikacji chorób znalezionych w różnych źródłach, takich jak PubMed, Google Scholar i clinicaltrials.gov.

B. Selekcja artykułów: Na tym etapie zastosowano dodatkowe kryteria, takie jak opcje leczenia, wiek, rodzaj choroby, płeć i etap badań klinicznych.

C. Rozpoznawanie jednostek i relacji: Początkowa jakość wybranych modeli nie była wystarczająco wysoka, aby spełnić cele projektu. W celu poprawy jakości modele były trenowane na specjalnie przygotowanych zbiorach danych. Do anotowania jednostek i relacji wykorzystano INCEpTION. Zebrane parametry obejmowały badania spirometryczne, badania antytrypsyny alfa-1, oksymetrię pulsoksymetryczną, analizę gazów krwi tętniczej, dawkowanie leków celowanych i rodzaj leku.

D. Dopracowywanie i szkolenie: Na tym etapie modele były trenowane na przygotowanych zbiorach danych i dopracowywane, aby maksymalnie zwiększyć swoją skuteczność. W projekcie przetestowano następujące modele NLP: ClinicalTransformer, SynSPERT, BioBERT, EHR, RoBERTa, Electra i modele GPT.

E. Inferencja i ocena: Do dopracowanych modeli zastosowano wszystkie artykuły, a wyniki zostały ocenione. Jeśli wyniki były niezadowalające, powtarzano etapy C i D.

Napotkane wyzwania

W badaniu napotkano kilka wyzwań:

A. Prezentacja danych w formie tabelarycznej: Automatyczne parsowanie danych tabelarycznych okazało się trudne i wymagało interwencji ręcznej.

B. Wykrywanie zdarzeń klinicznych: Różnicowanie między zdarzeniami klinicznymi a poprawami nie było zbyt skuteczne wśród modeli.

C. Rzadkie parametry: Rzadkość niektórych terminów medycznych komplikowała proces szkolenia modeli.

Wyniki

Obecne badanie wykazało, że modele osiągały lepsze wyniki w określonych rodzajach zadań. Nie zaobserwowano uniwersalnego modelu, który byłby najlepszy we wszystkich rodzajach zadań. Jednak model BioBERT, który został wytrenowany na danych z dziedziny medycyny, osiągnął najlepsze wyniki w analizie jednostek, osiągając średnią ocenę F1 wynoszącą 0,75. Jakość wydobycia jednostek silnie zależy od częstości ich występowania w artykułach, co wpływa na jakość zbioru danych treningowych. Na przykład, ocena F1 była znacznie wyższa dla często występujących jednostek, osiągając wynik 0,9. Jeśli chodzi o parsowanie popularnych relacji między jednostkami, najlepiej spisywał się model ClinicalTransformers, osiągając wynik F1 wynoszący 0,83. Model ten był wspierany przez model SynSPERT, który doskonale radził sobie z rozpoznawaniem unikatowych relacji i osiągnął wynik F1 równy 0,76.

Podsumowanie i przyszłe kierunki badań

Podsumowując, modele BioBERT i ClinicalTransformers wykazały największą dokładność. Modele GPT (przed GPT 3.0) były używane tylko do konkretnych zadań w badaniu, ponieważ wówczas nie były jeszcze tak popularne. Powszechne wykorzystanie modeli GPT na różnych obszarach wydaje się obiecujące dla analizy danych klinicznych z artykułów naukowych.

Bibliografia:

1. Adam Benjafield, Daniela Tellez, Meredith Barrett, Rahul Gondalia, Carlos Nunez, Jadwiga Wedzicha, Atul Malhotra European Respiratory Journal 2021 58: OA2866; DOI: 10.1183/13993003.congress-2021.OA2866

2. Chronic Obstructive Pulmonary Disease (COPD). Centers for Disease Control and Prevention. Retrieved December 20, 2023, from link

O firmie Therapyte

Therapyte oferuje szeroki zakres rozwiązań opartych na rzeczywistych danych medycznych (RWE) poprzez dostęp do milionów elektronicznych kart zdrowia. Therapyte opracowuje unikalne algorytmy sztucznej inteligencji do zbierania i wybierania danych z milionów elektronicznych kart zdrowia (EHR). Wewnętrznie opracowane narzędzia oparte na sztucznej inteligencji służą do czyszczenia, wybierania, harmonizowania i walidacji danych w celu generowania informacji dla projektów badawczych. W celu wydobycia wartościowych zbiorów danych firma buduje szeroką sieć organizacji opieki zdrowotnej i dostawców danych z regionów UE, EAEU, MENA i APAC. Więcej informacji można znaleźć na stronie therapyte.com.

Sekcja FAQ:

1. Jaki jest cel badania przedstawionego przez firmę Therapyte?
Celem badania jest ocena różnych modeli przetwarzania języka naturalnego (NLP) w celu automatyzacji wydobywania istotnych informacji o przewlekłej obturacyjnej chorobie płuc (POChP) z szerokiej gamy literatury naukowej.

2. Jakie są główne choroby związane z POChP?
Zbiór różnych chorób określanych jako POChP obejmuje rozedmę płuc, przewlekłe zapalenie oskrzeli i inne schorzenia powodujące zwężenie dróg oddechowych i trudności w oddychaniu.

3. Jakie wyzwania napotkano w badaniu?
Napotkane wyzwania obejmowały automatyczne parsowanie danych tabelarycznych, różnicowanie między zdarzeniami klinicznymi a poprawami oraz rzadkość niektórych terminów medycznych.

4. Które modele NLP wykazały najlepsze wyniki?
Model BioBERT osiągnął najlepsze wyniki w analizie jednostek, podczas gdy model ClinicalTransformers najlepiej radził sobie z parsowaniem relacji między jednostkami.

5. Jakie są przyszłe kierunki badań?
Przyszłe kierunki badań obejmują dalsze wykorzystanie modeli GPT w analizie danych klinicznych z artykułów naukowych.

6. Jakie odwołania zostały podane w artykule?
Podane odwołania to: 1. Adam Benjafield, Daniela Tellez, Meredith Barrett, Rahul Gondalia, Carlos Nunez, Jadwiga Wedzicha, Atul Malhotra European Respiratory Journal 2021 58: OA2866; DOI: 10.1183/13993003.congress-2021.OA2866 oraz 2. Chronic Obstructive Pulmonary Disease (POChP). Centers for Disease Control and Prevention.

Definicje kluczowych terminów:

POChP (Przewlekła Obturacyjna Choroba Płuc): Grupa chorób płuc charakteryzujących się zwężeniem dróg oddechowych, ograniczeniem przepływu powietrza i trudnościami w oddychaniu.

NLP (Przetwarzanie Języka Naturalnego): Dziedzina informatyki zajmująca się analizą, rozumieniem i generowaniem języka naturalnego przez komputery.

PubMed: Darmowa baza danych zawierająca streszczenia i artykuły naukowe z zakresu medycyny.

Google Scholar: Wyszukiwarka internetowa indeksująca literaturę naukową z różnych dziedzin.

ClinicalTrials.gov: Rejestr badań klinicznych prowadzony przez Narodowe Instytuty Zdrowia w Stanach Zjednoczonych.

INCEpTION: Narzędzie służące do anotowania jednostek i relacji w tekście.

BioBERT: Model NLP oparty na BERT (Bidirectional Encoder Representations from Transformers), specjalnie przeszkolony na danych z dziedziny medycyny.

ClinicalTransformers: Model NLP oparty na transformerach, używany do analizy danych medycznych.

Modele GPT: Generative Pre-trained Transformers (GPT) to rodzina modeli NLP, które zostały przeszkolone wcześniej na dużych zbiorach danych tekstowych.

The source of the article is from the blog kewauneecomet.com

Automatyzacja wydobywania danych klinicznych w badaniu przewlekłej obturacyjnej choroby płuc (POChP) – Wprowadzenie

ByRoman Głogulski

ByRoman Głogulski

Related Post

OnePlus Nord CE4: Μια νέα εποχή καινοτομίας στην οθόνη

Δίδυμες αναπνευστικές ασκήσεις με κινητή εφαρμογή μπορούν να βοηθήσουν στη ανακούφιση των συμπτωμάτων του μακροχρόνιου Covid, δείχνει νέα μελέτη

Μελέτη από το Πανεπιστήμιο του Στάνφορντ: Συνδυασμός Μπαταριών και Υδρογόνου για ένα αξιόπιστο Ηλεκτρικό Δίκτυο Ενέργειας

You missed

Huawei βελτιώνει την εμπειρία χρηστών με νέα ενημέρωση λογισμικού

Η Τεχνολογία Flashback Αντιμετωπίζει Οικονομική Αβεβαιότητα στην Προσπάθεια Δημόσιας Προσφοράς

Δεκαετής Αναμονή: Η Ιστορία ενός Κλειδωμένου iPhone 4s

Νέα Κυκλοφορία Smartphone: Παρουσίαση του iQOO Z9 Turbo+