Wprowadzenie

W dziedzinie badań medycznych wydobywanie istotnych danych klinicznych z artykułów naukowych stanowi istotne, ale trudne zadanie. Badanie przeprowadzone przez firmę Therapyte miało na celu ocenę różnych modeli przetwarzania języka naturalnego (NLP) w celu automatyzacji wydobywania istotnych informacji o przewlekłej obturacyjnej chorobie płuc (POChP) z różnych typów literatury naukowej.

POChP obejmuje różne choroby powodujące zwężenie dróg oddechowych i trudności w oddychaniu, w tym takie schorzenia jak rozedma płuc i przewlekłe zapalenie oskrzeli. Około 36,5 miliona osób w Europie cierpi z powodu trudności w oddychaniu związanych z POChP, a miliony osób pozostaje nierozpoznanych lub nieleczonych. Szybki wzrost publikacji medycznych wymaga skutecznych narzędzi do wydobywania istotnych danych klinicznych. W związku z tym badanie to skupiło się na identyfikacji i ocenie różnych narzędzi NLP do analizy literatury na temat POChP w celu usprawnienia procesu wydobywania danych i poprawy dokładności wyszukiwania.

Metodologia

Badanie obejmowało kilka etapów:

A. Wydobywanie artykułów: Na tym etapie artykuły i dane były filtrowane na podstawie klasyfikacji chorób znalezionych w różnych źródłach, takich jak PubMed, Google Scholar i clinicaltrials.gov.

B. Selekcja artykułów: Na tym etapie zastosowano dodatkowe kryteria, takie jak opcje leczenia, wiek, rodzaj choroby, płeć i etap badań klinicznych.

C. Rozpoznawanie jednostek i relacji: Początkowa jakość wybranych modeli nie była wystarczająco wysoka, aby spełnić cele projektu. W celu poprawy jakości modele były trenowane na specjalnie przygotowanych zbiorach danych. Do anotowania jednostek i relacji wykorzystano INCEpTION. Zebrane parametry obejmowały badania spirometryczne, badania antytrypsyny alfa-1, oksymetrię pulsoksymetryczną, analizę gazów krwi tętniczej, dawkowanie leków celowanych i rodzaj leku.

D. Dopracowywanie i szkolenie: Na tym etapie modele były trenowane na przygotowanych zbiorach danych i dopracowywane, aby maksymalnie zwiększyć swoją skuteczność. W projekcie przetestowano następujące modele NLP: ClinicalTransformer, SynSPERT, BioBERT, EHR, RoBERTa, Electra i modele GPT.

E. Inferencja i ocena: Do dopracowanych modeli zastosowano wszystkie artykuły, a wyniki zostały ocenione. Jeśli wyniki były niezadowalające, powtarzano etapy C i D.

Napotkane wyzwania

W badaniu napotkano kilka wyzwań:

A. Prezentacja danych w formie tabelarycznej: Automatyczne parsowanie danych tabelarycznych okazało się trudne i wymagało interwencji ręcznej.

B. Wykrywanie zdarzeń klinicznych: Różnicowanie między zdarzeniami klinicznymi a poprawami nie było zbyt skuteczne wśród modeli.

C. Rzadkie parametry: Rzadkość niektórych terminów medycznych komplikowała proces szkolenia modeli.

Wyniki

Obecne badanie wykazało, że modele osiągały lepsze wyniki w określonych rodzajach zadań. Nie zaobserwowano uniwersalnego modelu, który byłby najlepszy we wszystkich rodzajach zadań. Jednak model BioBERT, który został wytrenowany na danych z dziedziny medycyny, osiągnął najlepsze wyniki w analizie jednostek, osiągając średnią ocenę F1 wynoszącą 0,75. Jakość wydobycia jednostek silnie zależy od częstości ich występowania w artykułach, co wpływa na jakość zbioru danych treningowych. Na przykład, ocena F1 była znacznie wyższa dla często występujących jednostek, osiągając wynik 0,9. Jeśli chodzi o parsowanie popularnych relacji między jednostkami, najlepiej spisywał się model ClinicalTransformers, osiągając wynik F1 wynoszący 0,83. Model ten był wspierany przez model SynSPERT, który doskonale radził sobie z rozpoznawaniem unikatowych relacji i osiągnął wynik F1 równy 0,76.

Podsumowanie i przyszłe kierunki badań

Podsumowując, modele BioBERT i ClinicalTransformers wykazały największą dokładność. Modele GPT (przed GPT 3.0) były używane tylko do konkretnych zadań w badaniu, ponieważ wówczas nie były jeszcze tak popularne. Powszechne wykorzystanie modeli GPT na różnych obszarach wydaje się obiecujące dla analizy danych klinicznych z artykułów naukowych.

Bibliografia:

1. Adam Benjafield, Daniela Tellez, Meredith Barrett, Rahul Gondalia, Carlos Nunez, Jadwiga Wedzicha, Atul Malhotra European Respiratory Journal 2021 58: OA2866; DOI: 10.1183/13993003.congress-2021.OA2866

2. Chronic Obstructive Pulmonary Disease (COPD). Centers for Disease Control and Prevention. Retrieved December 20, 2023, from link

O firmie Therapyte

Therapyte oferuje szeroki zakres rozwiązań opartych na rzeczywistych danych medycznych (RWE) poprzez dostęp do milionów elektronicznych kart zdrowia. Therapyte opracowuje unikalne algorytmy sztucznej inteligencji do zbierania i wybierania danych z milionów elektronicznych kart zdrowia (EHR). Wewnętrznie opracowane narzędzia oparte na sztucznej inteligencji służą do czyszczenia, wybierania, harmonizowania i walidacji danych w celu generowania informacji dla projektów badawczych. W celu wydobycia wartościowych zbiorów danych firma buduje szeroką sieć organizacji opieki zdrowotnej i dostawców danych z regionów UE, EAEU, MENA i APAC. Więcej informacji można znaleźć na stronie therapyte.com.

Sekcja FAQ:

1. Jaki jest cel badania przedstawionego przez firmę Therapyte?
Celem badania jest ocena różnych modeli przetwarzania języka naturalnego (NLP) w celu automatyzacji wydobywania istotnych informacji o przewlekłej obturacyjnej chorobie płuc (POChP) z szerokiej gamy literatury naukowej.

2. Jakie są główne choroby związane z POChP?
Zbiór różnych chorób określanych jako POChP obejmuje rozedmę płuc, przewlekłe zapalenie oskrzeli i inne schorzenia powodujące zwężenie dróg oddechowych i trudności w oddychaniu.

3. Jakie wyzwania napotkano w badaniu?
Napotkane wyzwania obejmowały automatyczne parsowanie danych tabelarycznych, różnicowanie między zdarzeniami klinicznymi a poprawami oraz rzadkość niektórych terminów medycznych.

4. Które modele NLP wykazały najlepsze wyniki?
Model BioBERT osiągnął najlepsze wyniki w analizie jednostek, podczas gdy model ClinicalTransformers najlepiej radził sobie z parsowaniem relacji między jednostkami.

5. Jakie są przyszłe kierunki badań?
Przyszłe kierunki badań obejmują dalsze wykorzystanie modeli GPT w analizie danych klinicznych z artykułów naukowych.

6. Jakie odwołania zostały podane w artykule?
Podane odwołania to: 1. Adam Benjafield, Daniela Tellez, Meredith Barrett, Rahul Gondalia, Carlos Nunez, Jadwiga Wedzicha, Atul Malhotra European Respiratory Journal 2021 58: OA2866; DOI: 10.1183/13993003.congress-2021.OA2866 oraz 2. Chronic Obstructive Pulmonary Disease (POChP). Centers for Disease Control and Prevention.

Definicje kluczowych terminów:

POChP (Przewlekła Obturacyjna Choroba Płuc): Grupa chorób płuc charakteryzujących się zwężeniem dróg oddechowych, ograniczeniem przepływu powietrza i trudnościami w oddychaniu.

NLP (Przetwarzanie Języka Naturalnego): Dziedzina informatyki zajmująca się analizą, rozumieniem i generowaniem języka naturalnego przez komputery.

PubMed: Darmowa baza danych zawierająca streszczenia i artykuły naukowe z zakresu medycyny.

Google Scholar: Wyszukiwarka internetowa indeksująca literaturę naukową z różnych dziedzin.

ClinicalTrials.gov: Rejestr badań klinicznych prowadzony przez Narodowe Instytuty Zdrowia w Stanach Zjednoczonych.

INCEpTION: Narzędzie służące do anotowania jednostek i relacji w tekście.

BioBERT: Model NLP oparty na BERT (Bidirectional Encoder Representations from Transformers), specjalnie przeszkolony na danych z dziedziny medycyny.

ClinicalTransformers: Model NLP oparty na transformerach, używany do analizy danych medycznych.

Modele GPT: Generative Pre-trained Transformers (GPT) to rodzina modeli NLP, które zostały przeszkolone wcześniej na dużych zbiorach danych tekstowych.

The source of the article is from the blog kewauneecomet.com