W dziedzinie badań medycznych wydobywanie istotnych danych klinicznych z artykułów naukowych stanowi istotne, ale trudne zadanie. Badanie przeprowadzone przez firmę Therapyte miało na celu ocenę różnych modeli przetwarzania języka naturalnego (NLP) w celu automatyzacji wydobywania istotnych informacji o przewlekłej obturacyjnej chorobie płuc (POChP) z różnych typów literatury naukowej.
POChP obejmuje różne choroby powodujące zwężenie dróg oddechowych i trudności w oddychaniu, w tym takie schorzenia jak rozedma płuc i przewlekłe zapalenie oskrzeli. Około 36,5 miliona osób w Europie cierpi z powodu trudności w oddychaniu związanych z POChP, a miliony osób pozostaje nierozpoznanych lub nieleczonych. Szybki wzrost publikacji medycznych wymaga skutecznych narzędzi do wydobywania istotnych danych klinicznych. W związku z tym badanie to skupiło się na identyfikacji i ocenie różnych narzędzi NLP do analizy literatury na temat POChP w celu usprawnienia procesu wydobywania danych i poprawy dokładności wyszukiwania.
Metodologia
Badanie obejmowało kilka etapów:
A. Wydobywanie artykułów: Na tym etapie artykuły i dane były filtrowane na podstawie klasyfikacji chorób znalezionych w różnych źródłach, takich jak PubMed, Google Scholar i clinicaltrials.gov.
B. Selekcja artykułów: Na tym etapie zastosowano dodatkowe kryteria, takie jak opcje leczenia, wiek, rodzaj choroby, płeć i etap badań klinicznych.
C. Rozpoznawanie jednostek i relacji: Początkowa jakość wybranych modeli nie była wystarczająco wysoka, aby spełnić cele projektu. W celu poprawy jakości modele były trenowane na specjalnie przygotowanych zbiorach danych. Do anotowania jednostek i relacji wykorzystano INCEpTION. Zebrane parametry obejmowały badania spirometryczne, badania antytrypsyny alfa-1, oksymetrię pulsoksymetryczną, analizę gazów krwi tętniczej, dawkowanie leków celowanych i rodzaj leku.
D. Dopracowywanie i szkolenie: Na tym etapie modele były trenowane na przygotowanych zbiorach danych i dopracowywane, aby maksymalnie zwiększyć swoją skuteczność. W projekcie przetestowano następujące modele NLP: ClinicalTransformer, SynSPERT, BioBERT, EHR, RoBERTa, Electra i modele GPT.
E. Inferencja i ocena: Do dopracowanych modeli zastosowano wszystkie artykuły, a wyniki zostały ocenione. Jeśli wyniki były niezadowalające, powtarzano etapy C i D.
Napotkane wyzwania
W badaniu napotkano kilka wyzwań:
A. Prezentacja danych w formie tabelarycznej: Automatyczne parsowanie danych tabelarycznych okazało się trudne i wymagało interwencji ręcznej.
B. Wykrywanie zdarzeń klinicznych: Różnicowanie między zdarzeniami klinicznymi a poprawami nie było zbyt skuteczne wśród modeli.
C. Rzadkie parametry: Rzadkość niektórych terminów medycznych komplikowała proces szkolenia modeli.
Wyniki
Obecne badanie wykazało, że modele osiągały lepsze wyniki w określonych rodzajach zadań. Nie zaobserwowano uniwersalnego modelu, który byłby najlepszy we wszystkich rodzajach zadań. Jednak model BioBERT, który został wytrenowany na danych z dziedziny medycyny, osiągnął najlepsze wyniki w analizie jednostek, osiągając średnią ocenę F1 wynoszącą 0,75. Jakość wydobycia jednostek silnie zależy od częstości ich występowania w artykułach, co wpływa na jakość zbioru danych treningowych. Na przykład, ocena F1 była znacznie wyższa dla często występujących jednostek, osiągając wynik 0,9. Jeśli chodzi o parsowanie popularnych relacji między jednostkami, najlepiej spisywał się model ClinicalTransformers, osiągając wynik F1 wynoszący 0,83. Model ten był wspierany przez model SynSPERT, który doskonale radził sobie z rozpoznawaniem unikatowych relacji i osiągnął wynik F1 równy 0,76.
Podsumowanie i przyszłe kierunki badań
Podsumowując, modele BioBERT i ClinicalTransformers wykazały największą dokładność. Modele GPT (przed GPT 3.0) były używane tylko do konkretnych zadań w badaniu, ponieważ wówczas nie były jeszcze tak popularne. Powszechne wykorzystanie modeli GPT na różnych obszarach wydaje się obiecujące dla analizy danych klinicznych z artykułów naukowych.
Bibliografia:
1. Adam Benjafield, Daniela Tellez, Meredith Barrett, Rahul Gondalia, Carlos Nunez, Jadwiga Wedzicha, Atul Malhotra European Respiratory Journal 2021 58: OA2866; DOI: 10.1183/13993003.congress-2021.OA2866
2. Chronic Obstructive Pulmonary Disease (COPD). Centers for Disease Control and Prevention. Retrieved December 20, 2023, from link
O firmie Therapyte
Therapyte oferuje szeroki zakres rozwiązań opartych na rzeczywistych danych medycznych (RWE) poprzez dostęp do milionów elektronicznych kart zdrowia. Therapyte opracowuje unikalne algorytmy sztucznej inteligencji do zbierania i wybierania danych z milionów elektronicznych kart zdrowia (EHR). Wewnętrznie opracowane narzędzia oparte na sztucznej inteligencji służą do czyszczenia, wybierania, harmonizowania i walidacji danych w celu generowania informacji dla projektów badawczych. W celu wydobycia wartościowych zbiorów danych firma buduje szeroką sieć organizacji opieki zdrowotnej i dostawców danych z regionów UE, EAEU, MENA i APAC. Więcej informacji można znaleźć na stronie therapyte.com.
Sekcja FAQ:
1. Jaki jest cel badania przedstawionego przez firmę Therapyte?
Celem badania jest ocena różnych modeli przetwarzania języka naturalnego (NLP) w celu automatyzacji wydobywania istotnych informacji o przewlekłej obturacyjnej chorobie płuc (POChP) z szerokiej gamy literatury naukowej.
2. Jakie są główne choroby związane z POChP?
Zbiór różnych chorób określanych jako POChP obejmuje rozedmę płuc, przewlekłe zapalenie oskrzeli i inne schorzenia powodujące zwężenie dróg oddechowych i trudności w oddychaniu.
3. Jakie wyzwania napotkano w badaniu?
Napotkane wyzwania obejmowały automatyczne parsowanie danych tabelarycznych, różnicowanie między zdarzeniami klinicznymi a poprawami oraz rzadkość niektórych terminów medycznych.
4. Które modele NLP wykazały najlepsze wyniki?
Model BioBERT osiągnął najlepsze wyniki w analizie jednostek, podczas gdy model ClinicalTransformers najlepiej radził sobie z parsowaniem relacji między jednostkami.
5. Jakie są przyszłe kierunki badań?
Przyszłe kierunki badań obejmują dalsze wykorzystanie modeli GPT w analizie danych klinicznych z artykułów naukowych.
6. Jakie odwołania zostały podane w artykule?
Podane odwołania to: 1. Adam Benjafield, Daniela Tellez, Meredith Barrett, Rahul Gondalia, Carlos Nunez, Jadwiga Wedzicha, Atul Malhotra European Respiratory Journal 2021 58: OA2866; DOI: 10.1183/13993003.congress-2021.OA2866 oraz 2. Chronic Obstructive Pulmonary Disease (POChP). Centers for Disease Control and Prevention.
Definicje kluczowych terminów:
POChP (Przewlekła Obturacyjna Choroba Płuc): Grupa chorób płuc charakteryzujących się zwężeniem dróg oddechowych, ograniczeniem przepływu powietrza i trudnościami w oddychaniu.
NLP (Przetwarzanie Języka Naturalnego): Dziedzina informatyki zajmująca się analizą, rozumieniem i generowaniem języka naturalnego przez komputery.
PubMed: Darmowa baza danych zawierająca streszczenia i artykuły naukowe z zakresu medycyny.
Google Scholar: Wyszukiwarka internetowa indeksująca literaturę naukową z różnych dziedzin.
ClinicalTrials.gov: Rejestr badań klinicznych prowadzony przez Narodowe Instytuty Zdrowia w Stanach Zjednoczonych.
INCEpTION: Narzędzie służące do anotowania jednostek i relacji w tekście.
BioBERT: Model NLP oparty na BERT (Bidirectional Encoder Representations from Transformers), specjalnie przeszkolony na danych z dziedziny medycyny.
ClinicalTransformers: Model NLP oparty na transformerach, używany do analizy danych medycznych.
Modele GPT: Generative Pre-trained Transformers (GPT) to rodzina modeli NLP, które zostały przeszkolone wcześniej na dużych zbiorach danych tekstowych.
The source of the article is from the blog kewauneecomet.com