Wprowadzenie

Nel campo della ricerca medica, l’estrazione di dati clinici rilevanti da articoli scientifici è un compito cruciale ma impegnativo. Uno studio condotto da Therapyte si è proposto di valutare vari modelli di elaborazione del linguaggio naturale (NLP) per automatizzare l’estrazione di informazioni essenziali sulla malattia polmonare ostruttiva cronica (COPD) da una vasta gamma di letteratura scientifica.

La COPD comprende varie patologie che causano ostruzione delle vie respiratorie e difficoltà respiratorie, tra cui l’enfisema e la bronchite cronica. Circa 36,5 milioni di persone in Europa soffrono di difficoltà respiratorie a causa della COPD e milioni di individui rimangono non diagnosticati o non trattati. La crescita rapida della letteratura medica ha reso necessario l’utilizzo di strumenti efficienti per l’estrazione di dati clinici pertinenti. Pertanto, questo studio si è concentrato sull’individuazione e l’analisi di diversi strumenti NLP per analizzare la letteratura sulla COPD al fine di ottimizzare il processo di estrazione dei dati e migliorare l’accuratezza della ricerca.

Metodologia

Lo studio ha coinvolto diverse fasi:

A. Estrazione degli articoli: In questa fase, gli articoli e i dati sono stati filtrati in base alla classificazione delle malattie presenti in varie fonti come PubMed, Google Scholar e clinicaltrials.gov.

B. Selezione degli articoli: In questa fase sono stati applicati criteri aggiuntivi, tra cui le opzioni di trattamento, l’età, il tipo di malattia, il sesso e lo stadio degli studi clinici.

C. Riconoscimento di entità e relazioni: La qualità iniziale dei modelli selezionati non era sufficientemente elevata per raggiungere gli obiettivi del progetto. Per migliorare la qualità, i modelli sono stati sottoposti a un addestramento su set di dati appositamente preparati. È stato utilizzato INCEpTION per l’annotazione di entità e relazioni. I parametri raccolti includono spirometria, test dell’alfa-1 antitripsina, ossimetria del polso, analisi del gas arterioso, dosaggio mirato dei farmaci e tipo di farmaco.

D. Ottimizzazione e addestramento: In questa fase, i modelli sono stati addestrati su set di dati preparati e ottimizzati per massimizzarne l’efficacia. Nel progetto sono stati testati i seguenti modelli NLP: ClinicalTransformer, SynSPERT, BioBERT, EHR, RoBERTa, Electra e GPT Models.

E. Inferenza e valutazione: I modelli ottimizzati sono stati applicati a tutti gli articoli e i risultati sono stati valutati. Se i risultati non erano soddisfacenti, le fasi C e D venivano ripetute.

Sfide riscontrate

Lo studio ha affrontato diverse sfide:

A. Presentazione dei dati tabellari: L’analisi automatica dei dati tabellari si è rivelata difficile e ha richiesto un intervento manuale.

B. Rilevamento degli eventi clinici: La differenziazione tra eventi clinici e miglioramenti non è stata significativamente efficace tra i modelli.

C. Parametri rari: La rarità di alcuni termini medici ha complicato il processo di addestramento dei modelli.

Risultati

Lo studio attuale ha dimostrato che i modelli hanno ottenuto risultati migliori in specifici tipi di compiti. Non è stato osservato un modello universale considerato il migliore in tutti i tipi di compiti. Tuttavia, il modello BioBERT addestrato su dati del dominio medico ha ottenuto i migliori risultati nel parsing delle entità, con un punteggio F1 medio di 0,75. La qualità dell’estrazione delle entità dipendeva fortemente dalla frequenza di comparsa negli articoli, il che influiva sulla qualità del set di dati di addestramento. Ad esempio, il punteggio F1 era significativamente più alto per le entità che comparivano frequentemente, raggiungendo un punteggio di 0,9. Per quanto riguarda il parsing delle relazioni tra entità popolari, il modello ClinicalTransformers ha ottenuto i migliori risultati, raggiungendo un punteggio F1 di 0,83. Questo modello è stato supportato dal modello SynSPERT, che si è distinto nel riconoscimento di relazioni uniche e ha raggiunto un punteggio F1 di 0,76.

Riassunto e direzioni future

In conclusione, i modelli BioBERT e ClinicalTransformers hanno mostrato il più alto grado di accuratezza. I modelli GPT (prima del GPT 3.0) sono stati utilizzati solo per compiti specifici nello studio, poiché al momento non erano ancora popolari. L’uso diffuso dei modelli GPT in varie attività sembra promettente per il parsing dei dati clinici da articoli scientifici.

Riferimenti:

1. Adam Benjafield, Daniela Tellez, Meredith Barrett, Rahul Gondalia, Carlos Nunez, Jadwiga Wedzicha, Atul Malhotra European Respiratory Journal 2021 58: OA2866; DOI: 10.1183/13993003.congress-2021.OA2866

2. Malattia polmonare ostruttiva cronica (COPD). Centers for Disease Control and Prevention. Recuperato il 20 dicembre 2023, da link

About Therapyte

Therapyte offre una vasta gamma di soluzioni di evidenza concreta del mondo reale (RWE) attraverso l’accesso a milioni di cartelle cliniche elettroniche. Therapyte sviluppa algoritmi unici di intelligenza artificiale per la raccolta e la selezione di dati da milioni di cartelle cliniche elettroniche (EHR). Strumenti basati su intelligenza artificiale sviluppati internamente vengono utilizzati per la pulizia, la selezione, l’armonizzazione e la convalida dei dati al fine di generare informazioni per progetti di ricerca approfonditi. Per estrarre insiemi di dati preziosi, l’azienda costruisce una vasta rete di organizzazioni sanitarie e fornitori di dati dalle regioni dell’UE, dell’EAEU, del MENA e dell’APAC. Per maggiori informazioni, visita therapyte.com.

FAQ:

1. Qual è l’obiettivo dello studio presentato da Therapyte?
Lo scopo dello studio è quello di valutare vari modelli di elaborazione del linguaggio naturale (NLP) per automatizzare l’estrazione di informazioni essenziali sulla malattia polmonare ostruttiva cronica (COPD) da una vasta gamma di letteratura scientifica.

2. Quali sono le principali malattie associate alla COPD?
L’insieme di varie malattie indicate come COPD include l’enfisema, la bronchite cronica e altre condizioni che causano restrizione delle vie respiratorie e difficoltà respiratorie.

3. Quali sfide sono state incontrate nello studio?
Le sfide incontrate includevano l’analisi automatica dei dati tabellari, la differenziazione tra eventi clinici e miglioramenti, e la rarità di alcuni termini medici.

4. Quali modelli NLP hanno mostrato i migliori risultati?
Il modello BioBERT ha ottenuto i migliori risultati nel parsing delle entità, mentre il modello ClinicalTransformers ha ottenuto i migliori risultati nel parsing delle relazioni tra entità.

5. Quali sono le direzioni future dello studio?
Le direzioni future dello studio prevedono l’ulteriore applicazione dei modelli GPT nel parsing dei dati clinici da articoli scientifici.

6. Quali riferimenti sono stati forniti nell’articolo?
I riferimenti forniti sono: 1. Adam Benjafield, Daniela Tellez, Meredith Barrett, Rahul Gondalia, Carlos Nunez, Jadwiga Wedzicha, Atul Malhotra European Respiratory Journal 2021 58: OA2866; DOI: 10.1183/13993003.congress-2021.OA2866 e 2. Malattia polmonare ostruttiva
cronica (COPD). Centers for Disease Control and Prevention.

Definizioni dei Termini Chiave:

COPD (Malattia Polmonare Ostruttiva Cronica): Un gruppo di patologie polmonari caratterizzate da restringimento delle vie respiratorie, flusso d’aria limitato e difficoltà respiratorie.

NLP (Elaborazione del Linguaggio Naturale): Il campo dell’informatica che si occupa dell’analisi, comprensione e generazione del linguaggio umano da parte dei computer.

PubMed: Un database gratuito che contiene abstract e articoli scientifici di medicina.

Google Scholar: Un motore di ricerca internet che indicizza la letteratura accademica di vari settori.

ClinicalTrials.gov: Un registro degli studi di ricerca clinica condotti dai National Institutes of Health negli Stati Uniti.

INCEpTION: Uno strumento utilizzato per l’annotazione di entità e relazioni nel testo.

BioBERT: Un modello di NLP basato su BERT (Bidirectional Encoder Representations from Transformers), specificamente addestrato per dati del dominio medico.

ClinicalTransformers: Un modello di NLP basato su transformers, utilizzato per l’analisi di dati medici.

Modelli GPT: Generative Pre-trained Transformers (GPT) è una famiglia di modelli NLP.

The source of the article is from the blog foodnext.nl