Wprowadzenie

Extração Automatizada de Dados Clínicos em Estudo sobre Doença Pulmonar Obstrutiva Crônica (DPOC)

2024-01-19

Na área da pesquisa médica, extrair dados clínicos relevantes de artigos científicos é uma tarefa crucial, porém desafiadora. Um estudo conduzido pela Therapyte teve como objetivo avaliar vários modelos de processamento de linguagem natural (NLP) para automatizar a extração de informações essenciais sobre a doença pulmonar obstrutiva crônica (DPOC) em uma ampla gama de literatura científica.

A DPOC engloba diversas doenças que causam obstrução das vias respiratórias e dificuldades respiratórias, incluindo condições como enfisema e bronquite crônica. Aproximadamente 36,5 milhões de pessoas na Europa sofrem de dificuldades respiratórias devido à DPOC, e milhões de indivíduos permanecem sem diagnóstico ou tratamento. O rápido crescimento da literatura médica tem exigido o uso de ferramentas eficientes para extrair dados clínicos relevantes. Portanto, este estudo concentrou-se em identificar e avaliar diferentes ferramentas de NLP para analisar a literatura sobre DPOC, a fim de otimizar o processo de extração de dados e melhorar a precisão das buscas.

Metodologia

O estudo envolveu várias etapas:

A. Extração de Artigos: Nesta etapa, os artigos e os dados foram filtrados com base na classificação de doenças encontradas em várias fontes, como o PubMed, o Google Scholar e o clinicaltrials.gov.

B. Seleção de Artigos: Critérios adicionais foram aplicados nesta etapa, incluindo opções de tratamento, idade, tipo de doença, gênero e estágio de ensaios clínicos.

C. Reconhecimento de Entidades e Relações: A qualidade inicial dos modelos selecionados não era suficientemente alta para atingir os objetivos do projeto. Para melhorar a qualidade, os modelos passaram por treinamento em conjuntos de dados preparados especialmente. O INCEpTION foi usado para anotação de entidades e relações. Os parâmetros coletados incluíram espirometria, teste de alfa-1 antitripsina, oximetria de pulso, análise de gases sanguíneos arteriais, dosagem direcionada de medicamentos e tipo de medicação.

D. Ajuste e Treinamento: Nesta etapa, os modelos foram treinados em conjuntos de dados preparados e ajustados para maximizar sua eficácia. Os seguintes modelos de NLP foram testados no projeto: ClinicalTransformer, SynSPERT, BioBERT, EHR, RoBERTa, Electra e GPT Models.

E. Inferência e Avaliação: Os modelos ajustados foram aplicados a todos os artigos e os resultados foram avaliados. Caso os resultados fossem insatisfatórios, as etapas C e D foram repetidas.

Desafios Encontrados

O estudo enfrentou vários desafios:

A. Apresentação de Dados Tabulares: A análise automática de dados tabulares se mostrou difícil e exigiu intervenção manual.

B. Detecção de Eventos Clínicos: Diferenciar entre eventos clínicos e melhorias não foi significativamente eficaz entre os modelos.

C. Parâmetros Raros: A raridade de certos termos médicos complicou o processo de treinamento dos modelos.

Resultados

O estudo atual demonstrou que os modelos tiveram um desempenho melhor em tipos específicos de tarefas. Não foi observado nenhum modelo universal que fosse o melhor em todos os tipos de tarefas. No entanto, o modelo BioBERT, treinado em dados do domínio médico, obteve os melhores resultados na análise de entidades, com uma pontuação média F1 de 0,75. A qualidade da extração de entidades dependeu fortemente da frequência de ocorrência nos artigos, o que afetou a qualidade do conjunto de dados de treinamento. Por exemplo, a pontuação F1 foi significativamente maior para entidades frequentemente encontradas, alcançando uma pontuação de 0,9. Quanto à análise de relações entre entidades populares, o modelo ClinicalTransformers obteve os melhores resultados, atingindo uma pontuação F1 de 0,83. Este modelo foi complementado pelo modelo SynSPERT, que se destacou no reconhecimento de relações únicas e obteve uma pontuação F1 de 0,76.

Resumo e Direções Futuras

Em conclusão, os modelos BioBERT e ClinicalTransformers apresentaram o maior grau de precisão. Os modelos GPT (anteriores ao GPT 3.0) foram utilizados apenas para tarefas específicas no estudo, pois não eram tão populares na época. O uso generalizado dos modelos GPT em diversas tarefas mostra-se promissor para a análise de dados clínicos em artigos científicos.

Referências:

1. Adam Benjafield, Daniela Tellez, Meredith Barrett, Rahul Gondalia, Carlos Nunez, Jadwiga Wedzicha, Atul Malhotra European Respiratory Journal 2021 58: OA2866; DOI: 10.1183/13993003.congress-2021.OA2866

2. Doença Pulmonar Obstrutiva Crônica (DPOC). Centers for Disease Control and Prevention. Acesso em 20 de dezembro de 2023, através do link

Sobre a Therapyte

A Therapyte oferece uma ampla gama de soluções de evidências do mundo real (RWE) através do acesso a milhões de prontuários eletrônicos. A Therapyte desenvolve algoritmos únicos de inteligência artificial para coletar e selecionar dados de milhões de prontuários eletrônicos (EHRs). Ferramentas internas baseadas em IA são usadas para limpeza, seleção, harmonização e validação de dados, a fim de gerar informações para projetos abrangentes de pesquisa. Para extrair conjuntos de dados valiosos, a empresa constrói uma ampla rede de organizações de saúde e provedores de dados das regiões da UE, EEE, MENA e APAC. Para mais informações, visite therapyte.com.

Seção de Perguntas Frequentes:

1. Qual é o objetivo do estudo apresentado pela Therapyte?
O objetivo do estudo é avaliar vários modelos de processamento de linguagem natural (NLP) para automatizar a extração de informações essenciais sobre a doença pulmonar obstrutiva crônica (DPOC) em uma ampla gama de literatura científica.

2. Quais são as principais doenças associadas à DPOC?
O conjunto de diferentes doenças referidas como DPOC inclui enfisema, bronquite crônica e outras condições que levam à constrição das vias respiratórias e dificuldades respiratórias.

3. Quais desafios foram enfrentados no estudo?
Os desafios encontrados incluíram a análise automática de dados tabulares, a diferenciação entre eventos clínicos e melhorias, e a raridade de certos termos médicos.

4. Quais modelos de NLP apresentaram os melhores resultados?
O modelo BioBERT obteve os melhores resultados na análise de entidades, enquanto o modelo ClinicalTransformers apresentou o melhor desempenho na análise de relações entre entidades.

5. Quais são as direções futuras do estudo?
As direções futuras do estudo envolvem a aplicação adicional de modelos GPT na análise de dados clínicos em artigos científicos.

6. Quais referências foram fornecidas no artigo?
As referências fornecidas são: 1. Adam Benjafield, Daniela Tellez, Meredith Barrett, Rahul Gondalia, Carlos Nunez, Jadwiga Wedzicha, Atul Malhotra European Respiratory Journal 2021 58: OA2866; DOI: 10.1183/13993003.congress-2021.OA2866 e 2. Doença Pulmonar Obstrutiva Crônica (DPOC). Centers for Disease Control and Prevention.

Definições de Termos-chave:

DPOC (Doença Pulmonar Obstrutiva Crônica): Um grupo de doenças pulmonares caracterizadas por estreitamento das vias respiratórias, fluxo de ar restrito e dificuldades respiratórias.

NLP (Processamento de Linguagem Natural): O campo da ciência da computação que lida com a análise, compreensão e geração de linguagem humana por computadores.

PubMed: Um banco de dados gratuito contendo resumos e artigos científicos sobre medicina.

Google Scholar: Um mecanismo de busca na Internet que indexa literatura científica de várias áreas.

ClinicalTrials.gov: Um registro de estudos de pesquisa clínica conduzidos pelo National Institutes of Health nos Estados Unidos.

INCEpTION: Uma ferramenta usada para anotar entidades e relações em texto.

BioBERT: Um modelo de NLP baseado em BERT (Bidirectional Encoder Representations from Transformers), especificamente treinado para dados do domínio médico.

ClinicalTransformers: Um modelo de NLP baseado em transformers, usado para análise de dados médicos.

GPT Models: Generative Pre-trained Transformers (GPT) é uma família de modelos NLP

The source of the article is from the blog publicsectortravel.org.uk

Nowe i ulepszone funkcje AI dla siedmiu modeli Samsunga w tym roku
Previous Story

Novas e Melhoradas Funcionalidades de Inteligência Artificial para Sete Modelos Samsung Este Ano

Nowa pora na niebezpieczeństwo w Diablo IV
Next Story

Temporada de Conquista do Diablo IV: Prepare-se para Novos Perigos

Latest from News