Extração Automatizada de Dados Clínicos em Estudo sobre Doença Pulmonar Obstrutiva Crônica (DPOC)

Na área da pesquisa médica, extrair dados clínicos relevantes de artigos científicos é uma tarefa crucial, porém desafiadora. Um estudo conduzido pela Therapyte teve como objetivo avaliar vários modelos de processamento de linguagem natural (NLP) para automatizar a extração de informações essenciais sobre a doença pulmonar obstrutiva crônica (DPOC) em uma ampla gama de literatura científica.

A DPOC engloba diversas doenças que causam obstrução das vias respiratórias e dificuldades respiratórias, incluindo condições como enfisema e bronquite crônica. Aproximadamente 36,5 milhões de pessoas na Europa sofrem de dificuldades respiratórias devido à DPOC, e milhões de indivíduos permanecem sem diagnóstico ou tratamento. O rápido crescimento da literatura médica tem exigido o uso de ferramentas eficientes para extrair dados clínicos relevantes. Portanto, este estudo concentrou-se em identificar e avaliar diferentes ferramentas de NLP para analisar a literatura sobre DPOC, a fim de otimizar o processo de extração de dados e melhorar a precisão das buscas.

Metodologia

O estudo envolveu várias etapas:

A. Extração de Artigos: Nesta etapa, os artigos e os dados foram filtrados com base na classificação de doenças encontradas em várias fontes, como o PubMed, o Google Scholar e o clinicaltrials.gov.

B. Seleção de Artigos: Critérios adicionais foram aplicados nesta etapa, incluindo opções de tratamento, idade, tipo de doença, gênero e estágio de ensaios clínicos.

C. Reconhecimento de Entidades e Relações: A qualidade inicial dos modelos selecionados não era suficientemente alta para atingir os objetivos do projeto. Para melhorar a qualidade, os modelos passaram por treinamento em conjuntos de dados preparados especialmente. O INCEpTION foi usado para anotação de entidades e relações. Os parâmetros coletados incluíram espirometria, teste de alfa-1 antitripsina, oximetria de pulso, análise de gases sanguíneos arteriais, dosagem direcionada de medicamentos e tipo de medicação.

D. Ajuste e Treinamento: Nesta etapa, os modelos foram treinados em conjuntos de dados preparados e ajustados para maximizar sua eficácia. Os seguintes modelos de NLP foram testados no projeto: ClinicalTransformer, SynSPERT, BioBERT, EHR, RoBERTa, Electra e GPT Models.

E. Inferência e Avaliação: Os modelos ajustados foram aplicados a todos os artigos e os resultados foram avaliados. Caso os resultados fossem insatisfatórios, as etapas C e D foram repetidas.

Desafios Encontrados

O estudo enfrentou vários desafios:

A. Apresentação de Dados Tabulares: A análise automática de dados tabulares se mostrou difícil e exigiu intervenção manual.

B. Detecção de Eventos Clínicos: Diferenciar entre eventos clínicos e melhorias não foi significativamente eficaz entre os modelos.

C. Parâmetros Raros: A raridade de certos termos médicos complicou o processo de treinamento dos modelos.

Resultados

O estudo atual demonstrou que os modelos tiveram um desempenho melhor em tipos específicos de tarefas. Não foi observado nenhum modelo universal que fosse o melhor em todos os tipos de tarefas. No entanto, o modelo BioBERT, treinado em dados do domínio médico, obteve os melhores resultados na análise de entidades, com uma pontuação média F1 de 0,75. A qualidade da extração de entidades dependeu fortemente da frequência de ocorrência nos artigos, o que afetou a qualidade do conjunto de dados de treinamento. Por exemplo, a pontuação F1 foi significativamente maior para entidades frequentemente encontradas, alcançando uma pontuação de 0,9. Quanto à análise de relações entre entidades populares, o modelo ClinicalTransformers obteve os melhores resultados, atingindo uma pontuação F1 de 0,83. Este modelo foi complementado pelo modelo SynSPERT, que se destacou no reconhecimento de relações únicas e obteve uma pontuação F1 de 0,76.

Resumo e Direções Futuras

Em conclusão, os modelos BioBERT e ClinicalTransformers apresentaram o maior grau de precisão. Os modelos GPT (anteriores ao GPT 3.0) foram utilizados apenas para tarefas específicas no estudo, pois não eram tão populares na época. O uso generalizado dos modelos GPT em diversas tarefas mostra-se promissor para a análise de dados clínicos em artigos científicos.

Referências:

1. Adam Benjafield, Daniela Tellez, Meredith Barrett, Rahul Gondalia, Carlos Nunez, Jadwiga Wedzicha, Atul Malhotra European Respiratory Journal 2021 58: OA2866; DOI: 10.1183/13993003.congress-2021.OA2866

2. Doença Pulmonar Obstrutiva Crônica (DPOC). Centers for Disease Control and Prevention. Acesso em 20 de dezembro de 2023, através do link

Sobre a Therapyte

A Therapyte oferece uma ampla gama de soluções de evidências do mundo real (RWE) através do acesso a milhões de prontuários eletrônicos. A Therapyte desenvolve algoritmos únicos de inteligência artificial para coletar e selecionar dados de milhões de prontuários eletrônicos (EHRs). Ferramentas internas baseadas em IA são usadas para limpeza, seleção, harmonização e validação de dados, a fim de gerar informações para projetos abrangentes de pesquisa. Para extrair conjuntos de dados valiosos, a empresa constrói uma ampla rede de organizações de saúde e provedores de dados das regiões da UE, EEE, MENA e APAC. Para mais informações, visite therapyte.com.

Seção de Perguntas Frequentes:

1. Qual é o objetivo do estudo apresentado pela Therapyte?
O objetivo do estudo é avaliar vários modelos de processamento de linguagem natural (NLP) para automatizar a extração de informações essenciais sobre a doença pulmonar obstrutiva crônica (DPOC) em uma ampla gama de literatura científica.

2. Quais são as principais doenças associadas à DPOC?
O conjunto de diferentes doenças referidas como DPOC inclui enfisema, bronquite crônica e outras condições que levam à constrição das vias respiratórias e dificuldades respiratórias.

3. Quais desafios foram enfrentados no estudo?
Os desafios encontrados incluíram a análise automática de dados tabulares, a diferenciação entre eventos clínicos e melhorias, e a raridade de certos termos médicos.

4. Quais modelos de NLP apresentaram os melhores resultados?
O modelo BioBERT obteve os melhores resultados na análise de entidades, enquanto o modelo ClinicalTransformers apresentou o melhor desempenho na análise de relações entre entidades.

5. Quais são as direções futuras do estudo?
As direções futuras do estudo envolvem a aplicação adicional de modelos GPT na análise de dados clínicos em artigos científicos.

6. Quais referências foram fornecidas no artigo?
As referências fornecidas são: 1. Adam Benjafield, Daniela Tellez, Meredith Barrett, Rahul Gondalia, Carlos Nunez, Jadwiga Wedzicha, Atul Malhotra European Respiratory Journal 2021 58: OA2866; DOI: 10.1183/13993003.congress-2021.OA2866 e 2. Doença Pulmonar Obstrutiva Crônica (DPOC). Centers for Disease Control and Prevention.

Definições de Termos-chave:

DPOC (Doença Pulmonar Obstrutiva Crônica): Um grupo de doenças pulmonares caracterizadas por estreitamento das vias respiratórias, fluxo de ar restrito e dificuldades respiratórias.

NLP (Processamento de Linguagem Natural): O campo da ciência da computação que lida com a análise, compreensão e geração de linguagem humana por computadores.

PubMed: Um banco de dados gratuito contendo resumos e artigos científicos sobre medicina.

Google Scholar: Um mecanismo de busca na Internet que indexa literatura científica de várias áreas.

ClinicalTrials.gov: Um registro de estudos de pesquisa clínica conduzidos pelo National Institutes of Health nos Estados Unidos.

INCEpTION: Uma ferramenta usada para anotar entidades e relações em texto.

BioBERT: Um modelo de NLP baseado em BERT (Bidirectional Encoder Representations from Transformers), especificamente treinado para dados do domínio médico.

ClinicalTransformers: Um modelo de NLP baseado em transformers, usado para análise de dados médicos.

GPT Models: Generative Pre-trained Transformers (GPT) é uma família de modelos NLP

The source of the article is from the blog publicsectortravel.org.uk

Extração Automatizada de Dados Clínicos em Estudo sobre Doença Pulmonar Obstrutiva Crônica (DPOC)

Roman Głogulski

Latest Posts

A Próxima Onda Tecnológica: A África Está Pronta para uma Revolução de Banda Larga?

Este é o Futuro do Acesso à Internet? Descubra o Novo Experimento Ousado da T-Mobile

Descubra o Transformador na Conectividade Empresarial

Desbloqueando Lucros: Os Vencedores Inesperados na Revolução 5G

Revolucionando o Transporte: O Transformador 5G Que Você Nunca Ouviu Falar

Você Não Vai Acreditar no Que Este Novo Celular Tem a Oferecer

Novas e Melhoradas Funcionalidades de Inteligência Artificial para Sete Modelos Samsung Este Ano

Temporada de Conquista do Diablo IV: Prepare-se para Novos Perigos

Latest from News

A Próxima Onda Tecnológica: A África Está Pronta para uma Revolução de Banda Larga?

Parceria Exclusiva Pronta para Revolucionar a Conectividade

A Jogada Ousada da Argentina: Um Agente Transformador para a Conectividade 5G

Descubra a Revolucionária Transformação Que Está Acontecendo Neste Importante Porto Chinês

Descubra Como Esta Parceria Inovadora Pode Mudar Sua Experiência na Internet Para Sempre