Wprowadzenie

在医学研究领域,从科学文章中提取相关临床数据是一项关键但具有挑战性的任务。Therapyte的一项研究旨在评估各种自然语言处理(NLP)模型,以自动化从广泛的科学文献中提取有关慢性阻塞性肺疾病(COPD)的重要信息。

COPD包括引起气道阻塞和呼吸困难的各种疾病,包括肺气肿和慢性支气管炎。欧洲约有3650万人因COPD而呼吸困难,数百万人尚未被诊断或未得到治疗。医学文献的快速增长需要使用高效的工具来提取相关的临床数据。因此,这项研究着重于识别和评估不同的NLP工具,以分析关于COPD的文献,以简化数据提取过程并提高搜索准确性。

方法论

该研究包括以下几个阶段:

A. 文章提取:在此阶段,根据PubMed、Google Scholar和clinicaltrials.gov等各种来源中的疾病分类,过滤文章和数据。

B. 文章选择:在此阶段应用了额外的标准,包括治疗选择、年龄、疾病类型、性别和临床试验阶段。

C. 实体和关系识别:初选模型的质量不足以满足项目目标。为了提高质量,模型在特制数据集上进行了训练。使用INCEpTION对实体和关系进行了注释。收集的参数包括肺功能检测、α-1抗胰蛋白酶测定、脉搏血氧测定、动脉血气分析、靶向药物剂量和药物类型。

D. 微调和训练:在此阶段,模型在准备好的数据集上进行训练和微调,以最大限度地发挥其效果。在项目中测试了以下NLP模型:ClinicalTransformer模型、SynSPERT模型、BioBERT模型、EHR模型、RoBERTa模型、Electra模型和GPT模型。

E. 推理和评估:对微调的模型应用于所有文章,并对结果进行评估。如果结果不令人满意,则重新执行C和D阶段。

面临的挑战

该研究面临了几个挑战:

A. 表格数据表示:自动解析表格数据证明是一个困难的任务,需要手动干预。

B. 临床事件检测:在模型中,区分临床事件和改进之间的差异并不明显。

C. 罕见参数:某些医学术语的罕见性使得训练模型的过程更加复杂。

结果

当前研究表明,模型在特定类型的任务中表现更好。没有普适模型在所有类型的任务中表现最好。然而,在医学领域数据培训的BioBERT模型在实体解析方面取得了最佳结果,平均F1分数达到0.75。实体提取的质量强烈依赖于在文章中的频率,这影响了训练数据集的质量。例如,对于频繁出现的实体,F1分数显著更高,达到0.9。至于解析常见的实体关系,ClinicalTransformers模型表现最佳,F1分数达到0.83。该模型由SynSPERT模型支持,在识别独特关系方面表现出色,F1分数为0.76。

总结与未来方向

总之,BioBERT和ClinicalTransformers模型表现出了最高程度的准确性。GPT模型(GPT 3.0之前)在该研究中仅用于特定任务,因为当时它们并不那么受欢迎。GPT模型在从科学文章中解析临床数据方面的广泛应用似乎有着良好的前景。

参考资料:

1. Adam Benjafield、Daniela Tellez、Meredith Barrett、Rahul Gondalia、Carlos Nunez、Jadwiga Wedzicha、Atul Malhotra(2021)《European Respiratory Journal》58: OA2866;DOI:10.1183/13993003.congress-2021.OA2866

2. 慢性阻塞性肺疾病(COPD). 美国疾病控制与预防中心. 检索日期:2023年12月20日, 地址

关于Therapyte

Therapyte提供广泛的实际世界证据(RWE)解决方案,通过访问数百万电子健康记录,开发独特的人工智能算法,用于从数百万电子健康记录中收集和选择数据。公司内部开发的基于人工智能的工具用于数据清理、选择、协调和验证,以生成全面研究项目所需的信息。为了提取有价值的数据集,公司在欧盟、欧亚经委会(EAEU)、中东和北非(MENA)以及亚太地区建立了广泛的医疗组织和数据提供商网络。了解更多信息,请访问 therapyte.com。

常见问题解答:

1. Therapyte的研究的目的是什么?
该研究的目的是评估各种自然语言处理(NLP)模型,以自动化从广泛的科学文献中提取有关慢性阻塞性肺疾病(COPD)的重要信息。

2. COPD相关的主要疾病有哪些?
COPD包括肺气肿、慢性支气管炎等一系列导致气道狭窄和呼吸困难的疾病。

3. 研究中遇到了哪些挑战?
研究中遇到的挑战包括自动解析表格数据、区分临床事件和改进之间的差异以及某些医学术语的罕见性。

4. 哪些NLP模型表现最佳?
BioBERT模型在实体解析方面取得了最佳结果,而ClinicalTransformers模型在解析实体关系方面表现最佳。

5. 研究的未来发展方向是什么?
研究的未来方向包括在从科学文章中解析临床数据的过程中进一步应用GPT模型。

6. 文章中提供了哪些参考资料?
提供的参考资料为:1. Adam Benjafield、Daniela Tellez、Meredith Barrett、Rahul Gondalia、Carlos Nunez、Jadwiga Wedzicha、Atul Malhotra(2021)《European Respiratory Journal》58: OA2866;DOI:10.1183/13993003.congress-2021.OA2866,2. 慢性阻塞性肺疾病(COPD)。美国疾病控制与预防中心。

关键术语定义:

COPD(慢性阻塞性肺疾病):一组肺疾病,其特征为气道狭窄、气流受限和呼吸困难。

NLP(自然语言处理):计算机科学领域,处理分析、理解和生成人类语言的技术。

PubMed:一个免费的数据库,包含有关医学的摘要和科学文章。

Google Scholar:一个互联网搜索引擎,索引各个领域的学术文献。

ClinicalTrials.gov:美国国立卫生研究院进行的临床研究的注册数据库。

INCEpTION:用于对文本进行实体和关系注释的工具。

BioBERT:基于BERT(双向编码器转换器)的NLP模型,专门针对医学领域数据进行训练。

ClinicalTransformers:基于转换器的NLP模型,用于分析医学数据。

GPT模型:生成式预训练转换器(GPT)是一系列用于自然语言处理的模型家族。

The source of the article is from the blog windowsvistamagazine.es