《中国循证医学杂志》
0 引言
循证医学(Evidence-based Medicine)是一种临床实践方法,通过主要证据(如随机对照试验(RCT)的结果)为医疗决策、课题研究提供信息。医生或相关从业人员在进行循证医学实践时,需要有效地获取这些证据的信息,检索并分析与特定临床主题相关的文献。循证医学从业者在判断RCT 是否与给定问题相关时会使用特定的标准,通常为PICO 标准。而随着医疗资料的海量增长,人工地根据PICO 标准从海量的医学资料中筛选出合适的医学文献作为研究依据也越来越耗时耗力,想要精准、快速地筛选、获取合适的文献更是尤其困难。因此,医学文献中PICO 元素检测受到越来越多的重视。PICO 元素检测是循证医学领域一个重要且具有挑战性的任务,目标是从非结构化文本(摘要或全文)中检测出包含PICO 元素的句子或者短语,检测出的这些信息可以以多种方式加以利用,例如,提高搜索性能,以结构化方式查询特定类别,帮助用户更快速地根据特定的PICO 标准做出判断。
1 PICO元素检测的定义
在循证医学中,精心设计的、结构化的文档和问题可以帮助医生有效地收集合适的资源并找到最佳的医学证据[1]。实际上,临床研究和临床问题总是明确或隐含地包含四个方面:对象/问题(Population/problem,P)、干预(Intervention,I)、比较(Comparison,C)和结果(Outcome,O)。利用这种结构来帮助大型医学引用数据库中医学证据的信息检索(IR)是流行且有利的[2-4]。PICO元素检测即是自动检测出医学文摘中包含PICO 元素的句子或者短语,来帮助医生或相关从业人员进行医学证据的检索,以便为其拟议的研究自动筛选出可能相关的文章。如例句1,P 元素为“middle-aged women suffering migraines”(患有偏头痛的中年妇女),I 元素为“Botulinium toxin type A”(A 型肉毒杆菌毒素),C 元素为“placebo”(安慰剂),O 元素为“decreasing migraine frequency”(降低偏头痛频率)。
2 PICO元素检测研究现状
2.1 基于规则的方法
Demner 和Lin[5]在2007 年首次提出了PICO 元素检测任务,并提出了一种使用人工制定的模式匹配规则和统计分类器的方法,来检测医学摘要中与PICO 元素相关的句子或短语。基于对统一医学语言系统(UMLS)中领域的理解,该模式匹配规则使用了由MetaMap 标记的生物医学概念和SemRep 抽取的概念之间的关系。实验显示该方法可以将相关的摘要放到较高的排名位置,帮助循证医学从业者检索出相关的文章作为医学证据,检索效果大大优于PubMed 提供的基础检索。
2.2 基于机器学习的方法
基于规则的方法需要大量的人工操作,并且无法覆盖所有的语言规则,存在耗时耗力、覆盖率低的缺点。与基于规则的方法相比,基于机器学习的方法不需要人工构造、更新大量的规则,因此,许多著名的机器学习技术被用于PICO 元素检测任务。
首先,Hansen 等人[6]在2008 年提出了使用支持向量机(SVM)进行监督分类以提取试验参与者的数量,该方法着重于提取试验参与者的总数,使用了一个二分类器对摘要中的整数进行分类,正类代表试验参与者人数,负类代表所有其他候选人数。该方法存在很大的局限性,只针对摘要中的试验参与者的总数进行抽取。Boudin 等人[7]在2010 年利用统计特征(如句子的位置、句子长度、标点符号的数量、句子中含有的数字的数量等)和基于知识的特征(如提示词的数量、提示动词的数量、MeSH 语义类型等)将每个句子转化为一个特征向量,在不同的分类器(如随机森林(RF)、支持向量机(SVM)、朴素贝叶斯(NB)、多层感知机(MLP)等)上进行了实验,实验结果表明MLP 优于其他的分类器,且他们发现大多数重要信息都包含在每一节的第一句话中。
上诉工作都把PICO 元素检测看成是多个二分类任务,使用单个分类器一次对一个类别进行分类,为了检测所有的PICO 元素,需要构建和训练四个独立的分类器,这是很低效的。此外,这种多个二分类的方法很难消除不同分类器对同一句子预测的标签的冲突。2011 年,Kim 等人[8]直接对EBM 感兴趣的标签进行了处理,将PICO 元素检测看成多标签分类任务,而不是二分类任务,并将与PICO 元素无关的句子标记为other,解决了多个二分类的限制。他们利用词汇、语义、结构、顺序等信息,使用条件随机场(CRF)进行多分类的PICO 元素检测。其中,词汇特征包括词袋、二元词组等;语义特征,使用统一医学语言系统(UNLS)的元词表中提供的一系列本体,用来捕捉医学术语之间的语义关系;结构特征为句子在摘要中的位置(绝对位置或相对位置);序列特征:利用文本中不同句子之间的依赖关系,特定部分(如,背景)的句子通常连续出现,在判断当前句子的类别时,可分析摘要中前句的类别来进行推断。之后,Dympna 等人[9]在2013 年利用医学摘要中嵌入的结构信息对数据集进行了扩展。他们发现一些作者在编写摘要时,明确地标出了一些特定的小标题,如“patient”(患者)、“sample”(样本)、“outcomes”(结果)等,这些特定的小标题可以用来定位对应的PICO 元素句子。因此,成千上万个来自PubMed 数据库的包含了PICO 元素的摘要可以被自动地处理为一个注释良好的数据集,能够将数据集的大小增加两个数量级。使用这样大规模数据集能够训练出更好的模型,模型的泛化能力也能有进一步地提升。