欢迎来到专业的体外诊断原材料信息平台

当前位置> 首页> 技术文章>

刘博谈评估|评估测试的性能

从这一部分开始,我们来介绍了诊断试验评估中的核心问题:如何评估测试的性能。


如图2.2所示,一项检验的灵敏度和特异性决定了它对疾病概率的影响,因此,如何解释该测试结果,决定了该测试的性能是否合适。

图2.2 | 测试灵敏度和特异性对测试后概率的影响

图2.2a | 从45度线上方的系列曲线可以看出,测试的假阳性率(用FP表示)是决定测试阳性后的测试概率的重要因素。然而,假阳性率对测试结果为阴性后的测试概率的影响非常小,如45度线下方的系列曲线所示。

图2.2b | 测试灵敏度(用TP表示)对测试结果为阳性后的患病概率影响相对较小,如45度线上方的系列曲线所示。然而,它确实影响到测试结果为阴性后的患病概率,如45度线下方的系列曲线所示,特别是当测试前患病概率很高时。


衡量一项测试的灵敏度和假阳性率的研究很重要,但很难进行。许多研究只适用于狭义的患者,在不同的机构对同一测试的研究可能导致不一致的结果。


例如,计算机断层扫描(CT)经常被用来确定新发现的肺癌的范围,从而确定切除癌症是否有机会治愈患者。如表2.1所示,对肺癌患者的CT研究的调查显示,结果有很大差异。

图2.3 | 显示了测量的测试性能特征的这种广泛差异的后果:如果CT扫描结果为阳性和和阴性,纵隔转移的概率。


在测试前患病概率为50%的情况下,用于计算测试后患病概率的数据取自表2.1中的两项研究,根据使用的是哪项研究,对测试的解释有很大不同。


在使用研究A数据的情况下,可以对测试后患病概率得出较大的变化,那么医生就可以按照下面的方法对测试结果进行解释:如果测试结果为阳性,则表明存在疾病,如果测试结果为阴性,则表明不存在疾病。


而如果使用研究B的数据,人们无法从测试结果中得出任何结论,因为疾病的概率因测试结果而变化很小。这个例子有力地说明了临床决策可以在多大程度上依赖于高质量的检验性能研究。

图2.3 | 测试后纵隔转移的概率。测试前患病概率为0.5。研究A和研究B表示对CT扫描测试纵隔转移的性能的两项研究。测试后患病概率是用贝叶斯定理计算的,使用两个研究中的真阳性率和假阳性率。


在讨论测试性能特征的测量时,首先要描述描述和解释测试性能研究中的一些术语。一个典型研究的设计如下:一系列患者所接受的金标准检测和考核测试,金标准测试被认为是患者真实状态的一个完美指标。结果显示在表2.2中。


表2.2 | 测试性能评估试验


注意:真阳性率(灵敏度)=A/(A+C);假阳性率=C/(A+C);假阳性率=B/(B+D);真阴性率(特异性)=D/(B+D)。


大多数测试性能研究的主要问题是,临床相关人群与研究人群不同,研究人群是指参与评估测试性能的患者,通常是临床相关人群中的一部分。


选择性转诊可能导致接受测试的临床相关人群中只有3%被转诊为金标准测试。在设计测试性能研究前,研究人员需要针对以下问题进行回答。


01 研究人群中的患者是否与临床相关人群中的患者密切相关?

在试验的早期,这两组人之间的差异可能特别突出。


无病的受试者往往是正常的志愿者,对他们来说,测试的假阳性率将低于临床相关人群的预期。


患病的患者往往确实病得很重,因为研究的一个早期目标是确定测试可以测试疾病,如果只包括病情最重的患者,真阳性率将高于临床相关人群。


02 诊断测试结果为阳性是将患者进行金标准测试的前提吗?

理想情况下,答案是否定的,诊断测试和金标准测试应该没有强关联性,那些需要进行金标准测试的患者,往往是由于其他症状的原因才需要进行,而在金标准测试执行前,出于成本或操作等其他原因考虑,才需要进行诊断测试。


实际情况下,医生更倾向于将诊断测试结果为阳性的患者,而不是阴性的患者进行金标准测试,因为后者往往被认为是未患有疾病的患者。


所以如果将诊断测试结果为阳性定义为患者进行金标准测试的前提,那么会存在较大的偏差,真阳性率和假阳性率都将高于临床相关人群的预期。


03 如果诊断测试或金标准测试需要目视解释,观察者是否对患者的所有其他信息保持设盲状态?

当观察者对一个测试的解释受到另一个测试结果的影响时,两个结果之间的一致性可能会增加。


测试审查偏差指的是由知道金标准测试结果的人解释诊断测试的情况,诊断审查偏差指的是相反的情况,即金标准测试是由知道诊断测试结果的人解释的。


这两种偏见都会增加真阳性率,减少假阳性率。


4、测试的真阳性率和假阳性率是在临床上相关的患者分组中测量的吗?

大多数的研究对象都包含了一系列的患者,他们的疾病状态在临床严重程度上都有所不同。


真阳性率和假阳性率的平均数字可能掩盖了亚组之间的临床重要差异,例如,广泛疾病患者的真阳性率可能高于早期或轻微疾病的患者。


理想的研究应该提供了临床上定义的每一个亚组中的真阳性率和假阳性率。


5、是否测量了观察者之间的分歧?

专家们对图像的解释常常有分歧,两位临床医生可以对同一个问题提供不同的答案。


哪种解释是可信的?研究方案应规定由两名或多名观察者独立解释研究数据,并计算观察者之间的分歧。


6、金标准测试是对患者真实状态的准确测量吗?

灵敏度和假阳性率应该是衡量一项测试预测患者真实状态的能力。


事实上,它们是对诊断测试预测金标准测试结果的能力的衡量,如果金标准不能完美地反映患者的真实状态,人们将无法将测试结果解释为对疾病的测量。


7、研究人群的描述是否足够仔细,以便与临床相关人群进行比较?

研究人群的人口统计学和临床特征必须足够详细,以便确定研究结果是否适用于特定临床环境中的患者。


8、选择阳性结果的定义。

大多数关于测试性能的研究都是根据连续变量的单一临界值来定义灵敏度和特异性,但当检验结果被定义为二分法变量,如“阳性”和“阴性”时,可能会丢失很多信息。


许多测试结果被表述为连续变量,如血清中肌酸磷酸激酶的浓度。血清中肌酸磷酸激酶浓度很高,比血清中仅高于正常上限的浓度更能说明心肌梗死的情况。


当知道连续尺度上每一点的灵敏度和特异性时,可以计算出任何测试结果的测试后概率。


9、系列截止点的真阳性率和假阳性率之间的关系可以用图形表示。


该图被称为接受者操作特征(ROC)曲线,ROC曲线首先被用来表示雷达系统在区分战机和雷达屏幕上其他物体的性能,图2.4是运动心电图的ROC曲线。


ROC曲线用图形表达了一个基本规则:当你调整截止点以测试更多的疾病患者时,你不可避免地将更多的非疾病患者标记为有疾病。


例如,图2.4中的ROC曲线显示,当我们选择2.5mm ST段压低作为阳性结果的定义时,很少有假阳性结果。


然而,很少有冠心病患者在运动心电图上有如此极端的结果,如果选择这个分界点,会有很多假阴性的结果。


而选择1毫米的ST段压低来定义异常结果,可以测试到更多的疾病患者,但假阳性结果远远多于选择2.5毫米ST段压低时的结果。

图2.4 运动心电图作为显著冠状动脉疾病的预测指标的ROC曲线。数字代表ST段压低的程度(以毫米为单位),用来定义运动心电图测试的结果为阳性。


如何选择ROC曲线上的最佳分界点?最佳点是由疾病的预检概率(p[D])和把未患病的患者当作患病来治疗的成本(C)与治疗患病患者的收益(B)的比率决定的。



对于接近原点的点,ROC曲线的斜率相对较陡,这时真阳性率和假阳性率都很低。


当疾病比较少见或治疗比较危险时,临床医生应选择靠近原点的分界点,这种选择将有助于尽量减少假阳性结果的数量和对未患病患者的危险。


ROC曲线的斜率在右上角附近是平的,这里的真阳性率非常高,假阴性结果不常见,临床医生应该在患者非常可能患病或治疗安全有效的情况下,选择这个区域的Cutoff值。


在假阴性结果非常有害的情况下,这种选择会使假阴性结果最小化。

作者:认真的刘博

责编:安悦


信息来源:诊断科学

声明:本来源的稿件均为转载,仅用于分享,如涉及版权等问题,请尽快联系我们,我们第一时间更正或删除,谢谢!



返回顶部