验证｜临床验证研究的数据分析和报告，刘博谈验证 Ep.38

4.4、数据分析

在设计验证的数据分析阶段时，功效和效果之间的选择很重要。

在疗效研究中，检测解释必须尽可能的准确、一致和客观。

理想的研究将包括对诊断技术检测和金标准的多种解释，以确定观察者之间的差异性。

在有效性研究中，检测的解释将与通常的临床实践一样。解释的程序不一定是标准化的。

4.4.1、准确性

许多因素影响数据解释的准确性。有些因素，如医生的疲劳，很难控制。

一项早期研究的数据表明，在最初的1000次身体扫描后，放射科医生使用CT检测胰腺癌的情况有了很大改善。

医生的技能随着经验的增加而提高，清楚地表明了学习曲线的重要性。当医生的经验有限时，对新检测的早期估计准确度可能比该方法的潜在准确性更能反映他们的解释能力。

4.4.2、一致性和多种检测的解释

保证一致性的最好方法是由同一观察者对某一特定技术的所有检查进行解释，并对异常检查结果进行标准化的定义。

理想情况下，所有使用不同方法的解释者应该具有相似的经验水平，ROC分析适用于验证以连续变量表示结果的检查。

在一项大规模的研究中，数据分析可能需要专家（如放射科医生）的全职投入。

要找到一个愿意为研究投入这么多时间的人可能很困难，同样也很难招募到至少需要重新解释部分检查以确定观察者间差异的专家小组。这些人的参与应该尽早征集，他们的时间应该成为项目的预算开支。

4.4.3、客观性

如何获得解释的客观性？

对同一患者进行不同检查的人之间不能有交集。解释诊断技术检测结果的医生应该对金标准的结果保持设盲，以避免检测审查偏见；同样，解释金标准的医生应该对诊断技术检测的结果保持设盲，以避免诊断审查偏见。

这两种类型的偏见都会导致高估诊断技术检测的真阳性和假阳性率。对诊断技术检测结果和金标准检测结果的设盲是绝对必要的。

然而，大多数关于诊断性检测的研究报告并没有表明采取了这种预防措施。

在疗效研究中，设盲是确定检测准确性的最客观方式。

然而，在没有获得所有相关临床数据的情况下，根据检测结果对患者的护理做出决定，这在道德上可能是不妥当的。

在有效性的研究中，解释将取决于临床信息和特定影像检查所产生的信息的结合。这种方法虽然不太客观，但也是临床实践中使用的方法。

一项研究的设计可以适应“理想”和“通常”条件下的数据分析。应该有两个独立的数据分析：一个（非设盲）解释用于患者护理（从而用于有效性），另一个（设盲）用于疗效研究。

一般来说，如果我们把研究解释和与患者护理有关的解释分开，我们就可以使观察者对所有其他数据的设盲更符合伦理。

4.5、报告

一个执行良好的诊断技术验证的临床效用取决于是否能成功地将结果传达给使用这些检测的医生。

此外，META分析，一种综合了已发表报告中的建议的技术验证形式，取决于对方法和结果的全面报告。

一份好报告有以下16个关键特征：

1) 对研究问题的精确陈述，包括任何有关特定亚组的事先假设，在这些亚组中检测的价值可能不同。
2) 完整描述研究人群、纳入和排除标准（如果使用的话），以及被拒绝或退出研究的患者，以便临床医生能够确定他们的患者与研究人群的比较，特别注意界定疾病严重程度的临床问题。
3) 入组日期，以便根据这段时间内可能发生的其他情况（如技术进步）来解释结果。
4) 对研究方案的详细描述，包括进行检测的方法（或有关方法的适当参考资料）和随机化的程序（如果适用）。
5) 说明可接受的Ⅰ型和Ⅱ型误差水平，以及检测研究终点的特定差异所需的样本量。
6) 介绍检测前变量的分布情况（对于随机研究），以便临床医生能够检查患者被分配到研究组的情况是否有偏差。
7) 说明对方案的遵守程度，并说明偏差及其处理方法。
8) 说明用于定义患者真实状态的参考标准，注意显示没有使用诊断技术检测结果（或用于临床预测规则的临床数据）来定义疾病和非疾病状态。
9) 诊断技术检测和金标准检测的结果（如果适用，用2乘2的表格），并进行适当的统计分析（例如，对于检测准确性的研究，如果结果可以表示为连续变量，则采用ROC）。
10) 亚组分析：在感兴趣的患者亚组中进行第9项检测的结果。
11) 随访结果（当患者结果为终点时），并酌情提供置信限、生命表分析或其他统计分析。
12) 对处理干预后退出和失去随访的患者的方法的描述。
13) 对用于避免检测转介偏差的方法的描述。
14) 描述对解释诊断技术和金标准检测结果的人设盲的方法。
15) 技术上不理想或被认为无法解释的检测的数量；
16) 研究的资金来源，以便于识别可能的利益冲突。

其中两个项目值得额外关注，因为它们可能是诊断技术研究中隐性偏见的来源。第8项是指“循环验证”的陷阱，在选择参考标准时必须避免这种情况。

当比较研究中的一项诊断技术检测的结果被用来定义患者的真实状态时，就会出现这种情况。为了获得对每项检测性能的有效衡量，必须对它们进行独立验证，使用不同的方法来验证疾病的存在或不存在。

上面列表中的第15项暗示了另一个潜在的偏见来源，诊断技术的研究报告很少包括被认为是无法解释或无法确定的检测结果的数量。

在对十篇关于CT的论文的审查中，只有五篇明确涉及到不满意的检查数量，然而，如果要判断疗效，这种信息是必不可少的。

例如，如果一项检查在100个患者中的70个患者中发现了肾脏病变，10个患者漏检，20个患者的检查结果在技术上不理想，那么总的敏感性是100人中的70人（70%）。

通常情况下，这20个质量差的检查被排除在外，报告的敏感性是70除以80（88%）。

因此，如果研究者没有考虑忽略质量差的检查的影响，真阳性和假阳性率可能会被人为地夸大。

4.6、总结

在本章中，我们研究了诊断技术临床验证的每个阶段所遇到的困难，从规划和设计过程到最终报告的产生。

其中一些问题的解决方案是相对简单的，例如，我们有方法来避免检测审查和诊断审查的偏见。

我们还知道，提高参与的个人和机构之间的合作水平将大大有助于改善研究的结果。

其他问题的解决方案，如何时进行验证或验证哪种应用，则不太明显。

在强调初级数据收集的一些障碍时，我们试图在未来的验证中避免这些困难。在提出一些未解决的问题时，我们希望能鼓励解决这些问题所需的研究，从而提高诊断技术验证的价值。

来源：诊断科学

声明：本平台注明来源的稿件均为转载，仅用于分享，不代表平台立场，如涉及版权等问题，请尽快联系我们，我们第一时间更正，谢谢！