欢迎来到专业的体外诊断原材料信息平台

当前位置> 首页> 技术文章>

验证|检测方法性能评价中的统计学,如何使用CLSI文件 EP.8

方法评价取决于使用统计学来总结数据,定量评估性能,并允许得出有意义的结论。


熟悉基本的统计学概念是很重要的,特别是最基本的精密度和偏差的概念,这是所有性能评价的核心。


其他一些重要的评价统计是在不精密度和偏差成分的基础上计算出来的,包括检测能力、测量区间验证、参考区间和诊断的一致性。


了解一些评价研究中广泛使用的基本统计术语是很有帮助的。本附录根据这些术语的实际使用情况,对其进行了简要介绍。表1中总结了CLSI的相关文件及其一些关键特征。


1、统计学的作用


如果研究设计复杂或需要确定样本数量,咨询统计学家可能是值得的。根据机构的不同,统计学家可能并不总是容易找到。


熟悉医学或生命科学研究的统计学家可以通过一些学术机构、其他协会或个人获得。


对验证和核实的要求、影响样本数量的因素等有一定的了解,会使我们与统计师的沟通更有成效,并产生更好的研究设计。一个合格的统计学家将能够协助方法评估的以下部分:

  • 确定研究的目标

  • 研究设计、研究使用/执行、分析计划和结果报告

  • 构建性能估计、置信区间(CI)和/或假设检验

  • 确定绩效目标所需的样本数量

  • 对受试者/样本的战略性使用

  • 确定主要和次要终点


表1|性能评估的一些要点

注:所列的研究设计可能需要修改。例如,在某些情况下,研究可能需要考虑到可能以不寻常的方式影响检测方法的特定因素。


2、精密度和不精密度


精密度反映了多个测量结果的一致程度。精密度高的检测方法的复制值紧密地聚集在一起,尽管那些精密度较低的检测方法显示出更多的一致性变化。精密度以不精密度表示,以SD表示,或以变异系数百分比(%CV)表示,即SD除以平均值。


对于一个检测方法,可以评估不同类型的精密度,每一种都反映了一组特定的测试条件。


重复性,以前被称为运行内精密度,是这些条件中最基本的。它反映了在所有实验因素尽可能保持不变的情况下,一个测量过程的内在变异性。


一个例子是对一个样品进行的10次重复测量的不精密度,使用相同的仪器系统、试剂批次、校准等,用一次短时间的运行来处理。


另一个估计是实验室内精密度,它建立在重复性的基础上,通过延长研究时间来纳入日常的变异性,同时保持其他实验因素不变。


到目前为止,重复性和实验室内精密度是检测方法性能研究中最常见的精密度类型,特别是对于产品声明和检测方法性能相关文件。


如CLSI文件EP05和EP15中所述,这两种精密度类型都可以从单一实验中确定,通过使用方差分析(ANOVA)的统计方法来估计方差成分。由此得出的精密度估计值可使用卡方统计分析法与验收标准进行比较,以确定观察到的性能是否可以接受。


3、正确度和偏


测量正确度是指无限多的重复测量量值的平均值与参考量值之间的接近程度。正确度用偏差来表示,偏差是对调查性检测方法与参考或比较程序的系统测量误差的估计。


可能有一个或多个系统误差成分导致偏差,例如,来自干扰物质或结转的误差、校准差异、试剂批次间的差异、基质效应和其他原因。


由于系统误差的来源不止一个,对于一个特定的测量来说,观察到的偏差代表了所有这些因素的净影响。偏倚是以测量单位或测量物含量的百分比(%bias,偏倚除以参考值)来量化的。


4、准确度


准确度是指测量的量值与被测物的真实量值之间的接近程度(见CLSI文件EP10)。它反映了检测方法中所有随机和系统误差源的综合贡献。当一个测量提供了较小的测量误差时,可以说是更准确的。


5、不确定度


对偏差的估计可以通过「自上而下」、「自下而上」或「点估计」的方法获得。


「自上而下」的方法提供了一个整体的评估,即在一个确定的测量物含量区间内由多种原因造成的观察到的偏差。这种方法的一个例子是CLSI文件EP09和EP21中描述的与病人样本实验进行的方法比较。


「自下而上」的方法是对个别实验因素对观察到的偏差的贡献进行定量,例如,干扰、试剂批次间的变异性和校准间的变异性。CLSI文件EP07,EP10,EP14,EP26,和其他文件中描述了此类研究的例子。


「点估计」的方法是将偏差评估为已知测量物含量的参考材料的回收率。这种方法与「自上而下」的方法类似,因为多种因素可能会导致整体观察到的偏差,但它产生的信息只是在单一的测量物层面。


CLSI文件EP29定义了不确定度和估计不确定度的两种方法。


测量的不确定度是与被测物相关的误差。不确定度可以通过两种方法估计,「自下而上」或「自上而下」。


a) 自下而上


在定义了测量值Y=f(X)的函数后,Y的不确定度可以通过函数的适当变换和变量X的不确定度来定义。X的不确定度可以通过两种方法估计:

  • A型:变量X的不确定度是通过对X的重复测量来估计的。

  • B型:变量X的不确定度可以从文献或生产厂家的插入声明中获得。在某些情况下,可能需要对变量X的概率分布进行假设或说明,以推导出变量X的标准不确定度。


b) 自上而下


自上而下的方法是一种直接的方法,即通过直接测量被测物来估计不确定度,并包括所有的测量变异源:试剂批次、校准、操作者等。


它可以使用多因素和多层次的设计以前瞻性的方式进行估计,也可以从长期的QC数据中进行估计。


在第一种情况下,这种设计将有助于估计研究的设计因素的不确定度,即方差成分。在第二种情况下,可能会出现混杂现象,可能无法估计不确定度的各个组成部分。


CLSI文件EP05提供了设计和分析多因素、多层次精密度研究的指南。


6、术语概述


6.1        样本统计和总体参数


通常,统计学测试涉及一些抽样,并假定所观察到的检测方法结果的样本对总体有相当的代表性。样本统计是通过使用一组确定的测试材料从检测方法中观察到的有限数量的结果计算出来的(例如,对单一控制材料进行的n=20次重复测量的样本平均值和SD)。


在这里,平均值和SD被称为样本估计值,因为它们是由一组样本检测方法结果计算出来的,而这一组样本检测方法结果的数量是无限的,可以得到。


相比之下,总体参数是这些参数在所有可能获得的检测方法结果的无限数量中的基本真实值。因此,这些参数永远无法被计算。样本统计是对其相应的总体参数进行估计的尝试。样本统计量和其总体参数之间的差异被称为抽样误差,或近似误差。统计学的一个关键目标是减少和量化抽样误差。


统计术语中的不同符号被用来区分总体参数和样本统计估计。一般的规则是用希腊字母表示总体统计,用罗马字母或缩写表示样本统计。一些典型的例子是μ(总体)与x̅(样本)表示平均值,(总体)与SD(样本)表示不精密度。


6.2        设计性研究和因素


设计性研究这一术语用于指定一个实验方案,该方案的制定是为了专注于感兴趣的特定变量,将固有的实验误差源的影响降到最低,并提供可以支持已知信心的客观结论的统计结果。在这些研究中,有两类变量:输入(因素)或自变量,以及输出(反应)或因变量。单个因素以及它们的多种相互作用可能会对每个反应的行为产生影响。


例如,考虑一项研究,以确定血红蛋白是否会干扰白蛋白的检测方法。一些实验因素是加标溶液的血红蛋白浓度、测试样品的白蛋白浓度、加标溶液和样品的体积,以及执行检测方法的温度。值得关注的一个关键反应是在有和没有添加血红蛋白的情况下观察到的测试样品的白蛋白含量。


因素可以是定量的(例如,pH6.4)或定性的(例如,仪器A)。研究设计可能要求每个因素有一个或多个设置(水平)。EP051的标准精密度评估研究采用了一种设计的研究,其中有两个因素(天数和每天的运行)和每个因素的多个水平(20天,每天两次运行)。


6.3        假设检验


许多研究可以归结为一个简单的「是」或「不是」问题。如果改变一些实验因素,反应的行为是否有明显的变化?考虑一下上面引用的血红蛋白干扰研究。通过对一个对照样品和一个加标样品的测量,可以计算出每个样品的平均值。血红蛋白的存在是否会影响检测方法的问题可以表示为一对相反的结果或假设。


这里,Ho代表无效假设,即实验因素的变化(加入血红蛋白)对检测方法没有显著影响。Ha,替代假设,代表相反的结果--血红蛋白的存在确实会导致观察到的反应发生重大变化。


假设检验是指使用设计好的实验和随后的统计数据分析技术来拒绝或不能拒绝何结果。此类研究的结果包括计算相关统计数据的估计值,用它们来支持Ha假设,并提供关于结论可靠性的信息。


6.4        置信区间


CI是计算出的界限,据说它以一定的概率掌握了样本中被测物的真实浓度/活性。


例如,假设N=20次葡萄糖参考检测方法的重复,得到的平均浓度为110 mg/dL,SD为11 mg/dL。95%的CI为105至115 mg/dL。可以得出结论,该区间以95%的概率包含了真实浓度。


注意:在这里,「真实浓度」指的是用指定的检测方法进行无限次测量后得到的平均浓度。


6.5        统计能力和样品数量


一项研究的功效是指当备选假设为真时,拒绝无效假设几何的概率。一项研究的功效随着样本数量的增加而增加。


例如,要检验浓度相等(Ho)与不相等(Ha)的假设。


经计算,检测差异(d)的所需样本数(功率=0.90)可能是20。这意味着,如果存在真正的差异d,研究将产生一个大于零的平均差异浓度,并且平均差异的95%置信度的下限将大于零,概率为0.90(功效)。


一项研究可能并不总是引用假设检验,在这种情况下,可以计算样本的数量来估计真实的浓度,作为区间和声明的信心。在上述案例中,如果N=20,葡萄糖浓度的95%CI可能是105到115mg/dL;如果N=40,则是108到112mg/dL,等等。样本数越多,标准误差越小,CI也越窄。


6.6        方差分析


方差分析对变异性的来源进行量化。其最简单的应用是确定多个组的平均值之间的差异是否比组内的差异造成更多的变异,就像t检验确定两个组的平均值是否不同一样。在其他应用中,如EP05、EP15、和EP29中的应用,方差分析被用来将整体测量变异性划分为可归因于实验设计因素的组成部分。例如,EP15关注的是检测方法结果的可重复性或一致性,当存在小的差异时(例如,相同的操作员、检测方法、设备、时间和实验室)。另一方面,EP05得出的可重复性估计值包括现场与现场之间的差异和操作人员之间的差异的影响。


6.7        回归分析


回归分析是另一个广泛使用的统计数据分析技术系列。它用于将响应变量作为第二个、第三个或更多变量(预测因子或因素)增加值的函数来建模。得到的回归模型描述了响应变量和预测因素之间的关系。选择适当的回归模型和拟合算法主要取决于基础数据的行为。常见的用途包括评估一个既定的检测方法和一个正在引入临床实验室的新检测方法之间的关系,如EP09中所述,以及用于评估体外诊断产品的稳定性,如EP25中所述,以及测量的线性,如EP06中所述。



来源:诊断科学 

声明:本平台注明来源的稿件均为转载,仅用于分享,不代表平台立场,如涉及版权等问题,请尽快联系我们,我们第一时间更正,谢谢!


返回顶部