刘博谈验证 这是刘博谈验证的第三十篇,在本篇中,我们来讨论诊断检测技术临床研究的理想情况是怎么样的。 5、诊断检测技术临床研究的理想情况 理想的技术研究中要获得的数据是由决策过程的诊断模型所要求的。根据预期价值决策的原则,临床医生必须知道疾病的检测前概率,并且必须能够计算出患者对每个决策选择的预期效用:不检测就治疗,做检测A,做检测B,或者什么都不做。 为了提供决策所需的数据,对诊断检测技术的研究应该: 5.1、制定临床预测规则以估计检测前的概率。 临床预测规则根据病史和体检及其他数据估计疾病的概率(见第二章)。为了制定临床预测规则,必须获得每个患者的完整的问题相关数据集,并做一个金标准的检测来定义他或她的真实状态。 在前瞻性研究中,这些数据很容易获得,只需花费很少的额外费用,就可以衡量一项检测的假阴性率和假阳性率。 5.2、测量诊断检测技术的假阴性率和假阳性率。 在一项比较几种诊断检测技术的研究中,每一种检测都应在研究中的每个患者身上进行,一种检测的结果将在其他检测的每一组结果下单独报告。 例如,假设对所有研究中的患者进行试验A和试验B。试验B的假阴性率和假阳性率将在试验A的阳性结果的患者和试验A的阴性结果的患者中报告。 5.3、报告几种不同检测结果的操作特点 一项研究应招收足够多的患者,以报告检测在显示越来越多异常结果的患者亚组中的准确性。结果应以接受者操作特征(ROC)曲线的形式报告。可以通过计算ROC曲线下的面积来比较检测,尽管更有临床意义的比较是在疾病概率的范围内,但该统计报告形式是首选形式。 5.4、提供一个诊断模型来确定首选方案 临床医生可以使用预期价值决策的原则来确定能使患者获得有利结果的机会最大化的决策。我们在第二章中介绍了预期价值决策的原则,以及设计决策模型或决策树的原则。 决策树要求人们估计机会节点的概率,这些概率通常来自于已发表的研究,但也可以从保险索赔数据的分析中获得。 决策树还需要对每个结果进行定量测量。这个衡量标准可以是预期寿命或患者偏好的衡量标准,如效用。每个研究患者对每个结果状态的效用将用标准的效用验证技术来衡量。 5.5、考虑治疗阈值的概率 对于许多问题,决策的阈值模型可以帮助医生决定是否治疗、暂停治疗、或做一个检测或一系列检测。医生可以用直觉来估计个别患者的治疗阈值,也可以使用第二章中描述的分析方法。 由于患者不同的结果偏好和不同的临床特征,治疗阈值将因人而异。 治疗阈值的分布将为医生估计个别患者的阈值提供一个基本的背景。如果治疗阈值的范围相对较窄,就可以对使用诊断检测技术提出一般性建议。 5.6、应避免患者选择上的偏差 在过去对诊断检测技术的临床研究中,研究人群与在通常医疗过程中接受检测的患者有很大的不同,这一缺陷是最重要的,也是最难解决的。 第2章包含了对导至研究患者谱系出现偏差的选择性力量的描述。这一缺陷导至检测的测量结果缺乏外部有效性,并可能严重误导临床医生。 如果可能的话,应该所有在习惯和常规做法中接受既定检测的患者都应被纳入研究人群。排除和纳入标准,如果需要的话,应该在研究方案中说明。 但其中最麻烦的选择因素是“工作偏差”。有几种方法可以避免这个问题:
5.7、应观察患者是否受到诊断检测技术的不良影响 大多数关于诊断检测技术的研究都没有包括除诊断之外的任何临床结果测量。除了注意到直接的并发症(手术本身造成的死亡和残疾)外,很少对不良事件进行统计。 不良事件,包括使患者对检测结果产生心理依赖,造成假阳性结果后需要进行昂贵的后续治疗,以及错误地将患者贴上疾病的标签(如误诊为新冠患者)等等,很少被统计。 所有的患者都应该被监测,以发现检测的任何延迟效应。前瞻性研究可以用少量的额外资源纳入这些重要的研究终点。临床研究CRA可以通过发放调查问卷和查阅患者的医疗记录对每个患者进行临床随访。 5.8、对数据的解释应无偏见 参考检测结果和金标准检测结果应独立解释,以避免一个检测的结果影响另一个的解释。 在一些已发表的报告中,每个检测都是独立解释的,但通常没有固定一个参考检测结果和金标准检测结果之间关系的解释。避免有偏见的解释的一个方法是有标准化的书面标准来对检测结果进行分类。 根据标准化的要求,应该独立解释金标准检测结果和每个被验证的检测结果。为了实现这一目标,需要执行和解释检测的临床医生的积极合作。 5.9、应衡量观察者之间的分歧 研究表明,观察者之间在将图像或描记标记为异常时往往存在很大的分歧,这在金标类试剂中很常见,但很少有对诊断检测的研究包括对观察者间分歧的测量。 所以在这一类检测技术的研究中,至少有两个人检测图像或描记,并根据前瞻性定义的标准对结果进行分类。这些检测结果的类别可以限于正常和异常,也可以包括几种程度的异常,其程度应以定量的方式描述。 5.10、应该有足够的患者来报告临床上有用的患者分组的结果 在很多诊断检测技术的研究中,招募的患者数量都不到100名,过低的数量使得无法验证检测在临床上重要的患者子集中的表现。 在很多的临床研究中表明,诊断检测的准确性在临床定义的患者亚群中是不同的。看起来病得很重的患者往往有明显的患病标志,一个检测可以很容易地发现。 但在没有病的患者中,疾病往往不那么明显,因此也不那么容易发现,应用在病重的患者身上得到的结果可能会导至对其他患者的检测结果的不正确解释。 所以一项研究应招收足够多的患者,以测量患者分组的检测性能,并应前瞻性地建立不同类别的疾病严重程度的标准,参考检测技术也应该同时在这些亚组以及整个患者群体中进行测量。 6、总结 本章的主要意义在于它提出了对诊断试验研究的期望,其中有几个基本原则:
|