刘博谈验证 这是刘博谈验证的第三十一篇,在本篇中,我们来讨论诊断技术临床验证的规划和方案制定。 在前面两部分内容中,我们提出了一系列对诊断技术进行理想研究的准则,本篇文章的目的是研究在设计和执行典型方案时经常遇到的实际困难。 同时我们还将简要讨论一些有关研究数据分析和报告的方法学问题。我们将讨论诊断技术验证的五个具体阶段:规划和方案制定、招募、实施、数据分析和报告。 4.1、规划和方案制定 设计一个合理的技术验证的关键是,在研究开始之前,我们已经建立了整个诊疗模型,并且明确了应该收集什么样的数据,数据将如何处理,相关决策模型已经建立好,研究应该是模型驱动的。 正如在第3章中指出,获得使模型可用的信息(即医生对个别患者的护理做出决定所需的数据)的最佳方式是在招募第一个患者之前对研究进行规划。 规划和方案制定阶段的内容是什么?必须解决哪些具体问题,如何解决这些问题?这些都与诊断技术的成本效益试验的计划有关,下面,我们来讨论一下该如何做。 首先,研究者必须明确界定研究的目标。必须提出一些关键问题:
对这些问题的回答将极大地影响方案的设计和要收集的数据的性质。因此,我们将更详细地考虑每一个问题。 4.1.1、选择一个合适的临床需求 一项诊断性成像技术有许多潜在的应用。例如, MRI检查可能用于250个诊断相关组(DRGs)。定义MRI在每个类别中的作用需要许多研究和巨大的时间和资源投入,但是社会可能没有能力去验证一项诊断技术的每一项应用,所以必须确定技术验证的优先次序。 图1|临床验证研究需考虑的问题 在选择诊断技术验证中要验证的临床问题时,以政策为导向的研究者会使用一些标准,如病情的频率、技术的成本以及研究结果对临床实践的潜在影响。 其他可能影响选择的因素包括检测对患者管理、结果的潜在影响以及现有诊断方法的缺陷等(图1)。研究者可以利用政策考虑来选择一个将产生重大社会影响的研究问题,但在开始研究钱,必须确定该研究是否可行。 研究的可行性取决于一些变量,如成本和是否有金标准。 开放性的问题和不明确的目标可能会限制可行性,例如,验证CT或MRI对“肝脏”的疗效忽略了胆道梗阻、肿块病变和弥漫性肝细胞疾病之间的明显区别。 每个主题都需要单独考虑。一项关于CT、超声(US)和闪烁术的前瞻性研究集中在检测几种原发癌的转移性肝病的能力,在这些技术的诊断能力方面并没有观察到差异。 然而,最近一项仅限于乳腺癌或结肠癌患者的研究结果表明,当对病理不同的病变进行单独分析时,三种方式的诊断结果确实存在差异。 这些差异在第一次研究中可能被掩盖了,这主要是由于临床问题的定义过于宽泛,而导至了无法关注到一些细节问题。 为技术验证确定优先次序的一个可能方法,是使用决策分析技术来确定完美信息的价值。 假设我们正在考虑对一种新的检测对患有X病症患者的准确性进行验证。 让我们假设新的检测提供了完美的信息,从而解决了关于患者真实状态的所有不确定性,并且我们可以将信息的价值换算为货币单位。 根据这个模型,如果我们发现进行检测的成本大于我们愿意为完美信息支付的成本,那么使用新的检测来诊断患有X病情的患者是不值得的。 该模型使用了一个100%准确的假设检测来最大化其潜在价值。 如果来自理想检测的信息不值得检测成本,我们可以预期,在其他条件相同的情况下,来自真实的、不完美的检测的信息价值会更低。 因此,我们不希望在这种临床情况下花费资源来验证该检测的性能。这种方法提供了一个强大的工具,可以事先确定我们是否应该花费必要的资源来验证一项技术的特定用途。 4.1.2、研究人群 研究人群必须被很好地定义。 当某些符合条件的患者子集因为其他并存的疾病而被排除在外时,医生可能无法将研究结果推广到临床实践中遇到的所有患者。 (参见第二章和第三章,对选择患者的偏差来源及其对诊断技术研究的负面影响进行了更深入的讨论。) 为诊断技术研究选择一个具体的临床问题,确定可能参与研究的患者的诊断类别。在这个类别中,人群应包括具有代表性的患者。 需要有纳入和排除标准来确定研究人群的界限。 它们必须是明确的,而且必须一致地应用,例如在大学组糖尿病研究中,这些标准没有统一应用,导至一些不符合条件的患者被纳入,一些符合条件的患者被排除。这些错误影响了研究结论的普遍性,浪费了资源。 研究人群中检测表现(即准确性)的巨大差异可能掩盖了两种检测表现的差异。 研究者可能需要在他们怀疑检测会有不同表现的患者亚组中明确和分析检测结果,例如,用于诊断冠状动脉疾病的运动跑步机的敏感性和特异性,在根据胸痛严重程度划分的患者群体中是不同的。 尽管将人群作为一个整体来考虑时,检测性能可能没有明显的差异,但在对人群中的亚组进行比较时,可能存在差异。 |