关于发布深度学习辅助决策医疗器械软件审评要点的通告（2019年第7号）

2019-7-3 18:02| 发布者: 面气灵| 查看: 4195| 评论: 0|来源: CMDE

摘要: 为加强人工智能医疗器械注册申报工作的指导，进一步提高审评质量，国家药品监督管理局医疗器械技术审评中心组织制定了《深度学习辅助决策医疗器械软件审评要点》，现予发布。　　特此通告。　　附件：深度学习辅助决 ...

为加强人工智能医疗器械注册申报工作的指导，进一步提高审评质量，国家药品监督管理局医疗器械技术审评中心组织制定了《深度学习辅助决策医疗器械软件审评要点》，现予发布。
　　特此通告。

　　附件：深度学习辅助决策医疗器械软件审评要点（下载）

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　国家药品监督管理局
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　医疗器械技术审评中心
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　2019年7月3日

深度学习辅助决策医疗器械软件审评要点

一、适用范围

本审评要点适用于深度学习辅助决策医疗器械软件（含独立软件、软件组件）的注册申报。深度学习辅助决策医疗器械软件（以下简称软件）即基于医疗器械数据（医疗器械所生成的医学图像、医学数据，以下统称数据），使用深度学习技术进行辅助决策的软件。其中，“基于医疗器械数据”是指单独使用医疗器械数据，或者联合使用医疗器械数据与非医疗器械数据；“辅助决策”是指通过提供诊疗活动建议辅助医务人员进行临床决策。

使用深度学习技术进行前处理（如成像质量改善、成像速度提升、图像重建）、流程优化（如一键操作）、常规后处理（如图像分割、数据测量）等非辅助决策的软件可参考使用本审评要点。使用传统机器学习技术的软件亦可参考使用本审评要点。

本审评要点遵循《医疗器械软件注册技术审查指导原则》（以下简称软件指导原则）、《医疗器械网络安全注册技术审查指导原则》（以下简称网络安全指导原则）、《移动医疗器械注册技术审查指导原则》（以下简称移动器械指导原则）等相关指导原则要求。

本审评要点不含人工智能伦理、数据产权等法律法规层面要求，但生产企业应当在软件全生命周期过程中考虑相关规定。

二、审评关注重点

从发展驱动要素角度讲，深度学习实为基于海量数据和高算力的黑盒算法。本审评要点重点关注软件的数据质量控制、算法泛化能力、临床使用风险，临床使用风险应当考虑数据质量控制、算法泛化能力的直接影响，以及算力所用计算资源（即运行环境）失效的间接影响。

基于风险的全生命周期管理是此类软件监管的基本方法，相关考量详见软件指导原则、网络安全指导原则、移动器械指导原则以及医疗器械生产质量管理规范独立软件附录。下面结合审评关注重点分别阐述软件风险管理、软件设计开发、软件更新等方面考量。

软件风险管理活动应当基于软件的预期用途（目标疾病、临床用途、重要程度、紧迫程度）、使用场景（适用人群、目标用户、使用场所、临床流程）、核心功能（处理对象、数据兼容性、功能类型）予以实施，并贯穿于软件全生命周期过程。软件临床使用风险主要包括假阴性和假阳性，其中假阴性即漏诊，可能导至后续诊疗活动延误，特别是要考虑快速进展疾病的诊疗活动延误风险；假阳性即误诊，可能导至后续不必要的诊疗活动。进口软件除考虑假阳性和假阴性风险外，还应当考虑中外人种、流行病学特征、临床诊疗规范等方面差异的影响及其风险。生产企业应当采取充分的、适宜的、有效的风险控制措施以保证软件的安全性和有效性。

软件典型设计开发过程通常可分为需求分析、数据收集、算法设计、验证与确认等阶段。

（一）需求分析

需求分析应当以软件的临床需求与使用风险为导向，结合软件的预期用途、使用场景和核心功能，综合考虑法规、标准、用户、产品、数据、功能、性能、接口、用户界面、网络安全、警示提示等方面需求，重点考虑数据收集、算法性能、临床使用限制等方面要求。

数据收集应当考虑数据来源的合规性和多样性、目标疾病流行病学特征、数据质量控制要求（详见下节）。数据来源应当在合规性基础上保证数据多样性，以提高算法泛化能力，如尽可能来自多家、不同地域、不同层级的代表性临床机构，尽可能来自多种、不同采集参数的采集设备。目标疾病流行病学特征包括但不限于疾病构成（如分型、分级、分期）、人群分布（如健康、患者，性别、年龄、职业、地域、生活方式）、统计指标（如发病率、患病率、治愈率、死亡率、生存率）等情况，以及目标疾病并发症与类似疾病的影响情况。

算法性能应当考虑假阴性与假阳性（指标、关系）、重复性与再现性、鲁棒性/健壮性等要求。

临床使用限制应当考虑临床禁用、慎用等场景。

（二）数据收集

数据收集应当考虑数据采集、数据预处理、数据标注、数据集构建等活动的质控要求，以保证数据质量和算法设计质量。

1.数据采集

数据采集主要由临床机构实施，应当考虑采集设备、采集过程以及数据脱敏的质控要求。

采集设备质控应当明确采集设备的兼容性要求和采集要求。兼容性要求应当基于数据生成方式（直接生成、间接生成）提供采集设备兼容性列表或技术要求，明确采集设备的制造商、型号规格、性能指标等要求，若对采集设备无具体要求应当提供相应支持资料。采集要求应当明确采集设备的采集方式（如常规成像、增强成像）、采集协议（如MRI成像序列）、采集参数（如CT加载电压、加载电流、加载时间、层厚）、采集精度（如分辨率、采样率）等要求。

采集过程质控应当建立数据采集操作规范，明确采集人员要求和采集过程要求。采集人员要求包括人员的选拔、培训、考核。采集过程要求包括人员职责、采集流程（如采集步骤、操作要求）。

若使用现有历史数据，应当明确采集设备要求、数据采集质量评估要求（如人员、方法、指标、通过准则）。

采集的数据应当进行数据脱敏以保护患者隐私。数据脱敏应当明确脱敏的类型（静态、动态）、规则、程度、方法。

2.数据预处理

脱敏数据由临床机构转移至生产企业形成原始数据库，不同模态的数据在原始数据库中应当加以区分（下同）。

数据预处理应当基于原始数据库考虑数据处理、数据清洗的质控要求。数据处理应当明确处理的方法，如滤波、增强、重采样、尺寸裁剪、均一化等。数据清洗应当明确清洗的规则、方法。

数据处理和清洗应当明确选用软件工具的名称、型号规格、完整版本、供应商、运行环境、确认等要求，同时考虑数据处理选用方法对软件的影响及其风险。

数据经预处理后形成基础数据库，应当明确样本类型、样本量、样本分布等信息。样本类型以适用人群为单位可分为数据序列（由多个单一数据组成，如结构序列、功能序列、时间序列）、单一数据。样本量应当明确样本规模及确定依据，需要考虑样本量不足对软件的影响及其风险。样本分布应当依据疾病构成、适用人群、数据来源机构、采集设备、样本类型等因素明确数据分布情况，需要考虑数据偏性对软件的影响及其风险。

3.数据标注

数据标注应当考虑标注资源管理、标注过程质控、标注质量评估等要求。

标注资源管理包括人员管理和基础设施管理。人员管理应当明确标注人员和仲裁人员的选拔（如职称、工作年限、工作经验、所在机构，若有国外人员应当明确其资质要求）、培训、考核（如方法、频次、指标、通过准则，其中指标应当包括重复性、再现性）等要求。基础设施管理应当明确标注场所（真实或模拟，环境、照明条件）、标注软件（名称、型号规格、完整版本、供应商、运行环境、确认）等要求。

标注过程质控应当建立数据标注操作规范，明确标注人员（如资质、数量、职责）、标注流程（如标注对象、标注形式、标注轮次、标注步骤、操作要求）、临床诊疗规范（如临床指南、专家共识）、分歧处理（如仲裁人员、仲裁方式）、可追溯性（如数据、操作）等要求。

标注质量评估应当明确人员、方法、指标、通过准则等要求。

数据经标注后形成标注数据库，其样本类型可分为数据序列、单一数据（由多个数据块组成）、数据块（图像区域、数据片段）。样本量、样本分布等要求及风险考量与基础数据库相同。

4.数据集构建

基于标注数据库构建训练集（用于算法训练）、调优集（若有，用于算法超参数调优）、测试集（用于算法性能评估），明确训练集、调优集、测试集的划分方法、划分依据、数据分配比例。训练集应当保证样本分布具有均衡性，测试集、调优集应当保证样本分布符合临床实际情况，训练集、调优集、测试集的样本应当两两无交集。

为解决数据样本分布不满足预期目标的问题，可对训练集、调优集小样本量数据进行扩增；测试集不宜进行数据扩增，若扩增应当分析对软件的影响及其风险。数据扩增应当明确扩增的方式（离线、在线）、方法（如翻转、旋转、镜像、平移、缩放、滤波等）、倍数，并考虑扩增方法选用以及扩增倍数过大对软件的影响及其风险。

数据经扩增后形成扩增数据库，应当列表对比扩增数据库与标注数据库在样本量、样本分布（注明扩增倍数）等方面的差异，以证实扩增数据库样本量的充分性以及样本分布的合理性。

（三）算法设计

算法设计应当考虑算法选择、算法训练、网络安全防护、算法性能评估等活动的质控要求。建议数据驱动与知识驱动相结合进行算法设计，以提升算法可解释性。

1.算法选择

算法选择应当明确所用算法的名称、结构（如层数、参数规模）、流程图、现成框架（如Tensorflow、Caffe）、输入与输出、运行环境、算法来源依据（或注明原创）等信息。同时应当明确算法选择与设计的原则、方法和风险考量，如量化误差、梯度消失、过拟合、白盒化等。

若使用迁移学习技术，除上述内容外还应当补充预训练模型的数据集构建、验证与确认等总结信息。

2.算法训练

算法训练需要基于训练集、调优集进行训练和调优，应当明确评估指标、训练方法、训练目标、调优方法、训练数据量-评估指标曲线等要求。

评估指标建议根据临床需求进行选择，如敏感性、特异性等。训练方法包括但不限于留出法和交叉验证法。训练目标应当满足临床要求，提供ROC曲线等证据予以证实。调优方法应当明确算法优化策略和实现方法。训练数据量-评估指标曲线应当能够证实算法训练的充分性和有效性。

3.网络安全防护

网络安全防护应当结合软件的预期用途、使用场景和核心功能，基于保密性、完整性、可得性等网络安全特性，确定软件网络安全能力建设要求，以应对网络攻击和数据窃取等网络威胁。相关要求详见网络安全指导原则。

此类软件常见网络威胁包括但不限于框架漏洞攻击、数据污染，其中框架漏洞攻击是指利用算法所用现成框架本身漏洞进行网络攻击，数据污染是指通过污染输入数据进行网络攻击。

4.算法性能评估

算法性能评估作为软件验证的重要组成部分，需要基于测试集对算法设计结果进行评估，应当明确假阴性与假阳性、重复性与再现性、鲁棒性/健壮性等评估要求，以证实算法性能满足算法设计要求。

声明：

1、凡本网注明“来源：小桔灯网”的所有作品，均为本网合法拥有版权或有权使用的作品，转载需联系授权。
2、凡本网注明“来源：XXX（非小桔灯网）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。其版权归原作者所有，如有侵权请联系删除。
3、所有再转载者需自行获得原作者授权并注明来源。

收藏邀请

上一篇：关于发布上海市体外诊断试剂产品技术要求与说明书模板的通知下一篇：19年5月，国家药监局新批准注册33个IVD产品