立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索

图文播报

查看: 216|回复: 0

[分享] 终结CRISPR脱靶预测难题?佛山大学团队发布AI脱靶预测模型-CCLMoff,精准锁定脱靶位点!|COMMUN BIOL

[复制链接]
发表于 2025-6-11 12:08 | 显示全部楼层 |阅读模式

登陆有奖并可浏览互动!

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录 手机动态码快速登录

×
CRISPR/Cas9是一种强大的基因编辑工具,广泛应用于从基础研究到治疗多种人类疾病的领域,尤其在单基因遗传病的治疗中,有望实现一次性治疗、长期有效的效果。
然而,CRISPR/Cas9系统存在一个关键应用瓶颈:脱靶效应。这意味着它可能在基因组的非预定位置进行切割,这是由于系统可以容忍sgRNA与DNA靶点之间的多个错配或序列凸起(bulges)。这种非预期的编辑会带来安全风险,限制了其在基因治疗中的应用。
2025年6月6日,Communications Biology在线发表了佛山大学唐冬生、深圳市卫生健康发展研究和数据管理中心赵靓联合团队的最新研究进展:“A versatile CRISPR/Cas9 system off-target prediction tool using language model”。该研究建立了一个基于RNA语言模型的通用脱靶预测模型:CCLMoff,可以更准确地识别CRISPR/Cas9系统的脱靶位点。该工具利用RNA语言模型和全面的数据集进行训练,能够精准识别脱靶位点,并在不同实验条件下通用,克服了现有工具(如CRISPR-Net、Cas-OFFinder)泛化能力差的局限。


该研究首先构建了领域内最全面的脱靶数据集,整合13种全基因组测序技术(涵盖Extru-seq、DISCOVER-seq+、SURRO-seq等21项独立研究),收录418条sgRNA及82,699个经实验验证的脱靶位点,覆盖人类(hg19/hg38)和小鼠(mm9/mm10)多基因组,同时纳入标准20nt及非常规19/21nt长度sgRNA。通过Cas-OFFinder生成允许≤6错配/≤1凸起的负样本,最终形成9,521,638训练样本,阳性/阴性样本比例横跨1:26至1:4189的极端不平衡分布。该数据规模较既往研究提升近3倍,为模型泛化能力奠定基础。
CCLMoff的核心创新在于其生物信息驱动的语言模型架构。研究团队创造性地采用"问答框架":将sgRNA序列视为"问题",目标DNA序列经伪RNA化处理(胸腺嘧啶T→尿嘧啶U转换)后作为"答案"。
利用预训练模型RNA-FM(基于RNAcentral数据库中2300万条RNA序列训练)初始化12层Transformer编码器,通过[SEP]标记分隔双序列输入,最终提取[CLS]标记的隐藏状态经多层感知器(MLP)预测脱靶概率(Fig. 1)。这种设计使模型直接学习sgRNA与DNA的相互作用模式,而非依赖人工特征工程。



Fig. 1 CCLMoff工作流程示意图

通过实战,CCLMoff在多个方面显示出优势。研究者做了一个非常严格的测试:在一种实验技术的数据集(如CIRCLE-seq)上训练模型,然后拿到另一种完全不同的技术平台产生的数据集(如GUIDE-seq)上去“考试” 。
结果表明,CCLMoff在这种跨平台测试中表现极其出色,AUPRC值(评估不平衡数据集性能的关键指标)达到了0.520,而之前的SOTA(state-of-the-art)模型CRISPR-Net只有0.210。这表明CCLMoff学到的是普适的脱靶规律,而不是针对某种特定实验方法的“应试技巧”。证明CCLMoff具有很强的跨数据集泛化能力(Fig. 2)。



Fig. 2 CCLMoff在跨数据集验证中显著优于其他模型

此外,在标准的交叉验证中,CCLMoff在平衡准确率(Bal Acc)、F1分数、AUROC和AUPRC等多项指标上,都显著优于CRISPR-Net、LSTM等现有模型(Table 2)。



Table 2

在实际应用中,我们有时会设计非标准长度(如19或21 nt)的sgRNA。现有的预测工具几乎都无法处理这种情况。而CCLMoff即使只在标准20 nt长度的sgRNA数据上进行训练,也能对非标准长度的sgRNA脱靶情况做出相当不错的预测,AUROC达到了0.81(Fig. 4),凸显Transformer架构对可变长序列的泛化能力



Fig. 4

通过模型解释性分析,研究者发现CCLMoff在做预测时,会重点关注sgRNA上第16-20位的PAM近端区域(PAM-proximal region),与Cas9晶体结构研究证实的种子区域(seed region, PAM-proximal 16-20nt)吻合。这种可解释性验证不仅增强预测结果的可信度,更为优化sgRNA设计提供理论依据。(Fig. 5)。



Fig. 5

总结一下,CCLMoff有以下优点


  • 技术新:首次将强大的RNA预训练语言模型用于脱靶预测;
  • 数据全:基于目前最全面的脱靶数据集进行训练,见多识广,基础扎实
  • 能力强:预测精准,尤其是跨数据集的泛化能力超群,解决了现有工具的一大痛点。
  • 应用广:能处理非标准长度的sgRNA,更贴近实际科研需求
目前,作者已经将CCLMoff的源代码在GitHub上公开,可以访问以下地址进行下载和使用:https://github.com/duwa2/CCLMoff
基本使用方法
1、输入
当前版本的CCLMoff是一个仅基于序列的模型。使用时,您需要提供您设计的sgRNA序列。
2、输出
模型会针对输入的“sgRNA-靶点序列对”进行计算,并生成一个分数,这个分数代表了该位点成为真实脱靶位点的可能性。
3、工作流程
该工具采用两步策略,第一步是尽可能多地找出基于错配的潜在脱靶候选位点,第二步则是对这些候选位点进行打分,以判断哪些错配是CRISPR/Cas9系统可以容忍的。
4、使用场景
评估一个特定的sgRNA在基因组上不同区域的脱靶活性水平;
在进行实验前,提前评估设计好的sgRNA可能产生的脱靶效应,以辅助设计更安全的sgRNA;
但是,目前使用CCLMoff需要具备一定的生物信息学背景,能够从GitHub下载并运行其源代码。对于非计算背景的研究者,可以期待作者未来可能推出的网页版工具。
  号外!  欢迎大家关注我们的小红书~
小红书号:9477762949
会分享一些简短的基因编辑相关信息


往期推荐
基因编辑筛选新策略!北京大学开发草莓原生视觉筛选报告系统—NVSR,省时省力还省心!
突破应用边界!蔬菜花卉研究所首次在双子叶作物中成功应用HI-Edit技术,让卷心菜想要什么颜色就有什么颜色!
图解工具 | 这份基因编辑"武器库"清单,建议所有从业者收藏!
NC背靠背!Prime Editing迎来新突破:反向编辑窗口正式"解锁",编辑范围翻倍扩展!
多所高校联合谷歌,推出世界首个可推理的生物学大模型—BioReason!,推理准确率达97%!告别AI黑箱!
PBJ | 重磅突破!豌豆CRISPR基因编辑效率首次达到100%,5个月搞定无转基因编辑植株!

原文地址:https://zhuanlan.zhihu.com/p/49396248562
回复

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册 微信登录 手机动态码快速登录

本版积分规则

关闭

官方推荐 上一条 /3 下一条

快速回复 返回列表 客服中心 搜索 官方QQ群 洽谈合作
快速回复返回顶部 返回列表