日前,中山大学医学院施莽教授团队与阿里云李兆融团队在《细胞》杂志发表论文,报告了全球范围的180个超群、16万余种的RNA病毒发现,是已知病毒种类的近30倍,大幅提升了业界对RNA病毒多样性和病毒演化历史的认知。该研究将人工智能技术应用于病毒鉴定,探索了病毒学研究的新路径。
01 识别病毒圈的“暗物质”
病毒与人类的健康密切相关,但人类已知已确认的病毒种类仅有5000余种,这只是病毒世界的冰山一角。传统的病毒发现方法高度依赖既有知识,面对RNA病毒这种高度分化、种类繁多且容易变异的病毒识别效率低。
在该研究中,研究团队开发了一种人工智能算法,其能对病毒和非病毒基因组序列深度学习,并自主判断病毒序列。利用这套算法,研究团队在来自全球生物环境样本的10487份RNA测序数据中发现了超过51万条病毒基因组,代表超过16万个潜在病毒种及180个RNA病毒超群。其中23个超群无法通过序列同源方法识别,被称为病毒圈的“暗物质”。
02 极高的准确性
通过进一步分析,研究团队报告了迄今最长的RNA病毒基因组,长度达到47250个核苷酸;发现了超出以往认知的基因组结构,展现出RNA病毒基因组进化的灵活性;识别到多种病毒功能蛋白,特别是与细菌相关的功能蛋白,进一步表明还有更多类型的RNA噬菌体亟待探索;发现在南极底泥、深海热泉、活性污泥和盐碱滩等极端环境中,RNA病毒的数量和多样性仍然较高。
本篇论文提出了全新的深度学习模型"LucaProt",它基于Transformer框架与大模型表征技术,结合蛋白质序列和内在结构性特征,在独立的测试数据集上表现优异,具有极高的准确性(假阳性率仅为0.014%)和特异性(假阴性率为1.72%)。
03 AI或成人类认知世界的新手段
中山大学医学院教授施莽表示,在科研领域,AI的应用已经势不可挡,通过AI方法探索科学问题已取得了重要突破。“这种研究范式将成为未来科学界的常态,也可能成为我们认知世界的重要手段。”
该论文共同第一作者、阿里云飞天实验室算法专家贺勇表示,基于“AI+病毒学”的新研究框架刷新了人类对病毒圈的认识,随着这种认识的不断完善,有助于人类对未来可能发生的大流行进行预警,以及进一步推动RNA病毒疫苗的研发。(文章内容来源于光明日报、中国新闻网等。)