人工智能新模型可解码DNA隐藏“语言”

发布时间： 2024-08-07 09:09:00 来源：科技日报

　　DNA包含了维持生命所需的基础信息。理解这些信息是如何存储和组织的，一直是20世纪最大的科学挑战之一。现在，借助GROVER这一基于人类DNA训练的新型大型语言模型，研究人员有望解码基因组中隐藏的复杂信息。GROVER由德国德累斯顿工业大学生物技术中心开发，它将人类DNA视为文本，通过学习其规则和上下文来提取DNA序列的功能信息。这一新工具有望彻底改变基因组学并加速个性化医疗的发展。相关研究论文发表在新一期《自然·机器智能》杂志上。

　　大型语言模型通过文本训练，发展出了在多种语境下使用语言的能力。研究人员设想将生命代码DNA当作一种语言，训练了一个大型语言模型——GROVER。

　　在语言方面，人们谈论的是语法、句法和语义。而对于DNA来说，这意味着学习核苷酸的序列等。就像GPT模型学习人类语言一样，GROVER基本上学会了DNA“语言”。

　　研究表明，GROVER不仅能准确地预测接下来的DNA序列，还可用来提取具有生物学意义的上下文信息，例如识别DNA上的基因启动子或蛋白质结合位点。此外，GROVER还学习了“表观遗传”过程，即在DNA序列不发生改变的情况下，基因表达的可遗传变化。

　　GROVER有望解锁DNA中蕴含着关于人类本质、疾病易感性以及对治疗反应的关键信息。研究人员相信，通过语言模型理解DNA的规则，将有助于揭示隐藏在DNA中的生物意义，从而推动基因组学和个性化医学发展。

（责编：李文治）

相关阅读

新工具破解活细胞非重复DNA序列成像难题

活细胞DNA成像是指利用成像手段，对活细胞内的DNA序列进行标记和观察。非重复DNA序列成像和多位点多色成像是活细胞DNA成像长期面临的两大难题。”杨良中说，要实现多个非重复DNA序列的标记追踪，未来还需进一步对CRISPRdelight进行优化。 [详细]
智慧养老有“医”靠

为提升基层医疗水平、解决养老问题，近年来，西华县以田口乡卫生院为载体，面向农村基层着力打造了周口市规模最大、智慧化程度最高的基层公立智慧医养中心。 [详细]
立秋时节如何科学应对呼吸道疾病

对于近日晒背养生的社会关注，龚燕冰指出，晒背是一种传统的养生方法，符合中医冬病夏治的理论。 [详细]

人工智能新模型可解码DNA隐藏“语言”

新工具破解活细胞非重复DNA序列成像难题

智慧养老有“医”靠

立秋时节如何科学应对呼吸道疾病