解释用于解码DNA的监管指令的人工智能

BPNet

研究人员使用高分辨率实验中的DNA序列来培训称为BPNET的神经网络,然后揭示了“黑匣子”的内部工业,以揭示基因组的监管代码的序列模式和组织原则。信用:插图由Mark Miller,STOWS医学研究所提供

打开黑匣子以发现基因组的监管代码规则。

与斯坦福大学和慕尼黑技术大学的同事合作的研究人员在技术巡回局中开发了先进的可解释的人工智能(AI),以解释编码的监管指示脱氧核糖核酸。在2021年2月18日在线发布的报告中,自然遗传学,该团队发现,在蛋白质-DNA相互作用的高分辨率映射上培训的神经网络可以在整个基因组中发现细微的DNA序列模式,并对这些序列的组织方式进行更深的了解以调节基因。

神经网络是功能强大的AI模型,可以从不同类型的数据(如图像,语音信号或文本)学习复杂的模式,以预测具有令人印象深刻的相关性质准确性。然而,许多人将这些模型视为无法解释的,因为学习的预测模式很难从模型中提取。这种黑匣子的性质已经阻碍了神经网络对生物学的广泛应用,在那里对预测模式的解释是至关重要的。yabo124

生物学中的一个大型未解决的问题之一是基因组的第二个代码 - 其监管代码。yabo124DNA碱基(通常由字母A,C,G和T)编码如何编码如何构建蛋白质的指令,而且还编码在生物体中制作这些蛋白质的时间和地点。该监管代码被称为转录因子的蛋白质读取,所述转录因子结合短延伸的DNA称为基序。然而,图案的特定组合和安排指定了监管活动是一个非常复杂的问题,这一点是难以放下的。

现在,由STOWER调查员Julia Zeitlinger,博士和施斯·昆达·博士(斯坦福大学)设计了一支跨学科和计算研究人员的跨学科团队设计了一个用于基对网络的神经网络名为BPNET - 这可以解释为揭示监管代码通过以前所未有的精度预测从DNA序列的转录因子结合。关键是以最高可能的分辨率进行转录因子-DNA结合实验和计算建模,降至单个DNA碱基的水平。这种增加的分辨率允许它们开发新的解释工具以提取诸如转录因子绑定主题的关键元素序列模式和组合规则,通过该组合规则作为监管代码。

“这极其令人满意,”Zeitlinger说:“随着结果与现有的实验结果美妙地享有精美,并揭示了我们惊讶的新颖洞察力。”

例如,神经网络模型使研究人员能够发现一个引人注目的规则,治理了所谓的纳米历史的转录因子的结合。他们发现当以周期性方式存在时,纳米纳米在其基序的倍数存在时与DNA合作结合,使得它们出现在螺旋DNA螺旋的同一侧。

“有大量的实验证据表明,这种主题周期性有时存在于监管规则中,”Zeitlinger说。然而,确切的情况却难以捉摸,而且纳诺格也不是嫌疑犯。发现Nanog有这样一种模式,并看到了它相互作用的更多细节,这很令人惊讶,因为我们并没有专门寻找这种模式。”

“这是使用神经网络完成这项任务的关键优势,”Žiga Avsec博士说,他是这篇论文的第一作者。Avsec和Kundaje在德国慕尼黑工业大学的Julien Gagneur博士实验室进行博士学习期间访问斯坦福大学时,创造了第一个版本的模型。

“更传统的生物信息学使用基于现有知识的预定义的刚性规则来解决模型数据。然而,生物学非常丰yabo124富,复杂,“AVSEC说。“通过使用神经网络,我们可以培养更灵活,更细微的模型,从没有以前的知识的情况下从头开始学习复杂的模式,从而允许新的发现。”

BPNet的网络结构类似于用于图像人脸识别的神经网络。例如,神经网络首先检测像素中的边缘,然后学习边缘如何形成像眼睛、鼻子或嘴这样的面部元素,最后检测面部元素如何一起形成一张脸。BPNet不是从像素中学习,而是从原始DNA序列中学习,并学习检测序列基序,最终学习元素预测碱基分辨率结合数据的高阶规则。

一旦培训模型以高度准确,就会用解释工具提取学习模式。输出信号追溯到输入序列以显示序列图案。最后一步是使用该模型作为Oracle和系统地查询它,与特定的DNA序列设计类似,类似于实验测试假设的特定DNA序列设计,以揭示序列图案以组合方式函数的规则。

“美妙之处在于,这个模型可以预测更多的序列设计,我们可以通过实验进行测试,”Zeitlinger说。“此外,通过预测实验扰动的结果,我们可以确定最有信息的实验来验证模型。事实上,在CRISPR基因编辑技术的帮助下,研究人员通过实验证实了该模型的预测是高度准确的。

由于该方法灵活且适用于各种不同的数据类型和细胞类型,因此它有望导致对监管代码的快速增长理解以及遗传变异如何影响基因调节。Zeitlinger Lab和Kundaje实验室都已经使用BPNET来可靠地识别其他细胞类型的绑定图案,将图案与生物物理参数相关联,并在基因组中学习其他结构特征,例如与DNA包装相关的基因组中的其他结构特征。为了使其他科学家能够使用BPNet并为自己的需求进行调整,研究人员使整个软件框架提供了文档和教程。

参考:Žiga Avsec, Melanie Weilert, Avanti Shrikumar, Sabrina Krueger, Amr Alexandari, Khyati Dalal, Robin Fropf, Charles McAnany, Julien Gagneur, Anshul Kundaje and Julia Zeitlinger, 2021年2月18日的《转录因子结合的基础分辨率模型揭示软基序句法》自然遗传学。
DOI:10.1038 / S41588-021-00782-6

该研究的其他贡献者包括Melanie Weilert, Sabrina Krueger博士,Khyati Dalal博士,Robin Fropf博士,和Charles mccanany博士,来自Stowers;以及斯坦福大学的Avanti Shrikumar博士和Amr Alexandari博士。

本研究部分由Stowers医学研究所和国家人类基因组研究所(R01HG009674和U01HG009431奖给A.K.和R01HG010211奖给J.Z.)以及美国国立卫生研究院(NIH)的国家普通医学科学研究所(DP2GM123485奖给A.K.)资助。其他支持包括德国联邦部长协会für Bildung und Forschung(项目MechML 01IS18053F to Z.A.)和斯坦福BioX奖学金和霍华德休斯医学院国际学生研究奖学金(to a . s)。顺序执行(Stowers医学研究所和美国堪萨斯大学医学中心基因组学核心支持的NIH奖项从国家儿童健康和人类发展研究所(U54HD090216),办公室主任(仪表S10OD021743)和医学科学研究所(图P30GM122731)。内容完全由作者负责,并不代表国家卫生研究院的官方观点。

调查结果摘要

DNA是众所周知的,用于编码蛋白质。它还包含另一个代码 - 一个监管代码 - 指示在生物体中制作蛋白质的时间和地点。在20021年2月18日在线发布的报告中,自然遗传学斯托尔斯医学研究所研究员Julia Zeitlinger博士实验室的研究人员,以及斯坦福大学和慕尼黑工业大学的合作者,描述了他们如何使用可解释的人工智能帮助破译基因组的管理代码。

研究人员开发了一种神经网络,其内部工作可以揭示,以揭示来自高分辨率基因组学数据的调节DNA序列模式及其高级组织原理。Zeitlinger实验室预计使用这种类型方法产生的预测模型,规则和地图将导致更好地了解DNA调节区域的自然和疾病相关的遗传变异。

是第一个评论论“解读DNA调控指令的可解释人工智能”

发表评论

电子邮件地址是可选的。如果提供的话,您的电子邮件不会发布或共享。