带有红色可见DNA的有色蛋白质结构 立陶宛的一家初创公司Biomatter design正致力于通过合成生物学和人工智能创建下一代蛋白质设计平台。图片:生物材料设计
首页»新兴技术»未来的蛋白质将如何设计?

未来的蛋白质将如何设计?

合成生物学最大的挑战之一是掌握蛋白质折叠和设计的艺术。尽管生物工程技术在追求这一目标方面取得了显著进展,但合成生物学家无法纯粹通过计算机建模或预测算法来完美地设计蛋白质的序列或形状。那么,蛋白质设计的未来会是什么样子?它将如何改变我们能用生物学构建的东西?

当蛋白质出错时

几个世纪以来,人类一直着迷于解码和重新编码生命。自从孟德尔对豌豆植物的著名实验使科学走上遗传学之路以来,已经过去了150年。今天,我们不仅了解了遗传性状是如何遗传的,还了解了如何通过DNA工程的“读-写-编辑”周期来改变这些性状。但是,如果没有最终的输出:蛋白质,读-写-编辑循环就不完整。

蛋白质是DNA到RNA途径的最终产物。这些关键分子无处不在,从我们吃的食物到抗击SARS-CoV-2的抗体。然而,蛋白质有时折叠不正确并导致严重的遗传疾病CFTR基因的某些突变可能导致将氯离子移出细胞的蛋白质表达错误,导致囊性纤维化。另一种蛋白质淀粉样蛋白的错误折叠被认为是阿尔茨海默病的关键因素。然而,最近在蛋白质研究方面的进展帮助开发了可以修改受损蛋白质(如CFTR蛋白)的疗法。这一突破几乎治愈了一种困扰研究人员数十年的疾病。

错误折叠的蛋白质代表了一般设计蛋白质的挑战。理解和控制蛋白质的行为和互动是如何通过生物学推进人类和行星健康的核心。目标是通过合成抗体驱动免疫应答或通过植物肉类增加可持续性,最佳设计的蛋白质躺在这一挑战的核心。

功能如下形式

这张旋转的动图显示了未展开的冠状病毒峰值蛋白
SARS-CoV-2刺突蛋白展开,融合冠状病毒膜(红色)和宿主细胞膜(蓝色)。探索这种蛋白质如何为自己展开!

蛋白质的功能由其结构决定。这种结构来源于蛋白质的折叠方式,而折叠方式又由蛋白质序列编码。这些关系听起来可能很简单,但很难建模。在实验室里制造蛋白质时,有太多的可能性需要合成和费力的测试,以根据蛋白质序列准确地预测蛋白质的结构——从而预测其功能。

传统上,围绕蛋白质设计的决策由生物学驱动,并辅以计算方法。诸如肽或基因合成和定点突变等方法建立了数据集,用于验证计算预测为以特定方式折叠的候选序列。这种方法通常被称为理性蛋白质设计。然而,这种技术有明显的局限性。

蛋白质动力学必须大大简化,才能在合成系统中表现出来。因此,只有很小范围的蛋白质特征可以被优化,而不是更全面的所有方面,特别是在计算上考虑这个问题时。此外,严格探索可能序列的“样本空间”可能是一项计算密集型任务。尽管这在今天已经不是什么挑战,但问题依然存在:我们如何最好地利用计算工具来改进蛋白质设计,无论是用于药物发现还是可持续性?

计算蛋白质设计的里程碑

在过去的几十年中,生物学研究和计算能力的进步导致了蛋白质建模和设计的新方法。计算蛋白质设计,通过计算机建模而不是实验室实验设计蛋白质,已成为在追求更健康,更可持续的未来创造更有效的蛋白质的中央工具。

最近,,从头计算蛋白质设计已经崭露头角。华盛顿大学的贝克实验室已经成功地设计了一种全新的,从未见过的蛋白质早在2003年。这项工作已经进入了他们最近的新冠病毒-19研究作为抗病毒药物的小蛋白对抗新型冠状病毒。贝克实验室的工作以计算蛋白质设计的强大开源精神为显著标志,其蛋白质折叠和相互作用的Rosetta建模软件以及实验室的FoldIt计算网络。该网络使公民科学家能够推进实验室的工作以及整个领域。

同样,蛋白质结构的盲预测也得到了显著的验证。今年早些时候,DeepMind AlphaGo团队在两年一次的名为“蛋白质结构预测的关键评估”(CASP)的挑战中,报告了前所未有的准确性,在该挑战中,团队在事先不知情的情况下预测了3D蛋白质结构,只保留了蛋白质序列。AlphaGo利用结构和遗传数据将蛋白质表示为一个空间图。这种被称为“空间组学”的方法,使人们能够更好地了解蛋白质的物理相互作用以及它们是如何进化到现在的形态的。

使用神经网络进行评估和优化的空间源 - 一类由大脑启发的计算算法也称为一种深度学习。该方法最终将允许通过提高效率和降低成本,更容易地预测现实世界中的蛋白质结构,使电流和晶体等当前技术相同。虽然这些方法已经代表了计算蛋白质设计的显着进展,但对于一些,该学科是在下一代进步的尖端上。

深度学习符合基于物理的建模

有一个蓝色衣领衬衣的一个白色人微笑到照相机
Vykintas Jauniskis,CSO和生物材料设计联合创始人

“我们相信,下一代蛋白质工程介于基于物理模型和深度学习的相互作用之间,”总部位于立陶宛的公司联合创始人、首席技术官Vykintas Jauniskis说肥胖设计。该公司专注于通过合成生物学和AI开发生成蛋白质设计平台。

对于Jauniskis来说,这两种技术的交集是一种令人愉快的媒介。如果新蛋白质与算法所训练的数据存在显著差异,深度学习在预测新蛋白质特征方面可能就不那么擅长了。深度学习算法依赖于对原始数据的学习和应用“规则”,所以如果新的蛋白质类型打破了这些规则,深度学习就没有那么有效。然而,直接编码更详细的蛋白质特征和相互作用的基于物理学的方法实在太慢了。Jauniskis看到了一个中间地带利用优势的再生蛋白质工程从这两种方法。

对于Jauniskis来说,这种生成模式是“可以解锁工程师想象的理想方法”。这样的方法将框架转变为实验朝向更集成的建模,而不是专注于收集大量数据。此过程可以帮助标准化通常是最杂乱的数据集。数据也可以以有意的预先计划的方式更好地优先考虑,从而可以更好地进行研究。“当现场成熟足够的方法以获得最佳类型的数据和[关联]项目足够便宜,不再是为了更好的数据而付出更多的问题,”Jauniskis说。换句话说,良好数据的成本可能不再是更好的研究的重要障碍。

一个棕色皮肤戴着眼镜的秃头男人看着照相机
Surge Biswas, Nabla Bio的联合创始人兼首席执行官

更好的数据在所有方面都至关重要,但更好的数据并不总是意味着更多的数据。斯帕克·比斯瓦斯,公司首席执行官纳布拉生物与人共同创办的公司弗朗西斯Anastassacos和George Church)认为,利用较小的数据集是下一代蛋白质设计的前沿。他说:“与使用大量高通量数据进行学习的流行方法不同,我们的平台从少量序列账户数据中学习,这对于良好的复合表示和优化新设计的建议非常有用。”对比斯瓦斯来说,这种方法对于合成生物学中相对独特的高价值数据集尤其重要。

和Jauniskis一样,Biswas也展望了计算方法可以更有效地与传统分子发现和合成工作流程相结合的未来。“计算优先的决策将是未来的发展方向,因为计算方法的变化速度比湿实验室技术高几个数量级。机器学习预测几乎变得和实验数据一样有价值,但更容易生成,”他说。

为未来设计蛋白质

人类健康是下一代蛋白质设计的主要应用领域。在这场持续近一年的大流行中,快速设计抗体一直是公众意识的前沿问题。但比斯瓦斯也指出,设计食物中的蛋白质是计算蛋白质设计的一个引人注目的空间潜力。这项技术可以用来改善营养质量,了解蛋白质如何影响味道,并探索以前未知的蛋白质用途。

尽管围绕下一代蛋白质工程兴奋,但Jauniskis和BISWAS都表达了关于闪电快速进步的承诺的保留。BISWAS特别强调的测试工程蛋白质的高成本是如何从药物临床试验或工业环境中学到的。这些字段具有相对较低的数据输出,但是错过了从计算错误和更新未来蛋白质的数据集的机会。

然而,这是大生物学的年龄。如果有一个如此认识论转变的时代,那么深潜进入大自然的基础,这就是这个。从根本上重新思考我们如何收集数据可以允许下一代蛋白质设计起飞。蛋白质设计的每次迭代都有可能改善全球健康,食物的未来以及人类生命的可持续性。

22

艾沙尼·阿特雷什

艾沙尼·阿特雷什是厘凡克斯的生物系统工程师,优化抗体,以打击广泛的疾病,帮助推动驱动政策和通信工作。她以前给了一个TEDx关于食物过敏的演讲和共同tedxsaintfrancis.她一直通过各种渠道积极参与教育、社区建设和领导工作。艾沙尼目前在哈佛大学读本科,他对科学与政策的交叉以及跨学科倡议塑造世界的总体力量充满热情。

点击这里加入我们的每周通讯。我们希望听到您对本文的看法。为我们的新闻团队提供了一个提示?写入编辑编辑:ynbiobeta.covwin彩票注册m。

添加评论

工作机会

更多的

Baidu