Study AI with Med
AI+蛋白质

简单理解:AI + 蛋白质折叠与生成

从零开始理解蛋白质折叠问题的本质、AlphaFold 系列的核心原理、扩散模型如何'雕刻'分子结构、以及蛋白质语言模型如何'书写'全新生命。面向小白的深度讲义。

2026-03-15

#
前言:为什么蛋白质是一切的起点?

在我们谈论 AI 制药、AI 诊断之前,有一个更底层的问题必须先回答:药物到底在攻击什么?癌症细胞到底在用什么"武器"击败我们的免疫系统?答案几乎总是同一个词——蛋白质

蛋白质是生命活动的真正执行者。你身体里发生的每一件事——消化食物、运输氧气、对抗感染、传递神经信号、合成能量——背后都有某种蛋白质在默默运作。人体大约有两万种不同的蛋白质,它们的形状千变万化,有的像精密的剪刀,有的像带着钥匙孔的锁,有的像一个旋转的马达。而形状,正是关键所在。

这里有一个核心定律,初学者必须深刻记住:

"

蛋白质的三维形状,决定了它的功能。形状变了,功能就变了。

一个正常的酶(一种蛋白质)长得像一把剪刀,能精准剪断某种化学键。但如果基因发生突变,导致这把剪刀变形了,它就可能变成一把锤子,开始乱砸细胞,这就是疾病的开始。癌症、阿尔茨海默症、帕金森病,背后都有"变形金刚"蛋白质在捣乱。

所以,如果 AI 能精准地看懂"蛋白质长什么样",我们就能:

  1. 找到它的弱点(凹槽、口袋)
  2. 设计一把能精确嵌进去的"锁" (药物分子)
  3. 或者干脆设计一个全新的"正常版"蛋白质去替换它

这就是整个蛋白质方向的战略意义。


#
第一章:氨基酸——生命的"乐高积木"

要理解蛋白质折叠,我们先要搞清楚蛋白质是怎么造出来的。

你的基因(DNA)就像是一本说明书,里面写满了"配方"。每一段配方,就对应一种蛋白质的制造方法。这个配方的内容,就是一长串氨基酸的排列顺序。

自然界中有 20 种不同的氨基酸,你可以把它们想象成 20 种不同形状的乐高积木。每种积木有不同的颜色和卡扣方式:有的带正电荷(喜欢水),有的带负电荷,有的憎水(怕水会往内缩),有的很大块,有的很小巧……

当细胞根据基因说明书,把这些氨基酸一个接一个地串联起来,你会得到一条长长的氨基酸"念珠链"。这条链可能有几十个氨基酸,也可能有几千个。

但这条链不会一直待在伸直的状态。

由于每个氨基酸之间的物理化学吸引力和排斥力,这条链会开始自发地卷曲、折叠、收缩——就好像一根灵活的弹簧,根据自身的力学特性,自然地弯曲成一个特定的立体形状。这个过程,就叫做蛋白质折叠(Protein Folding)

折叠完成后,这条氨基酸链就变成了一个具有固定三维形状的蛋白质。也就是功能机器。


#
第二章:五十年的"终极难题"

科学家在 1960 年代就注意到了蛋白质折叠这个问题。他们发现:给我氨基酸序列,我就应该能推算出蛋白质的三维形状——因为形状是由序列的物理化学性质决定的,这应该是一道有答案的数学题。

但这道题,整个人类花了 50 年才解出

为什么这么难?因为计算量是天文数字。

一条有 100 个氨基酸的蛋白质,每两个氨基酸之间的连接键可以有多种旋转角度。理论上,它可能的空间构型数量高达 10 的 300 次方种。如果你用最快的计算机,一个一个尝试所有可能的形状,宇宙的年龄都不够。这个问题被称为 Levinthal 悖论

传统的解法是"看经验"。科学家用 X 射线晶体学(把蛋白质结晶,用 X 光穿透,通过衍射图推算结构),或者核磁共振(NMR,测量氨基酸里的磁场信号推导空间关系)来实验性地解出蛋白质结构。这两种方法都可靠,但每一个蛋白质需要单独做实验,动辄耗时数月到数年,花费数十万美元。

全球几十年来,科学家解出了大约 17 万种蛋白质的结构(存储在 PDB 数据库里)。但人体里有 2 万种蛋白质,已知序列的蛋白质高达数亿条。这个速度完全不够用。

AI 的介入,从根本上改变了这个局面。


#
第三章:DeepMind 的 AlphaFold——第一次革命

2018 年,Google DeepMind 的团队第一次参加了一个叫 CASP(Critical Assessment of Structure Prediction) 的蛋白质结构预测竞赛。这个全球竞赛每两年举办一次,让全世界的科学家团队来比拼预测同一批蛋白质的结构。

DeepMind 的 AlphaFold 1 就在那年脱颖而出,虽然还不完美,但已经让整个生物学界震惊了。

到了 2020 年,AlphaFold 2 横空出世,直接把游戏终结了。它在 CASP 竞赛中的得分,与其他团队差距之大,以至于评委们宣布这是"50 年难题的解决"。

AlphaFold 2 的核心机制是什么?我们来连贯地说清楚这整条链路。


3.1 原料:多序列比对(MSA)

AlphaFold 2 接受的第一个输入是目标蛋白质的氨基酸序列。但光有这条序列还不够。AI 还需要做一件事:去数据库里搜索所有跟这个序列类似的蛋白质,把它们都找出来,排成一张多行表格,叫做 MSA(多序列比对,Multiple Sequence Alignment)

为什么要找"亲戚"序列?

这里有一个深刻的进化生物学逻辑:如果一个蛋白质的第 50 号氨基酸和第 120 号氨基酸在进化过程中总是一起变化(第 50 号从 A 变成 B,第 120 号就一定也会从 C 变成 D),这说明它们在三维空间中很可能是互相接触的,只有它们同步进化,蛋白质的整体折叠才能维持稳定。

AI 通过分析 MSA,就能推断出哪些氨基酸在空间里彼此靠近——这就像是从千万种语言的翻译中提炼出一门语言的语法规律。


3.2 核心大脑:Evoformer 模块

拿到 MSA 信息后,数据被送入 AlphaFold 2 最核心的神经网络模块——Evoformer

Evoformer 是一种特殊的 Transformer 神经网络(就是 ChatGPT 也在用的那种架构,但被专门改造过了)。它同时维护两张"地图":

  • 序列表征(Sequence Representation):记录每个氨基酸的化学特征和进化信息
  • 配对表征(Pair Representation):记录任意两个氨基酸之间的"关系推测"——它们之间多远?是什么样的相互作用?

在 Evoformer 内部,这两张地图互相影响、不停迭代更新。序列信息会修正配对信息,配对信息又会反过来修正序列的理解。经过几十轮的迭代交流后,系统就建立起了一张极其精确的"氨基酸关系图谱"。

你可以把它想象成一个推理游戏:通过反复比对每个人的供词(序列信息)和所有人之间的关系证据(配对信息),逐渐还原出案件全貌(三维结构)。


3.3 最后的结晶:Structure Module

Evoformer 输出的是"关系信息",但还没有给出具体的原子坐标。这一步交给 Structure Module

Structure Module 内部有一个非常精巧的机制:它把每个氨基酸抽象成一个"黑板"(Frame),这个黑板有自己的方向和位置。在每次迭代中,每个黑板根据全局关系图谱调整自己的朝向和位置,最终输出每个氨基酸的三维坐标。

结果:给我任何一条蛋白质序列,AlphaFold 2 在几分钟到几小时内,就能输出媲美实验测量精度的三维结构预测。2022 年,DeepMind 依靠 AlphaFold 2,把人类已知的所有 2 亿条蛋白质序列的结构全部预测了一遍,并免费向全球开放。这相当于人类花了 50 年才建了一个图书馆,DeepMind 在一年内把它扩充了一千倍。


#
第四章:AlphaFold 3——第二次革命(从预测到生成)

AlphaFold 2 虽然伟大,但它只能预测纯蛋白质的结构,而且是"给一个序列,输出一个结构"——这是一种确定性预测

而真实生命的运转不是这么简单的。

  • 蛋白质很少单独工作,它们常常和 DNA、RNA、小分子药物、其他蛋白质**"拥抱"在一起**形成复合体,协同发挥功能
  • 生命分子本身是存在"构象灵活性"的,同一条蛋白质在不同状态下可能有多种不同的形状(就像弹簧一样)

所以,2024 年发布的 AlphaFold 3 进行了两项根本性的升级,让我们来连贯地理解:


4.1 从"蛋白专家"到"全分子通才"

AlphaFold 3 不再使用 MSA 作为唯一的进化线索。它引入了一个更通用的输入框架,可以接受:

  • 蛋白质序列(氨基酸串)
  • 核酸序列(DNA/RNA 序列)
  • 配体描述(小分子药物,用一套化学语言描述)
  • 翻译后修饰(蛋白质制造完成后,被细胞额外贴上的"化学标签",比如磷酸化、糖基化)

它用一个升级版的 Evoformer(叫做 Pairformer)来统一处理所有这些分子的"两两关系图谱"。Pairformer 不需要再依赖 MSA 了——因为对于 DNA 或者小分子来说,进化多序列比对根本不适用。它学会了一种更通用的"语言"去理解各类分子的相互关系。


4.2 最核心的创新:扩散模型替代了 Structure Module

AlphaFold 2 的 Structure Module 用的是一种"直接计算"的方式——通过数学公式直接算出坐标。这种方式虽然稳定,但它的输出是确定的,且对非蛋白质分子的适配性很差。

AlphaFold 3 抛弃了 Structure Module,引入了条件扩散模型(Conditional Diffusion Model)。这个概念初听起来很抽象,让我们用一个极其生动的比喻来说清楚它:

想象你是一个雕塑家,你要根据一张建筑蓝图(Pairformer 给出的关系图谱)来雕刻一件非常精确的雕塑。

传统方法(Structure Module)是:你先认真研读蓝图,然后直接用木头按数据雕刻——每一刀都精确无误,最终得到一件作品。这很好,但如果蓝图里有一个从没出现过的设计元素,你可能就不知道怎么下刀了。

扩散模型的方法是这样的:

  1. 初始化噪声:你得到一大堆散落一地的、位置完全随机的大理石碎块(这就是初始的"原子噪声云",所有原子的坐标完全随机,一片混沌)
  2. 驾驭蓝图,逐步雕刻:你手持蓝图(Pairformer 的关系图谱),开始第一轮雕刻。每一轮,你只做一件事:找出那些"最明显地不在正确位置"的碎块,把它们向正确方向轻轻推动一点点
  3. 迭代去噪:你重复这个过程,每次迭代让混沌降低一点,让结构清晰一点。经过几十到几百轮迭代后,那堆乱石已经变成了一件精确的雕塑

这就是"去噪"——在数学上,每一步都相当于神经网络在预测:对于当前这个"有点乱"的原子位置,哪个方向是"更正确"的方向?

扩散模型的关键优势是:它不需要预设任何固定的化学规则来处理不同类型的分子。因为它只是在做"推断下一步该怎么移动每个原子",原则上适用于任何类型的原子,无论是蛋白质的碳原子、DNA 的磷原子,还是药物分子里的氟原子。

这就是为什么 AlphaFold 3 能处理如此多样的分子类型,而不局限于蛋白质。


#
第五章:蛋白质语言模型——让 AI 不只是"预测",更能"创作"

AlphaFold 系列解决的还是一个预测问题:给我一条序列,它折叠后长什么样?

但科学家更大的野心是:能不能反过来——我告诉 AI 我想要一个能干什么的蛋白质,AI 直接帮我设计出全新的序列?

这就进入了**蛋白质语言模型(Protein Language Model, pLLM)**的领域。百图生科的 xTrimoPGLM 是其中的代表作。


5.1 蛋白质就是"语言"

这个想法看起来简单,却非常深刻。

我们先想想人类语言是怎么被 ChatGPT 学会的:把海量的文本输入大模型,让它不断预测"下一个词是什么"。经过这个训练,AI 就掌握了语言的语义、语法和逻辑。

蛋白质序列,也可以被当成"语言"来处理。你可以把 20 种氨基酸看作 20 个"字母"。一条蛋白质序列就是一篇非常具体的生物学"文章"。


5.2 xTrimoPGLM 的训练过程

百图生科拿到了几亿条自然界已知的蛋白质序列,然后用一种叫做**因果语言建模(Causal Language Modeling)**的训练方式来训练这个千亿参数的巨型模型。

训练方法分两种形式交替进行:

方式一:空白填写(Masked Language Modeling) AI 看到一条蛋白质序列,但其中某些氨基酸被遮住了(用黑色方块代替)。AI 需要根据上下文预测被遮住的氨基酸是什么。

这就好比考试里的填空题——你能根据周围的字母猜出被遮住的是什么吗?对人类来说不行,但对于见过几亿条蛋白质序列的 AI 来说,它能感知到某种"生物学语法":在这个位置,考虑到周围的氨基酸的电荷和大小,只有某几种氨基酸是合适的。

方式二:顺序预测(Autoregressive Generation) AI 已经看了序列的前一半,任务是预测后半部分。这训练的是 AI"续写"蛋白质序列的能力。

经过几轮亿级别序列的密集训练后,xTrimoPGLM 不仅"读"懂了蛋白质序列,更深刻地理解了生物学语义,比如:什么样的氨基酸排列会形成稳定的 α 螺旋(一种常见的蛋白质螺旋结构),什么样的序列意味着这个蛋白质会暴露在细胞表面(适合成为抗原),什么样的局部模式与高效的酶催化活性相关联。


5.3 从"读懂"到"创作":从头设计全新蛋白质

当 xTrimoPGLM 被训练完成后,我们可以给它一个"设计需求",就像给一个熟练的作者一个主题要求,让它生成全新的文章。

举例:我们想设计一个能精准识别新冠病毒棘突蛋白并紧紧粘住它的全新抗体蛋白。

AI 的工作流程是这样的:

  1. 条件输入:我们把已知的新冠病毒棘突蛋白的氨基酸序列,以及我们想要的结合特性(高亲和力,能稳定结合)告诉模型
  2. 自回归生成:模型开始一个氨基酸一个氨基酸地"写"出新蛋白质的序列,每一步都在根据之前已经写出的氨基酸,以及关于目标的条件限制来选择下一个氨基酸
  3. 过滤与验证:生成的候选序列会被送入 AlphaFold 进行结构预测,然后用计算软件模拟它与新冠蛋白的结合能(即"粘合力"),把不够好的方案过滤掉
  4. 迭代优化:反复生成、筛选、更新,循环几轮后,留下的就是最优候选蛋白质

这个过程可能在几个小时内完成,而传统方式——使用试管和动物实验来筛选抗体——可能需要一两年。

这就是 AI "书写生命"的能力。


#
第六章:开源生态与边界——你现在能拿来用什么?

光有顶层模型还不够。让这个领域最具活力的,是繁荣的开源生态。

Boltz-1 / Boltz-2:AlphaFold 3 的完全开源平替

AlphaFold 3 虽然公开了论文和代码,但它的模型权重(即 AI 真正学到的"知识")受到严格的非商业限制,而且申请麻烦。

Boltz-1(由 MIT 团队开发)是第一个在预测精度上真正逼近 AlphaFold 3 的完全开源模型,基于 MIT 协议——这意味着任何人可以自由使用,包括商业用途。更重要的是,Boltz-2 还新增了一个 AlphaFold 3 没有的功能:它不仅预测结构,还直接预测结合亲和力(即药物分子和靶蛋白的"粘合强度"的数值预测)。

这个功能对于药物研发极其关键——因为一个药,不仅要找对靶点,还要粘得足够紧才能起效。Boltz-2 把这两步合并在了一个模型里。

ESM-3:Meta 的蛋白质多模态模型

Meta(Facebook 的母公司)的 ESM-3 系列模型,也是完全开源的蛋白质基础模型。它能同时理解蛋白质的三种信息:序列 + 结构 + 功能,并且可以根据其中任意一种信息,推断或生成其他信息。比如:给我一个已知功能(能催化某类反应),设计相应的序列和结构。


#
第七章:这个领域的真正边界和挑战

不要以为 AI 已经完全解决了这个问题。事实上,还有很多关键挑战:

挑战 1:构象系综(蛋白质会"舞动")

AlphaFold 预测的通常是蛋白质的"最稳定状态"。但蛋白质在细胞环境中实际上是活泼地振动和摆动的——它有多个构象状态,而有些药物设计的靶点正好是那些振动时才短暂出现的"隐蔽口袋"。

AI 如何预测蛋白质的动态运动,而不只是静态结构,这仍然是前沿研究问题。

挑战 2:生成-实验的"死亡峡谷"

AI 设计了一条从未在自然界出现过的蛋白质序列。理论上它应该折叠成某个形状,并具备某种功能。但实际合成出来之后,它可能根本不折叠,或者折叠的形状和预测完全不同。AI 的预测误差叠加在一起,会导致很多"看起来完美"的设计在实验室里彻底失败。

建立更可靠的"计算-实验闭环",是这个领域最迫切的工程挑战。

挑战 3:功能预测比结构预测难得多

我们现在能预测蛋白质折叠成什么形状了,但"这个形状能干什么"仍然是更深的谜。一个蛋白质会不会被某种酶识别并降解?它会不会引发免疫反应?这些功能层面的预测,现在的 AI 还做得远不够好。


#
总结

整个蛋白质方向的技术进化路径可以用一句话来概括:

"

从实验测量(几十年)→ 物理规则计算(浅水区)→ 进化信息 + 深度学习(AlphaFold 2 革命)→ 生成式设计(AlphaFold 3 + 扩散模型)→ 语言模型"书写"新生命

每一步的跨越,都不只是效率的提升,而是思维范式的根本转换——从"我能预测已知的东西"到"我能创造从未存在过的东西"。

这是 AI 有史以来在基础科学领域影响最为深远的突破,没有之一。