行业全景:AI + 蛋白质(2026 年报告)
2026 年最新版:从诺贝尔化学奖到 Boltz-2 开源革命、Chai-2 抗体生成突破、RFdiffusion3 全原子设计、ESM3 五亿年进化模拟,全面梳理 AI 蛋白质赛道的核心玩家、技术路线、临床管线与市场格局。
2026-03-14
#赛道全景:一场席卷生命科学的浪潮
蛋白质结构预测与从头设计(de novo design)是生命科学领域自 2020 年以来变化最为剧烈的赛道之一。AlphaFold 2 [1] 在 CASP14 竞赛中的惊艳亮相,彻底颠覆了这一领域长达半个世纪的研究范式 —— 从"50 年悬而未决的生物学难题"一跃成为"已解决问题"。
2024 年,这场变革获得了最高级别的学术认可:Demis Hassabis、John Jumper(AlphaFold) 与 David Baker(计算蛋白质设计) 共同荣获 2024 年诺贝尔化学奖 [14],标志着 AI 蛋白质科学正式进入主流视野。
2026 年,赛道进入**"Builder 阶段"**—— AI 从孤立工具演变为研发操作系统的默认组件。73% 的领先生物技术公司已将蛋白质结构预测纳入核心研发流程,200+ 款 AI 关联药物进入临床开发,预计 2026 年将有 15-20 款进入关键性临床试验。2026 年 1 月,《Cell》发表 AlphaFold 3 论文详述其"原子精度"预测能力;Isomorphic Labs 预计首批 AI 设计候选药将于年底进入 I 期临床。
截至 2026 年 3 月,AlphaFold 数据库已收录超过 2.2 亿 个预测结构,服务全球 190+ 个国家。AI 蛋白质技术已全面进入工业化量产阶段——从"能否预测"到"如何大规模生产 AI 设计的蛋白质",产业核心命题正在发生质变。
技术演进时间线
#市场规模与增长预测
AI 蛋白质赛道已从学术前沿演变为一个高速增长的产业集群。2026 年的核心市场数据:
| 细分市场 | 2026 年规模 | 预测规模 | CAGR | 来源 |
|---|---|---|---|---|
| AI 蛋白质折叠预测 | 16.8 亿美元 | 153 亿美元 (2034) | 25.7% | Global Insight Services |
| 蛋白质结构建模服务 | 16.8 亿美元 | 24.6 亿美元 (2030) | 10.0% | TBRC |
| AI 蛋白质设计 | 15 亿美元 (2025) | 70 亿美元 (2033) | 25.0% | Data Insights Market |
| 蛋白质工程整体 | 42.5 亿美元 | 144.6 亿美元 (2034) | 16.5% | Fortune Business Insights |
| AI 药物发现 | 50-80 亿美元 | 137.7 亿美元 (2033) | 24.8% | Grand View Research |
| AI 生物技术整体 | — | 263 亿美元 (2033) | 19.3% | Market.us |
2026 年行业核心数据:“Builder 阶段”全面开启—— AI 已从孤立实验工具演变为“研发操作系统的默认组件”。73% 的领先生物技术公司已将蛋白质结构预测纳入核心研发流程。中国市场扩张尤为迅速,2026 年上海生物医药合作大会重点关注“生成式 AI 重硽蛋白质与抗体设计”,指出 AI 已将研发周期从数月缩短至数周。美国 FDA 于 2026 年初发布 10 项 AI 药物新指南,要求“可解释、可追溯”,标志着监管框架正式落地。
#核心技术路线
当前赛道存在三条主要技术路线,各有其适用场景:
| 路线 | 代表模型 | 核心机制 | 优势 | 局限 |
|---|---|---|---|---|
| 结构-序列联合建模 | AlphaFold 3, Boltz-1/2 | 条件扩散 + MSA | 高精度复合体预测、亲和力建模 | 计算资源需求高 |
| 多模态生成式语言模型 | ESM3 (98B), ESM-2, ESMFold | 自监督多模态语言建模 | 模拟 5 亿年进化,无需 MSA | 复杂体预测精度有限 |
| 全原子图神经网络 | RoseTTAFold All-Atom | SE(3)-等变 GNN | 小分子-蛋白质全原子建模 | 领域覆盖相对窄 |
| 扩散生成设计 | RFdiffusion 1/2/3, ProteinMPNN | 扩散去噪 + 序列逆折叠 | 从头设计全新蛋白质 | 活性优化循环成本高 |
| 多模态抗体生成 | Chai-2 | 多模态生成框架 | 16-20% 结合命中率,分钟级报告 | 缺乏大规模临床验证 |
技术路线对比图
#核心技术栈详解
Boltz-1/2:开源先锋
Boltz 是业界首个在预测精度上逼近 AlphaFold 3 的完全开源生物分子基础模型。2025 年 8 月发布的 Boltz-2 首次将结构预测与**结合亲和力预测(Binding Affinity)**统一在同一个模型中:
- 精度逼近物理方法(自由能微扰 FEP),但速度快 1000 倍
- 支持蛋白质-配体、蛋白质-DNA/RNA 等复合体
- 提供方法条件化、模板引导、口袋约束等可控性特性
- MIT 开源协议,模型权重、训练管线全部公开
Boltz-1/2:业界首个在预测精度上逼近 AlphaFold 3 的完全开源生物分子基础模型。Boltz-2 新增结合亲和力预测,MIT 协议。
AlphaFold:学术旗舰
AlphaFold 3 官方代码仓库,DeepMind 出品,支持蛋白质、DNA、RNA、配体的联合结构预测。2024 诺贝尔奖模型。
AlphaFold 3 [2] 的核心创新在于条件扩散框架,将预测范围从单链蛋白扩展到整个分子复合体:蛋白质-DNA/RNA 相互作用、蛋白质-配体结合、翻译后修饰体系等。但其代码在初期受限于非商业许可,推动了 Boltz 等开源替代方案的崛起。
ESM 系列:语言模型路线
Meta AI 出品的 ESM 系列蛋白质语言模型,ESM-2 提供从 8M 到 15B 多种参数规模。ESMFold 已预测 6.17 亿蛋白质结构。
ESMFold [13] 基于 150 亿参数的 ESM-2 语言模型 [5],其核心优势在于无需 MSA(多重序列比对),仅凭单条序列即可预测结构,速度比 AlphaFold 快 6 到 60 倍。ESM 宏基因组图谱已预测超过 6.17 亿个结构。
2025 年,ESM3 [10] 标志着语言模型路线的重大跳跃——这是一个 980 亿参数的多模态生成式语言模型,整合蛋白质序列、结构和功能数据,可 模拟超过 5 亿年的蛋白质进化:
- 训练数据:31.5 亿蛋白质序列、2.36 亿三维结构、5.39 亿功能注释,共计 7,710 亿 token
- 已成功生成全新荧光蛋白质 (esmGFP),与最近天然荧光蛋白的序列相似度仅 58%
- 应用范围涵盖药物发现、材料科学、碟捕获、合成生物学
Chai Discovery:抗体设计革命者
Chai-1 [8] 是 2024 年 9 月发布的多模态基础模型,在多个关键基准上表现出色。
2025 年,Chai-2 [9] 实现了从头抗体设计的革命性突破:
- 抗体 (VH/VL) 结合命中率达 16%-20%,比传统计算方法高出 100 倍以上
- 微蛋白结合器成功率达 68%,常可获得皮摩尔级亲和力
- 50% 的靶点可在单轮实验中找到成功结合器
- 从分子生成到实验室验证可缩短至两周以内
David Baker 实验室:蛋白质设计之王
2024 年诺贝尔化学奖得主 David Baker 领导的华盛顿大学蛋白质设计研究所(IPD)是从头蛋白质设计领域的绝对旗帜。其核心工具包括 ProteinMPNN [12] 和 RFdiffusion [7]:
| 工具 | 发布年份 | 核心能力 |
|---|---|---|
| ProteinMPNN | 2022 | 给定骨架结构,生成可折叠的氨基酸序列 |
| RFdiffusion | 2023 | 从噪声从头生成全新蛋白质骨架结构 |
| RFdiffusion2 | 2025 | 专攻高效酶设计,催化效率逼近天然酶 |
| RFdiffusion3 | 2025.12 | 全原子级别蛋白质设计,性能提升 10 倍,支持 DNA/配体/蛋白质联合设计 |
RFdiffusion3 [11] 于 2025 年 12 月开源,采用显式 14 原子/残基表示,可直接对原子级约束(氢键供体/受体、埋藏状态)进行条件化设计,实验验证已成功设计 DNA 结合蛋白和新型酶。
2025 年初,Baker 团队在《Science》发表重磅论文:首次利用 AI 从零开始设计出具有复杂活性位点的丝氨酸水解酶,催化效率显著超越此前所有计算设计酶,标志着酶工程迈入新时代。
RFdiffusion:诺贝尔奖得主 David Baker 实验室开发的扩散式蛋白质结构生成工具,可从头设计全新蛋白质。
商业化平台
| 平台 | 背景 | 核心产品/技术 | 定位 | 最新进展 (2025) |
|---|---|---|---|---|
| Isomorphic Labs | Google DeepMind 子公司 | AlphaFold 商业 API | 药物发现全链路 | 与 Lilly、Novartis 签署超30亿美元合作 |
| Recursion | 与 MIT 合作 | Boltz-2, LOWE 平台 | AI 驱动的临床管线 | Boltz-2 开源发布 |
| 百图生科 | 腾讯战略投资 | xTrimoPGLM 千亿模型 | 蛋白质设计 + 功能预测 | 1000 亿参数蛋白质 LM |
| 分子之心 | 中国 AI 蛋白质 | MoleculeOS 平台 | 抗原-抗体预测、动态设计 | WAIC 2025 展示 |
| Generate:Biomedicines | A16z 领投 | Chroma 扩散模型 | de novo 蛋白质设计 | 多款管线进入临床前 |
| Chai Discovery | OpenAI 系 | Chai-1/2 | 开源复合体预测 + 抗体生成 | B 轮融资 (2025.12) |
| 英矽智能 | Insilico Medicine | Pharma.AI 平台 | AI 全链路药物发现 | IPF 药物临床 II 期 |
| Profluent | — | 蛋白质/抗体生成 AI | 从序列直接设计抗体 | 分钟级抗体设计 |
#评价指标体系
理解模型输出需要掌握几个关键指标:
pLDDT(每残基局部距离差测试)
衡量每个残基局部结构的预测置信度:
| 分数区间 | 置信度解读 | 可信度 |
|---|---|---|
| 90 – 100 | 极高 | ✅ 可信 |
| 70 – 90 | 高 | ✅ 通常正确 |
| 50 – 70 | 中等 | ⚠️ 需谨慎使用 |
| < 50 | 低 | ❌ 结构可能无序 |
PTM(预测的 TM 分数)
衡量全局折叠拓扑的正确性,范围 ,越接近 1 越好。通常 视为可接受结果。
ipTM(界面 PTM)
专用于评估蛋白质-蛋白质或蛋白质-配体复合体预测中界面区域的准确度,是多链复合体预测最重要的指标。
结合亲和力
Boltz-2 新增的关键输出指标,衡量突变对蛋白质-配体结合自由能的影响:
负值表示突变增强结合,正值表示减弱。在药物优化的先导化合物(Lead Optimization)阶段至关重要。
#动手实验:模型输出置信度解析
#与传统方法的对比
#产业应用场景深度剖析
AI 蛋白质技术已渗透到生物医药全产业链的每一个关键环节:
1. 虚拟筛选与靶点发现
在数亿化合物库中,利用 AI 预测的蛋白质口袋结构进行对接筛选,命中率提升 3-10 倍。AI 可为无结构信息的潜在靶点进行"虚拟解析",扩大可成药靶点空间。药物研发占据蛋白质结构预测全球市场约 55% 的份额。
2. 抗体工程
- 预测抗体-抗原界面结构(CDR 区域),指导定向改造
- 生成式 AI 将抗体研发周期从数月缩短至数周,效率提升数十至数百倍
- Chai-2、Profluent 等模型可在分钟内直接设计目标功能抗体
- 全球抗体药物市场预计 2028 年将突破 4,550 亿美元
3. 酶工程
- AI 设计耐热、耐有机溶剂突变体,减少湿实验迭代轮次
- 2025 年,Baker 团队使用 RFdiffusion2 从头设计功能性丝氨酸水解酶,催化效率逼近天然酶
- PLACER + RFdiffusion 实现活性位点原子级精确设计
4. 临床前加速
AI 生成的药物分子在 I 期临床试验中成功率高达 80%-90%,远高于传统方法约 40% 的平均水平。AI 每年可为制药业节省 260 亿美元的研发成本。AI 使临床前研究周期平均缩短 15-20%。
5. 合成生物学与工业酶
- 蛋白质设计技术在食品科学(人造蛋白)、能源化工(生物催化剂)、环保(塑料降解酶)等领域的应用也在快速增长
- 通过 ProteinMPNN + RFdiffusion 流水线,可批量化生成满足工业需求的定制化酶
#开源 vs. 闭源:生态格局演变
AI 蛋白质赛道正经历一场充满张力的开源运动:
开源的战略意义:Boltz-2 的完全开源(MIT 协议)被业界视为"game changer"——任何学术机构或生物技术公司都可以免费获取模型权重、训练管线和推理代码,在单 GPU 上运行世界级的结构预测与亲和力建模。这从根本上消除了 AI 蛋白质建模的准入门槛。
#挑战与展望
当前挑战
- 高质量实验数据不足 — 蛋白质功能与动态数据仍远少于结构数据
- 计算资源消耗 — 高精度多模态预测仍需大量 GPU 资源
- "湿实验验证"鸿沟 — 从计算预测到实验验证仍存在时间与成本壁垒
- 监管与标准化 — 各国正积极推动 AI 蛋白质技术的评估标准与监管框架
未来趋势
- 从结构到功能 — 下一代模型将预测蛋白质的动态行为、别构效应和功能机制
- 多模态大一统 — 蛋白质 + DNA + RNA + 小分子 + 共价修饰的全场景联合预测
- AI-实验闭环 — AI 预测 → 自动化实验验证 → 数据反馈 → 模型迭代
- 边缘化部署 — 在医院和药企本地部署轻量化蛋白质 AI 模型(如 ESMFold 的单卡推理)
- 蛋白质即软件 — 以 RFdiffusion 为代表的设计工具使蛋白质研发更像"编程"——输入功能需求,输出分子设计
#动手实验:氨基酸频率 vs. 疏水性分析
#核心开源项目速览
Boltz-1/2:完全开源(MIT)的生物分子复合物预测模型,支持全原子级相互作用。
Meta AI ESM 系列蛋白质语言模型。ESMFold 已预测 6.17 亿结构。支持从 8M 到 15B 多种规模。
给定蛋白质骨架结构,快速生成可折叠氨基酸序列。常与 RFdiffusion 组合使用。
百图生科开源的千亿级参数蛋白质语言模型,专为解码生命蛋白质语言设计。
AlphaFold 3 官方代码实现与环境配置,支持 Docker 部署(权重限非商业用途)。
参考文献
- [1]Jumper, J. et al. (2021). Highly accurate protein structure prediction with AlphaFold. Nature, 596, 583-589. https://doi.org/10.1038/s41586-021-03819-2
- [2]Abramson, J. et al. (2024). Accurate structure prediction of biomolecular interactions with AlphaFold 3. Nature, 630, 493-500. https://doi.org/10.1038/s41586-024-07487-w
- [3]Wohlwend, J. et al. (2024). Boltz-1: Democratizing Biomolecular Interaction Modeling. bioRxiv. https://github.com/jwohlwend/boltz
- [4]Wohlwend, J. et al. (2025). Boltz-2: Jointly modeling structure and binding affinity. bioRxiv. https://github.com/jwohlwend/boltz
- [5]Lin, Z. et al. (2023). Evolutionary-scale prediction of atomic-level protein structure with a language model. Science, 379(6637). https://doi.org/10.1126/science.ade2574
- [6]Krishna, R. et al. (2024). Generalized biomolecular modeling and design with RoseTTAFold All-Atom. Science, 384(6693). https://doi.org/10.1126/science.adl2528
- [7]Watson, J. L. et al. (2023). De novo design of protein structure and function with RFdiffusion. Nature, 620, 1089-1100. https://doi.org/10.1038/s41586-023-06415-8
- [8]Chai Discovery (2024). Chai-1: A multi-modal foundation model for molecular structure prediction. bioRxiv. https://www.chaidiscovery.com
- [9]Chai Discovery (2025). Chai-2: De novo antibody and miniprotein design with 16-20% hit rate. bioRxiv. https://www.chaidiscovery.com
- [10]EvolutionaryScale (2025). ESM3: Simulating 500 million years of evolution with a multimodal protein language model. bioRxiv. https://www.evolutionaryscale.ai
- [11]Baker Lab (2025). RFdiffusion3: Atom-level protein design at scale. bioRxiv. https://github.com/RosettaCommons/RFdiffusion
- [12]Dauparas, J. et al. (2022). Robust deep learning–based protein sequence design using ProteinMPNN. Science, 378(6615). https://doi.org/10.1126/science.add2187
- [13]Lin, Z. et al. (2023). ESMFold: Evolutionary-scale prediction of atomic-level protein structure. Science, 379(6637). https://doi.org/10.1126/science.ade2574
- [14]The Nobel Prize in Chemistry 2024. NobelPrize.org. https://www.nobelprize.org/prizes/chemistry/2024
参考文献
- [1]Jumper, J. et al. (2021). Highly accurate protein structure prediction with AlphaFold. Nature, 596, 583-589. https://doi.org/10.1038/s41586-021-03819-2
- [2]Abramson, J. et al. (2024). Accurate structure prediction of biomolecular interactions with AlphaFold 3. Nature, 630, 493-500. https://doi.org/10.1038/s41586-024-07487-w
- [3]Wohlwend, J. et al. (2024). Boltz-1: Democratizing Biomolecular Interaction Modeling. bioRxiv. https://github.com/jwohlwend/boltz
- [4]Wohlwend, J. et al. (2025). Boltz-2: Jointly modeling structure and binding affinity. bioRxiv. https://github.com/jwohlwend/boltz
- [5]Lin, Z. et al. (2023). Evolutionary-scale prediction of atomic-level protein structure with a language model. Science, 379(6637). https://doi.org/10.1126/science.ade2574
- [6]Krishna, R. et al. (2024). Generalized biomolecular modeling and design with RoseTTAFold All-Atom. Science, 384(6693). https://doi.org/10.1126/science.adl2528
- [7]Watson, J. L. et al. (2023). De novo design of protein structure and function with RFdiffusion. Nature, 620, 1089-1100. https://doi.org/10.1038/s41586-023-06415-8
- [8]Chai Discovery (2024). Chai-1: A multi-modal foundation model for molecular structure prediction. bioRxiv. https://www.chaidiscovery.com
- [9]Chai Discovery (2025). Chai-2: De novo antibody and miniprotein design with 16-20% hit rate. bioRxiv. https://www.chaidiscovery.com
- [10]EvolutionaryScale (2025). ESM3: Simulating 500 million years of evolution with a multimodal protein language model. bioRxiv. https://www.evolutionaryscale.ai
- [11]Baker Lab (2025). RFdiffusion3: Atom-level protein design at scale. bioRxiv. https://github.com/RosettaCommons/RFdiffusion
- [12]Dauparas, J. et al. (2022). Robust deep learning–based protein sequence design using ProteinMPNN. Science, 378(6615). https://doi.org/10.1126/science.add2187
- [13]Lin, Z. et al. (2023). ESMFold: Evolutionary-scale prediction of atomic-level protein structure. Science, 379(6637). https://doi.org/10.1126/science.ade2574
- [14]The Nobel Prize in Chemistry 2024. NobelPrize.org. https://www.nobelprize.org/prizes/chemistry/2024