Study AI with Med
总览AI+蛋白质预测AI+药物发现AI+医疗大模型AI+临床智能体
AI+蛋白质

行业全景:AI + 蛋白质(2026 年报告)

2026 年最新版:从诺贝尔化学奖到 Boltz-2 开源革命、Chai-2 抗体生成突破、RFdiffusion3 全原子设计、ESM3 五亿年进化模拟,全面梳理 AI 蛋白质赛道的核心玩家、技术路线、临床管线与市场格局。

2026-03-14

#
赛道全景:一场席卷生命科学的浪潮

蛋白质结构预测与从头设计(de novo design)是生命科学领域自 2020 年以来变化最为剧烈的赛道之一。AlphaFold 2 [1] 在 CASP14 竞赛中的惊艳亮相,彻底颠覆了这一领域长达半个世纪的研究范式 —— 从"50 年悬而未决的生物学难题"一跃成为"已解决问题"。

2024 年,这场变革获得了最高级别的学术认可:Demis Hassabis、John Jumper(AlphaFold)David Baker(计算蛋白质设计) 共同荣获 2024 年诺贝尔化学奖 [14],标志着 AI 蛋白质科学正式进入主流视野。

2026 年,赛道进入**"Builder 阶段"**—— AI 从孤立工具演变为研发操作系统的默认组件。73% 的领先生物技术公司已将蛋白质结构预测纳入核心研发流程,200+ 款 AI 关联药物进入临床开发,预计 2026 年将有 15-20 款进入关键性临床试验。2026 年 1 月,《Cell》发表 AlphaFold 3 论文详述其"原子精度"预测能力;Isomorphic Labs 预计首批 AI 设计候选药将于年底进入 I 期临床。

🌱

截至 2026 年 3 月,AlphaFold 数据库已收录超过 2.2 亿 个预测结构,服务全球 190+ 个国家。AI 蛋白质技术已全面进入工业化量产阶段——从"能否预测"到"如何大规模生产 AI 设计的蛋白质",产业核心命题正在发生质变。

技术演进时间线


#
市场规模与增长预测

AI 蛋白质赛道已从学术前沿演变为一个高速增长的产业集群。2026 年的核心市场数据:

细分市场2026 年规模预测规模CAGR来源
AI 蛋白质折叠预测16.8 亿美元153 亿美元 (2034)25.7%Global Insight Services
蛋白质结构建模服务16.8 亿美元24.6 亿美元 (2030)10.0%TBRC
AI 蛋白质设计15 亿美元 (2025)70 亿美元 (2033)25.0%Data Insights Market
蛋白质工程整体42.5 亿美元144.6 亿美元 (2034)16.5%Fortune Business Insights
AI 药物发现50-80 亿美元137.7 亿美元 (2033)24.8%Grand View Research
AI 生物技术整体263 亿美元 (2033)19.3%Market.us

2026 年行业核心数据:“Builder 阶段”全面开启—— AI 已从孤立实验工具演变为“研发操作系统的默认组件”。73% 的领先生物技术公司已将蛋白质结构预测纳入核心研发流程。中国市场扩张尤为迅速,2026 年上海生物医药合作大会重点关注“生成式 AI 重硽蛋白质与抗体设计”,指出 AI 已将研发周期从数月缩短至数周。美国 FDA 于 2026 年初发布 10 项 AI 药物新指南,要求“可解释、可追溯”,标志着监管框架正式落地。


#
核心技术路线

当前赛道存在三条主要技术路线,各有其适用场景:

路线代表模型核心机制优势局限
结构-序列联合建模AlphaFold 3, Boltz-1/2条件扩散 + MSA高精度复合体预测、亲和力建模计算资源需求高
多模态生成式语言模型ESM3 (98B), ESM-2, ESMFold自监督多模态语言建模模拟 5 亿年进化,无需 MSA复杂体预测精度有限
全原子图神经网络RoseTTAFold All-AtomSE(3)-等变 GNN小分子-蛋白质全原子建模领域覆盖相对窄
扩散生成设计RFdiffusion 1/2/3, ProteinMPNN扩散去噪 + 序列逆折叠从头设计全新蛋白质活性优化循环成本高
多模态抗体生成Chai-2多模态生成框架16-20% 结合命中率,分钟级报告缺乏大规模临床验证

技术路线对比图


#
核心技术栈详解

Boltz-1/2:开源先锋

Boltz 是业界首个在预测精度上逼近 AlphaFold 3 的完全开源生物分子基础模型。2025 年 8 月发布的 Boltz-2 首次将结构预测与**结合亲和力预测(Binding Affinity)**统一在同一个模型中:

  • 精度逼近物理方法(自由能微扰 FEP),但速度快 1000 倍
  • 支持蛋白质-配体、蛋白质-DNA/RNA 等复合体
  • 提供方法条件化、模板引导、口袋约束等可控性特性
  • MIT 开源协议,模型权重、训练管线全部公开
📦
jwohlwend/boltz

Boltz-1/2:业界首个在预测精度上逼近 AlphaFold 3 的完全开源生物分子基础模型。Boltz-2 新增结合亲和力预测,MIT 协议。

View on GitHub →

AlphaFold:学术旗舰

📦
google-deepmind/alphafold3

AlphaFold 3 官方代码仓库,DeepMind 出品,支持蛋白质、DNA、RNA、配体的联合结构预测。2024 诺贝尔奖模型。

View on GitHub →

AlphaFold 3 [2] 的核心创新在于条件扩散框架,将预测范围从单链蛋白扩展到整个分子复合体:蛋白质-DNA/RNA 相互作用、蛋白质-配体结合、翻译后修饰体系等。但其代码在初期受限于非商业许可,推动了 Boltz 等开源替代方案的崛起。

ESM 系列:语言模型路线

📦
facebookresearch/esm

Meta AI 出品的 ESM 系列蛋白质语言模型,ESM-2 提供从 8M 到 15B 多种参数规模。ESMFold 已预测 6.17 亿蛋白质结构。

View on GitHub →

ESMFold [13] 基于 150 亿参数的 ESM-2 语言模型 [5],其核心优势在于无需 MSA(多重序列比对),仅凭单条序列即可预测结构,速度比 AlphaFold 快 6 到 60 倍。ESM 宏基因组图谱已预测超过 6.17 亿个结构。

2025 年,ESM3 [10] 标志着语言模型路线的重大跳跃——这是一个 980 亿参数的多模态生成式语言模型,整合蛋白质序列、结构和功能数据,可 模拟超过 5 亿年的蛋白质进化

  • 训练数据:31.5 亿蛋白质序列、2.36 亿三维结构、5.39 亿功能注释,共计 7,710 亿 token
  • 已成功生成全新荧光蛋白质 (esmGFP),与最近天然荧光蛋白的序列相似度仅 58%
  • 应用范围涵盖药物发现、材料科学、碟捕获、合成生物学

Chai Discovery:抗体设计革命者

Chai-1 [8] 是 2024 年 9 月发布的多模态基础模型,在多个关键基准上表现出色。

2025 年,Chai-2 [9] 实现了从头抗体设计的革命性突破

  • 抗体 (VH/VL) 结合命中率达 16%-20%,比传统计算方法高出 100 倍以上
  • 微蛋白结合器成功率达 68%,常可获得皮摩尔级亲和力
  • 50% 的靶点可在单轮实验中找到成功结合器
  • 从分子生成到实验室验证可缩短至两周以内

David Baker 实验室:蛋白质设计之王

2024 年诺贝尔化学奖得主 David Baker 领导的华盛顿大学蛋白质设计研究所(IPD)是从头蛋白质设计领域的绝对旗帜。其核心工具包括 ProteinMPNN [12]RFdiffusion [7]

工具发布年份核心能力
ProteinMPNN2022给定骨架结构,生成可折叠的氨基酸序列
RFdiffusion2023从噪声从头生成全新蛋白质骨架结构
RFdiffusion22025专攻高效酶设计,催化效率逼近天然酶
RFdiffusion32025.12全原子级别蛋白质设计,性能提升 10 倍,支持 DNA/配体/蛋白质联合设计

RFdiffusion3 [11] 于 2025 年 12 月开源,采用显式 14 原子/残基表示,可直接对原子级约束(氢键供体/受体、埋藏状态)进行条件化设计,实验验证已成功设计 DNA 结合蛋白和新型酶。

🌱

2025 年初,Baker 团队在《Science》发表重磅论文:首次利用 AI 从零开始设计出具有复杂活性位点的丝氨酸水解酶,催化效率显著超越此前所有计算设计酶,标志着酶工程迈入新时代。

📦
RosettaCommons/RFdiffusion

RFdiffusion:诺贝尔奖得主 David Baker 实验室开发的扩散式蛋白质结构生成工具,可从头设计全新蛋白质。

View on GitHub →

商业化平台

平台背景核心产品/技术定位最新进展 (2025)
Isomorphic LabsGoogle DeepMind 子公司AlphaFold 商业 API药物发现全链路与 Lilly、Novartis 签署超30亿美元合作
Recursion与 MIT 合作Boltz-2, LOWE 平台AI 驱动的临床管线Boltz-2 开源发布
百图生科腾讯战略投资xTrimoPGLM 千亿模型蛋白质设计 + 功能预测1000 亿参数蛋白质 LM
分子之心中国 AI 蛋白质MoleculeOS 平台抗原-抗体预测、动态设计WAIC 2025 展示
Generate:BiomedicinesA16z 领投Chroma 扩散模型de novo 蛋白质设计多款管线进入临床前
Chai DiscoveryOpenAI 系Chai-1/2开源复合体预测 + 抗体生成B 轮融资 (2025.12)
英矽智能Insilico MedicinePharma.AI 平台AI 全链路药物发现IPF 药物临床 II 期
Profluent蛋白质/抗体生成 AI从序列直接设计抗体分钟级抗体设计

#
评价指标体系

理解模型输出需要掌握几个关键指标:

pLDDT(每残基局部距离差测试)

pLDDT[0,100]\text{pLDDT} \in [0, 100]

衡量每个残基局部结构的预测置信度:

分数区间置信度解读可信度
90 – 100极高✅ 可信
70 – 90✅ 通常正确
50 – 70中等⚠️ 需谨慎使用
< 50❌ 结构可能无序

PTM(预测的 TM 分数)

衡量全局折叠拓扑的正确性,范围 [0,1][0, 1],越接近 1 越好。通常 PTM>0.5\text{PTM} > 0.5 视为可接受结果。

ipTM(界面 PTM)

专用于评估蛋白质-蛋白质或蛋白质-配体复合体预测中界面区域的准确度,是多链复合体预测最重要的指标。

结合亲和力 ΔΔG\Delta\Delta G

Boltz-2 新增的关键输出指标,衡量突变对蛋白质-配体结合自由能的影响:

ΔΔG=ΔGmutantΔGwild-type\Delta\Delta G = \Delta G_{\text{mutant}} - \Delta G_{\text{wild-type}}

负值表示突变增强结合,正值表示减弱。在药物优化的先导化合物(Lead Optimization)阶段至关重要。


#
动手实验:模型输出置信度解析

🐍 Python · Pyodide WASM

#
与传统方法的对比


#
产业应用场景深度剖析

AI 蛋白质技术已渗透到生物医药全产业链的每一个关键环节:

1. 虚拟筛选与靶点发现

在数亿化合物库中,利用 AI 预测的蛋白质口袋结构进行对接筛选,命中率提升 3-10 倍。AI 可为无结构信息的潜在靶点进行"虚拟解析",扩大可成药靶点空间。药物研发占据蛋白质结构预测全球市场约 55% 的份额

2. 抗体工程

  • 预测抗体-抗原界面结构(CDR 区域),指导定向改造
  • 生成式 AI 将抗体研发周期从数月缩短至数周,效率提升数十至数百倍
  • Chai-2、Profluent 等模型可在分钟内直接设计目标功能抗体
  • 全球抗体药物市场预计 2028 年将突破 4,550 亿美元

3. 酶工程

  • AI 设计耐热、耐有机溶剂突变体,减少湿实验迭代轮次
  • 2025 年,Baker 团队使用 RFdiffusion2 从头设计功能性丝氨酸水解酶,催化效率逼近天然酶
  • PLACER + RFdiffusion 实现活性位点原子级精确设计

4. 临床前加速

AI 生成的药物分子在 I 期临床试验中成功率高达 80%-90%,远高于传统方法约 40% 的平均水平。AI 每年可为制药业节省 260 亿美元的研发成本。AI 使临床前研究周期平均缩短 15-20%

5. 合成生物学与工业酶

  • 蛋白质设计技术在食品科学(人造蛋白)、能源化工(生物催化剂)、环保(塑料降解酶)等领域的应用也在快速增长
  • 通过 ProteinMPNN + RFdiffusion 流水线,可批量化生成满足工业需求的定制化酶

#
开源 vs. 闭源:生态格局演变

AI 蛋白质赛道正经历一场充满张力的开源运动:

开源的战略意义:Boltz-2 的完全开源(MIT 协议)被业界视为"game changer"——任何学术机构或生物技术公司都可以免费获取模型权重、训练管线和推理代码,在单 GPU 上运行世界级的结构预测与亲和力建模。这从根本上消除了 AI 蛋白质建模的准入门槛。


#
挑战与展望

当前挑战

  1. 高质量实验数据不足 — 蛋白质功能与动态数据仍远少于结构数据
  2. 计算资源消耗 — 高精度多模态预测仍需大量 GPU 资源
  3. "湿实验验证"鸿沟 — 从计算预测到实验验证仍存在时间与成本壁垒
  4. 监管与标准化 — 各国正积极推动 AI 蛋白质技术的评估标准与监管框架

未来趋势

  1. 从结构到功能 — 下一代模型将预测蛋白质的动态行为别构效应功能机制
  2. 多模态大一统 — 蛋白质 + DNA + RNA + 小分子 + 共价修饰的全场景联合预测
  3. AI-实验闭环 — AI 预测 → 自动化实验验证 → 数据反馈 → 模型迭代
  4. 边缘化部署 — 在医院和药企本地部署轻量化蛋白质 AI 模型(如 ESMFold 的单卡推理)
  5. 蛋白质即软件 — 以 RFdiffusion 为代表的设计工具使蛋白质研发更像"编程"——输入功能需求,输出分子设计

#
动手实验:氨基酸频率 vs. 疏水性分析

🐍 Python · Pyodide WASM

#
核心开源项目速览

📦
jwohlwend/boltz

Boltz-1/2:完全开源(MIT)的生物分子复合物预测模型,支持全原子级相互作用。

View on GitHub →
📦
facebookresearch/esm

Meta AI ESM 系列蛋白质语言模型。ESMFold 已预测 6.17 亿结构。支持从 8M 到 15B 多种规模。

View on GitHub →
📦
dauparas/ProteinMPNN

给定蛋白质骨架结构,快速生成可折叠氨基酸序列。常与 RFdiffusion 组合使用。

View on GitHub →
📦
biomap-research/xTrimoPGLM

百图生科开源的千亿级参数蛋白质语言模型,专为解码生命蛋白质语言设计。

View on GitHub →
📦
google-deepmind/alphafold3

AlphaFold 3 官方代码实现与环境配置,支持 Docker 部署(权重限非商业用途)。

View on GitHub →

参考文献

  1. [1]Jumper, J. et al. (2021). Highly accurate protein structure prediction with AlphaFold. Nature, 596, 583-589. https://doi.org/10.1038/s41586-021-03819-2
  2. [2]Abramson, J. et al. (2024). Accurate structure prediction of biomolecular interactions with AlphaFold 3. Nature, 630, 493-500. https://doi.org/10.1038/s41586-024-07487-w
  3. [3]Wohlwend, J. et al. (2024). Boltz-1: Democratizing Biomolecular Interaction Modeling. bioRxiv. https://github.com/jwohlwend/boltz
  4. [4]Wohlwend, J. et al. (2025). Boltz-2: Jointly modeling structure and binding affinity. bioRxiv. https://github.com/jwohlwend/boltz
  5. [5]Lin, Z. et al. (2023). Evolutionary-scale prediction of atomic-level protein structure with a language model. Science, 379(6637). https://doi.org/10.1126/science.ade2574
  6. [6]Krishna, R. et al. (2024). Generalized biomolecular modeling and design with RoseTTAFold All-Atom. Science, 384(6693). https://doi.org/10.1126/science.adl2528
  7. [7]Watson, J. L. et al. (2023). De novo design of protein structure and function with RFdiffusion. Nature, 620, 1089-1100. https://doi.org/10.1038/s41586-023-06415-8
  8. [8]Chai Discovery (2024). Chai-1: A multi-modal foundation model for molecular structure prediction. bioRxiv. https://www.chaidiscovery.com
  9. [9]Chai Discovery (2025). Chai-2: De novo antibody and miniprotein design with 16-20% hit rate. bioRxiv. https://www.chaidiscovery.com
  10. [10]EvolutionaryScale (2025). ESM3: Simulating 500 million years of evolution with a multimodal protein language model. bioRxiv. https://www.evolutionaryscale.ai
  11. [11]Baker Lab (2025). RFdiffusion3: Atom-level protein design at scale. bioRxiv. https://github.com/RosettaCommons/RFdiffusion
  12. [12]Dauparas, J. et al. (2022). Robust deep learning–based protein sequence design using ProteinMPNN. Science, 378(6615). https://doi.org/10.1126/science.add2187
  13. [13]Lin, Z. et al. (2023). ESMFold: Evolutionary-scale prediction of atomic-level protein structure. Science, 379(6637). https://doi.org/10.1126/science.ade2574
  14. [14]The Nobel Prize in Chemistry 2024. NobelPrize.org. https://www.nobelprize.org/prizes/chemistry/2024

参考文献

  1. [1]Jumper, J. et al. (2021). Highly accurate protein structure prediction with AlphaFold. Nature, 596, 583-589. https://doi.org/10.1038/s41586-021-03819-2
  2. [2]Abramson, J. et al. (2024). Accurate structure prediction of biomolecular interactions with AlphaFold 3. Nature, 630, 493-500. https://doi.org/10.1038/s41586-024-07487-w
  3. [3]Wohlwend, J. et al. (2024). Boltz-1: Democratizing Biomolecular Interaction Modeling. bioRxiv. https://github.com/jwohlwend/boltz
  4. [4]Wohlwend, J. et al. (2025). Boltz-2: Jointly modeling structure and binding affinity. bioRxiv. https://github.com/jwohlwend/boltz
  5. [5]Lin, Z. et al. (2023). Evolutionary-scale prediction of atomic-level protein structure with a language model. Science, 379(6637). https://doi.org/10.1126/science.ade2574
  6. [6]Krishna, R. et al. (2024). Generalized biomolecular modeling and design with RoseTTAFold All-Atom. Science, 384(6693). https://doi.org/10.1126/science.adl2528
  7. [7]Watson, J. L. et al. (2023). De novo design of protein structure and function with RFdiffusion. Nature, 620, 1089-1100. https://doi.org/10.1038/s41586-023-06415-8
  8. [8]Chai Discovery (2024). Chai-1: A multi-modal foundation model for molecular structure prediction. bioRxiv. https://www.chaidiscovery.com
  9. [9]Chai Discovery (2025). Chai-2: De novo antibody and miniprotein design with 16-20% hit rate. bioRxiv. https://www.chaidiscovery.com
  10. [10]EvolutionaryScale (2025). ESM3: Simulating 500 million years of evolution with a multimodal protein language model. bioRxiv. https://www.evolutionaryscale.ai
  11. [11]Baker Lab (2025). RFdiffusion3: Atom-level protein design at scale. bioRxiv. https://github.com/RosettaCommons/RFdiffusion
  12. [12]Dauparas, J. et al. (2022). Robust deep learning–based protein sequence design using ProteinMPNN. Science, 378(6615). https://doi.org/10.1126/science.add2187
  13. [13]Lin, Z. et al. (2023). ESMFold: Evolutionary-scale prediction of atomic-level protein structure. Science, 379(6637). https://doi.org/10.1126/science.ade2574
  14. [14]The Nobel Prize in Chemistry 2024. NobelPrize.org. https://www.nobelprize.org/prizes/chemistry/2024