简单理解:AI + 药物发现(AIDD)
从零开始理解新药研发的困境、AI 如何在靶点发现/分子生成/ADMET 预测中革命性地加速流程、图神经网络和强化学习的核心原理。面向小白的深度讲义。
2026-03-15
#前言:新药研发为什么这么难?
让我先带你感受一下,一颗药物是怎么从零被发现的。
"某家制药公司,决定研发一款治疗某种肺癌的新药。他们首先要在人体上万种蛋白质中,找到那个"最需要被关掉"的致病蛋白(这叫靶点发现)。然后,他们需要从几千万种已知化合物中,把那些可能与这个靶点结合的分子找出来(这叫苗头化合物筛选)。找到几个苗头后,再花几年时间一个一个地优化它们的结构,让它们溶水性更好、毒副作用更小、在体内的存活时间更长(这叫先导化合物优化)。优化出了候选分子,再做小白鼠试验、猴子试验,最后才能申请人体临床试验,分三个期逐步验证安全性和有效性。
全程走完:平均 12 年,超过 10 亿美元,失败率超过 90%。
这个领域有个著名的"双十定律":十年、十亿美元。
而且,这几十年来,低垂的果实已经摘完了。人类最容易找到靶点的疾病,已经差不多都有药了。剩下那些——罕见病、复杂癌症、神经退行性疾病——是真正的硬骨头。
AI 现在能做什么?它可以把这个 12 年的流程砍短,把 90% 的失败率降低,同时打开传统方法根本无从下手的全新药物空间。
#第一章:AI 制药从哪里切入?
整个药物研发可以分成几个大环节,AI 在每个环节都有介入,但深度不同:
靶点发现 → 虚拟筛选 → 分子生成 → ADMET 预测 → 临床前研究 → 临床试验 → 上市
↑ ↑ ↑ ↑
AI 强介入 AI 核心 AI 主战场 AI 快速预判
让我们一个环节一个环节地捋清楚 AI 在做什么,机制是什么。
#第二章:靶点发现——在茫茫数据中找到"病根"
在做任何药物之前,你先要知道:这个疾病,究竟是哪个分子"坏掉了"?
2.1 什么是靶点?
所谓靶点(Target),就是药物作用的具体目标——通常是某种蛋白质,有时候也是某个基因。
举个例子:慢性粒细胞白血病(CML)的病因,是因为一种叫做 BCR-ABL 的异常融合蛋白持续异常激活,导致白细胞无限增殖。药物"格列卫"(Imatinib)就是专门设计来粘住 BCR-ABL 这个靶点、关掉它的活性的。这就是靶向治疗的逻辑。
难点在于:找到靶点极难。疾病往往是整个生物网络失调的结果,而不只是单个蛋白出了问题。你需要从海量的基因组数据、蛋白质互作数据和临床数据中,找到那个"核心枢纽"。
2.2 AI 如何发现靶点?
英矽智能的 PandaOmics 平台是一个典型案例。它的工作机制是这样的:
数据整合:系统先把来自全球公开数据库的海量异质性数据整合在一起——数万个基因表达数据集、蛋白质互作网络、数百万篇文献。
知识图谱构建:这些数据被组合成一张巨大的有向知识图谱——每个基因、蛋白质、疾病都是节点,它们之间的关系(激活、抑制、共表达、共突变)是边。
图神经网络分析:AI 对这张图运行特殊的图算法,找出那些在疾病状态下最关键的"影响力节点"。
成药性打分:综合评估这个靶点的蛋白质三维结构上有没有适合小分子进入的口袋、在非病灶组织中的表达量高不高等。
最终得分最高的候选靶点,就是 AI 推荐的"攻击目标"。整个过程从几月缩短到几天。
#第三章:分子表征——让 AI 真正"看懂"一个分子
在介绍 AI 如何设计和筛选分子之前,我们必须先解决一个根本问题:AI 如何理解一个化学分子?
3.1 传统方法:把分子变成"名片"
最传统的方法叫做分子指纹(Molecular Fingerprint)。你把一个分子的某些化学特征编码成一串 0/1 的二进制向量,就像一张条形码。
这方法简单快速,今天仍在使用。但问题是,分子指纹丢失了大量空间信息。
3.2 更聪明的方法:图神经网络(GNN)
图神经网络(Graph Neural Network, GNN) 是目前处理分子信息的最强工具。
它的核心思路是:把分子建模成一张图,而不是一串数字。
具体来说:
- 每个原子 = 图中的一个节点(Node),节点上存储了这个原子的属性
- 每个化学键 = 图中的一条边(Edge),边上存储了键的类型
建好图之后,GNN 的信息传播机制开始运作,这个机制叫做消息传递(Message Passing):
每一轮迭代:
- 每个原子节点,把自己的特征向量发送给它的所有"邻居"原子
- 每个原子节点,接收来自所有邻居的向量,将它们聚合
- 每个原子节点,用一个小型神经网络,把"自己的特征"与"聚合来的邻居信息"融合,更新自己的特征向量
这个过程重复几轮后,每个原子的特征向量里,不仅包含了它自身的信息,还包含了它周围2到3层邻居的信息。
最后,把所有原子的特征向量做一个全局的池化操作,就得到了整个分子的"全局表征向量",可以直接送入预测头预测性质。
#第四章:分子生成——从"筛选"到"从零设计"
传统的高通量筛选的问题很明显:你只能在已知的化合物里找,而全人类已知的化合物大约有 10^7 种,但已知宇宙里的化学空间有 10^60 种可能的药物分子。
AI 分子生成的目标是:让 AI 直接出发去探索这片未知的化学海洋,生成从未存在过的全新分子。
4.1 变分自编码器(VAE):在"化学空间"里自由漫步
变分自编码器(Variational Autoencoder, VAE) 是最基础的分子生成框架。
对于分子来说:
- 编码器(Encoder):把一个 SMILES 字符串转化为"化学潜在空间"里的一个点
- 凸优化:VAE 不是把每个分子编码为一个固定的点,而是一个概率分布,使得潜在空间是连续的、可插值的
- 解码器(Decoder):给它潜在空间里的任意一个点,它能生成一个对应的分子
化学潜在空间是连续的。在潜在空间里定向漫步,每走一小步就生成分子,通过梯度优化沿着"分子变得越来越好"的方向前进。
4.2 强化学习 + 生成模型
英矽智能最核心的 Chemistry42 平台采用的是:生成模型 + 强化学习(Reinforcement Learning)。
机器人(生成模型):负责生成分子。 环境(打分函数网络):负责评判每个生成分子的质量,综合评估结合能、ADMET 性质、可合成性、分子多样性。 奖励机制:每当生成一个分子,打分函数给出综合得分。得分高,AI 就记录这次成功的策略。
经过数百万次迭代,生成模型越来越擅长生成"好分子"。这就是为什么英矽智能能仅用 18 个月、0.05% 的传统成本,发现一个临床候选药物。
4.3 扩散模型在分子生成中的应用
代表作是 DiffSBDD。它在靶蛋白的结合口袋里的三维空间中,随机初始化原子位置,然后通过迭代去噪直接在 3D 空间里"雕刻"出全新的小分子药物。
#第五章:ADMET 预测——筛掉那些"不能当药"的分子
一个分子能和靶蛋白结合,只是成功的第一步。大量明星候选分子因为 ADMET 问题而折戟:
- A=吸收(口服后能进入血液吗)
- D=分布(能到达病灶部位吗)
- M=代谢(肝脏会把它分解成有毒物质吗)
- E=排泄(肾脏能排出去吗)
- T=毒性(它本身有没有毒)
AI 的方法是:用已有实验数据训练 GNN 或 Transformer 模型,直接预测新分子的所有 ADMET 性质——几秒钟处理一批分子。
#第六章:量子计算的降维打击
药物分子和蛋白质之间的结合能,本质上是量子效应。量子计算理论上可以以指数级的速度加速这类计算。
英矽智能的 QFASG 算法利用量子算法的并行探索能力,更高效地探索"片段空间"。虽然量子计算在这个领域仍处于非常早期的阶段,但它代表着未来的方向。
#第七章:从虚拟到现实——为什么失败率仍然很高?
AI 制药已经在改变行业,但不能过度乐观。根本原因在于:
模型的泛化误差:AI 的所有训练都基于历史数据,但未来的临床试验数据和训练数据分布之间存在"域迁移"。
疾病的复杂性:从"单靶点"到"网络系统药理学",需要范式迁移。
数据孤岛问题:各大药厂的临床失败数据基本都是私密的,AI 学到的"成功规律"可能带有严重选择偏差。
#总结
AIDD 的本质是一次对化学空间的规模化智能探索。传统方法是管中窥豹,AI 则是在这个 10^60 规模的未知宇宙里,配备了一个有学习能力的导航仪。
"从表征学习到强化生成,从量子辅助到系统网络药理学,AI 制药每前进一步,都让人类抵抗未知疾病的能力增强一点。这是一场关乎人类寿命长短的竞赛,而 AI,第一次让我们觉得赢面增大了。