AI+医疗大模型

简单理解：AI + 医疗大模型（Med-LLMs）

从零开始理解 Transformer 架构、医疗大模型的三条训练路线（预训练/多模态/RAG）、知识图谱约束、以及幻觉问题的本质。面向小白的深度讲义。

2026-03-15

#
前言：医生到底靠什么看病？

一个经验丰富的老主任是如何看病的？

你走进诊室，他先问你症状，同时眼睛扫过你的脸色、手指的颜色、你说话的喘息方式。他让你做了三个化验。拿到化验单，他的眼睛迅速略过几百个数字，只在几个关键指标上停留。他又调出你三年前的体检报告作对比，发现某个指标的变化趋势。结合你刚才说的"最近特别疲惫"，他在脑子里排除了七八种可能，最终落定在两个最可能的诊断方向。

全程，他综合使用了：语言理解、图像分析、时序推理、知识检索、逻辑推断。

这就是为什么医疗 AI 如此困难——它需要同时具备人类最复杂的几项认知能力，还要对的错误零容忍。

医疗大模型（Medical Large Language Models, Med-LLMs）试图做的事，就是让 AI 具备上述所有能力，并且在安全性和可靠性上达到临床要求。

#
第一章：先理解"普通大模型"——ChatGPT 在干什么？

1.1 Transformer 架构：一切的根基

2017 年，Google 发表了《Attention Is All You Need》。这篇论文提出了 Transformer 架构，成为今天所有大模型的核心基础。

Transformer 的核心思路是：处理一个词，不只是看这个词本身，而是"看整句话，同时计算这个词和所有其他词的相关程度"。

这就是自注意力机制（Self-Attention）。整个 Transformer 由很多层这样的注意力机制叠加而来。底层学习基础语义，中层学习句法逻辑，高层学习抽象概念推理。

1.2 预训练：在万亿文字"学习世界"

预训练：用几乎整个互联网的文本作为训练数据，让模型做一件事：预测下一个词是什么。

指令微调：用人工标注的"指令 - 理想回答"配对数据再微调，以及 RLHF 来让输出更符合人类价值观。

#
第二章：为什么通用大模型"当不了医生"？

2.1 幻觉问题

模型会以极度自信的语气，说出完全错误的内容。根源在于：模型的目标是预测最"通顺自然"的下一个词，而不是最"准确"的词。

2.2 知识时效性

训练数据有截止日期。2019 年的标准治疗方案到 2025 年可能已经完全过时。

2.3 单模态局限

通用 GPT 最初只能处理文字，但医学是多模态的。

2.4 推理深度不足

医学诊断是复杂的多步逻辑推理，通用大模型往往做得浅尝辄止。

#
第三章：从通用到专业——医疗大模型的三条训练路线

路线一：医疗语料预训练 + 医疗微调

第一步：收集医疗专属语料——PubMed 论文、UpToDate 知识库、电子病历、医学教材、临床指南、执照考试题。

第二步：继续预训练——在通用大模型基础上，用医疗语料进行进一步训练。

第三步：医疗指令微调——用高质量"问题-标准答案"配对数据进行有监督微调。

Google 的 Med-PaLM 2 就是这条路线的典范，在 USMLE 上达到 86.5% 的分数，首次超越人类专家平均分。

路线二：多模态融合——让模型同时"看"和"读"

Google 的 Med-Gemini 打破了文字和图像的壁垒。核心技术叫原生多模态联合编码：

文字编码器：把文字分解为 Token，每个映射为高维向量。

视觉编码器（MedSigLIP）：把图像切分成小块（Patch），每个 Patch 转化为高维向量——维度与文字 Token 完全相同。一个 Patch 就变成了一个"视觉 Token"。

联合处理：文字 Token 和视觉 Token 被送入同一个 Transformer，地位完全平等。模型直接在一个统一的数学空间里，做跨模态的关联推理。

路线三：RAG（检索增强生成）——给 AI 装上"实时图书馆"

步骤一：建立向量知识库——把最新的医学指南切分成片段，编码为向量存储。

步骤二：检索相关内容——用户提问时，在向量库中搜索语义最接近的文档片段。

步骤三：以检索内容为"参考书"生成答案——模型相当于开卷考试的考生。

好处：幻觉大幅减少，知识始终最新，可追溯。

#
第四章：知识图谱对齐——给 AI 安装"医学常识护栏"

知识图谱是由经过专家核实的"实体 - 关系 - 实体"三元组构成的大型数据库。

方法一：指令数据构建——用知识图谱的三元组自动生成微调数据。

方法二：生成后验证——模型生成回答后，自动检查是否与知识图谱冲突。

#
第五章：多语种医学翻译——腾讯混元的特殊战场

腾讯 Hunyuan-MT 的三级训练框架：

阶段一：通用预训练——获得跨语言基本理解能力。

阶段二：医学领域监督微调——深度学习医学翻译模式。

阶段三：弱到强强化学习——用"弱版本"评估模型作为奖励信号，优化翻译质量。

#
第六章：医疗大模型的边界——AI 不该做什么？

不具备最终诊断权——AI 是辅助决策支持工具
不能处理"语言之外"的信息——触觉、嗅觉、精细音感
在罕见病上仍然脆弱——训练数据不足
伦理和隐私——医疗数据是最敏感的个人数据

#
总结

"

文字问答 → 专业知识预训练 → 多模态融合 → 知识图谱对齐 → RAG 实时检索 → 未来：自主临床推理

每一步升级，都在缩小 AI 和真实医生之间的差距。目前还没有跨越的鸿沟叫做：可信赖的、可问责的、全面的临床智能。