简单理解:AI + 医疗大模型(Med-LLMs)
从零开始理解 Transformer 架构、医疗大模型的三条训练路线(预训练/多模态/RAG)、知识图谱约束、以及幻觉问题的本质。面向小白的深度讲义。
2026-03-15
#前言:医生到底靠什么看病?
一个经验丰富的老主任是如何看病的?
你走进诊室,他先问你症状,同时眼睛扫过你的脸色、手指的颜色、你说话的喘息方式。他让你做了三个化验。拿到化验单,他的眼睛迅速略过几百个数字,只在几个关键指标上停留。他又调出你三年前的体检报告作对比,发现某个指标的变化趋势。结合你刚才说的"最近特别疲惫",他在脑子里排除了七八种可能,最终落定在两个最可能的诊断方向。
全程,他综合使用了:语言理解、图像分析、时序推理、知识检索、逻辑推断。
这就是为什么医疗 AI 如此困难——它需要同时具备人类最复杂的几项认知能力,还要对的错误零容忍。
医疗大模型(Medical Large Language Models, Med-LLMs)试图做的事,就是让 AI 具备上述所有能力,并且在安全性和可靠性上达到临床要求。
#第一章:先理解"普通大模型"——ChatGPT 在干什么?
1.1 Transformer 架构:一切的根基
2017 年,Google 发表了《Attention Is All You Need》。这篇论文提出了 Transformer 架构,成为今天所有大模型的核心基础。
Transformer 的核心思路是:处理一个词,不只是看这个词本身,而是"看整句话,同时计算这个词和所有其他词的相关程度"。
这就是自注意力机制(Self-Attention)。整个 Transformer 由很多层这样的注意力机制叠加而来。底层学习基础语义,中层学习句法逻辑,高层学习抽象概念推理。
1.2 预训练:在万亿文字"学习世界"
预训练:用几乎整个互联网的文本作为训练数据,让模型做一件事:预测下一个词是什么。
指令微调:用人工标注的"指令 - 理想回答"配对数据再微调,以及 RLHF 来让输出更符合人类价值观。
#第二章:为什么通用大模型"当不了医生"?
2.1 幻觉问题
模型会以极度自信的语气,说出完全错误的内容。根源在于:模型的目标是预测最"通顺自然"的下一个词,而不是最"准确"的词。
2.2 知识时效性
训练数据有截止日期。2019 年的标准治疗方案到 2025 年可能已经完全过时。
2.3 单模态局限
通用 GPT 最初只能处理文字,但医学是多模态的。
2.4 推理深度不足
医学诊断是复杂的多步逻辑推理,通用大模型往往做得浅尝辄止。
#第三章:从通用到专业——医疗大模型的三条训练路线
路线一:医疗语料预训练 + 医疗微调
第一步:收集医疗专属语料——PubMed 论文、UpToDate 知识库、电子病历、医学教材、临床指南、执照考试题。
第二步:继续预训练——在通用大模型基础上,用医疗语料进行进一步训练。
第三步:医疗指令微调——用高质量"问题-标准答案"配对数据进行有监督微调。
Google 的 Med-PaLM 2 就是这条路线的典范,在 USMLE 上达到 86.5% 的分数,首次超越人类专家平均分。
路线二:多模态融合——让模型同时"看"和"读"
Google 的 Med-Gemini 打破了文字和图像的壁垒。核心技术叫原生多模态联合编码:
文字编码器:把文字分解为 Token,每个映射为高维向量。
视觉编码器(MedSigLIP):把图像切分成小块(Patch),每个 Patch 转化为高维向量——维度与文字 Token 完全相同。一个 Patch 就变成了一个"视觉 Token"。
联合处理:文字 Token 和视觉 Token 被送入同一个 Transformer,地位完全平等。模型直接在一个统一的数学空间里,做跨模态的关联推理。
路线三:RAG(检索增强生成)——给 AI 装上"实时图书馆"
步骤一:建立向量知识库——把最新的医学指南切分成片段,编码为向量存储。
步骤二:检索相关内容——用户提问时,在向量库中搜索语义最接近的文档片段。
步骤三:以检索内容为"参考书"生成答案——模型相当于开卷考试的考生。
好处:幻觉大幅减少,知识始终最新,可追溯。
#第四章:知识图谱对齐——给 AI 安装"医学常识护栏"
知识图谱是由经过专家核实的"实体 - 关系 - 实体"三元组构成的大型数据库。
方法一:指令数据构建——用知识图谱的三元组自动生成微调数据。
方法二:生成后验证——模型生成回答后,自动检查是否与知识图谱冲突。
#第五章:多语种医学翻译——腾讯混元的特殊战场
腾讯 Hunyuan-MT 的三级训练框架:
阶段一:通用预训练——获得跨语言基本理解能力。
阶段二:医学领域监督微调——深度学习医学翻译模式。
阶段三:弱到强强化学习——用"弱版本"评估模型作为奖励信号,优化翻译质量。
#第六章:医疗大模型的边界——AI 不该做什么?
- 不具备最终诊断权——AI 是辅助决策支持工具
- 不能处理"语言之外"的信息——触觉、嗅觉、精细音感
- 在罕见病上仍然脆弱——训练数据不足
- 伦理和隐私——医疗数据是最敏感的个人数据
#总结
"文字问答 → 专业知识预训练 → 多模态融合 → 知识图谱对齐 → RAG 实时检索 → 未来:自主临床推理
每一步升级,都在缩小 AI 和真实医生之间的差距。目前还没有跨越的鸿沟叫做:可信赖的、可问责的、全面的临床智能。