Study AI with Med
AI+医疗大模型

多模态医疗大模型 (Med-LLMs)

Google Med-Gemini 与腾讯 Hunyuan-Med:原生多模态联合编码与知识图谱对齐如何打造次世代全科 AI 医生。

2026-03-14

#
跨越文本的局限

医疗诊断从来都不是单纯的"文字游戏",它深深植根于医学影像( X光、CT/MRI )、病理切片、心电图(1D 波形)以及基因序列的多维度证据网络中。传统的医疗大语言模型(如早期的 Med-PaLM)由于仅支持单一文本模态,其在复杂临床场景下的表现始终存在着天花板。

直到 原生多模态医疗大模型 的出现,真正拉开了"全科 AI 助手"的序幕。

#
典型代表:Google Med-Gemini

作为 Gemini 的全面医疗微调版本,Med-Gemini 是迄今为止性能最为强劲的医疗大模型家族之一。

原生多模态联合编码

主流的多模态方案分为两种:

  1. 拼接法(Bolt-on):将图像过一圈独立视觉编码器(如 ViT),提取出特征后再通过映射层强行拼接到语言模型的输入端。
  2. 原生法(Native):从一开始就将不同模态的数据纳入联合编码体系,不同模态特征在底层就开始进行高维空间中的交叉注意力(Cross-Attention)交互。

Med-Gemini 采用了原生多模态架构,这使得它不仅能"看到" X 光片,更能理解由于肺炎导致的"肺结节"特征与患者主诉"持续性干咳"之间的潜在线索联系。

📊 Mermaid 流程图

#
腾讯 Hunyuan-Med (混元医疗)

在国内,腾讯混元大模型的医疗专属版本(Hunyuan-Med)则在中文化临床语境本地医学图谱的结合上展现了极大优势。

核心亮点:RAG + 医疗知识图谱增强

大模型致命的缺点在于幻觉(Hallucination),而在医疗领域,幻觉关乎人命。因此,混元医疗模型结合了检索增强生成(RAG):

  1. 图谱对齐: 将实体映射到由百万级中外临床指南、中文药典构建的知识图谱中验证。
  2. 证据链溯源: AI 最终输出的每一个判断,都会强制关联一条可溯源的权威文献链接或真实病历规范。

#
动手实验:RAG 检索逻辑模拟

在下面这个精简环境里,我们模拟一段 RAG 如何介入大模型诊断的流程:

🐍 Python · Pyodide WASM
Python

#
MedGemma 开源家族

Google 发布了迄今最强大的开源医疗模型家族 MedGemma,专为医疗 AI 开发者设计:

模型参数量核心能力
MedGemma 4B40 亿轻量级多模态,适合端侧部署
MedGemma 27B270 亿高性能多模态推理
MedSigLIP-专业医学影像与文本联合编码器

MedGemma 将医学影像切分为数百个小图块,转化为与文本同等地位的"视觉 Token",使模型能直接计算"咳嗽"文本 Token 与 X 光阴影像素图块之间的因果关系。

#
腾讯混元:翻译与 OCR 的碾压级表现

Hunyuan-MT:31 语言对中 30 个第一

腾讯 Hunyuan-MT-7BWMT2025 通用机器翻译任务中取得了前所未有的成绩:

💡

在 31 个语言对中的 30 个排名第一。COMET-XXL 评估得分全面碾压 Google-Translator、DeepSeek-V3、Claude-Sonnet-4 以及 GPT-4 等全球顶尖大模型——包括爱沙尼亚语、马拉地语等低资源语言。

HunyuanOCR:医疗文档数字化的先决条件

复杂医疗文档(纸质化验单、模糊影像报告)的数字化是临床大模型落地的先决条件。腾讯开源的 HunyuanOCR

  • 准确率 70.92%,压倒性击败 BaiduOCR(61.9%)及 Qwen3VL 等通用视觉语言模型
  • 保持极低的字符编辑距离
  • 专为多语言文档解析设计

MedKGEval:大模型医疗知识审核

大语言模型的"幻觉"在医疗领域关乎人命。MedKGEval 依托 CPubMedKG 和 CMeKG 等高质量中文医疗知识图谱,通过实体级、关系级和子图级的测试任务,精确评估各类医疗大模型的医学推理准确度

#
核心开源项目

📦
AI-in-Health/MedLLMsPracticalGuide

业界最详尽的医疗大模型实战与资源仓库,汇聚了全球主流医疗开源模型的预训练代码与权重。

View on GitHub →
📦
openmedlab/

全球首个针对医学多模态基础模型的开源大平台,开源了涵盖 10 余种医学模态的真实世界预训练数据集。

View on GitHub →
📦
ZihengZZH/MedKGEval

依托中文医疗知识图谱,评估大语言模型医疗知识覆盖率与逻辑一致性的基准测试集。

View on GitHub →