AI+精准影像

简单理解：AI + 医学影像与数字病理

从零开始理解 CT 成像原理、CNN/ViT 如何'看图'、PANDA 如何发现人眼不见的胰腺癌、U-Net 分割、以及数字孪生心脏如何无创计算 FFR。面向小白的深度讲义。

2026-03-15

#
前言：医生的眼睛是最神奇的仪器，也是最脆弱的仪器

一位资深放射科医生，每天要读大约 100 张 CT，每张 CT 包含几百个层面。换句话说，他每天要仔细审视几万张图像，在其中寻找那些可能只有几毫米的异常阴影。

这已经是人类肉眼和大脑的极限了。但医学影像的难点不在于图像太多，而在于：异常太微小、三维信息太复杂、疲劳会导致漏诊、不同科室缺乏联动。

计算机视觉赋能医学影像，正是要用 AI 克服人类这些天生的局限。

#
第一章：什么是 CT 图像？AI 究竟在"看"什么？

1.1 CT 成像的物理原理

CT 机让 X 射线从多个角度穿过人体，不同密度的组织对 X 光的吸收程度不同。通过数学重建，这些数据被组合成二维的"切片图"。

1.2 CT 看到的是什么：HU 值

CT 图像里每个像素是一个 **HU（亨斯菲尔德单位）**数值。CT 图像本质上是一个三维的 HU 值数字矩阵。

AI 处理 CT，就是在处理这个三维数字矩阵，提取其中的数学规律。

#
第二章：传统卷积神经网络——AI 如何"看图"

2.1 卷积的直觉

想象你有一个放大镜，它不放大图像，而是"扫描"图像上的某种视觉模式。CNN 里有很多这样的"滤波器"，每个负责找一种特定的视觉模式，参数通过训练数据自动学习。

2.2 多层 CNN：从像素到概念

第一层：学习最基本的特征——边缘、曲线
中间层：把边缘组合成更复杂的形状——圆形轮廓、不规则结节边界
深层：把形状组合成语义概念——"这是一种具有不规则边界的肺结节，特征符合早期肺腺癌"

2.3 3D CNN：在三维空间里思考

3D CNN 把卷积核从 2D 扩展到 3D，同时扫描相邻多张切片，真正捕捉病变在三维空间中的几何形状。

#
第三章：视觉 Transformer（ViT）——用注意力机制替代卷积

**Vision Transformer（ViT）**把图像分割为小块（Patch），每个 Patch 变成一个向量（像文字里的 Token），然后用 Transformer 处理。

自注意力机制使每个 Patch 能"看到"所有其他 Patch——可以直接捕捉跨越整张图像的长程依赖关系。

#
第四章：PANDA 模型——AI 如何在平扫 CT 里发现肉眼不见的胰腺癌

4.1 胰腺癌的临床困境

确诊时 80% 已是晚期，五年存活率不到 10%。早期肿瘤在平扫 CT 里的图像特征极不明显——HU 值差异只有 10 到 20 HU，远低于人眼感知阈值（约 50 HU）。

4.2 AI 学习的特征

AI 学到的不是简单的灰度判断，而是：

密度微梯度变化：数学上的细微差异
纹理不连续性：频率域上异常信号
器官几何形变：亚毫米级别的形变
上下文信息：与周围血管、脏器的空间关系

4.3 PANDA 的实际效果

在宁波大学附属人民医院部署后，发现约 24 例被人类高年资放射科医生漏诊的胰腺肿瘤，其中 14 例处于 T1 期。2025 年获 FDA"突破性医疗器械"认定。

这种"顺手发现"的模式叫做机会性筛查（Opportunistic Screening）。

#
第五章：分割——AI 如何在三维空间里"圈出"病变

5.1 U-Net 架构

U-Net 的形状像字母 U：

左侧（Encoder）：卷积层逐渐压缩图像为抽象特征图。 右侧（Decoder）：反卷积层逐渐放大，输出和原图一样大小的分割掩码。 跳跃连接：左边特征图直接连接到右边对应分辨率层。

对于 CT 数据，扩展为 3D U-Net。

#
第六章：数坤科技的数字孪生——从"看形态"到"算功能"

6.1 传统冠心病诊断的困境

冠脉 CTA 能看到形态但不能判断功能影响；有创 FFR 是金标准但有并发症风险。

6.2 数字孪生 + 流体力学仿真

步骤一：用 3D U-Net 从 CTA 重建患者冠状动脉的三维数字孪生体。

步骤二：给数字血管赋予真实物理属性，解 Navier-Stokes 方程精确计算血压差。

步骤三：直接算出 FFR 数值，无需任何有创操作。

这意味着：只需普通 CTA，就能获得曾经需要手术才能获取的功能学诊断信息。

#
第七章：从"单病筛查"到"泛在机会性筛查"

未来最令人期待的范式是：一个通用的多病种视觉大模型，每次影像检查时同时自动筛查所有它能检测的疾病——"一次检查，全面筛查"。

#
总结

"

单一分类（有病/没病）→ 精确分割（框出位置）→ 功能性计算（算出生理指标）→ 机会性多病筛查（全面扫描）→ 预测性影像组学（预测未来疾病风险）

每一步，都让影像这一"眼睛"看到更深、更早、更多。