
在传统病理诊断中,一份乳腺癌组织样本需要经历固定、包埋、切片、染色等十余道工序,从样本送达到出具报告,往往需要数小时甚至更久。而在术中冰冻切片环节,患者往往需要处于麻醉等待状态,这段时间的缩短对于手术安全至关重要。
近期发表于《Scientific Reports》的一项研究,尝试用一种“无标记、无染色”的技术路径,并结合深度学习算法,为这一临床痛点提供了新的解法。
我们熟悉的病理图像通常是经过H&E染色后呈现的蓝紫色调,细胞核与细胞质边界清晰。而显微高光谱成像(MHSI)技术,可以在不进行任何染色的情况下,通过扫描组织切片获取从可见光到近红外(397-1032 nm)的128个波段的光谱信息。
这种“无染色”状态带来的直接挑战是:图像缺乏形态学对比度,人眼难以直接判读。但高光谱数据的优势在于,它记录了每个像素点的连续光谱曲线,不同的生化成分(如蛋白质、脂质、核酸)会在特定波长下呈现差异化的反射特征。如何从这种高维、弱形态的数据中提取出具有诊断价值的信息,成为计算病理学的新课题。

研究团队构建了一个包含60名乳腺癌患者、468张组织切片的高光谱数据集。不同于传统方法对局部视野进行单点预测,研究者将病理诊断建模为一个多实例学习(MIL)问题:将一整张组织切片视为一个“包”,从切片上采集的20个不同区域的光谱立方体则是包中的“实例”,模型需要综合所有实例的信息,输出整个切片的诊断结果。
这种方式更贴近病理医生的实际阅片逻辑——先在低倍镜下全局浏览,再聚焦于可疑区域进行综合判断。

针对高光谱数据的特点,团队提出了多尺度层级注意力网络(MS-HAN),其核心设计包含三个关键层次:

1. 多尺度特征提取借鉴了Inception结构,在同一空间分辨率下使用不同尺寸的卷积核并行提取特征,以捕捉从细微光谱差异到局部纹理模式的多粒度信息。
2. 双注意力机制首先通过光谱通道注意力,显式建模波段间的依赖关系,对信息量更丰富的波段赋予更高权重;再通过空间注意力生成二维热力图,在不依赖像素级标注的情况下,定位出细胞形态学上具有诊断价值的区域。

3. 层级聚合与原型学习为了应对生物光谱在同类别内的高变异性,模型引入了一组可学习的“原型向量”,将实例特征软分配到这些原型上,并通过约束原型使用分布的熵值来防止模式塌陷。最后,利用自注意力机制建模切片内不同区域间的依赖关系,通过注意力池化得到整张切片的表征。
在仅使用切片级别标签的弱监督训练下,该模型在独立测试集(94张切片)上达到了86.7%的准确率和0.92的AUC,相比TransMIL、CLAM等主流MIL基线模型显示出统计显著性提升。

这项研究的落脚点并非要替代病理医生,而是探索一种“光学切片”加“AI初筛”的工作流程。省去染色步骤不仅意味着试剂耗材成本的降低,更重要的是 大幅压缩了从取材到数字化诊断的时间窗口。对于术中冰冻等时间敏感场景,这种“即切即扫即分析”的模式有望缩短患者在麻醉状态下的等待时长。
当然,该研究目前仍处于概念验证阶段。60例单中心数据集的规模相对有限,模型在面对制片伪影、低细胞密度或罕见分子亚型时的表现,仍有待多中心、大样本的外部验证。此外,高光谱成像设备的硬件成本较高,从实验室走向常规病理科仍需工程化与卫生经济学层面的考量。
