
在傳統病理診斷中,一份乳腺癌組織樣本需要經歷固定、包埋、切片、染色等十余道工序,從樣本送達到出具報告,往往需要數小時甚至更久。而在術中冰凍切片環節,患者往往需要處于麻醉等待狀態,這段時間的縮短對于手術安全至關重要。
近期發表于《Scientific Reports》的一項研究,嘗試用一種“無標記、無染色”的技術路徑,并結合深度學習算法,為這一臨床痛點提供了新的解法。
我們熟悉的病理圖像通常是經過H&E染色后呈現的藍紫色調,細胞核與細胞質邊界清晰。而顯微高光譜成像(MHSI)技術,可以在不進行任何染色的情況下,通過掃描組織切片獲取從可見光到近紅外(397-1032 nm)的128個波段的光譜信息。
這種“無染色”狀態帶來的直接挑戰是:圖像缺乏形態學對比度,人眼難以直接判讀。但高光譜數據的優勢在于,它記錄了每個像素點的連續光譜曲線,不同的生化成分(如蛋白質、脂質、核酸)會在特定波長下呈現差異化的反射特征。如何從這種高維、弱形態的數據中提取出具有診斷價值的信息,成為計算病理學的新課題。

研究團隊構建了一個包含60名乳腺癌患者、468張組織切片的高光譜數據集。不同于傳統方法對局部視野進行單點預測,研究者將病理診斷建模為一個多實例學習(MIL)問題:將一整張組織切片視為一個“包”,從切片上采集的20個不同區域的光譜立方體則是包中的“實例”,模型需要綜合所有實例的信息,輸出整個切片的診斷結果。
這種方式更貼近病理醫生的實際閱片邏輯——先在低倍鏡下全局瀏覽,再聚焦于可疑區域進行綜合判斷。

針對高光譜數據的特點,團隊提出了多尺度層級注意力網絡(MS-HAN),其核心設計包含三個關鍵層次:

1. 多尺度特征提取借鑒了Inception結構,在同一空間分辨率下使用不同尺寸的卷積核并行提取特征,以捕捉從細微光譜差異到局部紋理模式的多粒度信息。
2. 雙注意力機制首先通過光譜通道注意力,顯式建模波段間的依賴關系,對信息量更豐富的波段賦予更高權重;再通過空間注意力生成二維熱力圖,在不依賴像素級標注的情況下,定位出細胞形態學上具有診斷價值的區域。

3. 層級聚合與原型學習為了應對生物光譜在同類別內的高變異性,模型引入了一組可學習的“原型向量”,將實例特征軟分配到這些原型上,并通過約束原型使用分布的熵值來防止模式塌陷。最后,利用自注意力機制建模切片內不同區域間的依賴關系,通過注意力池化得到整張切片的表征。
在僅使用切片級別標簽的弱監督訓練下,該模型在獨立測試集(94張切片)上達到了86.7%的準確率和0.92的AUC,相比TransMIL、CLAM等主流MIL基線模型顯示出統計顯著性提升。

這項研究的落腳點并非要替代病理醫生,而是探索一種“光學切片”加“AI初篩”的工作流程。省去染色步驟不僅意味著試劑耗材成本的降低,更重要的是 大幅壓縮了從取材到數字化診斷的時間窗口。對于術中冰凍等時間敏感場景,這種“即切即掃即分析”的模式有望縮短患者在麻醉狀態下的等待時長。
當然,該研究目前仍處于概念驗證階段。60例單中心數據集的規模相對有限,模型在面對制片偽影、低細胞密度或罕見分子亞型時的表現,仍有待多中心、大樣本的外部驗證。此外,高光譜成像設備的硬件成本較高,從實驗室走向常規病理科仍需工程化與衛生經濟學層面的考量。
