引用本文: 李華玉, 李浩, 孫少華, 周文波. 乳腺大汗腺癌患者總生存預測列線圖: 基于SEER數據庫及內外部驗證. 中國普外基礎與臨床雜志, 2024, 31(3): 337-342. doi: 10.7507/1007-9424.202310094 復制
版權信息: ?四川大學華西醫院華西期刊社《中國普外基礎與臨床雜志》版權所有,未經授權不得轉載、改編
乳腺大汗腺癌(breast apocrine carcinoma,BAC)在2019年版世界衛生組織乳腺腫瘤分類中的定義是由90%以上的腫瘤細胞表現為大汗腺細胞形態;通過免疫組織化學染色檢查定義的BAC為雄激素受體陽性、雌激素受體和孕激素受體均為陰性[1]。在2012年版世界衛生組織乳腺腫瘤分類中,將任何具有大汗腺細胞特點的浸潤性癌歸為具有大汗腺分化的癌,包括多數浸潤性癌中局灶顯示的大汗腺分化以及廣泛的大汗腺分化(單純性BAC),后者較為罕見,其發病率約占全部乳腺浸潤性癌的4%[2]。國內外多為個案及小樣本報道,專門針對BAC患者的隨機前瞻性對照試驗仍然有限[3]。因此,亟需一種方便、準確的方法來預測BAC患者的生存情況。近年來列線圖已應用于肝癌、肺癌等一系列癌癥[4-6]中。本研究基于美國國家癌癥研究所監測、流行病學和最終結果(Surveillance,Epidemiology,and End Results,SEER)數據庫,采用單因素和多因素回歸分析篩選了影響BAC總生存情況的風險因素,基于這些風險因素建立了列線圖預測模型,以評估它對BAC患者總生存情況的預測效能,以進一步提高對此特殊類型乳腺癌的認識及更好地預測患者的預后。
1 資料與方法
1.1 研究對象及分組
本研究的數據來源于國藥東風總醫院和SEER數據庫。使用SEER*Stat軟件識別BAC患者,具體標準如下:① BAC患者腫瘤部位的代碼和名稱符合SEER數據庫的管理手冊及國際對于腫瘤通用的形態編碼,ICD-O-3標準編碼為8401/3:apocrine adenocarcinoma;② 經病理診斷為乳腺癌;③ 臨床資料無缺失值;④ 符合美國癌癥聯合委員會第6版乳腺癌分類系統[7]。排除標準:① 患者相關信息不完整;② 生存時間不足1個月的患者。隨訪時間為2010年1月1日至2016年12月31日。SEER數據庫中納入符合條件的患者按7∶3比例使用R軟件基礎包中的“set.seed()”函數隨機選取分配為訓練集和內部驗證集。同時收集2010年1月1日至2018年12月31日期間國藥東風總醫院的BAC患者作為外部驗證集,納入和排標準同SEER數據庫中的病例。隨訪終止日期為2022年6月1日?總生存期(overall survival,OS)定義為從診斷到因任何原因死亡或最后一次隨訪的時間[8]。
1.2 變量選擇
包括患者的婚姻狀況、年齡、腫瘤位置、腫瘤分化程度、偏側性、TNM分期、手術情況、放射治療(簡稱 “放療” )、化學藥物治療(簡稱 “化療” )以及雌激素受體、孕激素受體和人表皮生長因子受體2(human epidermal growth factor receptor 2,HER2)情況。
1.3 統計學方法
比較訓練集、內部驗證集和外部驗證集中患者的臨床病理特征。臨床病理特征均采用分類變量分析(其中患者診斷時的年齡采用X-tile軟件確定其最佳分界值,依據最佳分界值將年齡轉換為分類變量[9],最佳分界值為57和75,以此分為 ≤57歲組、58~74歲組及 ≥75歲組),采用卡方檢驗或Fisher精確概率法進行比較。采用Kaplan-Meier法繪制患者的OS曲線;采用單因素和多因素Cox回歸方法分析影響BAC患者OS的風險因素,根據風險因素采用R3.5.1中的rms程序包構建預測BAC患者總生存情況的列線圖模型,對該列線圖分別在訓練集、內部驗證集和外部驗證集中進行驗證。采用C指數和受試者操作特征(receiver operating characteristic,ROC)曲線下面積(area under curve,AUC)評價列線圖的區分能力,C指數在0.71~0.90之間時提示區分能力中等,>0.90提示區分能力強;AUC值介于0.5~1.0,在0.7~0.9之間時提示有一定的準確性,>0.90提示區分能力強。采用校準曲線評估列線圖的預測情況與實際情況的接近程度(在理想狀態下是無限靠近45° 對角線)。檢驗水準α=0.05。
2 結果
2.1 本研究患者的基本情況
2010–2016年期間,SEER數據庫中共有649例符合本研究納入條件患者,按分配原則訓練集454例、內部驗證集195例。納入了2010年1月1日至2018年12月31日期間國藥東風總醫院的21例BAC患者作為外部驗證集。訓練集、內部驗證集及外部驗證集患者的臨床病理特征比較結果見表1。

2.2 SEER數據庫中患者的生存情況及影響因素分析結果
采用Kaplan-Meier法繪制BAC患者的OS曲線見圖1a,在訓練集、內部驗證集和外部驗證集中的OS比較差異均無統計學意義(P=0.81)。訓練集中454例BAC患者的中位OS(95%CI)為103(95,122)個月, 3和5年總生存率(95%CI)分別為86.7%(83.6%,89.9%)和78.1%(74.4%,82.1%),共有128例患者在隨訪期間死亡。單因素分析影響訓練集中BAC患者OS的結果顯示,患者的婚姻狀況、年齡、腫瘤位置、偏側性、T分期、N分期、M分期、S分期、手術情況及化療與BAC患者OS有關(P<0.05),見表2;進一步進行多因素Cox回歸分析結果顯示,年齡大(≥58歲)、S期為Ⅱ期(Ⅰ期為對照)、行乳房根治手術(保乳手術為對照)、未行化療是影響BAC患者OS的風險因素(P<0.05),見表3。

a:Kaplan-Meier法繪制的BAC患者的OS曲線;b:列線圖;c~e:分別為列線圖在訓練集(c)、外部驗證集(d)、內部驗證集(e)中預測3年和5年總生存率的ROC曲線;f、g:分別為列線圖在訓練集、內部驗證集和外部驗證集中預測3年(f)和5年(g)總生存率的校準曲線


2.3 列線圖的構建及效能評價
根據多因素Cox回歸分析發現的風險因素年齡、T分期、M分期、S分期、手術方式及化療構建的3和5年總生存概率的列線圖見圖1b。采用C指數和AUC對列線圖是否能區分長期生存患者的能力進行分析的結果(表4)顯示,C指數在SEER數據庫中的訓練集和驗證集中分別為0.76、0.77,在外部驗證集的C指數為0.88;繪制的ROC曲線(圖1c~1e)顯示,3年和5年總生存率在訓練集中的AUC為0.84和0.76,在內部和外部驗證集中的AUC均 >0.8;采用校準曲線分析結果顯示,在訓練集和內部及外部驗證集中對3年和5年總生存率的校準曲線與理想曲線均比較接近(圖1f和圖1g)。

3 討論
BAC是一種罕見的乳腺癌,雖然它通常被認為是一種具有侵襲性的乳腺癌,但研究[10]表明,BAC患者的預后明顯好于乳腺浸潤性導管癌。但BAC的預后評估及治療仍遵循浸潤性導管癌,其個體化治療和降階梯治療值得考慮。
SEER數據庫是美國癌癥發病率和存活率最權威的信息來源。SEER目前收集和發布的癌癥發病率和生存數據來自于基于人群的癌癥登記處,覆蓋約34.6%的美國人口[11]。TNM分期系統是預測患者預后最常用的方法,然而即使在不同分期的患者中也觀察到相當大的生存差異。在預測肝癌、肺癌、甲狀腺髓樣癌等預后方面,列線圖已被證明比TNM分期系統更加直觀,臨床使用更加方便[4-5, 12-17]。因此,本研究基于SEER數據庫中的大樣本量構建一個列線圖來預測BAC患者的長期生存率。本研究采用單因素和多因素分析篩選出了影響BAC患者總生存期的風險因素,有年齡、T分期、M分期、S分期、手術方式及化療,根據這些影響因素構建了列線圖以預測BAC患者長期總生存情況,結果發現,列線圖對SEER數據庫中的數據在訓練集和驗證集中區分5年總生存情況的區分度即C指數分別為0.76和0.77,表明模型具有一定的預測能力,進一步以筆者所在醫院的數據進行外部驗證的C指數更高(0.88);而且在ROC曲線中,在內外部驗證集中的AUC均 >0.8,提示以本研究篩選的風險因素構建的列線圖對是否能長期生存具有一定的區分能力;校準曲線顯示,一致性曲線斜率接近于1,列線圖預測的生存情況與實際情況吻合,提示效能良好。在本研究中納入進行列線圖模型構建的因素,在臨床比較常見,易獲得;此外本研究納入的因素如連續變量(年齡)使用X-tile軟件基于log-rank檢驗進行分層,使變量選擇更加客觀嚴謹[9];本研究篩選出的T分期、M分期和S分期變量與BAC患者的預后有關,這與既往TNM分期對預后的判斷結果基本一致[18]。當前對BAC患者雖然尚無標準化的治療方案,但各醫學中心多采用非特殊型乳腺癌的治療方案進行包括手術、化療、放療、內分泌治療、靶向治療等在內的綜合治療[2, 19-21]。在本研究也發現,采用不同的手術方式及化療對BAC患者的預后影響較大。結合以上文獻分析,本研究篩選的變量構建的列線圖模型對預測BAC患者的預后有一定的臨床應用價值。
從本研究分析結果看,BAC患者的年齡、T分期、M分期、S分期、手術方式及化療是BAC患者總生存率的影響因素,結合這些因素構建的列線圖預測的3、5年總生存率與實際情況比較一致,提示本研究構建的列線圖有一定的預測參考價值。但是仍需要進一步完善,因為本研究仍存在一些局限性:首先,844例患者中有195例因數據缺失被排除,這可能導致選擇偏倚;其次,SEER數據庫沒有提供更多關于全身治療的詳細信息,如放療、化療的詳細方案等;第三,列線圖模型是基于回顧性資料,需要在前瞻性臨床試驗中進一步驗證;第四,用于外部驗證的臨床數據有限,一是樣本量的限制,二是單中心的病例,普適性還不確定。盡管存在這些局限性,但列線圖是一種比較直觀方便的預測模型,可初步用來預測BAC患者的生存情況,以便為臨床的治療決策提供參考,為患者提供個體化的治療方案,讓患者最大獲益及充分利用社會公共醫療資源。
重要聲明
利益沖突聲明:本文全體作者閱讀并理解了《中國普外基礎與臨床雜志》的政策聲明,我們沒有相互競爭的利益。
作者貢獻聲明:李華玉負責實驗設計、實施實驗、數據收集與整理及文章撰寫;孫少華負責實驗設計、指導實驗實施、文章修改;李浩負責實施實驗、統計分析等;周文波指導實驗設計、經費等支持。
倫理聲明:本研究通過了國藥東風總醫院倫理委員會審批(批文編號:LW-2023-045)。
乳腺大汗腺癌(breast apocrine carcinoma,BAC)在2019年版世界衛生組織乳腺腫瘤分類中的定義是由90%以上的腫瘤細胞表現為大汗腺細胞形態;通過免疫組織化學染色檢查定義的BAC為雄激素受體陽性、雌激素受體和孕激素受體均為陰性[1]。在2012年版世界衛生組織乳腺腫瘤分類中,將任何具有大汗腺細胞特點的浸潤性癌歸為具有大汗腺分化的癌,包括多數浸潤性癌中局灶顯示的大汗腺分化以及廣泛的大汗腺分化(單純性BAC),后者較為罕見,其發病率約占全部乳腺浸潤性癌的4%[2]。國內外多為個案及小樣本報道,專門針對BAC患者的隨機前瞻性對照試驗仍然有限[3]。因此,亟需一種方便、準確的方法來預測BAC患者的生存情況。近年來列線圖已應用于肝癌、肺癌等一系列癌癥[4-6]中。本研究基于美國國家癌癥研究所監測、流行病學和最終結果(Surveillance,Epidemiology,and End Results,SEER)數據庫,采用單因素和多因素回歸分析篩選了影響BAC總生存情況的風險因素,基于這些風險因素建立了列線圖預測模型,以評估它對BAC患者總生存情況的預測效能,以進一步提高對此特殊類型乳腺癌的認識及更好地預測患者的預后。
1 資料與方法
1.1 研究對象及分組
本研究的數據來源于國藥東風總醫院和SEER數據庫。使用SEER*Stat軟件識別BAC患者,具體標準如下:① BAC患者腫瘤部位的代碼和名稱符合SEER數據庫的管理手冊及國際對于腫瘤通用的形態編碼,ICD-O-3標準編碼為8401/3:apocrine adenocarcinoma;② 經病理診斷為乳腺癌;③ 臨床資料無缺失值;④ 符合美國癌癥聯合委員會第6版乳腺癌分類系統[7]。排除標準:① 患者相關信息不完整;② 生存時間不足1個月的患者。隨訪時間為2010年1月1日至2016年12月31日。SEER數據庫中納入符合條件的患者按7∶3比例使用R軟件基礎包中的“set.seed()”函數隨機選取分配為訓練集和內部驗證集。同時收集2010年1月1日至2018年12月31日期間國藥東風總醫院的BAC患者作為外部驗證集,納入和排標準同SEER數據庫中的病例。隨訪終止日期為2022年6月1日?總生存期(overall survival,OS)定義為從診斷到因任何原因死亡或最后一次隨訪的時間[8]。
1.2 變量選擇
包括患者的婚姻狀況、年齡、腫瘤位置、腫瘤分化程度、偏側性、TNM分期、手術情況、放射治療(簡稱 “放療” )、化學藥物治療(簡稱 “化療” )以及雌激素受體、孕激素受體和人表皮生長因子受體2(human epidermal growth factor receptor 2,HER2)情況。
1.3 統計學方法
比較訓練集、內部驗證集和外部驗證集中患者的臨床病理特征。臨床病理特征均采用分類變量分析(其中患者診斷時的年齡采用X-tile軟件確定其最佳分界值,依據最佳分界值將年齡轉換為分類變量[9],最佳分界值為57和75,以此分為 ≤57歲組、58~74歲組及 ≥75歲組),采用卡方檢驗或Fisher精確概率法進行比較。采用Kaplan-Meier法繪制患者的OS曲線;采用單因素和多因素Cox回歸方法分析影響BAC患者OS的風險因素,根據風險因素采用R3.5.1中的rms程序包構建預測BAC患者總生存情況的列線圖模型,對該列線圖分別在訓練集、內部驗證集和外部驗證集中進行驗證。采用C指數和受試者操作特征(receiver operating characteristic,ROC)曲線下面積(area under curve,AUC)評價列線圖的區分能力,C指數在0.71~0.90之間時提示區分能力中等,>0.90提示區分能力強;AUC值介于0.5~1.0,在0.7~0.9之間時提示有一定的準確性,>0.90提示區分能力強。采用校準曲線評估列線圖的預測情況與實際情況的接近程度(在理想狀態下是無限靠近45° 對角線)。檢驗水準α=0.05。
2 結果
2.1 本研究患者的基本情況
2010–2016年期間,SEER數據庫中共有649例符合本研究納入條件患者,按分配原則訓練集454例、內部驗證集195例。納入了2010年1月1日至2018年12月31日期間國藥東風總醫院的21例BAC患者作為外部驗證集。訓練集、內部驗證集及外部驗證集患者的臨床病理特征比較結果見表1。

2.2 SEER數據庫中患者的生存情況及影響因素分析結果
采用Kaplan-Meier法繪制BAC患者的OS曲線見圖1a,在訓練集、內部驗證集和外部驗證集中的OS比較差異均無統計學意義(P=0.81)。訓練集中454例BAC患者的中位OS(95%CI)為103(95,122)個月, 3和5年總生存率(95%CI)分別為86.7%(83.6%,89.9%)和78.1%(74.4%,82.1%),共有128例患者在隨訪期間死亡。單因素分析影響訓練集中BAC患者OS的結果顯示,患者的婚姻狀況、年齡、腫瘤位置、偏側性、T分期、N分期、M分期、S分期、手術情況及化療與BAC患者OS有關(P<0.05),見表2;進一步進行多因素Cox回歸分析結果顯示,年齡大(≥58歲)、S期為Ⅱ期(Ⅰ期為對照)、行乳房根治手術(保乳手術為對照)、未行化療是影響BAC患者OS的風險因素(P<0.05),見表3。

a:Kaplan-Meier法繪制的BAC患者的OS曲線;b:列線圖;c~e:分別為列線圖在訓練集(c)、外部驗證集(d)、內部驗證集(e)中預測3年和5年總生存率的ROC曲線;f、g:分別為列線圖在訓練集、內部驗證集和外部驗證集中預測3年(f)和5年(g)總生存率的校準曲線


2.3 列線圖的構建及效能評價
根據多因素Cox回歸分析發現的風險因素年齡、T分期、M分期、S分期、手術方式及化療構建的3和5年總生存概率的列線圖見圖1b。采用C指數和AUC對列線圖是否能區分長期生存患者的能力進行分析的結果(表4)顯示,C指數在SEER數據庫中的訓練集和驗證集中分別為0.76、0.77,在外部驗證集的C指數為0.88;繪制的ROC曲線(圖1c~1e)顯示,3年和5年總生存率在訓練集中的AUC為0.84和0.76,在內部和外部驗證集中的AUC均 >0.8;采用校準曲線分析結果顯示,在訓練集和內部及外部驗證集中對3年和5年總生存率的校準曲線與理想曲線均比較接近(圖1f和圖1g)。

3 討論
BAC是一種罕見的乳腺癌,雖然它通常被認為是一種具有侵襲性的乳腺癌,但研究[10]表明,BAC患者的預后明顯好于乳腺浸潤性導管癌。但BAC的預后評估及治療仍遵循浸潤性導管癌,其個體化治療和降階梯治療值得考慮。
SEER數據庫是美國癌癥發病率和存活率最權威的信息來源。SEER目前收集和發布的癌癥發病率和生存數據來自于基于人群的癌癥登記處,覆蓋約34.6%的美國人口[11]。TNM分期系統是預測患者預后最常用的方法,然而即使在不同分期的患者中也觀察到相當大的生存差異。在預測肝癌、肺癌、甲狀腺髓樣癌等預后方面,列線圖已被證明比TNM分期系統更加直觀,臨床使用更加方便[4-5, 12-17]。因此,本研究基于SEER數據庫中的大樣本量構建一個列線圖來預測BAC患者的長期生存率。本研究采用單因素和多因素分析篩選出了影響BAC患者總生存期的風險因素,有年齡、T分期、M分期、S分期、手術方式及化療,根據這些影響因素構建了列線圖以預測BAC患者長期總生存情況,結果發現,列線圖對SEER數據庫中的數據在訓練集和驗證集中區分5年總生存情況的區分度即C指數分別為0.76和0.77,表明模型具有一定的預測能力,進一步以筆者所在醫院的數據進行外部驗證的C指數更高(0.88);而且在ROC曲線中,在內外部驗證集中的AUC均 >0.8,提示以本研究篩選的風險因素構建的列線圖對是否能長期生存具有一定的區分能力;校準曲線顯示,一致性曲線斜率接近于1,列線圖預測的生存情況與實際情況吻合,提示效能良好。在本研究中納入進行列線圖模型構建的因素,在臨床比較常見,易獲得;此外本研究納入的因素如連續變量(年齡)使用X-tile軟件基于log-rank檢驗進行分層,使變量選擇更加客觀嚴謹[9];本研究篩選出的T分期、M分期和S分期變量與BAC患者的預后有關,這與既往TNM分期對預后的判斷結果基本一致[18]。當前對BAC患者雖然尚無標準化的治療方案,但各醫學中心多采用非特殊型乳腺癌的治療方案進行包括手術、化療、放療、內分泌治療、靶向治療等在內的綜合治療[2, 19-21]。在本研究也發現,采用不同的手術方式及化療對BAC患者的預后影響較大。結合以上文獻分析,本研究篩選的變量構建的列線圖模型對預測BAC患者的預后有一定的臨床應用價值。
從本研究分析結果看,BAC患者的年齡、T分期、M分期、S分期、手術方式及化療是BAC患者總生存率的影響因素,結合這些因素構建的列線圖預測的3、5年總生存率與實際情況比較一致,提示本研究構建的列線圖有一定的預測參考價值。但是仍需要進一步完善,因為本研究仍存在一些局限性:首先,844例患者中有195例因數據缺失被排除,這可能導致選擇偏倚;其次,SEER數據庫沒有提供更多關于全身治療的詳細信息,如放療、化療的詳細方案等;第三,列線圖模型是基于回顧性資料,需要在前瞻性臨床試驗中進一步驗證;第四,用于外部驗證的臨床數據有限,一是樣本量的限制,二是單中心的病例,普適性還不確定。盡管存在這些局限性,但列線圖是一種比較直觀方便的預測模型,可初步用來預測BAC患者的生存情況,以便為臨床的治療決策提供參考,為患者提供個體化的治療方案,讓患者最大獲益及充分利用社會公共醫療資源。
重要聲明
利益沖突聲明:本文全體作者閱讀并理解了《中國普外基礎與臨床雜志》的政策聲明,我們沒有相互競爭的利益。
作者貢獻聲明:李華玉負責實驗設計、實施實驗、數據收集與整理及文章撰寫;孫少華負責實驗設計、指導實驗實施、文章修改;李浩負責實施實驗、統計分析等;周文波指導實驗設計、經費等支持。
倫理聲明:本研究通過了國藥東風總醫院倫理委員會審批(批文編號:LW-2023-045)。