引用本文: 江愛娟, 王璐潔, 李家劼, 林逸軒, 趙進東, 方朝暉, 申國明. 基于神經網絡的糖尿病遠端對稱性多發性神經病變預測模型的構建與驗證. 中國循證醫學雜志, 2024, 24(3): 265-271. doi: 10.7507/1672-2531.202308003 復制
版權信息: ?四川大學華西醫院華西期刊社《中國循證醫學雜志》版權所有,未經授權不得轉載、改編
糖尿病神經病變是糖尿病最常見的慢性并發癥之一,其中以糖尿病并發遠端對稱性多發性神經病變(diabetes distal symmetrical polyneuropathy,DSPN)最為常見,約占75%。患者在臨床表現為雙側遠端對稱性肢體疼痛、麻木、感覺異常等。DSPN病情隱匿,臨床上神經病變的嚴重性往往與癥狀出現的早晚及輕重程度并不一致,許多患者在自覺無癥狀時檢查神經傳導速度已有不同程度的改變,50%的患者由于沒有癥狀而錯過最佳治療期[1]。
隨著人工智能技術的快速發展,慢性病的預警預測研究開始受到廣泛關注。基于機器學習的預測模型為在糖尿病患者中早期識別和診斷DSPN提供了可能。構建DSPN風險預測系統,早期識別高危人群,進行精細化管理是減少DSPN發生、提高糖尿病患者生存質量、降低醫療開支的有效手段[2,3]。中西醫結合防治糖尿病并發癥開始成為新的醫療衛生趨勢[4]。本研究選擇2型糖尿病(type 2 diabetes mellitus,T2DM)和T2DM并發DSPN患者,融合中西醫特征指標,利用神經網絡算法構建預測模型,探究“病證結合”DSPN的潛在危險因素和基于大數據的預警預測方法,為DSPN的早期診斷和預測提供依據。
1 資料與方法[5 ,6 ]
1.1 研究對象
本研究共納入2017年9月至2022年8月安徽中醫藥大學第一附屬醫院內分泌科T2DM患者5 256例(其中1 973例DSPN,3 283例非DSPN)。所有患者均符合《中國2型糖尿病防治指南(2020年版)》T2DM和DSPN診斷標準[7]。排除標準:① 年齡<18周歲;② 并發糖尿病急性并發癥;③ 合并心血管、肺部、肝臟、腎臟、造血系統等非糖尿病導致的嚴重疾病;④ 嚴重原發性疾病及精神疾病;⑤ 其他原因引發的周圍神經病變;⑥ 妊娠期或哺乳期婦女。
本研究方案經安徽中醫藥大學第一附屬醫院醫學倫理委員會審批同意(審批號:2021MCZQ11)。
1.2 指標篩選和數據采集
根據《中醫臨床常見癥狀術語規范(修訂)》[8]和《中醫診斷學》[9],對患者中醫癥狀及體征進行規范,結合課題組前期研制的中醫癥狀量表[10],共篩選出糖尿病患者常見的中醫特征指標22項:肢體麻木、肢體疼痛、頭暈心悸、神疲乏力、胸悶憋氣、口渴喜飲、口干咽干、視物模糊、多食易饑、小便頻多,反應遲鈍、面色、形體、語音、舌質、苔質、苔色、脈浮沉、脈遲數、脈細、脈弦、脈澀。同時納入臨床體格檢查常見指標,包括一般特征指標9項:性別、年齡、體質指數、糖尿病病程、糖尿病家族史、吸煙史、飲酒史、收縮壓、舒張壓;實驗室檢查指標18項:紅細胞計數、白細胞計數、血小板、血紅蛋白、空腹血糖、糖化血紅蛋白、總膽固醇、甘油三酯、高密度脂蛋白、低密度脂蛋白、尿素氮、肌酐、谷丙轉氨酶和谷草轉氨酶、尿糖、尿蛋白、尿紅細胞和尿白細胞。通過醫院電子病歷系統采用雙錄入方式采集以上49項特征指標數據。
1.3 數據清洗
根據初步的數據錄入情況,優先挑選每個特征都具備的病例和具備率高于50%以上的病例。對采集的原始數據進行清洗,去除異常數據、重復數據和存在明顯錯誤數據并將格式進行規范化。最終納入4 107例T2DM患者數據,其中并發DSPN的患者1 091例,未并發DSPN的患者3 016例。對分類變量進行賦值,二分類變量采用獨熱編碼,連續型變量進行歸一化處理(表1)。對數值變量進行z-score標準化,變換函數為:,其中x是變換前參數,
為
的均值,
,
為樣本數量,
為
的標準差,
。

1.4 統計分析
使用Python 3.9.0版本編寫程序對收集到的患者基線數據進行分析。計數資料用頻數(百分比)表示,組間比較采用χ2檢驗;正態分布的計量資料采用±s表示,組間比較采用t檢驗;非正態分布的計量資料采用中位數(四分位數)表示,組間比較采用Mann-Whitney U檢驗。設定P<0.05為差異有統計學意義。
1.5 模型構建與評估
將數據按7∶3分為訓練集和測試集,訓練集用于模型的構建,測試集用于評估模型性能,構建神經網絡預測模型。將融合中西醫特征數據集的患者屬性,從神經網絡模型的輸入層傳遞至其隱藏層,隱藏層通過權重及ReLU激活函數將處理后的結果傳遞給輸出層,將輸出層的結果同診療數據集中的并發DSPN情況進行比較得到誤差,再逆推對神經網絡中的鏈接權重進行反饋修正。使用Olden連接權值法進行特征選擇和重要性排序[11]。采用十折交叉驗證法評估模型性能,模型評價指標采用準確度、敏感度、特異度、陽性預測值、陰性預測值、AUC值[12]。
2 結果
2.1 納入患者基本特征


2.2 兩組患者中醫特征指標基線數據分布及比較
兩組患者中醫特征指標見表4。

2.3 神經網絡模型構建
訓練集樣本2 850例,測試集樣本1 221例,將篩選出的表2、3、4中49項指標均作為輸入變量建立神經網絡模型,輸出變量為研究對象是否發生DSPN[13]。模型訓練集AUC=0.989 2,測試集AUC=0.954 9(圖1),說明所構建的神經網絡預測模型有一定優勢。

2.4 模型中特征變量的重要性
根據權重大小,模型中特征重要性排名前10的輸入變量為肢體麻木、口渴喜飲、甘油三脂、白細胞計數、脈澀、尿紅細胞、糖尿病病程、小便頻多、苔質、尿白細胞。說明病程4年以上、有明顯肢體麻木、口渴喜飲、小便頻多和脈澀癥狀的糖尿病患者會顯著增加DSPN發生風險,甘油三脂、白細胞計數、尿紅細胞、尿白細胞為糖尿病患者需要重點關注的生化指標(圖2)。

2.5 模型交叉驗證結果
使用十折交叉檢驗的方式評價模型的效果(表5),最終顯示AUC為0.945 3,準確度為87.68%、敏感度為73.9%,特異度為92.7%,陽性預測值為78.7%,陰性預測值為90.72%,說明模型具有較高的準確率和診斷效率。

3 討論
神經網絡算法模擬人大腦信息處理系統,通過調整內部節點之間相互連接的關系來分析數據,具有較好的自學習和儲存功能,適合對內部機制復雜的問題進行建模[14]。基于神經網絡算法的深度學習在許多領域都取得了令人驚異的效果。近年來,神經網絡作為預測臨床中可能發生事件的一種模型工具,越來越被人們所接受。隨著糖尿病發病率的逐年上升,神經網絡模型對糖尿病及糖尿病視網膜病變、糖尿病神經病變、糖尿病腎病等并發癥[15-17]的預警預測研究成為熱點,但多數研究是以單一的現代醫學指標為特征要素構建模型。引入舌脈象等中醫特征參數構建預測模型的研究近年來受到關注[18,19],融合中西醫特征數據建立的DSPN神經網絡預測模型未見報道。現代中醫學在“治未病”理論的指導下強調中西醫結合[20],認為中醫癥狀反映的是機體當下的整體狀態,且在一定趨勢下不斷變化的,而生化指標通常則提示疾病具體靶標變化[21],在大數據的時代背景下,將通過發展與延伸,形成中醫病證結合模式下的風險預測體系[22]。本研究對糖尿病患者所處狀態、臨床癥狀及理化指標等進行全面考慮,將患者一般資料信息、實驗室檢查指標和中醫癥狀及體征作為特征指標,采用Python對訓練集和測試集中的指標進行量化處理,構建神經網絡預測模型,結果發現模型對數據分類的準確率達到98.92%,說明所構建的模型占據一定優勢,模型對糖尿病患者發生遠端對稱性多發性神經病變的風險具有高度預測效能。在預測變量的篩選方面,鑒于顯著性檢驗無法保證完整反映變量間復雜的因果和依賴關系,采用全模型策略,將篩選出的49項指標均作為輸入變量建立神經網絡模型。主要考慮大數據的分析優勢,在數據獲取時通過接收多源數據的基礎上尋找內在規律,更注重數據源之間的相關關系得出的有效結論,沒有明顯的定向性特征,可以避免模型過度擬合以及預測因子的篩選偏倚[23]。
我國是世界上糖尿病患病人數最多的國家,新確診T2DM患者的DSPN發病率為10%~15%,糖尿病病程10年以上患者的DSPN患病率則大于50%[24]。本研究糖尿病患者中DSPN發生率為26.8%,介于以上兩個比例之間,因為本研究將糖尿病病程作為特征指標,患者病程跨度較大。為進一步確定影響糖尿病患者發生遠端對稱性多發性神經病變的危險因素,本研究根據權重大小對可視化模型中的變量進行重要性排序,排名前10的輸入變量依次是肢體麻木、口渴喜飲、甘油三脂、白細胞計數、脈澀、尿紅細胞、糖尿病病程、小便頻多、苔質和尿白細胞,說明以上因素可能是影響DSPN發生的重要危險因素。糖尿病在中醫學中屬于“消渴”范疇,消渴遷延日久,氣陰虧耗,陰損及陽,致氣血陰陽不足,出現“痹證”“痿證”等神經病變并發癥,肢體麻木為其主要癥狀[25]。糖尿病患者并發DSPN的風險增加與糖尿病病程有關[26],本研究結果顯示DSPN組平均糖尿病病程較非DSPN組長4年。隨著糖尿病病程的延長,DSPN患者出現口渴喜飲、口干咽干、小便頻多的中醫消渴癥狀更為突出,燥熱傷肺,肺燥津傷,津液失布,則口渴喜飲、口干咽干;腎陰虛虧,陰無所依,則津液管束不力,直疏于下,而致小便頻多,尿如脂膏,出現尿紅細胞、尿蛋白等生化指標異常;因DSPN患者久病氣陰虧耗,轉變致氣血陰陽不足,血滯瘀結,痹阻脈絡,故DSPN患者多見脈澀。血脂異常是糖尿病神經病變發病機制的一個促成因素,研究認為甘油三酯升高不僅與神經纖維密度損失相關,還可通過誘導根部神經節感覺神經元的氧化應激而促進DSPN發展[27]。
糖尿病神經病變的早期評估和適當的管理對糖尿病患者的管理至關重要[28]。目前,臨床對DSPN早期診斷仍未形成統一的標準。針對DSPN大、小神經纖維進行性神經缺失的病理特點,主要采用神經電生理檢查、神經傳導速度測定、皮膚活檢定量表皮內神經纖維密度、定量感覺檢查和高頻超聲等多種檢查方法整合評估[29],對設備和技術人員的要求較高,在基層醫院不易推廣。本研究基于人工智能和大數據技術,融合中西醫特征數據建立神經網絡預測模型,納入的預測變量中的一般特征指標和實驗室檢查指標是體格檢查常規指標,中醫特征也是一般中醫門診可獲取指標,該模型在訓練集和測試集中都表現出極佳的預測效能,可在具備中醫科室的綜合性醫院、體檢中心、治未病中心和社區衛生服務中心等基層醫療機構使用,有助于在糖尿病患者中早期識別DSPN高危人群,臨床醫生可針對相關危險因素進行適當干預。
本研究的局限性:樣本來源于單個醫院,受地域、醫院診療水平差異、樣本量等影響,研究結果的外推性可能存在一定不足。
綜上,中西醫特征數據融合可能對早期識別DSPN具有更大的臨床價值,所建立的神經網絡模型具有較高的準確率和診斷效率,可為糖尿病人群DSPN篩查和診斷提供一種便利的工具。課題組將對模型的外部驗證及臨床應用展開進一步研究[30]。
糖尿病神經病變是糖尿病最常見的慢性并發癥之一,其中以糖尿病并發遠端對稱性多發性神經病變(diabetes distal symmetrical polyneuropathy,DSPN)最為常見,約占75%。患者在臨床表現為雙側遠端對稱性肢體疼痛、麻木、感覺異常等。DSPN病情隱匿,臨床上神經病變的嚴重性往往與癥狀出現的早晚及輕重程度并不一致,許多患者在自覺無癥狀時檢查神經傳導速度已有不同程度的改變,50%的患者由于沒有癥狀而錯過最佳治療期[1]。
隨著人工智能技術的快速發展,慢性病的預警預測研究開始受到廣泛關注。基于機器學習的預測模型為在糖尿病患者中早期識別和診斷DSPN提供了可能。構建DSPN風險預測系統,早期識別高危人群,進行精細化管理是減少DSPN發生、提高糖尿病患者生存質量、降低醫療開支的有效手段[2,3]。中西醫結合防治糖尿病并發癥開始成為新的醫療衛生趨勢[4]。本研究選擇2型糖尿病(type 2 diabetes mellitus,T2DM)和T2DM并發DSPN患者,融合中西醫特征指標,利用神經網絡算法構建預測模型,探究“病證結合”DSPN的潛在危險因素和基于大數據的預警預測方法,為DSPN的早期診斷和預測提供依據。
1 資料與方法[5 ,6 ]
1.1 研究對象
本研究共納入2017年9月至2022年8月安徽中醫藥大學第一附屬醫院內分泌科T2DM患者5 256例(其中1 973例DSPN,3 283例非DSPN)。所有患者均符合《中國2型糖尿病防治指南(2020年版)》T2DM和DSPN診斷標準[7]。排除標準:① 年齡<18周歲;② 并發糖尿病急性并發癥;③ 合并心血管、肺部、肝臟、腎臟、造血系統等非糖尿病導致的嚴重疾病;④ 嚴重原發性疾病及精神疾病;⑤ 其他原因引發的周圍神經病變;⑥ 妊娠期或哺乳期婦女。
本研究方案經安徽中醫藥大學第一附屬醫院醫學倫理委員會審批同意(審批號:2021MCZQ11)。
1.2 指標篩選和數據采集
根據《中醫臨床常見癥狀術語規范(修訂)》[8]和《中醫診斷學》[9],對患者中醫癥狀及體征進行規范,結合課題組前期研制的中醫癥狀量表[10],共篩選出糖尿病患者常見的中醫特征指標22項:肢體麻木、肢體疼痛、頭暈心悸、神疲乏力、胸悶憋氣、口渴喜飲、口干咽干、視物模糊、多食易饑、小便頻多,反應遲鈍、面色、形體、語音、舌質、苔質、苔色、脈浮沉、脈遲數、脈細、脈弦、脈澀。同時納入臨床體格檢查常見指標,包括一般特征指標9項:性別、年齡、體質指數、糖尿病病程、糖尿病家族史、吸煙史、飲酒史、收縮壓、舒張壓;實驗室檢查指標18項:紅細胞計數、白細胞計數、血小板、血紅蛋白、空腹血糖、糖化血紅蛋白、總膽固醇、甘油三酯、高密度脂蛋白、低密度脂蛋白、尿素氮、肌酐、谷丙轉氨酶和谷草轉氨酶、尿糖、尿蛋白、尿紅細胞和尿白細胞。通過醫院電子病歷系統采用雙錄入方式采集以上49項特征指標數據。
1.3 數據清洗
根據初步的數據錄入情況,優先挑選每個特征都具備的病例和具備率高于50%以上的病例。對采集的原始數據進行清洗,去除異常數據、重復數據和存在明顯錯誤數據并將格式進行規范化。最終納入4 107例T2DM患者數據,其中并發DSPN的患者1 091例,未并發DSPN的患者3 016例。對分類變量進行賦值,二分類變量采用獨熱編碼,連續型變量進行歸一化處理(表1)。對數值變量進行z-score標準化,變換函數為:,其中x是變換前參數,
為
的均值,
,
為樣本數量,
為
的標準差,
。

1.4 統計分析
使用Python 3.9.0版本編寫程序對收集到的患者基線數據進行分析。計數資料用頻數(百分比)表示,組間比較采用χ2檢驗;正態分布的計量資料采用±s表示,組間比較采用t檢驗;非正態分布的計量資料采用中位數(四分位數)表示,組間比較采用Mann-Whitney U檢驗。設定P<0.05為差異有統計學意義。
1.5 模型構建與評估
將數據按7∶3分為訓練集和測試集,訓練集用于模型的構建,測試集用于評估模型性能,構建神經網絡預測模型。將融合中西醫特征數據集的患者屬性,從神經網絡模型的輸入層傳遞至其隱藏層,隱藏層通過權重及ReLU激活函數將處理后的結果傳遞給輸出層,將輸出層的結果同診療數據集中的并發DSPN情況進行比較得到誤差,再逆推對神經網絡中的鏈接權重進行反饋修正。使用Olden連接權值法進行特征選擇和重要性排序[11]。采用十折交叉驗證法評估模型性能,模型評價指標采用準確度、敏感度、特異度、陽性預測值、陰性預測值、AUC值[12]。
2 結果
2.1 納入患者基本特征


2.2 兩組患者中醫特征指標基線數據分布及比較
兩組患者中醫特征指標見表4。

2.3 神經網絡模型構建
訓練集樣本2 850例,測試集樣本1 221例,將篩選出的表2、3、4中49項指標均作為輸入變量建立神經網絡模型,輸出變量為研究對象是否發生DSPN[13]。模型訓練集AUC=0.989 2,測試集AUC=0.954 9(圖1),說明所構建的神經網絡預測模型有一定優勢。

2.4 模型中特征變量的重要性
根據權重大小,模型中特征重要性排名前10的輸入變量為肢體麻木、口渴喜飲、甘油三脂、白細胞計數、脈澀、尿紅細胞、糖尿病病程、小便頻多、苔質、尿白細胞。說明病程4年以上、有明顯肢體麻木、口渴喜飲、小便頻多和脈澀癥狀的糖尿病患者會顯著增加DSPN發生風險,甘油三脂、白細胞計數、尿紅細胞、尿白細胞為糖尿病患者需要重點關注的生化指標(圖2)。

2.5 模型交叉驗證結果
使用十折交叉檢驗的方式評價模型的效果(表5),最終顯示AUC為0.945 3,準確度為87.68%、敏感度為73.9%,特異度為92.7%,陽性預測值為78.7%,陰性預測值為90.72%,說明模型具有較高的準確率和診斷效率。

3 討論
神經網絡算法模擬人大腦信息處理系統,通過調整內部節點之間相互連接的關系來分析數據,具有較好的自學習和儲存功能,適合對內部機制復雜的問題進行建模[14]。基于神經網絡算法的深度學習在許多領域都取得了令人驚異的效果。近年來,神經網絡作為預測臨床中可能發生事件的一種模型工具,越來越被人們所接受。隨著糖尿病發病率的逐年上升,神經網絡模型對糖尿病及糖尿病視網膜病變、糖尿病神經病變、糖尿病腎病等并發癥[15-17]的預警預測研究成為熱點,但多數研究是以單一的現代醫學指標為特征要素構建模型。引入舌脈象等中醫特征參數構建預測模型的研究近年來受到關注[18,19],融合中西醫特征數據建立的DSPN神經網絡預測模型未見報道。現代中醫學在“治未病”理論的指導下強調中西醫結合[20],認為中醫癥狀反映的是機體當下的整體狀態,且在一定趨勢下不斷變化的,而生化指標通常則提示疾病具體靶標變化[21],在大數據的時代背景下,將通過發展與延伸,形成中醫病證結合模式下的風險預測體系[22]。本研究對糖尿病患者所處狀態、臨床癥狀及理化指標等進行全面考慮,將患者一般資料信息、實驗室檢查指標和中醫癥狀及體征作為特征指標,采用Python對訓練集和測試集中的指標進行量化處理,構建神經網絡預測模型,結果發現模型對數據分類的準確率達到98.92%,說明所構建的模型占據一定優勢,模型對糖尿病患者發生遠端對稱性多發性神經病變的風險具有高度預測效能。在預測變量的篩選方面,鑒于顯著性檢驗無法保證完整反映變量間復雜的因果和依賴關系,采用全模型策略,將篩選出的49項指標均作為輸入變量建立神經網絡模型。主要考慮大數據的分析優勢,在數據獲取時通過接收多源數據的基礎上尋找內在規律,更注重數據源之間的相關關系得出的有效結論,沒有明顯的定向性特征,可以避免模型過度擬合以及預測因子的篩選偏倚[23]。
我國是世界上糖尿病患病人數最多的國家,新確診T2DM患者的DSPN發病率為10%~15%,糖尿病病程10年以上患者的DSPN患病率則大于50%[24]。本研究糖尿病患者中DSPN發生率為26.8%,介于以上兩個比例之間,因為本研究將糖尿病病程作為特征指標,患者病程跨度較大。為進一步確定影響糖尿病患者發生遠端對稱性多發性神經病變的危險因素,本研究根據權重大小對可視化模型中的變量進行重要性排序,排名前10的輸入變量依次是肢體麻木、口渴喜飲、甘油三脂、白細胞計數、脈澀、尿紅細胞、糖尿病病程、小便頻多、苔質和尿白細胞,說明以上因素可能是影響DSPN發生的重要危險因素。糖尿病在中醫學中屬于“消渴”范疇,消渴遷延日久,氣陰虧耗,陰損及陽,致氣血陰陽不足,出現“痹證”“痿證”等神經病變并發癥,肢體麻木為其主要癥狀[25]。糖尿病患者并發DSPN的風險增加與糖尿病病程有關[26],本研究結果顯示DSPN組平均糖尿病病程較非DSPN組長4年。隨著糖尿病病程的延長,DSPN患者出現口渴喜飲、口干咽干、小便頻多的中醫消渴癥狀更為突出,燥熱傷肺,肺燥津傷,津液失布,則口渴喜飲、口干咽干;腎陰虛虧,陰無所依,則津液管束不力,直疏于下,而致小便頻多,尿如脂膏,出現尿紅細胞、尿蛋白等生化指標異常;因DSPN患者久病氣陰虧耗,轉變致氣血陰陽不足,血滯瘀結,痹阻脈絡,故DSPN患者多見脈澀。血脂異常是糖尿病神經病變發病機制的一個促成因素,研究認為甘油三酯升高不僅與神經纖維密度損失相關,還可通過誘導根部神經節感覺神經元的氧化應激而促進DSPN發展[27]。
糖尿病神經病變的早期評估和適當的管理對糖尿病患者的管理至關重要[28]。目前,臨床對DSPN早期診斷仍未形成統一的標準。針對DSPN大、小神經纖維進行性神經缺失的病理特點,主要采用神經電生理檢查、神經傳導速度測定、皮膚活檢定量表皮內神經纖維密度、定量感覺檢查和高頻超聲等多種檢查方法整合評估[29],對設備和技術人員的要求較高,在基層醫院不易推廣。本研究基于人工智能和大數據技術,融合中西醫特征數據建立神經網絡預測模型,納入的預測變量中的一般特征指標和實驗室檢查指標是體格檢查常規指標,中醫特征也是一般中醫門診可獲取指標,該模型在訓練集和測試集中都表現出極佳的預測效能,可在具備中醫科室的綜合性醫院、體檢中心、治未病中心和社區衛生服務中心等基層醫療機構使用,有助于在糖尿病患者中早期識別DSPN高危人群,臨床醫生可針對相關危險因素進行適當干預。
本研究的局限性:樣本來源于單個醫院,受地域、醫院診療水平差異、樣本量等影響,研究結果的外推性可能存在一定不足。
綜上,中西醫特征數據融合可能對早期識別DSPN具有更大的臨床價值,所建立的神經網絡模型具有較高的準確率和診斷效率,可為糖尿病人群DSPN篩查和診斷提供一種便利的工具。課題組將對模型的外部驗證及臨床應用展開進一步研究[30]。