引用本文: 譚施言, 曾瓊, 向紅霞, 王倩, 付西, 何佳瑋, 由麗婷, 馬瓊, 由鳳鳴, 任益鋒. 電子鼻聯合機器學習對肺結節良惡性及中醫證素呼氣圖譜辨識的單中心觀察性研究. 中國胸心血管外科臨床雜志, 2025, 32(2): 185-193. doi: 10.7507/1007-4848.202407045 復制
版權信息: ?四川大學華西醫院華西期刊社《中國胸心血管外科臨床雜志》版權所有,未經授權不得轉載、改編
隨著低劑量螺旋CT(low-dose computed tomography,LDCT)的廣泛應用,我國健康人群中肺結節檢出率高達80%,并呈逐年上升趨勢[1-2]。作為早期肺癌和肺癌前病變的主要表現形式,肺結節存在6%~82%的惡變概率[3],結節良惡性早期判別、適時精準干預是降低肺癌發病率與死亡率的重要手段。現行肺結節診療策略以隨訪-監測為主,但存在潛在的輻射風險,且反復篩查可能會持續加重患者身心、經濟負擔。因此,從無創層面拓展肺結節新的診療手段是目前該領域持續探索的前沿與熱點。
近年來,研究[3-8]表明,中醫學整體觀、辨證論治、治未病等理論指導下的診療方法,在縮小肺部結節體積、防止結節惡變等方面具有一定優勢[4-6],并獲得相關指南/共識推薦[3,7-8]。其中,辨證論治是確保中醫診治肺結節療效的前提與關鍵,但早期肺結節起病隱匿,傳統辨證停留在宏觀表征,時常面臨無癥可辨的尷尬局面。微觀辨證的提出,打破了傳統四診技術以癥狀為唯一辨證重點的困境,其通過現代科學技術闡釋人體內在物質基礎改變,不僅更加客觀真實地闡釋了肺結節發病本質,且推動了肺結節中醫診療從經驗向證據的重要轉變[9]。
呼氣分析因無創、便捷、經濟高效等優勢成為肺腫瘤診斷領域的前沿及熱點,《早期肺癌診斷中國專家共識(2023 年版)》[10]明確將其推薦為肺癌早篩無創檢查方式之一。與其他呼氣檢測技術相比,電子鼻選擇性高、反應快速、精密度好,在肺癌早期診斷能力上具有出色的穩定性和特異性[11-12]。更重要的是,電子鼻利用特異性氣味傳感器陣列模擬生物嗅覺系統,通過呈現可視化的特征性曲線和降維數據來反映疾病的整體氣味信息,與中醫整體觀認知相符,被視為嗅診的現代化技術延伸與實體呈現[13]。諸多研究[14-16]已證實電子鼻可通過關聯疾病常見證素與口腔呼氣信號,為臨床病證診斷提供微觀指標參考。然而,課題組前期研究[17]發現,電子鼻雖是目前肺癌無創診療方式的有力補充,但僅有一項臨床研究[18]利用該技術進行肺部結節良惡性鑒別。此外,聚焦肺結節,尚無研究發現其特異性呼氣信號與中醫證素間潛在關聯。
綜上,本研究基于電子鼻無創檢測技術,聯合隨機森林(random forest,RF)、K最近鄰(K-nearest neighbor,KNN)、邏輯回歸(logistic regression,LR)、支持向量機(support vector machine,SVM)、極端梯度提升(eXtreme gradient boosting,XGBoost)5種機器學習算法開展肺結節良惡性及常見中醫證素的呼氣圖譜辨識研究,以期明確電子鼻在良惡性肺結節早期鑒別診斷中的能力,亦為肺結節中醫證素診斷提供客觀、數智化證據。
1 資料與方法
1.1 臨床資料
回顧性納入2023年4月—2024年3月就診于成都中醫藥大學附屬醫院心胸外科住院部的108例肺結節患者。
1.2 診斷標準
1.2.1 肺結節診斷標準
參照《肺結節診治中國專家共識(2018 年版)》內容[19],肺結節是影像學表現為直徑≤3 cm的局灶性、類圓形、密度增高的實性或亞實性肺部陰影;可為孤立性或多發性;不伴有肺不張、肺門淋巴結腫大和胸腔積液。肺結節良惡性診斷主要參考2021年世界衛生組織(World Health Organization,WHO)《胸部腫瘤分類》中肺腫瘤分類標準[20]。
1.2.2 中醫證素診斷標準
基于朱文鋒《證素辨證學》[21],根據收集到的四診信息在診斷中的權重,采用加權閾值法確定證素。以70作為通用閾值,各癥狀對各證素的貢獻度之和≥70時,即可診斷相應證素。
1.3 病例篩選標準
納入標準:① 符合肺結節診斷標準;② 年齡≥18 歲,性別不限;③ 自愿接受病史及癥狀調查,并簽署知情同意書。排除標準:① 既往罹患惡性腫瘤疾病者;② 合并呼吸道感染性疾病、口腔疾病者;③ 合并心、肝、腦、腎和造血系統等嚴重疾病者;④ 依從性差或有精神疾病,無法完成配合者;⑤ 妊娠及哺乳期患者。
1.4 臨床信息收集與整理
由至少3名經正規培訓的中醫專業人員采集臨床信息。采集內容包括:① 一般信息:姓名、性別、年齡、身高、體重、既往史、吸煙史、家族腫瘤史等;② 結節信息:記錄患者胸部CT報告,并追蹤術后病理報告;③ 中醫證候采集:采用統一的中醫證素采集表收集患者四診信息。
采用雙人雙機方法錄入信息,包括根據中醫證素診斷標準計算證候積分,提取出相應病位、病性證素,最后由第三人進行一致性校驗及完成錯誤數據修正。
1.5 呼氣圖譜的采集
1.5.1 呼氣樣本的采集
要求受試者采樣前至少禁食8 h,禁煙2 h,避免劇烈運動及使用帶有濃烈氣味的個人衛生用品。采氣時間為早上6:30~8:00,受試者用100 mL清水漱口后安靜狀態休息至少15 min,然后囑其端坐在椅子上,鼻子佩戴鼻夾,3次深呼吸后,緩慢吹氣至連有過濾器的特氟龍采氣袋(1 L)。樣品于室溫下保存,用黑色塑料袋遮光處理,為避免采樣袋本底干擾,采樣結束后的3 h內完成對呼出氣體樣本的檢測。
1.5.2 呼氣圖譜的采集
實驗設備使用Cyranose 320電子鼻(美國 Sensigent 公司),主要由32個納米復合材料導電聚合物傳感器組成。當聚合物涂層暴露在揮發性有機化合物中時發生膨脹,通過增加導電顆粒間距離致電阻改變,進而形成被測試氣味特定的氣味打印圖譜[22]。
呼氣樣本分析周期包括3個階段:首先采樣泵以120 mL/min速度泵入環境空氣,時間為10 s,使傳感器響應穩定在基線水平;其次樣本氣體以相同速度進入氣室,分析時間為30 s;最后采樣泵速增加到180 mL/min,再次泵入環境空氣樣品管路吹掃及進氣口清潔,使傳感器恢復基線水平。每個樣本連續分析兩次,后臺導出電阻數據轉存至Excel表備用。
1.6 數據預處理
本研究選擇分數比例法進行基線處理以避免傳感器漂移影響最終測量結果,具體公式為:ΔR/R0 =(Rmax-R0)/R0,其中Rmax是每個傳感器的最大電阻響應,R0為每個傳感器的參考電阻(環境空氣)。此外,選擇小波變化用于傳感器響應曲線濾波處理,采用Z-score標準化方法消除數據單位限制或大小范圍。
1.7 機器學習
綜合國內外電子鼻結合機器學習辨識疾病研究現狀[23-27],選擇RF、KNN、LR、SVM和XGBoost 5種常用經典算法對肺結節呼氣圖譜預處理數據進行模式識別,通過分類模型構建及性能評價,確定不同應用場景下最優模型配置,提高結局預測的準確性及可靠性。
2023年4月—2024年3月所有患者的數據用于模型研究,按照7∶3隨機拆分為訓練集和測試集用于內部驗證,采用k折交叉驗證進行模型調優,防止數據過擬合。使用準確度、特異度、靈敏度及受試者工作特征(receiver operating characteristic,ROC)曲線下面積(area under curve,AUC)評估不同模型的辨識性能。
1.8 統計學分析
使用SPSS 26.0軟件進行統計分析。正態分布的計量資料以均數±標準差(x±s)描述,采用獨立樣本t檢驗進行組間比較。不符合正態分布的計量資料采用中位數(四分位數間距)描述,組間比較則采用秩和檢驗。計數資料用頻數(百分比)進行描述,采用χ2檢驗或Fisher確切概率法進行組間比較。應用R 4.2.0軟件的“caret”、“random forest”和“xgboost”包進行模型構建及驗證,“pROC”包繪制相應ROC曲線。雙側P≤0.05表示差異有統計學意義。
1.9 倫理審查與注冊
本研究已獲得成都中醫藥大學附屬醫院倫理委員會審批(倫理編號:2022KL-051),并完成注冊(臨床試驗注冊號:ChiCTR2200062140)。
2 結果
2.1 肺結節基線資料
本研究共納入肺結節患者108例,其中男47例、女61例,平均年齡(55.61±11.70)歲。經隨訪后明確病理診斷的肺結節患者80例,其中良性結節30例,惡性結節50例,兩組在性別、年齡、身高、體重、體重指數(BMI)、吸煙史、高血壓病史、糖尿病病史、家族腫瘤史方面差異均無統計學意義(P>0.05);見表1。

2.2 肺結節患者的證素分布情況
2.2.1 病位證素分布情況
對108例肺結節患者的病位證素進行頻數統計,以分布比例≥30%為界,從高到低依次是肝、肺、腎;見表2。

2.2.2 病性證素分布情況
對108例肺結節患者的病性證素進行頻數統計,以分布比例≥30%為界,從高到低依次是陰虛、痰、濕、氣滯、血虛;見表3。

2.3 良惡性肺結節的呼氣圖譜辨識
在對良惡性肺結節的呼氣圖譜辨識分析中,最佳分類模型是RF,AUC為0.91,準確度為86.36%,特異度為75.00%,靈敏度為92.85%。其次是XGBoost模型,AUC為0.88,準確度為86.36%,特異度為100.00%,靈敏度為78.57%。KNN、LR、SVM模型AUC均不足0.80;見表4、附件圖1。

2.4 肺結節常見證素的呼氣圖譜辨識
2.4.1 肺結節常見病位證素的呼氣圖譜辨識
在對證素肝的識別中,RF模型的辨識性能最佳,AUC為0.84,準確度為82.14%,特異度為75.00%,靈敏度為91.67%,其次是LR模型,AUC為0.83,準確度為85.71%,KNN、SVM、XGBoost模型的AUC均不足0.80。在對證素肺的識別中,RF模型的辨識性能最佳,AUC為0.86,準確度為85.71%,特異度為73.33%,靈敏度為100.00%,其次是XGBoost和SVM模型,AUC分別為0.84、0.82,準確度分別為85.71%、82.14%。在對證素腎的識別中,RF和XGBoost模型辨識性能最佳,AUC、準確度、特異度與靈敏度均一致,分別為0.89、96.43%、100.00%、88.89%。其次,辨識性能從高到低依次為SVM、LR、KNN模型;見圖1、附件圖2。

a:證素肝的ROC曲線圖;b:證素肺的ROC曲線圖;c:證素腎的ROC曲線圖; ROC:受式者工作特征;KNN:K最近鄰;SVM:支持向量機;XGBoost:極端梯度提升;AUC:曲線下面積
2.4.2 肺結節常見病性證素的呼氣圖譜辨識
在對證素陰虛的識別中,LR模型的辨識性能最佳,AUC為0.96,準確度為96.43%,特異度為100.00%,靈敏度為94.74%;在對證素痰的識別中,RF模型的辨識性能最佳,AUC為0.90,準確度為92.59%,特異度為92.31%,靈敏度為92.86%;在對證素濕的識別中,LR模型的辨識性能最佳,AUC為0.95,準確度為96.43%,特異度為100.00%,靈敏度為93.33%;在對證素氣滯的識別中,XGBoost模型的辨識性能最佳,AUC為0.89,準確度為89.29%,特異度為100.00%,靈敏度為76.92%;在對證素血虛的識別中,RF模型的辨識性能最佳,AUC為0.98,準確度為92.86%,特異度為88.89%,靈敏度為100.00%;見圖2、附件圖3。

a:證素陰虛;b:證素痰;c:證素濕;d:證素氣滯;e:證素血虛;ROC:受式者工作特征;KNN:K最近鄰;SVM:支持向量機;XGBoost:極端梯度提升;AUC:曲線下面積
3 討論
3.1 肺結節宏觀與微觀辨證結合的必要性
“肺結節”一詞中醫典籍中并無記載,根據其臨床及影像學特征溯源典籍,可歸屬于“肺積”、“息賁”、“窠囊”等范疇[28]。本研究證素分布統計發現,肺結節病位證素中肝、肺占比最高,其次是腎;病性證素中占比從高到低依次是陰虛、痰、濕、氣滯、血虛。上述病位證素規律同既往研究[29-30]結果不盡相似,肺結節發病部位首要在肝,其次在肺。情緒不良是肺結節發病的重要因素,也是患者最突出的臨床表現。據統計,60%以上肺結節患者處于抑郁、焦慮狀態[31],患者臨床出現呼吸道癥狀與結節大小、數量無關,而與焦慮、抑郁程度正相關[32]。基礎研究[33]表明,情志障礙會直接導致肺結節免疫失調,引發異常炎癥反應,促使結節生長甚至惡變。中醫認為,肝為人體氣之中軸核心,主司疏泄,總調全身氣機。肝氣郁滯或疏泄太過均會影響肺宣發肅降,致有形實邪膠結郁于肺絡,為肺結節發病提供條件。本研究常見病性證素分布規律與疾病固有認知相吻合,即肺結節的病機本質為本虛標實、虛實夾雜[34-35]。素體外感六淫邪毒或受七情內傷、先天稟賦不足等影響,致正氣虧虛、氣血津液運行無力、痰濕血瘀等病理產物蘊積于肺,久之肺葉結構改變形成結節。
不同于傳統辨證手段,證素辨證通過對證候客觀辨識及統計學分析確定病位病性,賦予了中醫辨證科學性及可解釋性[36]。但近90%肺結節患者隨訪期癥狀及體征并不明顯,在“無癥可辨”的情況下,證素診斷時常無效。本研究引入微觀辨證理念,即利用現代先進醫學技術從影像、理化檢驗等微觀視角認識中醫“證”的內在機制與物質基礎,不僅一定程度上彌補了宏觀辨證對肺結節診斷滯后的不足,打破當前“無證可辨”局面,實現肺結節先時監測、隱病防變,且通過宏微觀指標結合可輔助臨床提高肺結節中醫辨證精準度,加強中醫診斷與病情輕重、進程間關聯。
3.2 電子鼻具備鑒別肺結節良惡性的潛力
呼出氣中揮發性有機化合物(volatile organic compounds,VOCs)能表征疾病誘發的一系列內源性生物化學過程,對提示機體異常代謝狀態可靠性較高[37-38]。尤其對于以肺癌為代表的呼吸系統疾病,呼氣中VOCs來自于呼吸道本身或經外周循環入肺,具備反映肺內氧化應激、炎癥等特性,常作為生物標志物輔助疾病實時監測及精準診治[39]。1985年Gordon等[40]首次證實呼出氣VOCs在肺癌早期診斷中的可行性,在此基礎上,Phillips等[41]后續發現基于22種VOCs組合能顯著區分肺癌與非肺癌患者。隨著檢測儀器及分析方法的不斷改進,呼出氣VOCs在肺癌早期篩查、病程診斷及預后管理方面的潛在價值現逐漸得到證實[11-12,42-44],《早期肺癌診斷中國專家共識(2023 年版)》[10]明確將呼氣檢測列為無創檢查之一。
電子鼻是一種新型仿生嗅覺設備,其原理是借助特異性傳感器陣列完成混合氣體的整體響應,形成個體獨特的呼氣指紋圖譜,經特定模式識別后實現機體病理生理和代謝重塑情況判斷[45-46]。相較于其他VOCs檢測手段,該技術無創、安全、易于操作,具備較快的檢測速度和實時分析性能,更符合臨床應用推廣的現實需求。目前大量研究[25, 47]發現電子鼻技術在肺癌檢測中有著良好的靈敏度和特異度。Chen等[26]利用自主研發電子鼻有效辨識出肺癌及健康人,其準確度、靈敏度及特異度分別可高達93.59%、95.60%及91.09%,同時該設備創新性區分Ⅱ期與Ⅳ期肺癌,辨識準確度超過80%。de Vries等[47]借助電子鼻技術實現慢性阻塞性肺病患者早期肺癌的前瞻性檢測,準確率為87%,AUC為0.90[95%CI(0.84,0.95) ]。但肺結節作為肺癌早期主要表現之一,前期文獻挖掘發現,僅一項國外研究[18]明確使用電子鼻系統進行肺部結節良惡性鑒別,其中準確度和特異度分別達到87%和93%,靈敏性相對較低,僅有75%。本研究利用商用Cyranose 320電子鼻進行良惡性肺結節間呼氣圖譜辨識,與上述研究結果一致,電子鼻能較好辨識出惡性肺結節,準確度、特異度和靈敏度分別為86.36%、75.00%和92.85%,AUC可達0.91。由此可見,電子鼻在肺結節良惡性鑒別診斷方面確實具備良好的應用推廣前景。
3.3 電子鼻對肺結節中醫證素的微觀辨識作用
“嗅診”是中醫四診的一個重要分支,其主要通過嗅病體本身、排出物散發異味及病室氣味,了解臟腑生理病理變化進而輔助臨床診治。中醫認為,疾病狀態下,由于邪氣侵襲,臟腑功能失調致氣血運行失常,穢濁排除不利,會形成腐臭濁氣隨特定形體官竅散發而出,例如肺熱者痰黃粘稠味腥,胃熱者嘔吐物酸腐味臭,傷食者大便臭如敗卵,消渴者尿甜伴爛蘋果氣味等[13,48],故基于“嗅診”辨識氣味可輔助判斷臟腑生理病理改變,為診病、辨證提供依據。但人的嗅覺主觀影響較大,無法提供精確結果;而化學檢驗耗時長,難以實時監測。電子鼻結合先進的智能信息處理技術,建立呼氣圖譜與肺結節病證之間的數學模型和模式識別體系,一定程度上克服了人體感官的嗅覺疲勞及主觀性缺陷。不僅如此,電子鼻技術借助氣味傳感器實現人體呼氣混合物整體響應,與中醫整體觀認知高度契合,故也被認為是中醫“嗅診”的可視化技術延伸。
近年來,國內基于電子鼻嗅診客觀化開展了大量臨床研究。尤其林雪娟教授團隊基于自主研發的中醫電子鼻,完成對社區獲得性肺炎、2型糖尿病、慢性胃炎等多種疾病證候相關的呼氣圖譜辨識[14-16,49-50],例如,電子鼻可以區分熱證不同病位的呼氣氣味圖譜特征;電子鼻采用KNN方法對社區獲得性肺炎常見病性證素外風的判別度可達93.53%;電子鼻結合特定模式識別方法能對糖尿病前期與糖尿病期常見病位證素作初步辨識,最高平均分類準確率分別達76.00%與80.76%。不僅證實了電子鼻作為中醫“嗅診”現代化新手段,且為中醫辨證施治提供客觀依據。本研究基于上述研究基礎,首次利用電子鼻對肺結節常見中醫證素進行辨識,結果提示Cyranose 320電子鼻結合適宜模式識別方法能實現對肺結節單一病位、病性證素的準確辨識,辨識準確度基本達80.00%以上,且具備較高的特異度及靈敏度。這一方面證實了氣味圖譜在肺結節不同病位、病性證素間確有差異,為中醫嗅診提供了客觀化、可視化證據;另一方面,電子鼻技術賦予中醫證素可量化指標,為肺結節中醫病證診斷提供了新技術和新方法。
本研究局限性及研究展望總結如下:(1)本研究為單中心研究,研究周期短,且研究樣本量有限,僅納入108例肺結節患者。研究團隊后續將開展多中心、大樣本研究,一方面增加外部驗證評估現有模型在不同環境下的泛化能力及推廣價值,另一方面通過追蹤隨訪,深入不同大小、密度及病理類型肺結節的呼氣辨識,以及關聯不同階段肺結節中醫證候與氣味傳感器響應曲線的特征。(2)Cyranose 320電子鼻具有較好的臨床推廣潛力,但只能做呼出氣VOCs定性分析,不能像傳統基于色譜的檢測手段對各氣體樣本成分進行分離及鑒定,故后續研究將在電子鼻基礎上聯合色譜、質譜儀等技術,通過篩選特異性呼氣標志物,為中醫辨證提供更加精確的微觀證據。
肺結節良惡性之間、不同中醫證素之間呼出氣存在差異,經電子鼻聯合以RF為代表的適宜分類算法能實現有效辨識,提示嗅診及呼氣圖譜變化或可成為未來惡性肺結節早診、早篩重要手段,減少臨床低劑量螺旋CT的過度使用;此外,電子鼻可作為嗅診的客觀化技術延伸,一定程度上彌補現有宏觀辨證的主觀局限,輔助中醫臨床對無癥狀肺結節更加精準的辨證施治。
利益沖突:無。
作者貢獻:譚施言和曾瓊負責數據采集、分析,論文設計和初稿撰寫及修改;向紅霞負責數據采集及錄入;王倩、馬瓊負責論文設計和審閱;付西、何佳瑋、由麗婷負責數據整理和分析;任益鋒和由鳳鳴負責研究方案制定及指導,文章的知識性內容審閱與修改,對編輯部的意見進行核修。
本文中附件圖1、附件圖2與附件圖3見本刊電子版。
隨著低劑量螺旋CT(low-dose computed tomography,LDCT)的廣泛應用,我國健康人群中肺結節檢出率高達80%,并呈逐年上升趨勢[1-2]。作為早期肺癌和肺癌前病變的主要表現形式,肺結節存在6%~82%的惡變概率[3],結節良惡性早期判別、適時精準干預是降低肺癌發病率與死亡率的重要手段。現行肺結節診療策略以隨訪-監測為主,但存在潛在的輻射風險,且反復篩查可能會持續加重患者身心、經濟負擔。因此,從無創層面拓展肺結節新的診療手段是目前該領域持續探索的前沿與熱點。
近年來,研究[3-8]表明,中醫學整體觀、辨證論治、治未病等理論指導下的診療方法,在縮小肺部結節體積、防止結節惡變等方面具有一定優勢[4-6],并獲得相關指南/共識推薦[3,7-8]。其中,辨證論治是確保中醫診治肺結節療效的前提與關鍵,但早期肺結節起病隱匿,傳統辨證停留在宏觀表征,時常面臨無癥可辨的尷尬局面。微觀辨證的提出,打破了傳統四診技術以癥狀為唯一辨證重點的困境,其通過現代科學技術闡釋人體內在物質基礎改變,不僅更加客觀真實地闡釋了肺結節發病本質,且推動了肺結節中醫診療從經驗向證據的重要轉變[9]。
呼氣分析因無創、便捷、經濟高效等優勢成為肺腫瘤診斷領域的前沿及熱點,《早期肺癌診斷中國專家共識(2023 年版)》[10]明確將其推薦為肺癌早篩無創檢查方式之一。與其他呼氣檢測技術相比,電子鼻選擇性高、反應快速、精密度好,在肺癌早期診斷能力上具有出色的穩定性和特異性[11-12]。更重要的是,電子鼻利用特異性氣味傳感器陣列模擬生物嗅覺系統,通過呈現可視化的特征性曲線和降維數據來反映疾病的整體氣味信息,與中醫整體觀認知相符,被視為嗅診的現代化技術延伸與實體呈現[13]。諸多研究[14-16]已證實電子鼻可通過關聯疾病常見證素與口腔呼氣信號,為臨床病證診斷提供微觀指標參考。然而,課題組前期研究[17]發現,電子鼻雖是目前肺癌無創診療方式的有力補充,但僅有一項臨床研究[18]利用該技術進行肺部結節良惡性鑒別。此外,聚焦肺結節,尚無研究發現其特異性呼氣信號與中醫證素間潛在關聯。
綜上,本研究基于電子鼻無創檢測技術,聯合隨機森林(random forest,RF)、K最近鄰(K-nearest neighbor,KNN)、邏輯回歸(logistic regression,LR)、支持向量機(support vector machine,SVM)、極端梯度提升(eXtreme gradient boosting,XGBoost)5種機器學習算法開展肺結節良惡性及常見中醫證素的呼氣圖譜辨識研究,以期明確電子鼻在良惡性肺結節早期鑒別診斷中的能力,亦為肺結節中醫證素診斷提供客觀、數智化證據。
1 資料與方法
1.1 臨床資料
回顧性納入2023年4月—2024年3月就診于成都中醫藥大學附屬醫院心胸外科住院部的108例肺結節患者。
1.2 診斷標準
1.2.1 肺結節診斷標準
參照《肺結節診治中國專家共識(2018 年版)》內容[19],肺結節是影像學表現為直徑≤3 cm的局灶性、類圓形、密度增高的實性或亞實性肺部陰影;可為孤立性或多發性;不伴有肺不張、肺門淋巴結腫大和胸腔積液。肺結節良惡性診斷主要參考2021年世界衛生組織(World Health Organization,WHO)《胸部腫瘤分類》中肺腫瘤分類標準[20]。
1.2.2 中醫證素診斷標準
基于朱文鋒《證素辨證學》[21],根據收集到的四診信息在診斷中的權重,采用加權閾值法確定證素。以70作為通用閾值,各癥狀對各證素的貢獻度之和≥70時,即可診斷相應證素。
1.3 病例篩選標準
納入標準:① 符合肺結節診斷標準;② 年齡≥18 歲,性別不限;③ 自愿接受病史及癥狀調查,并簽署知情同意書。排除標準:① 既往罹患惡性腫瘤疾病者;② 合并呼吸道感染性疾病、口腔疾病者;③ 合并心、肝、腦、腎和造血系統等嚴重疾病者;④ 依從性差或有精神疾病,無法完成配合者;⑤ 妊娠及哺乳期患者。
1.4 臨床信息收集與整理
由至少3名經正規培訓的中醫專業人員采集臨床信息。采集內容包括:① 一般信息:姓名、性別、年齡、身高、體重、既往史、吸煙史、家族腫瘤史等;② 結節信息:記錄患者胸部CT報告,并追蹤術后病理報告;③ 中醫證候采集:采用統一的中醫證素采集表收集患者四診信息。
采用雙人雙機方法錄入信息,包括根據中醫證素診斷標準計算證候積分,提取出相應病位、病性證素,最后由第三人進行一致性校驗及完成錯誤數據修正。
1.5 呼氣圖譜的采集
1.5.1 呼氣樣本的采集
要求受試者采樣前至少禁食8 h,禁煙2 h,避免劇烈運動及使用帶有濃烈氣味的個人衛生用品。采氣時間為早上6:30~8:00,受試者用100 mL清水漱口后安靜狀態休息至少15 min,然后囑其端坐在椅子上,鼻子佩戴鼻夾,3次深呼吸后,緩慢吹氣至連有過濾器的特氟龍采氣袋(1 L)。樣品于室溫下保存,用黑色塑料袋遮光處理,為避免采樣袋本底干擾,采樣結束后的3 h內完成對呼出氣體樣本的檢測。
1.5.2 呼氣圖譜的采集
實驗設備使用Cyranose 320電子鼻(美國 Sensigent 公司),主要由32個納米復合材料導電聚合物傳感器組成。當聚合物涂層暴露在揮發性有機化合物中時發生膨脹,通過增加導電顆粒間距離致電阻改變,進而形成被測試氣味特定的氣味打印圖譜[22]。
呼氣樣本分析周期包括3個階段:首先采樣泵以120 mL/min速度泵入環境空氣,時間為10 s,使傳感器響應穩定在基線水平;其次樣本氣體以相同速度進入氣室,分析時間為30 s;最后采樣泵速增加到180 mL/min,再次泵入環境空氣樣品管路吹掃及進氣口清潔,使傳感器恢復基線水平。每個樣本連續分析兩次,后臺導出電阻數據轉存至Excel表備用。
1.6 數據預處理
本研究選擇分數比例法進行基線處理以避免傳感器漂移影響最終測量結果,具體公式為:ΔR/R0 =(Rmax-R0)/R0,其中Rmax是每個傳感器的最大電阻響應,R0為每個傳感器的參考電阻(環境空氣)。此外,選擇小波變化用于傳感器響應曲線濾波處理,采用Z-score標準化方法消除數據單位限制或大小范圍。
1.7 機器學習
綜合國內外電子鼻結合機器學習辨識疾病研究現狀[23-27],選擇RF、KNN、LR、SVM和XGBoost 5種常用經典算法對肺結節呼氣圖譜預處理數據進行模式識別,通過分類模型構建及性能評價,確定不同應用場景下最優模型配置,提高結局預測的準確性及可靠性。
2023年4月—2024年3月所有患者的數據用于模型研究,按照7∶3隨機拆分為訓練集和測試集用于內部驗證,采用k折交叉驗證進行模型調優,防止數據過擬合。使用準確度、特異度、靈敏度及受試者工作特征(receiver operating characteristic,ROC)曲線下面積(area under curve,AUC)評估不同模型的辨識性能。
1.8 統計學分析
使用SPSS 26.0軟件進行統計分析。正態分布的計量資料以均數±標準差(x±s)描述,采用獨立樣本t檢驗進行組間比較。不符合正態分布的計量資料采用中位數(四分位數間距)描述,組間比較則采用秩和檢驗。計數資料用頻數(百分比)進行描述,采用χ2檢驗或Fisher確切概率法進行組間比較。應用R 4.2.0軟件的“caret”、“random forest”和“xgboost”包進行模型構建及驗證,“pROC”包繪制相應ROC曲線。雙側P≤0.05表示差異有統計學意義。
1.9 倫理審查與注冊
本研究已獲得成都中醫藥大學附屬醫院倫理委員會審批(倫理編號:2022KL-051),并完成注冊(臨床試驗注冊號:ChiCTR2200062140)。
2 結果
2.1 肺結節基線資料
本研究共納入肺結節患者108例,其中男47例、女61例,平均年齡(55.61±11.70)歲。經隨訪后明確病理診斷的肺結節患者80例,其中良性結節30例,惡性結節50例,兩組在性別、年齡、身高、體重、體重指數(BMI)、吸煙史、高血壓病史、糖尿病病史、家族腫瘤史方面差異均無統計學意義(P>0.05);見表1。

2.2 肺結節患者的證素分布情況
2.2.1 病位證素分布情況
對108例肺結節患者的病位證素進行頻數統計,以分布比例≥30%為界,從高到低依次是肝、肺、腎;見表2。

2.2.2 病性證素分布情況
對108例肺結節患者的病性證素進行頻數統計,以分布比例≥30%為界,從高到低依次是陰虛、痰、濕、氣滯、血虛;見表3。

2.3 良惡性肺結節的呼氣圖譜辨識
在對良惡性肺結節的呼氣圖譜辨識分析中,最佳分類模型是RF,AUC為0.91,準確度為86.36%,特異度為75.00%,靈敏度為92.85%。其次是XGBoost模型,AUC為0.88,準確度為86.36%,特異度為100.00%,靈敏度為78.57%。KNN、LR、SVM模型AUC均不足0.80;見表4、附件圖1。

2.4 肺結節常見證素的呼氣圖譜辨識
2.4.1 肺結節常見病位證素的呼氣圖譜辨識
在對證素肝的識別中,RF模型的辨識性能最佳,AUC為0.84,準確度為82.14%,特異度為75.00%,靈敏度為91.67%,其次是LR模型,AUC為0.83,準確度為85.71%,KNN、SVM、XGBoost模型的AUC均不足0.80。在對證素肺的識別中,RF模型的辨識性能最佳,AUC為0.86,準確度為85.71%,特異度為73.33%,靈敏度為100.00%,其次是XGBoost和SVM模型,AUC分別為0.84、0.82,準確度分別為85.71%、82.14%。在對證素腎的識別中,RF和XGBoost模型辨識性能最佳,AUC、準確度、特異度與靈敏度均一致,分別為0.89、96.43%、100.00%、88.89%。其次,辨識性能從高到低依次為SVM、LR、KNN模型;見圖1、附件圖2。

a:證素肝的ROC曲線圖;b:證素肺的ROC曲線圖;c:證素腎的ROC曲線圖; ROC:受式者工作特征;KNN:K最近鄰;SVM:支持向量機;XGBoost:極端梯度提升;AUC:曲線下面積
2.4.2 肺結節常見病性證素的呼氣圖譜辨識
在對證素陰虛的識別中,LR模型的辨識性能最佳,AUC為0.96,準確度為96.43%,特異度為100.00%,靈敏度為94.74%;在對證素痰的識別中,RF模型的辨識性能最佳,AUC為0.90,準確度為92.59%,特異度為92.31%,靈敏度為92.86%;在對證素濕的識別中,LR模型的辨識性能最佳,AUC為0.95,準確度為96.43%,特異度為100.00%,靈敏度為93.33%;在對證素氣滯的識別中,XGBoost模型的辨識性能最佳,AUC為0.89,準確度為89.29%,特異度為100.00%,靈敏度為76.92%;在對證素血虛的識別中,RF模型的辨識性能最佳,AUC為0.98,準確度為92.86%,特異度為88.89%,靈敏度為100.00%;見圖2、附件圖3。

a:證素陰虛;b:證素痰;c:證素濕;d:證素氣滯;e:證素血虛;ROC:受式者工作特征;KNN:K最近鄰;SVM:支持向量機;XGBoost:極端梯度提升;AUC:曲線下面積
3 討論
3.1 肺結節宏觀與微觀辨證結合的必要性
“肺結節”一詞中醫典籍中并無記載,根據其臨床及影像學特征溯源典籍,可歸屬于“肺積”、“息賁”、“窠囊”等范疇[28]。本研究證素分布統計發現,肺結節病位證素中肝、肺占比最高,其次是腎;病性證素中占比從高到低依次是陰虛、痰、濕、氣滯、血虛。上述病位證素規律同既往研究[29-30]結果不盡相似,肺結節發病部位首要在肝,其次在肺。情緒不良是肺結節發病的重要因素,也是患者最突出的臨床表現。據統計,60%以上肺結節患者處于抑郁、焦慮狀態[31],患者臨床出現呼吸道癥狀與結節大小、數量無關,而與焦慮、抑郁程度正相關[32]。基礎研究[33]表明,情志障礙會直接導致肺結節免疫失調,引發異常炎癥反應,促使結節生長甚至惡變。中醫認為,肝為人體氣之中軸核心,主司疏泄,總調全身氣機。肝氣郁滯或疏泄太過均會影響肺宣發肅降,致有形實邪膠結郁于肺絡,為肺結節發病提供條件。本研究常見病性證素分布規律與疾病固有認知相吻合,即肺結節的病機本質為本虛標實、虛實夾雜[34-35]。素體外感六淫邪毒或受七情內傷、先天稟賦不足等影響,致正氣虧虛、氣血津液運行無力、痰濕血瘀等病理產物蘊積于肺,久之肺葉結構改變形成結節。
不同于傳統辨證手段,證素辨證通過對證候客觀辨識及統計學分析確定病位病性,賦予了中醫辨證科學性及可解釋性[36]。但近90%肺結節患者隨訪期癥狀及體征并不明顯,在“無癥可辨”的情況下,證素診斷時常無效。本研究引入微觀辨證理念,即利用現代先進醫學技術從影像、理化檢驗等微觀視角認識中醫“證”的內在機制與物質基礎,不僅一定程度上彌補了宏觀辨證對肺結節診斷滯后的不足,打破當前“無證可辨”局面,實現肺結節先時監測、隱病防變,且通過宏微觀指標結合可輔助臨床提高肺結節中醫辨證精準度,加強中醫診斷與病情輕重、進程間關聯。
3.2 電子鼻具備鑒別肺結節良惡性的潛力
呼出氣中揮發性有機化合物(volatile organic compounds,VOCs)能表征疾病誘發的一系列內源性生物化學過程,對提示機體異常代謝狀態可靠性較高[37-38]。尤其對于以肺癌為代表的呼吸系統疾病,呼氣中VOCs來自于呼吸道本身或經外周循環入肺,具備反映肺內氧化應激、炎癥等特性,常作為生物標志物輔助疾病實時監測及精準診治[39]。1985年Gordon等[40]首次證實呼出氣VOCs在肺癌早期診斷中的可行性,在此基礎上,Phillips等[41]后續發現基于22種VOCs組合能顯著區分肺癌與非肺癌患者。隨著檢測儀器及分析方法的不斷改進,呼出氣VOCs在肺癌早期篩查、病程診斷及預后管理方面的潛在價值現逐漸得到證實[11-12,42-44],《早期肺癌診斷中國專家共識(2023 年版)》[10]明確將呼氣檢測列為無創檢查之一。
電子鼻是一種新型仿生嗅覺設備,其原理是借助特異性傳感器陣列完成混合氣體的整體響應,形成個體獨特的呼氣指紋圖譜,經特定模式識別后實現機體病理生理和代謝重塑情況判斷[45-46]。相較于其他VOCs檢測手段,該技術無創、安全、易于操作,具備較快的檢測速度和實時分析性能,更符合臨床應用推廣的現實需求。目前大量研究[25, 47]發現電子鼻技術在肺癌檢測中有著良好的靈敏度和特異度。Chen等[26]利用自主研發電子鼻有效辨識出肺癌及健康人,其準確度、靈敏度及特異度分別可高達93.59%、95.60%及91.09%,同時該設備創新性區分Ⅱ期與Ⅳ期肺癌,辨識準確度超過80%。de Vries等[47]借助電子鼻技術實現慢性阻塞性肺病患者早期肺癌的前瞻性檢測,準確率為87%,AUC為0.90[95%CI(0.84,0.95) ]。但肺結節作為肺癌早期主要表現之一,前期文獻挖掘發現,僅一項國外研究[18]明確使用電子鼻系統進行肺部結節良惡性鑒別,其中準確度和特異度分別達到87%和93%,靈敏性相對較低,僅有75%。本研究利用商用Cyranose 320電子鼻進行良惡性肺結節間呼氣圖譜辨識,與上述研究結果一致,電子鼻能較好辨識出惡性肺結節,準確度、特異度和靈敏度分別為86.36%、75.00%和92.85%,AUC可達0.91。由此可見,電子鼻在肺結節良惡性鑒別診斷方面確實具備良好的應用推廣前景。
3.3 電子鼻對肺結節中醫證素的微觀辨識作用
“嗅診”是中醫四診的一個重要分支,其主要通過嗅病體本身、排出物散發異味及病室氣味,了解臟腑生理病理變化進而輔助臨床診治。中醫認為,疾病狀態下,由于邪氣侵襲,臟腑功能失調致氣血運行失常,穢濁排除不利,會形成腐臭濁氣隨特定形體官竅散發而出,例如肺熱者痰黃粘稠味腥,胃熱者嘔吐物酸腐味臭,傷食者大便臭如敗卵,消渴者尿甜伴爛蘋果氣味等[13,48],故基于“嗅診”辨識氣味可輔助判斷臟腑生理病理改變,為診病、辨證提供依據。但人的嗅覺主觀影響較大,無法提供精確結果;而化學檢驗耗時長,難以實時監測。電子鼻結合先進的智能信息處理技術,建立呼氣圖譜與肺結節病證之間的數學模型和模式識別體系,一定程度上克服了人體感官的嗅覺疲勞及主觀性缺陷。不僅如此,電子鼻技術借助氣味傳感器實現人體呼氣混合物整體響應,與中醫整體觀認知高度契合,故也被認為是中醫“嗅診”的可視化技術延伸。
近年來,國內基于電子鼻嗅診客觀化開展了大量臨床研究。尤其林雪娟教授團隊基于自主研發的中醫電子鼻,完成對社區獲得性肺炎、2型糖尿病、慢性胃炎等多種疾病證候相關的呼氣圖譜辨識[14-16,49-50],例如,電子鼻可以區分熱證不同病位的呼氣氣味圖譜特征;電子鼻采用KNN方法對社區獲得性肺炎常見病性證素外風的判別度可達93.53%;電子鼻結合特定模式識別方法能對糖尿病前期與糖尿病期常見病位證素作初步辨識,最高平均分類準確率分別達76.00%與80.76%。不僅證實了電子鼻作為中醫“嗅診”現代化新手段,且為中醫辨證施治提供客觀依據。本研究基于上述研究基礎,首次利用電子鼻對肺結節常見中醫證素進行辨識,結果提示Cyranose 320電子鼻結合適宜模式識別方法能實現對肺結節單一病位、病性證素的準確辨識,辨識準確度基本達80.00%以上,且具備較高的特異度及靈敏度。這一方面證實了氣味圖譜在肺結節不同病位、病性證素間確有差異,為中醫嗅診提供了客觀化、可視化證據;另一方面,電子鼻技術賦予中醫證素可量化指標,為肺結節中醫病證診斷提供了新技術和新方法。
本研究局限性及研究展望總結如下:(1)本研究為單中心研究,研究周期短,且研究樣本量有限,僅納入108例肺結節患者。研究團隊后續將開展多中心、大樣本研究,一方面增加外部驗證評估現有模型在不同環境下的泛化能力及推廣價值,另一方面通過追蹤隨訪,深入不同大小、密度及病理類型肺結節的呼氣辨識,以及關聯不同階段肺結節中醫證候與氣味傳感器響應曲線的特征。(2)Cyranose 320電子鼻具有較好的臨床推廣潛力,但只能做呼出氣VOCs定性分析,不能像傳統基于色譜的檢測手段對各氣體樣本成分進行分離及鑒定,故后續研究將在電子鼻基礎上聯合色譜、質譜儀等技術,通過篩選特異性呼氣標志物,為中醫辨證提供更加精確的微觀證據。
肺結節良惡性之間、不同中醫證素之間呼出氣存在差異,經電子鼻聯合以RF為代表的適宜分類算法能實現有效辨識,提示嗅診及呼氣圖譜變化或可成為未來惡性肺結節早診、早篩重要手段,減少臨床低劑量螺旋CT的過度使用;此外,電子鼻可作為嗅診的客觀化技術延伸,一定程度上彌補現有宏觀辨證的主觀局限,輔助中醫臨床對無癥狀肺結節更加精準的辨證施治。
利益沖突:無。
作者貢獻:譚施言和曾瓊負責數據采集、分析,論文設計和初稿撰寫及修改;向紅霞負責數據采集及錄入;王倩、馬瓊負責論文設計和審閱;付西、何佳瑋、由麗婷負責數據整理和分析;任益鋒和由鳳鳴負責研究方案制定及指導,文章的知識性內容審閱與修改,對編輯部的意見進行核修。
本文中附件圖1、附件圖2與附件圖3見本刊電子版。