引用本文: 馮文華, 任朝楠, 羅平, 彭希琪, 梁睿, 彭磊, 張少華. ChatGPT 輔助兒科診療與醫患溝通的初步探索. 華西醫學, 2024, 39(8): 1273-1276. doi: 10.7507/1002-0179.202311251 復制
版權信息: ?四川大學華西醫院華西期刊社《華西醫學》版權所有,未經授權不得轉載、改編
基于大語言模型(large language model, LLM)的生成式人工智能(artificial intelligence, AI)正在變革社會運作,尤其是在自然語言處理領域[1]。ChatGPT(Chat Generative Pre-trained Transformer)作為 LLM 的代表,其能生成流暢、語法正確的文本,已從概念產品發展為消費級應用[2]。在醫療領域,LLM 通過結合人類反饋的增強學習,展現了在臨床決策支持方面的巨大潛力[3]。然而,盡管 LLM 在其他領域已取得了顯著成就,其在醫療領域的應用仍處于起步階段,尤其是在疾病診斷和治療方面的具體貢獻還有待探索。兒科疾病診治復雜,兒童因認知和表達能力尚未成熟,難以準確描述癥狀,且常因恐懼或焦慮而對治療產生抵觸,影響診斷和治療[4-5]。因此,兒科醫生除了需要有豐富的醫學知識,還需要具備與患兒及其家長溝通的能力[6]。本研究評估了 ChatGPT 用于兒科泌尿系統疾病診療與醫患溝通的能力,旨在為未來 ChatGPT 輔助兒科醫生進行兒科診療與醫患溝通提供一定的參考依據。
1 對象與方法
1.1 研究對象
本研究選取了 ChatGPT 3.5 和 4.0 版本截至 2023 年 4 月的知識數據庫。
1.2 研究方法
1.2.1 兒科診療與醫患溝通相關問題的設計
① 診療相關問題:由 2 位資深的兒科泌尿系統疾病臨床醫師,參考歐洲泌尿外科協會兒科泌尿外科指南[7],整理并設計了 30 個針對兒科泌尿系統感染性疾病的臨床問題,涉及診斷(包括檢查)、治療和預防等方面。所有問題的設計均經過高年資專業醫師的嚴格審核與認定,以確保其合理性和臨床相關性。
② 醫患溝通相關問題:由 2 位資深臨床心理科醫師結合兒科醫師的臨床經歷設計了 10 個兒科臨床工作中可能遇到的醫患溝通問題。這些問題涵蓋了不同的臨床場景,并由上述醫師提供了相應的解決方案作為參考。
1.2.2 使用 ChatGPT 回答兒科診療與醫患溝通相關問題
2023 年 10 月,作者之一(彭希琪)在美國加州大學戴維斯分校使用 ChatGPT 回答問題,即將前述的 40 個問題(30 個診療相關問題和 10 個醫患溝通相關問題)分別提交給 ChatGPT 3.5 和 4.0 版本進行問答。為減少模型答案的偏差,本研究未采用“Custom Instructions”進行醫學知識個體化設定。每個問題均通過“New Chat”功能進行獨立提問,并重復 3 次以獲取穩定結果。
1.2.3 對 ChatGPT 的答案進行評價
① 對診療相關問題答案的評價標準:由 4 位經驗豐富的兒科泌尿系統疾病醫師,以歐洲泌尿外科協會兒科泌尿外科指南[7]為參考依據,分別對 ChatGPT 3.5 和 4.0 版本的診療相關問題答案進行評分,評估過程采用盲法,即評估醫師對所評估的答案出自何種模型不知情。評估采用 0~5 分的評分標準,0 分代表“完全不符合”,5 分代表“完全符合”,3 分及以上的得分被認為是合格分數,每個問題答案的得分取 4 位評估者的平均分值作為最終結果。
② 對醫患溝通相關問題答案的評價標準:由 2 位資深的臨床心理科醫師根據心理學常用量表[8-9]的評分規則設計了評價 ChatGPT 醫患溝通相關問題答案的標準(表1)。評價標準分為 5 個維度:同理心和理解、溝通技巧、心理疏導技巧、壓力應對技巧和資源、兒童發展和福利。每個部分包含 3~4 個問題,各計 5~10 分,總分為 100 分,得分大于 80 分被認為醫患溝通能提供有效的心理支持建議。所有評價標準均通過了另外 2 位心理科醫師的質量評估。由 2 位臨床心理科醫師根據表1 分別對 ChatGPT 3.5 和 4.0 版本的醫患溝通相關問題答案獨立評分。評估過程采取盲法,即評估醫師對所評估的答案出自何種模型不知情。每個問題答案的得分取 2 位評估者的平均分值作為最終結果。

1.3 統計學方法
采用 SPSS 25.0 軟件進行統計學分析。由于評估結果分值不符合正態分布,采用中位數(下四分位數,上四分位數)表示,ChatGPT 3.5 與 4.0 版本的評估結果比較使用 Wilcoxon 符號秩檢驗。雙側檢驗水準 α=0.05。
2 結果
2.1 ChatGPT 回答兒科診療相關問題的情況
對 ChatGPT 3.5 和 4.0 診療相關問題答案的評價結果顯示,30 個問題答案得分均≥3 分。ChatGPT 3.5 的診療相關問題答案總分為 126.25 分;ChatGPT 4.0 的總分為 134.25。ChatGPT 3.5 的單個問題答案得分中位數(下四分位數,上四分位數)為 4.25(4.19,4.50)分,ChatGPT 4.0 的單個問題答案得分為 4.50(4.25,4.75)分,ChatGPT 3.5 與 4.0 單個問題答案得分的中位數差及 95%置信區間為 0.25(0.00,0.50)分,差異有統計學意義(P=0.024)。ChatGPT 3.5 和 ChatGPT 4.0 的診療相關問題答案中得分最高的均為 4.75 分;ChatGPT 3.5 的診療相關問題答案中得分最低的為 3 分;ChatGPT 4.0 得分最低的為 4 分。ChatGPT 得分最高分與最低分的兒科診療相關的具體問題見表2。

2.2 ChatGPT 回答醫患溝通相關問題的情況
對 ChatGPT 3.5 和 4.0 的醫患溝通相關問題答案的評價結果顯示,10 個問題答案的得分均>80 分。ChatGPT 3.5 的單個問題答案得分中位數(下四分位數,上四分位數)為 93.25(92.13,94.38)分,ChatGPT 4.0 的單個問題答案得分為 94.00(93.63,94.38)分,ChatGPT 3.5 與 4.0 單個問題答案得分的中位數差及 95%置信區間為 0.75(?0.64,2.14)分,差異無統計學意義(P=0.727)。
3 討論
本研究結果顯示,ChatGPT 在輔助兒科診療方面具有一定的價值,特別是 ChatGPT 4.0 版本,在專業臨床知識方面的準確性和可行性相較于 3.5 版本有所提升。這可能歸因于 4.0 版本的模型優化和數據集更大,表明 AI 技術在醫學領域,尤其是輔助疾病診斷和治療中的潛在應用前景。然而,值得注意的是,盡管 ChatGPT 的答案質量總體上達到了合格標準,但仍不能完全替代醫生的專業判斷。深入分析 ChatGPT 得分最高分與最低分的兒科診療相關的具體問題,不難看出,對于預防、單一癥狀和疾病診療問題的處理上,ChatGPT 可以提供相對科學且符合臨床思維的答案,但是對于涉及復雜病情診斷及治療的問題,其給出的答案可能存在一定偏差,無足夠可信度,有待進一步訓練和糾正。因此,在實際應用中,ChatGPT 應被視為醫生的輔助工具,而非完全依賴于 ChatGPT。此外,對于兒科醫患溝通,ChatGPT 提供的答案能為患方提供較好的心理支持。這表明 ChatGPT 不僅能夠輔助兒科醫生進行診療,還能輔助其進行醫患溝通,能夠幫助醫生為兒童及其家長提供心理支持。這一發現對于兒科醫生來說具有重要意義,ChatGPT 或可幫助醫生應對傳統方法難以溝通的兒童及其家長。
總之,以 ChatGPT 為代表的 LLM 在臨床決策支持中的應用展示了其潛在價值。LLM 的核心優勢是其處理和生成大量信息的能力,這在處理復雜的醫療數據和提供基于證據的醫療建議方面尤為關鍵[10]。ChatGPT 的表現揭示了 LLM 在理解臨床語境、處理專業醫療查詢及生成準確醫學建議方面的潛力。這種技術可以輔助醫生快速獲得相關信息,提高診斷的準確性和治療規劃的效率[11]。然而,需要指出的是,盡管 LLM 在信息處理方面的能力令人印象深刻,但在醫療決策中的應用仍存在挑戰。首先,LLM 可能缺乏對醫學知識深層次的理解和臨床經驗,這可能導致其在處理復雜或罕見病例時的局限性[12];其次,LLM 生成的建議可能缺乏個體化,不能完全考慮到患者的特定狀況和需求[12]。因此,醫生的專業判斷在使用 LLM 進行醫療決策時仍不可或缺[13-14]。未來,隨著 LLM 技術的持續發展和優化,結合更先進的自然語言處理技術和更豐富的醫學知識庫,其在精準醫療和個體化治療規劃中的應用前景將更加廣闊[15-16]。同時,醫療界還需要探索如何有效整合 LLM 技術和醫生的專業經驗,以實現最佳的醫療決策支持[17-18]。此外,研究者和開發者需著重考慮醫療倫理和數據隱私保護,確保 LLM 在醫療決策中的應用既安全又符合倫理標準[18-19]。
本研究的主要局限性是樣本量較小和評估方法存在一定的主觀性。此外,由于 AI 模型的知識庫更新較為滯后,尚存在時效性問題。未來研究應考慮擴大樣本量,并探索更客觀的評估方法。同時,隨著 AI 技術的不斷發展和優化,未來的研究還應關注 AI 模型處理最新醫療信息和指南的能力[17]。
綜上所述,本研究初步表明 ChatGPT 在輔助兒科診療與醫患溝通方面具有一定的價值。它不僅在提供臨床專業知識方面表現出潛力,而且在兒科醫患溝通中也顯示了價值。盡管存在局限性,但 AI 技術在醫療領域尤其是兒科醫療中的應用前景仍然值得期待[19-20]。未來,隨著 AI 技術的進一步發展和優化,其在提供全面且富有同理心的兒科護理方面的潛力有望得到進一步挖掘。然而,需要強調的是,ChatGPT 提供的醫學建議并不能完全取代醫生的專業判斷和個人關懷,醫生在使用 ChatGPT 輔助診療與醫患溝通時仍需要保持自身的獨立思考能力和批判性思維能力。
利益沖突:所有作者聲明不存在利益沖突。
基于大語言模型(large language model, LLM)的生成式人工智能(artificial intelligence, AI)正在變革社會運作,尤其是在自然語言處理領域[1]。ChatGPT(Chat Generative Pre-trained Transformer)作為 LLM 的代表,其能生成流暢、語法正確的文本,已從概念產品發展為消費級應用[2]。在醫療領域,LLM 通過結合人類反饋的增強學習,展現了在臨床決策支持方面的巨大潛力[3]。然而,盡管 LLM 在其他領域已取得了顯著成就,其在醫療領域的應用仍處于起步階段,尤其是在疾病診斷和治療方面的具體貢獻還有待探索。兒科疾病診治復雜,兒童因認知和表達能力尚未成熟,難以準確描述癥狀,且常因恐懼或焦慮而對治療產生抵觸,影響診斷和治療[4-5]。因此,兒科醫生除了需要有豐富的醫學知識,還需要具備與患兒及其家長溝通的能力[6]。本研究評估了 ChatGPT 用于兒科泌尿系統疾病診療與醫患溝通的能力,旨在為未來 ChatGPT 輔助兒科醫生進行兒科診療與醫患溝通提供一定的參考依據。
1 對象與方法
1.1 研究對象
本研究選取了 ChatGPT 3.5 和 4.0 版本截至 2023 年 4 月的知識數據庫。
1.2 研究方法
1.2.1 兒科診療與醫患溝通相關問題的設計
① 診療相關問題:由 2 位資深的兒科泌尿系統疾病臨床醫師,參考歐洲泌尿外科協會兒科泌尿外科指南[7],整理并設計了 30 個針對兒科泌尿系統感染性疾病的臨床問題,涉及診斷(包括檢查)、治療和預防等方面。所有問題的設計均經過高年資專業醫師的嚴格審核與認定,以確保其合理性和臨床相關性。
② 醫患溝通相關問題:由 2 位資深臨床心理科醫師結合兒科醫師的臨床經歷設計了 10 個兒科臨床工作中可能遇到的醫患溝通問題。這些問題涵蓋了不同的臨床場景,并由上述醫師提供了相應的解決方案作為參考。
1.2.2 使用 ChatGPT 回答兒科診療與醫患溝通相關問題
2023 年 10 月,作者之一(彭希琪)在美國加州大學戴維斯分校使用 ChatGPT 回答問題,即將前述的 40 個問題(30 個診療相關問題和 10 個醫患溝通相關問題)分別提交給 ChatGPT 3.5 和 4.0 版本進行問答。為減少模型答案的偏差,本研究未采用“Custom Instructions”進行醫學知識個體化設定。每個問題均通過“New Chat”功能進行獨立提問,并重復 3 次以獲取穩定結果。
1.2.3 對 ChatGPT 的答案進行評價
① 對診療相關問題答案的評價標準:由 4 位經驗豐富的兒科泌尿系統疾病醫師,以歐洲泌尿外科協會兒科泌尿外科指南[7]為參考依據,分別對 ChatGPT 3.5 和 4.0 版本的診療相關問題答案進行評分,評估過程采用盲法,即評估醫師對所評估的答案出自何種模型不知情。評估采用 0~5 分的評分標準,0 分代表“完全不符合”,5 分代表“完全符合”,3 分及以上的得分被認為是合格分數,每個問題答案的得分取 4 位評估者的平均分值作為最終結果。
② 對醫患溝通相關問題答案的評價標準:由 2 位資深的臨床心理科醫師根據心理學常用量表[8-9]的評分規則設計了評價 ChatGPT 醫患溝通相關問題答案的標準(表1)。評價標準分為 5 個維度:同理心和理解、溝通技巧、心理疏導技巧、壓力應對技巧和資源、兒童發展和福利。每個部分包含 3~4 個問題,各計 5~10 分,總分為 100 分,得分大于 80 分被認為醫患溝通能提供有效的心理支持建議。所有評價標準均通過了另外 2 位心理科醫師的質量評估。由 2 位臨床心理科醫師根據表1 分別對 ChatGPT 3.5 和 4.0 版本的醫患溝通相關問題答案獨立評分。評估過程采取盲法,即評估醫師對所評估的答案出自何種模型不知情。每個問題答案的得分取 2 位評估者的平均分值作為最終結果。

1.3 統計學方法
采用 SPSS 25.0 軟件進行統計學分析。由于評估結果分值不符合正態分布,采用中位數(下四分位數,上四分位數)表示,ChatGPT 3.5 與 4.0 版本的評估結果比較使用 Wilcoxon 符號秩檢驗。雙側檢驗水準 α=0.05。
2 結果
2.1 ChatGPT 回答兒科診療相關問題的情況
對 ChatGPT 3.5 和 4.0 診療相關問題答案的評價結果顯示,30 個問題答案得分均≥3 分。ChatGPT 3.5 的診療相關問題答案總分為 126.25 分;ChatGPT 4.0 的總分為 134.25。ChatGPT 3.5 的單個問題答案得分中位數(下四分位數,上四分位數)為 4.25(4.19,4.50)分,ChatGPT 4.0 的單個問題答案得分為 4.50(4.25,4.75)分,ChatGPT 3.5 與 4.0 單個問題答案得分的中位數差及 95%置信區間為 0.25(0.00,0.50)分,差異有統計學意義(P=0.024)。ChatGPT 3.5 和 ChatGPT 4.0 的診療相關問題答案中得分最高的均為 4.75 分;ChatGPT 3.5 的診療相關問題答案中得分最低的為 3 分;ChatGPT 4.0 得分最低的為 4 分。ChatGPT 得分最高分與最低分的兒科診療相關的具體問題見表2。

2.2 ChatGPT 回答醫患溝通相關問題的情況
對 ChatGPT 3.5 和 4.0 的醫患溝通相關問題答案的評價結果顯示,10 個問題答案的得分均>80 分。ChatGPT 3.5 的單個問題答案得分中位數(下四分位數,上四分位數)為 93.25(92.13,94.38)分,ChatGPT 4.0 的單個問題答案得分為 94.00(93.63,94.38)分,ChatGPT 3.5 與 4.0 單個問題答案得分的中位數差及 95%置信區間為 0.75(?0.64,2.14)分,差異無統計學意義(P=0.727)。
3 討論
本研究結果顯示,ChatGPT 在輔助兒科診療方面具有一定的價值,特別是 ChatGPT 4.0 版本,在專業臨床知識方面的準確性和可行性相較于 3.5 版本有所提升。這可能歸因于 4.0 版本的模型優化和數據集更大,表明 AI 技術在醫學領域,尤其是輔助疾病診斷和治療中的潛在應用前景。然而,值得注意的是,盡管 ChatGPT 的答案質量總體上達到了合格標準,但仍不能完全替代醫生的專業判斷。深入分析 ChatGPT 得分最高分與最低分的兒科診療相關的具體問題,不難看出,對于預防、單一癥狀和疾病診療問題的處理上,ChatGPT 可以提供相對科學且符合臨床思維的答案,但是對于涉及復雜病情診斷及治療的問題,其給出的答案可能存在一定偏差,無足夠可信度,有待進一步訓練和糾正。因此,在實際應用中,ChatGPT 應被視為醫生的輔助工具,而非完全依賴于 ChatGPT。此外,對于兒科醫患溝通,ChatGPT 提供的答案能為患方提供較好的心理支持。這表明 ChatGPT 不僅能夠輔助兒科醫生進行診療,還能輔助其進行醫患溝通,能夠幫助醫生為兒童及其家長提供心理支持。這一發現對于兒科醫生來說具有重要意義,ChatGPT 或可幫助醫生應對傳統方法難以溝通的兒童及其家長。
總之,以 ChatGPT 為代表的 LLM 在臨床決策支持中的應用展示了其潛在價值。LLM 的核心優勢是其處理和生成大量信息的能力,這在處理復雜的醫療數據和提供基于證據的醫療建議方面尤為關鍵[10]。ChatGPT 的表現揭示了 LLM 在理解臨床語境、處理專業醫療查詢及生成準確醫學建議方面的潛力。這種技術可以輔助醫生快速獲得相關信息,提高診斷的準確性和治療規劃的效率[11]。然而,需要指出的是,盡管 LLM 在信息處理方面的能力令人印象深刻,但在醫療決策中的應用仍存在挑戰。首先,LLM 可能缺乏對醫學知識深層次的理解和臨床經驗,這可能導致其在處理復雜或罕見病例時的局限性[12];其次,LLM 生成的建議可能缺乏個體化,不能完全考慮到患者的特定狀況和需求[12]。因此,醫生的專業判斷在使用 LLM 進行醫療決策時仍不可或缺[13-14]。未來,隨著 LLM 技術的持續發展和優化,結合更先進的自然語言處理技術和更豐富的醫學知識庫,其在精準醫療和個體化治療規劃中的應用前景將更加廣闊[15-16]。同時,醫療界還需要探索如何有效整合 LLM 技術和醫生的專業經驗,以實現最佳的醫療決策支持[17-18]。此外,研究者和開發者需著重考慮醫療倫理和數據隱私保護,確保 LLM 在醫療決策中的應用既安全又符合倫理標準[18-19]。
本研究的主要局限性是樣本量較小和評估方法存在一定的主觀性。此外,由于 AI 模型的知識庫更新較為滯后,尚存在時效性問題。未來研究應考慮擴大樣本量,并探索更客觀的評估方法。同時,隨著 AI 技術的不斷發展和優化,未來的研究還應關注 AI 模型處理最新醫療信息和指南的能力[17]。
綜上所述,本研究初步表明 ChatGPT 在輔助兒科診療與醫患溝通方面具有一定的價值。它不僅在提供臨床專業知識方面表現出潛力,而且在兒科醫患溝通中也顯示了價值。盡管存在局限性,但 AI 技術在醫療領域尤其是兒科醫療中的應用前景仍然值得期待[19-20]。未來,隨著 AI 技術的進一步發展和優化,其在提供全面且富有同理心的兒科護理方面的潛力有望得到進一步挖掘。然而,需要強調的是,ChatGPT 提供的醫學建議并不能完全取代醫生的專業判斷和個人關懷,醫生在使用 ChatGPT 輔助診療與醫患溝通時仍需要保持自身的獨立思考能力和批判性思維能力。
利益沖突:所有作者聲明不存在利益沖突。