引用本文: 邱雪菡, 彭迪, 楊翠. 差分自回歸移動平均模型在區縣級公立醫院門急診量預測中的應用實踐. 華西醫學, 2023, 38(12): 1807-1811. doi: 10.7507/1002-0179.202311076 復制
版權信息: ?四川大學華西醫院華西期刊社《華西醫學》版權所有,未經授權不得轉載、改編
區縣級公立醫院是城市建設不可缺少的基礎設施,對于防病治病、保障人群健康具有十分重要的作用,不僅為轄區居民提供綜合診療與救治服務,還承擔著衛生防疫、社會醫療服務和一定的教學、科研任務[1]。不斷加強區縣級公立醫院的精細化運營管理,提升服務能力,是我國醫藥衛生體制改革的方向和要求。醫院門急診量能反映出醫院的規模、醫療資源配置、醫療技術水平以及患者對該醫院的信任程度[2]。對門急診量進行精準預測,是醫院實施全面預算進行精細化運營管理的基礎,但目前區縣級醫院在預測門急診量時多采用手工、粗放式預測的方式,耗時耗力且缺乏精準性[3]。如何為這一級醫院找到便捷且精準的預測方式越來越值得研究。本研究選取成都市雙流區某公立醫院 2012 年 1 月—2023 年 11 月門急診量的逐月數據,其中 2012 年 1 月—2022 年 12 月的逐月數據主要用于構建差分自回歸移動平均(autoregressive integrated moving average, ARIMA)模型,2023 年 1 月—11 月的逐月數據用于模型的預測驗證,旨在為區縣級醫院找到精準預測門急診量的方法。
1 資料與方法
1.1 資料來源
數據來源于成都市雙流區某公立醫院信息系統,研究數據包括 2012 年 1 月—2023 年 11 月逐月的門急診人次數。
1.2 原理與方法
1.2.1 模型原理
ARIMA 模型是由美國統計學家 Box GEP 和英國統計學家 Jenkins GM 于 1970 年提出的[4-6],是一種經典的時間序列分析、預測方法,記為 ARIMA(p, d, q),參數 p、d、q 分別表示模型中自回歸階數、差分次數、移動平均階數[6-7]。如果數據具有明顯的季節趨勢,一般采用 ARIMA 乘積季節模型進行分析、預測,記為 ARIMA(p, d, q)×(P, D, Q)s,參數 P、D、Q 分別表示季節性自回歸階數、季節性差分次數、季節性移動平均階數,s 表示季節周期長度[7-8]。
1.2.2 模型建立、應用與驗證
基于以上原理,ARIMA 乘積季節模型包括以下 4 個建模步驟[8]:
① 序列平穩化。繪制原始數據的時間序列圖、自相關函數(autocorrelation function, ACF)圖、偏自相關函數(partial autocorrelation function, PACF)圖,根據圖形特征觀察時間序列的隨機性、平穩性及季節性,并進行單位根檢驗,若時間序列非平穩,采用差分方法使其平穩化。
② 模型的識別和定階。對差分處理后的平穩序列繪制 ACF 圖、PACF 圖,根據圖形特征初步判斷參數 p、q 和 P、Q 取值,提出幾種可能的取值并擬合模型。
③ 模型參數估計和模型診斷。采用極大似然法估計模型參數,用 Box-Ljung Q 統計量對模型殘差序列進行白噪聲檢驗,若 P<0.05,說明殘差序列為白噪聲,模型已充分提取時間序列中的有效信息,模型具有統計學意義。通過不斷調整參數取值擬合模型,根據赤池信息準則(Akaike information criterion, AIC)、貝葉斯信息準則(Bayesian information criterion, BIC)比較不同模型的擬合優度,AIC、BIC 值達最小的模型確定為相對最優模型。
④ 預測應用與驗證。采用醫院 2012 年 1 月—2022 年 12 月的逐月門急診量建立相對最優 ARIMA 乘積季節模型,預測 2023 年 1 月—12 月各月門急診量。比較 2023 年 1 月—11 月的預測值與實際值,通過計算相對誤差、平均絕對百分比誤差(mean absolute percentage error, MAPE)評價模型的預測效果[9],MAPE 小于 10% 可認為預測精度較高[10-13]。
1.3 統計學方法
采用 Excel 2016 軟件建立和整理 2012 年 1 月—2023 年 11 月逐月門急診量數據庫,使用 R 4.3.1 軟件中的“forecast”“TSA”“tseries”程序包對門急診量時間序列數據進行建模、預測,使用“ggplot2”程序包將結果可視化,檢驗水準 α=0.05(包括單位根檢驗、白噪聲檢驗)。
2 結果
2.1 門急診量時序圖
由門急診量時序圖(圖1)可看出該時間序列不平穩,且存在明顯的季節趨勢,季節周期為 12 個月。單位根檢驗顯示序列中存在單位根(P=0.262),門急診量時間序列非平穩,需對原序列進行差分處理使其平穩化。

2.2 平穩化處理
對門急診量時間序列進行一階差分(d=1),對差分后的新序列繪制時序圖(圖2a),圖形顯示新序列值圍繞 0 上下波動,新序列看起來較為平穩。單位根檢驗顯示序列中不存在單位根(P<0.01),說明一階差分后序列已平穩,可以進行后續 ARIMA 建模。

a. 一階差分后的門急診量時序圖;b. ACF 圖;c. PACF 圖。ACF:自相關函數;PACF:偏自相關函數;Lag:滯后階數
2.3 模型的識別與定階
對一階差分后的新序列繪制 ACF 圖和 PACF 圖(圖2b、2c)。由于根據 ACF 圖和 PACF 圖選擇自相關系數 p 和偏自相關系數 q 有較大主觀性,參數 P、Q 的判斷也比較困難,因此在擬合模型時嘗試參數 p、q、P、Q 取 0~2 的整數值。在序列平穩化步驟,差分階數 d 取 1 后,序列已處于平穩狀態,故不再進行季節差分,季節差分階數 D 取 0,季節周期長度 s 取值 12。構建 ARIMA(p, 1, q)×(P, 0, Q)12 模型,比較參數 p、q、P、Q 不同取值組合模型的擬合優度,確定最優模型。
2.4 模型參數估計和模型診斷
通過調試參數 p、q、P、Q 不同取值,采用極大似然法估計不同參數組合模型的參數,根據 BIC 值最小得出相對最優模型為 ARIMA(1, 1, 1)×(2, 0, 0)12,AIC 值為 271.6,BIC 值為 285.97,模型參數估計結果具有統計學意義(表1)。

Box-Ljung Q 統計量為 0.423(P=0.515),可認為建模后的殘差序列為白噪聲(圖3a);殘差序列的 ACF 和 PACF 均落在置信區間內(圖3b、3c),模型剩余信息已不再具有自相關性和偏自相關性,模式已充分提出時間序列信息。

a. 殘差序列圖;b. ACF 圖;c. PACF 圖。ARIMA:差分自回歸移動平均;ACF:自相關函數;PACF:偏自相關函數;Lag:滯后階數
2.5 模型預測與驗證
應用最優模型 ARIMA(1, 1, 1)×(2, 0, 0)12 預測 2023 年 1 月—12 月門急診量,預測結果及 95% 置信區間見表2 和圖4。2023 年 1 月—11 月門急診量的預測值與實際值的變化趨勢基本一致,除 1、3 月份外,其他月份的門急診量實際值均處于預測值的 95% 置信區間內;相對誤差絕對值最大為 39.608%(1 月),最小為 0.061%(7 月),2023 年 1 月—11 月的 MAPE 為 8.504%,可認為預測精度較高。2023 年 1 月—11 月實際和預測門急診總量分別為 144.196 萬、141.713 萬人次,相對誤差為–1.722%。


3 討論
3.1 ARIMA 模型可用于區縣級公立醫院門急診量的預測
門急診量的預測是醫院做醫療業務收入預算時的核心內容之一,但如今大部分區縣級公立醫院還是以增量編制預算為主,但單純的增量預算已與醫院精細化管理思想脫節[4],且因缺乏足夠的人力物力保障及信息化程度不高,醫院的業務收入預算不夠精準[14]。本研究醫院是成都市雙流區一家三級甲等公立綜合性醫院,在每年的門急診量預測中也存在上述問題,導致預算和運營決策有偏差。本次研究將 ARIMA 模型應用于該醫院,通過 ARIMA 模型可以直接預見醫院未來的門急診量趨勢,醫院管理者可根據門急診量的變化趨勢,進行下一年度的預算和運營決策參考,彌補醫院在軟硬件投入不足情況下導致預測性運營決策不夠精準的問題。研究結果顯示,除 1 月、3 月外,其他月份的門急診量實際值落在預測值的 95% 置信區間內,且 MAPE 較小,從醫院工作的實際意義角度出發,此模型能預測門急診量的發展趨勢[15],這對于醫院進行門急診量預算及后續的運營決策有重要意義。結合文獻,王晨等[16]和邵靖靖[17]發現 ARIMA 模型可用于門急診量的預測,且預測精度高。姜迪等[18]綜述發現,利用 ARIMA 模型等方法對醫院整體或各科室的工作量進行分析,有利于醫院管理者把握診療規律,合理調配人力資源,提高診療效率,緩解工作壓力。
3.2 新型冠狀病毒感染疫情高發可影響 ARIMA 模型短期預測的精準性
在應用 ARIMA 模型進行預測時,偶爾也會出現實際值在 95% 置信區間外的情況,如 2023 年 1 月的門急診量預測結果明顯高于該醫院的實際水平,2023 年 3 月的門急診量預測結果明顯低于該醫院的實際水平。結合實際發現,2023 年 1 月是因為新一輪新型冠狀病毒感染疫情高發,使得該醫院的門診量急劇下降;3 月是因為在新型冠狀病毒感染疫情結束后門診有部分儲量患者,導致門診量在短時間內大幅度攀升。結合文獻發現,新型冠狀病毒感染疫情高發可能導致門急診量的明顯變化[19-20],影響 ARIMA 模型短期預測的精準性。
3.3 基于 ARIMA 模型的預測應與各種因素相結合考慮實際應用
在實際情況中,區縣級公立醫院的門急診量受內、外部多種因素的影響。在應用 ARIMA 模型對門急診量進行預測時,應與各種因素相結合考慮,尤其是資源配置調整、各類政策變化及突發公共衛生事件等可能會導致門急診量有較大變化的因素[21],并做好相應的對策,如:建議區縣級公立醫院可逐步建立門診資源配置數據庫,包括每年/月各專業坐診專家數量、級別、診間配置、每診人次等相關信息,在每次應用 ARIMA 模型作運營數據預測時,可結合歷史與未來資源調整對模型的干擾因素作預處理,以大大提高模型預測的精準性。
綜上所述,ARIMA 模型可以應用在區縣級醫院的門急診量預測中,且有較好的預測效果,可對醫院的業務量預算及精細化運營管理起到決策支撐作用。但在實際工作中,短時間內的突發事件或多因素的疊加可能使得門急診量發生大的變化,這也顯示了模型預測的不夠靈活。下一步可以模型為基礎,輔助以多因素做軟件升級研究,以期做出更加便捷、精準的預測。
利益沖突:所有作者聲明不存在利益沖突。
區縣級公立醫院是城市建設不可缺少的基礎設施,對于防病治病、保障人群健康具有十分重要的作用,不僅為轄區居民提供綜合診療與救治服務,還承擔著衛生防疫、社會醫療服務和一定的教學、科研任務[1]。不斷加強區縣級公立醫院的精細化運營管理,提升服務能力,是我國醫藥衛生體制改革的方向和要求。醫院門急診量能反映出醫院的規模、醫療資源配置、醫療技術水平以及患者對該醫院的信任程度[2]。對門急診量進行精準預測,是醫院實施全面預算進行精細化運營管理的基礎,但目前區縣級醫院在預測門急診量時多采用手工、粗放式預測的方式,耗時耗力且缺乏精準性[3]。如何為這一級醫院找到便捷且精準的預測方式越來越值得研究。本研究選取成都市雙流區某公立醫院 2012 年 1 月—2023 年 11 月門急診量的逐月數據,其中 2012 年 1 月—2022 年 12 月的逐月數據主要用于構建差分自回歸移動平均(autoregressive integrated moving average, ARIMA)模型,2023 年 1 月—11 月的逐月數據用于模型的預測驗證,旨在為區縣級醫院找到精準預測門急診量的方法。
1 資料與方法
1.1 資料來源
數據來源于成都市雙流區某公立醫院信息系統,研究數據包括 2012 年 1 月—2023 年 11 月逐月的門急診人次數。
1.2 原理與方法
1.2.1 模型原理
ARIMA 模型是由美國統計學家 Box GEP 和英國統計學家 Jenkins GM 于 1970 年提出的[4-6],是一種經典的時間序列分析、預測方法,記為 ARIMA(p, d, q),參數 p、d、q 分別表示模型中自回歸階數、差分次數、移動平均階數[6-7]。如果數據具有明顯的季節趨勢,一般采用 ARIMA 乘積季節模型進行分析、預測,記為 ARIMA(p, d, q)×(P, D, Q)s,參數 P、D、Q 分別表示季節性自回歸階數、季節性差分次數、季節性移動平均階數,s 表示季節周期長度[7-8]。
1.2.2 模型建立、應用與驗證
基于以上原理,ARIMA 乘積季節模型包括以下 4 個建模步驟[8]:
① 序列平穩化。繪制原始數據的時間序列圖、自相關函數(autocorrelation function, ACF)圖、偏自相關函數(partial autocorrelation function, PACF)圖,根據圖形特征觀察時間序列的隨機性、平穩性及季節性,并進行單位根檢驗,若時間序列非平穩,采用差分方法使其平穩化。
② 模型的識別和定階。對差分處理后的平穩序列繪制 ACF 圖、PACF 圖,根據圖形特征初步判斷參數 p、q 和 P、Q 取值,提出幾種可能的取值并擬合模型。
③ 模型參數估計和模型診斷。采用極大似然法估計模型參數,用 Box-Ljung Q 統計量對模型殘差序列進行白噪聲檢驗,若 P<0.05,說明殘差序列為白噪聲,模型已充分提取時間序列中的有效信息,模型具有統計學意義。通過不斷調整參數取值擬合模型,根據赤池信息準則(Akaike information criterion, AIC)、貝葉斯信息準則(Bayesian information criterion, BIC)比較不同模型的擬合優度,AIC、BIC 值達最小的模型確定為相對最優模型。
④ 預測應用與驗證。采用醫院 2012 年 1 月—2022 年 12 月的逐月門急診量建立相對最優 ARIMA 乘積季節模型,預測 2023 年 1 月—12 月各月門急診量。比較 2023 年 1 月—11 月的預測值與實際值,通過計算相對誤差、平均絕對百分比誤差(mean absolute percentage error, MAPE)評價模型的預測效果[9],MAPE 小于 10% 可認為預測精度較高[10-13]。
1.3 統計學方法
采用 Excel 2016 軟件建立和整理 2012 年 1 月—2023 年 11 月逐月門急診量數據庫,使用 R 4.3.1 軟件中的“forecast”“TSA”“tseries”程序包對門急診量時間序列數據進行建模、預測,使用“ggplot2”程序包將結果可視化,檢驗水準 α=0.05(包括單位根檢驗、白噪聲檢驗)。
2 結果
2.1 門急診量時序圖
由門急診量時序圖(圖1)可看出該時間序列不平穩,且存在明顯的季節趨勢,季節周期為 12 個月。單位根檢驗顯示序列中存在單位根(P=0.262),門急診量時間序列非平穩,需對原序列進行差分處理使其平穩化。

2.2 平穩化處理
對門急診量時間序列進行一階差分(d=1),對差分后的新序列繪制時序圖(圖2a),圖形顯示新序列值圍繞 0 上下波動,新序列看起來較為平穩。單位根檢驗顯示序列中不存在單位根(P<0.01),說明一階差分后序列已平穩,可以進行后續 ARIMA 建模。

a. 一階差分后的門急診量時序圖;b. ACF 圖;c. PACF 圖。ACF:自相關函數;PACF:偏自相關函數;Lag:滯后階數
2.3 模型的識別與定階
對一階差分后的新序列繪制 ACF 圖和 PACF 圖(圖2b、2c)。由于根據 ACF 圖和 PACF 圖選擇自相關系數 p 和偏自相關系數 q 有較大主觀性,參數 P、Q 的判斷也比較困難,因此在擬合模型時嘗試參數 p、q、P、Q 取 0~2 的整數值。在序列平穩化步驟,差分階數 d 取 1 后,序列已處于平穩狀態,故不再進行季節差分,季節差分階數 D 取 0,季節周期長度 s 取值 12。構建 ARIMA(p, 1, q)×(P, 0, Q)12 模型,比較參數 p、q、P、Q 不同取值組合模型的擬合優度,確定最優模型。
2.4 模型參數估計和模型診斷
通過調試參數 p、q、P、Q 不同取值,采用極大似然法估計不同參數組合模型的參數,根據 BIC 值最小得出相對最優模型為 ARIMA(1, 1, 1)×(2, 0, 0)12,AIC 值為 271.6,BIC 值為 285.97,模型參數估計結果具有統計學意義(表1)。

Box-Ljung Q 統計量為 0.423(P=0.515),可認為建模后的殘差序列為白噪聲(圖3a);殘差序列的 ACF 和 PACF 均落在置信區間內(圖3b、3c),模型剩余信息已不再具有自相關性和偏自相關性,模式已充分提出時間序列信息。

a. 殘差序列圖;b. ACF 圖;c. PACF 圖。ARIMA:差分自回歸移動平均;ACF:自相關函數;PACF:偏自相關函數;Lag:滯后階數
2.5 模型預測與驗證
應用最優模型 ARIMA(1, 1, 1)×(2, 0, 0)12 預測 2023 年 1 月—12 月門急診量,預測結果及 95% 置信區間見表2 和圖4。2023 年 1 月—11 月門急診量的預測值與實際值的變化趨勢基本一致,除 1、3 月份外,其他月份的門急診量實際值均處于預測值的 95% 置信區間內;相對誤差絕對值最大為 39.608%(1 月),最小為 0.061%(7 月),2023 年 1 月—11 月的 MAPE 為 8.504%,可認為預測精度較高。2023 年 1 月—11 月實際和預測門急診總量分別為 144.196 萬、141.713 萬人次,相對誤差為–1.722%。


3 討論
3.1 ARIMA 模型可用于區縣級公立醫院門急診量的預測
門急診量的預測是醫院做醫療業務收入預算時的核心內容之一,但如今大部分區縣級公立醫院還是以增量編制預算為主,但單純的增量預算已與醫院精細化管理思想脫節[4],且因缺乏足夠的人力物力保障及信息化程度不高,醫院的業務收入預算不夠精準[14]。本研究醫院是成都市雙流區一家三級甲等公立綜合性醫院,在每年的門急診量預測中也存在上述問題,導致預算和運營決策有偏差。本次研究將 ARIMA 模型應用于該醫院,通過 ARIMA 模型可以直接預見醫院未來的門急診量趨勢,醫院管理者可根據門急診量的變化趨勢,進行下一年度的預算和運營決策參考,彌補醫院在軟硬件投入不足情況下導致預測性運營決策不夠精準的問題。研究結果顯示,除 1 月、3 月外,其他月份的門急診量實際值落在預測值的 95% 置信區間內,且 MAPE 較小,從醫院工作的實際意義角度出發,此模型能預測門急診量的發展趨勢[15],這對于醫院進行門急診量預算及后續的運營決策有重要意義。結合文獻,王晨等[16]和邵靖靖[17]發現 ARIMA 模型可用于門急診量的預測,且預測精度高。姜迪等[18]綜述發現,利用 ARIMA 模型等方法對醫院整體或各科室的工作量進行分析,有利于醫院管理者把握診療規律,合理調配人力資源,提高診療效率,緩解工作壓力。
3.2 新型冠狀病毒感染疫情高發可影響 ARIMA 模型短期預測的精準性
在應用 ARIMA 模型進行預測時,偶爾也會出現實際值在 95% 置信區間外的情況,如 2023 年 1 月的門急診量預測結果明顯高于該醫院的實際水平,2023 年 3 月的門急診量預測結果明顯低于該醫院的實際水平。結合實際發現,2023 年 1 月是因為新一輪新型冠狀病毒感染疫情高發,使得該醫院的門診量急劇下降;3 月是因為在新型冠狀病毒感染疫情結束后門診有部分儲量患者,導致門診量在短時間內大幅度攀升。結合文獻發現,新型冠狀病毒感染疫情高發可能導致門急診量的明顯變化[19-20],影響 ARIMA 模型短期預測的精準性。
3.3 基于 ARIMA 模型的預測應與各種因素相結合考慮實際應用
在實際情況中,區縣級公立醫院的門急診量受內、外部多種因素的影響。在應用 ARIMA 模型對門急診量進行預測時,應與各種因素相結合考慮,尤其是資源配置調整、各類政策變化及突發公共衛生事件等可能會導致門急診量有較大變化的因素[21],并做好相應的對策,如:建議區縣級公立醫院可逐步建立門診資源配置數據庫,包括每年/月各專業坐診專家數量、級別、診間配置、每診人次等相關信息,在每次應用 ARIMA 模型作運營數據預測時,可結合歷史與未來資源調整對模型的干擾因素作預處理,以大大提高模型預測的精準性。
綜上所述,ARIMA 模型可以應用在區縣級醫院的門急診量預測中,且有較好的預測效果,可對醫院的業務量預算及精細化運營管理起到決策支撐作用。但在實際工作中,短時間內的突發事件或多因素的疊加可能使得門急診量發生大的變化,這也顯示了模型預測的不夠靈活。下一步可以模型為基礎,輔助以多因素做軟件升級研究,以期做出更加便捷、精準的預測。
利益沖突:所有作者聲明不存在利益沖突。