引用本文: 尚文茹, 魏莉莉, 盧存存. 受教育程度對系統性紅斑狼瘡的因果效應:孟德爾隨機化研究. 華西醫學, 2023, 38(12): 1880-1884. doi: 10.7507/1002-0179.202308197 復制
版權信息: ?四川大學華西醫院華西期刊社《華西醫學》版權所有,未經授權不得轉載、改編
近年來,健康的社會決定因素(social determinants of health, SDOH)越來越受到社會醫學、公共衛生和臨床醫學等眾多領域學者們的關注和重視[1-3]。世界衛生組織將 SDOH 定義為“在那些直接導致疾病的因素之外,由人們的社會地位和所擁有資源所決定的生活和工作的環境及其他對健康產生影響的因素”,包括了每個人從出生、成長、生活、工作到衰老的全部社會環境特征,例如,收入情況、受教育程度等[2]。SDOH 被認為是決定人們健康和疾病的根本原因[2]。因此,明確疾病的健康社會決定因素對其防治具有重要的臨床實踐意義。近年來,孟德爾隨機化方法的引入不僅為基于觀察性數據開展可靠的因果推斷研究提供了新的途徑,而且其能夠避免傳統觀察性流行病學研究中的混雜和反向因果問題[4-5]。具體來說,孟德爾隨機化方法就是使用與暴露因素具有穩健關聯的遺傳變異作為工具變量[最常用的為單核苷酸多態性(single nucleotide polymorphism, SNP)],進而推斷暴露因素對健康結局的因果效應[4-5]。
系統性紅斑狼瘡(systemic lupus erythematosus, SLE)是一種由于自身免疫系統功能異常引起的、以多臟器功能受累為特征的慢性自身免疫性疾病[6-7]。最新的流行病學調查研究表明,SLE 在中國的患病率為 47.53/10 萬,患病人數約為 70 萬例[7]。然而,目前尚未見到有學者利用孟德爾隨機化方法調查受教育程度對 SLE 發生風險的因果效應。因此,本研究基于兩樣本孟德爾隨機化方法調查了受教育程度與 SLE 之間的因果關聯,以期填補相關知識空白,從而為衛生保健決策提供可靠的因果證據。
1 資料與方法
1.1 研究設計
本研究基于兩樣本孟德爾隨機化方法,利用公開發表的匯總水平的全基因組關聯研究(GWAS)數據調查受教育程度與 SLE 的因果關聯。本研究的實施遵循孟德爾隨機化研究的 3 個基本假設[8]:① 關聯性假設:工具變量(即遺傳變異)與暴露因素強相關,即受教育程度的 SNP 與受教育程度應存在穩健的關聯;② 獨立性假設:工具變量與混雜因素相互獨立,本研究重點關注吸煙和飲酒 2 個混雜因素;③ 排他性假設:工具變量僅能通過暴露作用于結局,即不存在多效性,即作為工具變量的 SNP 只能通過受教育程度影響 SLE。
1.2 數據來源
受教育程度(通過受教育年限測量)來源于 SSAGC 數據庫,該數據集發表于 2022 年[9],總樣本量為 3 037 499 例,納入人群均為歐洲血統。結局數據 SLE(“ebi-a-GCST003156”)來源于 IEU OpenGWAS 數據庫,該數據集發表于 2015 年[10],總樣本量為 14 267 例(病例組 5 201 例,對照組 9 066 例),包含 7071163 個 SNP,納入人群同樣均為歐洲血統。
1.3 工具變量選擇
本研究以暴露數據集中提供的 8 618 個受教育程度相關的 SNP(P<1×10-5)為基礎,依據孟德爾隨機化分析的常用參數,通過 8 個步驟篩選有效的 SNP 作為工具變量。第 1 步,設置相關性閾值為 P<5×10-8,篩選出與受教育程度強相關的 SNP(保證關聯性假設);第 2 步,排除弱工具變量,即計算 F統計量[11]:F=β2 / SE2(β為 SNP 對暴露因素的效應值,SE 為β的標準誤),排除 F 值<10 的 SNP;第 3 步,設置參數 r2=0.001,kb=10 000 去除遺傳連鎖不平衡;第 4 步,設置最小等位基因頻率閾值為 0.01,提取結局數據;第 5 步,協調暴露和結局之間的等位基因和效應數據,并排除具有中等等位基因頻率的回文 SNP;第 6 步,使用默認參數在 PhenoScanner 2.0 中分別檢索“smoking”和“drink”確定與混雜相關的 SNP,并將它們從暴露 SNP 中剔除(保證獨立性假設);第 7 步,設置相關性閾值為 P<5×10-8,剔除與 SLE 強相關的 SNP(保證排他性假設);第 8 步,通過 MR-PRESSO 檢驗調查 SNP 中存在的離群值,并將其從中排除,進而確定最終用于孟德爾隨機化分析的 SNP。
1.4 統計學方法
本研究使用逆方差加權(inverse-variance weighted, IVW)法和 MR-Egger 法兩類統計方法調查受教育程度對 SLE 發生風險的因果效應。IVW 法是兩樣本孟德爾隨機化研究的標準方法[12],同時考慮到納入的 SNP 數量較多時會導致較大的異質性,故本研究將隨機效應 IVW 法(inverse variance weighted-multiplicative random effects, IVW-RE)作為主要分析方法,同時報告固定效應 IVW 法(inverse variance weighted-fixed effects, IVW-FE)和 MR-Egger 法的結果用于驗證主要分析結果的穩健性。IVW 法的特點是分析時不考慮截距項的存在,并使用結局方差的倒數作為權重擬合模型。與 IVW 法最大的不同是,MR-Egger 法應用時考慮截距項的存在。使用優勢比(odds ratio, OR)及其 95%置信區間(confidence interval,CI)表示受教育程度與 SLE 間的因果關聯。使用 Cochran’s Q 檢驗評價分析結果的異質性。使用 MR-Egger 回歸分析結果的截距項評估有無基因水平多效性[13],當截距項與零差異很大時,表明存在水平多效性。采用“留一法”(leave-one-out)逐一剔除單個 SNP 進行敏感性分析以評價分析結果的穩健性。此外,通過繪制漏斗圖檢查散點分布的對稱性進一步判斷納入分析的 SNP 是否存在離群值。利用 R Studio 和 R 軟件 TwoSampleMR(0.5.7)、MR-PRESSO(1.0)和 forestploter(1.1.0)包進行統計分析和繪圖。雙側檢驗水準α=0.05。
2 結果
2.1 工具變量的選擇結果
通過設置與暴露的相關性閾值,篩選出與受教育程度強相關 3 951 個 SNP。通過執行去除基因連鎖不平衡操作,3 348 個 SNP 被剔除。在協調暴露與結局數據后獲得 523 個 SNP,再排除其中 86 個具有中等等位基因頻率的回文 SNP,剩余 437 個 SNP。通過設置與結局的相關性閾值,剔除與 SLE 強相關的 1 個 SNP(rs3869097),剩余 436 個 SNP。弱工具變量評價和混雜因素調查均未排除任何 SNP。最后,通過 MR-PRESSO 分析發現并排除 3 個判定為離群值的 SNP(rs2624841、rs60814418 和 rs6457796);最終納入 433 個有效的 SNP 進行后續的孟德爾隨機化分析。
2.2 孟德爾隨機化分析的主要結果
納入分析的 433 個 SNP 的 F 值均>10,其值范圍為 29.528~461.250,均為強工具變量。IVW-RE 法分析結果顯示,受教育程度對 SLE[OR=1.111,95%CI(0.813,1.518),P=0.509]的發生風險沒有因果效應(圖1、2);IVW-FE 法[OR=1.111,95%CI(0.845,1.461),P=0.451]和 MR-Egger 法[OR=0.833,95%CI(0.315,2.203),P=0.712]同樣均顯示二者不存在因果關聯。

Exposure:暴露;Education:受教育程度;Method:方法;Inverse variance weighted-RE:隨機效應逆方差加權法;Inverse variance weighted-FE:固定效應逆方差加權法;nSNP:單核苷酸多態性的數量

SNP:單核苷酸多態性;MR Test:孟德爾隨機化方法;Inverse variance weighted:逆方差加權法;fixed effects:固定效應;multiplicative random effects:乘法隨機效應;SLE :系統性紅斑狼瘡;id: ebi-a-GCST00.156:SLE 數據集名稱
2.3 研究結果的穩健性與可靠性評價
異質性分析結果顯示,IVW-RE 法(Q=561.630,P< 0.001)、IVW-FE 法(Q=561.630,P<0.001)和 MR-Egger 法(Q= 581.141,P<0.001)的結果均存在較大的異質性。MR-Egger 回歸分析結果表明無水平多效性的證據(截距為 0.003,P=0.540)。“留一法”分析發現,剔除任意單個 SNP 后匯總效應的 OR 值與 P 值未見明顯改變,表明沒有單個 SNP 明顯影響總體的效應估計。此外,漏斗圖顯示散點呈對稱性分布,表明納入分析的 SNP 間無明顯差異(圖3)。

3 討論
基于可靠的方法明確包括收入及受教育程度等在內的 SDOH 對健康結局的因果效應是制定針對性的公共衛生和臨床防治措施的基本前提。然而,SLE 作為一種復雜且預后不良的疾病[14],卻缺少受教育程度對其發生風險的因果效應證據。因此,本研究利用公開可用的 GWAS 數據,采用兩樣本孟德爾隨機化方法評價了受教育程度對 SLE 發生風險的因果效應,研究結果不支持二者之間具有因果關聯,這為明確 SLE 發生風險的影響因素提供了新的證據。然而,這與既往其他類似研究的結果不一致。既往傳統觀察性流行病學研究發現教育能夠對健康產生有益的作用[15-16],例如,Ghawi 等[16]基于人群病例對照研究發現,更低的受教育程度與更高的類風濕性關節炎發生風險和死亡率顯著相關(P<0.05)。也有多個孟德爾隨機化研究發現了受教育程度與多種健康結局相關[17-18],例如,更高的受教育程度能夠降低癌癥和同為免疫性疾病的類風濕性關節炎的發生風險。但需要注意的是,近年來也有學者對教育能夠正向影響健康的結論提出了質疑[15]。
本研究具有以下優勢:① 首次基于兩樣本孟德爾隨機化方法分析了受教育程度對 SLE 發生風險的因果效應,避免了傳統流行病學研究中常常難以避免的混雜偏倚和反向因果問題;② 使用的暴露數據集是目前最新、最大的受教育程度數據,且在篩選工具變量 SNP 時嚴格遵守了孟德爾隨機化方法的 3 個基本假設;③ 同時使用 3 種方法評價了受教育程度與 SLE 間的因果關聯,且 3 種方法得到的結果相似,并利用“留一法”進一步驗證了研究結果的穩健性。然而,與其他已發表的孟德爾隨機化研究類似[18-20],本研究同樣存在一定局限性:首先,納入分析人群均為歐洲人群,這限制了研究結果的外推性;其次,由于納入的 SNP 較多導致分析結果的異質性較明顯,但它們均為強工具變量,且不存在水平多效性;最后,盡管 SLE 的發生具有人群特異性,但由于無法獲取個體水平的患者數據,例如年齡、性別等,限制了進一步分析的可能。
綜上所述,本研究首次利用兩樣本孟德爾隨機化方法調查了受教育程度對 SLE 的因果效應,結果不支持受教育程度與 SLE 間具有因果關聯。考慮到科學研究結果的解釋應遵循“三角測量”(即綜合考慮不同類型來源的證據)原則[20-21],且納入人群的代表性不足,因此尚需開展相關研究進一步驗證本研究的發現。
利益沖突:所有作者均聲明不存在利益沖突。
近年來,健康的社會決定因素(social determinants of health, SDOH)越來越受到社會醫學、公共衛生和臨床醫學等眾多領域學者們的關注和重視[1-3]。世界衛生組織將 SDOH 定義為“在那些直接導致疾病的因素之外,由人們的社會地位和所擁有資源所決定的生活和工作的環境及其他對健康產生影響的因素”,包括了每個人從出生、成長、生活、工作到衰老的全部社會環境特征,例如,收入情況、受教育程度等[2]。SDOH 被認為是決定人們健康和疾病的根本原因[2]。因此,明確疾病的健康社會決定因素對其防治具有重要的臨床實踐意義。近年來,孟德爾隨機化方法的引入不僅為基于觀察性數據開展可靠的因果推斷研究提供了新的途徑,而且其能夠避免傳統觀察性流行病學研究中的混雜和反向因果問題[4-5]。具體來說,孟德爾隨機化方法就是使用與暴露因素具有穩健關聯的遺傳變異作為工具變量[最常用的為單核苷酸多態性(single nucleotide polymorphism, SNP)],進而推斷暴露因素對健康結局的因果效應[4-5]。
系統性紅斑狼瘡(systemic lupus erythematosus, SLE)是一種由于自身免疫系統功能異常引起的、以多臟器功能受累為特征的慢性自身免疫性疾病[6-7]。最新的流行病學調查研究表明,SLE 在中國的患病率為 47.53/10 萬,患病人數約為 70 萬例[7]。然而,目前尚未見到有學者利用孟德爾隨機化方法調查受教育程度對 SLE 發生風險的因果效應。因此,本研究基于兩樣本孟德爾隨機化方法調查了受教育程度與 SLE 之間的因果關聯,以期填補相關知識空白,從而為衛生保健決策提供可靠的因果證據。
1 資料與方法
1.1 研究設計
本研究基于兩樣本孟德爾隨機化方法,利用公開發表的匯總水平的全基因組關聯研究(GWAS)數據調查受教育程度與 SLE 的因果關聯。本研究的實施遵循孟德爾隨機化研究的 3 個基本假設[8]:① 關聯性假設:工具變量(即遺傳變異)與暴露因素強相關,即受教育程度的 SNP 與受教育程度應存在穩健的關聯;② 獨立性假設:工具變量與混雜因素相互獨立,本研究重點關注吸煙和飲酒 2 個混雜因素;③ 排他性假設:工具變量僅能通過暴露作用于結局,即不存在多效性,即作為工具變量的 SNP 只能通過受教育程度影響 SLE。
1.2 數據來源
受教育程度(通過受教育年限測量)來源于 SSAGC 數據庫,該數據集發表于 2022 年[9],總樣本量為 3 037 499 例,納入人群均為歐洲血統。結局數據 SLE(“ebi-a-GCST003156”)來源于 IEU OpenGWAS 數據庫,該數據集發表于 2015 年[10],總樣本量為 14 267 例(病例組 5 201 例,對照組 9 066 例),包含 7071163 個 SNP,納入人群同樣均為歐洲血統。
1.3 工具變量選擇
本研究以暴露數據集中提供的 8 618 個受教育程度相關的 SNP(P<1×10-5)為基礎,依據孟德爾隨機化分析的常用參數,通過 8 個步驟篩選有效的 SNP 作為工具變量。第 1 步,設置相關性閾值為 P<5×10-8,篩選出與受教育程度強相關的 SNP(保證關聯性假設);第 2 步,排除弱工具變量,即計算 F統計量[11]:F=β2 / SE2(β為 SNP 對暴露因素的效應值,SE 為β的標準誤),排除 F 值<10 的 SNP;第 3 步,設置參數 r2=0.001,kb=10 000 去除遺傳連鎖不平衡;第 4 步,設置最小等位基因頻率閾值為 0.01,提取結局數據;第 5 步,協調暴露和結局之間的等位基因和效應數據,并排除具有中等等位基因頻率的回文 SNP;第 6 步,使用默認參數在 PhenoScanner 2.0 中分別檢索“smoking”和“drink”確定與混雜相關的 SNP,并將它們從暴露 SNP 中剔除(保證獨立性假設);第 7 步,設置相關性閾值為 P<5×10-8,剔除與 SLE 強相關的 SNP(保證排他性假設);第 8 步,通過 MR-PRESSO 檢驗調查 SNP 中存在的離群值,并將其從中排除,進而確定最終用于孟德爾隨機化分析的 SNP。
1.4 統計學方法
本研究使用逆方差加權(inverse-variance weighted, IVW)法和 MR-Egger 法兩類統計方法調查受教育程度對 SLE 發生風險的因果效應。IVW 法是兩樣本孟德爾隨機化研究的標準方法[12],同時考慮到納入的 SNP 數量較多時會導致較大的異質性,故本研究將隨機效應 IVW 法(inverse variance weighted-multiplicative random effects, IVW-RE)作為主要分析方法,同時報告固定效應 IVW 法(inverse variance weighted-fixed effects, IVW-FE)和 MR-Egger 法的結果用于驗證主要分析結果的穩健性。IVW 法的特點是分析時不考慮截距項的存在,并使用結局方差的倒數作為權重擬合模型。與 IVW 法最大的不同是,MR-Egger 法應用時考慮截距項的存在。使用優勢比(odds ratio, OR)及其 95%置信區間(confidence interval,CI)表示受教育程度與 SLE 間的因果關聯。使用 Cochran’s Q 檢驗評價分析結果的異質性。使用 MR-Egger 回歸分析結果的截距項評估有無基因水平多效性[13],當截距項與零差異很大時,表明存在水平多效性。采用“留一法”(leave-one-out)逐一剔除單個 SNP 進行敏感性分析以評價分析結果的穩健性。此外,通過繪制漏斗圖檢查散點分布的對稱性進一步判斷納入分析的 SNP 是否存在離群值。利用 R Studio 和 R 軟件 TwoSampleMR(0.5.7)、MR-PRESSO(1.0)和 forestploter(1.1.0)包進行統計分析和繪圖。雙側檢驗水準α=0.05。
2 結果
2.1 工具變量的選擇結果
通過設置與暴露的相關性閾值,篩選出與受教育程度強相關 3 951 個 SNP。通過執行去除基因連鎖不平衡操作,3 348 個 SNP 被剔除。在協調暴露與結局數據后獲得 523 個 SNP,再排除其中 86 個具有中等等位基因頻率的回文 SNP,剩余 437 個 SNP。通過設置與結局的相關性閾值,剔除與 SLE 強相關的 1 個 SNP(rs3869097),剩余 436 個 SNP。弱工具變量評價和混雜因素調查均未排除任何 SNP。最后,通過 MR-PRESSO 分析發現并排除 3 個判定為離群值的 SNP(rs2624841、rs60814418 和 rs6457796);最終納入 433 個有效的 SNP 進行后續的孟德爾隨機化分析。
2.2 孟德爾隨機化分析的主要結果
納入分析的 433 個 SNP 的 F 值均>10,其值范圍為 29.528~461.250,均為強工具變量。IVW-RE 法分析結果顯示,受教育程度對 SLE[OR=1.111,95%CI(0.813,1.518),P=0.509]的發生風險沒有因果效應(圖1、2);IVW-FE 法[OR=1.111,95%CI(0.845,1.461),P=0.451]和 MR-Egger 法[OR=0.833,95%CI(0.315,2.203),P=0.712]同樣均顯示二者不存在因果關聯。

Exposure:暴露;Education:受教育程度;Method:方法;Inverse variance weighted-RE:隨機效應逆方差加權法;Inverse variance weighted-FE:固定效應逆方差加權法;nSNP:單核苷酸多態性的數量

SNP:單核苷酸多態性;MR Test:孟德爾隨機化方法;Inverse variance weighted:逆方差加權法;fixed effects:固定效應;multiplicative random effects:乘法隨機效應;SLE :系統性紅斑狼瘡;id: ebi-a-GCST00.156:SLE 數據集名稱
2.3 研究結果的穩健性與可靠性評價
異質性分析結果顯示,IVW-RE 法(Q=561.630,P< 0.001)、IVW-FE 法(Q=561.630,P<0.001)和 MR-Egger 法(Q= 581.141,P<0.001)的結果均存在較大的異質性。MR-Egger 回歸分析結果表明無水平多效性的證據(截距為 0.003,P=0.540)。“留一法”分析發現,剔除任意單個 SNP 后匯總效應的 OR 值與 P 值未見明顯改變,表明沒有單個 SNP 明顯影響總體的效應估計。此外,漏斗圖顯示散點呈對稱性分布,表明納入分析的 SNP 間無明顯差異(圖3)。

3 討論
基于可靠的方法明確包括收入及受教育程度等在內的 SDOH 對健康結局的因果效應是制定針對性的公共衛生和臨床防治措施的基本前提。然而,SLE 作為一種復雜且預后不良的疾病[14],卻缺少受教育程度對其發生風險的因果效應證據。因此,本研究利用公開可用的 GWAS 數據,采用兩樣本孟德爾隨機化方法評價了受教育程度對 SLE 發生風險的因果效應,研究結果不支持二者之間具有因果關聯,這為明確 SLE 發生風險的影響因素提供了新的證據。然而,這與既往其他類似研究的結果不一致。既往傳統觀察性流行病學研究發現教育能夠對健康產生有益的作用[15-16],例如,Ghawi 等[16]基于人群病例對照研究發現,更低的受教育程度與更高的類風濕性關節炎發生風險和死亡率顯著相關(P<0.05)。也有多個孟德爾隨機化研究發現了受教育程度與多種健康結局相關[17-18],例如,更高的受教育程度能夠降低癌癥和同為免疫性疾病的類風濕性關節炎的發生風險。但需要注意的是,近年來也有學者對教育能夠正向影響健康的結論提出了質疑[15]。
本研究具有以下優勢:① 首次基于兩樣本孟德爾隨機化方法分析了受教育程度對 SLE 發生風險的因果效應,避免了傳統流行病學研究中常常難以避免的混雜偏倚和反向因果問題;② 使用的暴露數據集是目前最新、最大的受教育程度數據,且在篩選工具變量 SNP 時嚴格遵守了孟德爾隨機化方法的 3 個基本假設;③ 同時使用 3 種方法評價了受教育程度與 SLE 間的因果關聯,且 3 種方法得到的結果相似,并利用“留一法”進一步驗證了研究結果的穩健性。然而,與其他已發表的孟德爾隨機化研究類似[18-20],本研究同樣存在一定局限性:首先,納入分析人群均為歐洲人群,這限制了研究結果的外推性;其次,由于納入的 SNP 較多導致分析結果的異質性較明顯,但它們均為強工具變量,且不存在水平多效性;最后,盡管 SLE 的發生具有人群特異性,但由于無法獲取個體水平的患者數據,例如年齡、性別等,限制了進一步分析的可能。
綜上所述,本研究首次利用兩樣本孟德爾隨機化方法調查了受教育程度對 SLE 的因果效應,結果不支持受教育程度與 SLE 間具有因果關聯。考慮到科學研究結果的解釋應遵循“三角測量”(即綜合考慮不同類型來源的證據)原則[20-21],且納入人群的代表性不足,因此尚需開展相關研究進一步驗證本研究的發現。
利益沖突:所有作者均聲明不存在利益沖突。