鬼佬大哥大
  • / 22
  • 下載費用:30 金幣  

評價納米金屬氧化物健康效應的QSAR毒性預測方法.pdf

關 鍵 詞:
評價 納米 金屬 氧化物 健康 效應 QSAR 毒性 預測 方法
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
摘要
申請專利號:

CN201510333022.4

申請日:

2015.06.16

公開號:

CN104899458A

公開日:

2015.09.09

當前法律狀態:

授權

有效性:

有權

法律詳情: 授權|||實質審查的生效IPC(主分類):G06F 19/00申請日:20150616|||公開
IPC分類號: G06F19/00(2011.01)I 主分類號: G06F19/00
申請人: 中國環境科學研究院
發明人: 穆云松; 吳豐昌; 廖海清; 趙曉麗; 白英臣; 劉躍丹; 龐成芳; 郄玉
地址: 100012北京市朝陽區安外北苑大羊坊8號
優先權:
專利代理機構: 北京方圓嘉禾知識產權代理有限公司11385 代理人: 董芙蓉
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510333022.4

授權公告號:

||||||

法律狀態公告日:

2017.09.15|||2015.10.07|||2015.09.09

法律狀態類型:

授權|||實質審查的生效|||公開

摘要

本發明涉及環境中有毒物質預測領域,具體為評價納米金屬氧化物健康效應的QSAR毒性預測方法,根據納米金屬氧化物的結構特征與細胞毒性效應的定量關系預測未知金屬氧化物的毒性終點;是綜合納米金屬氧化物的理化結構參數和特殊致毒機理建立的納米金屬毒性預測模型,并將其應用于預測未知毒性效應終點的一種方法。本發明基于納米金屬氧化物的作用模式和致毒機理,構建納米金屬毒性預測模型,通過QSAR模型方法預測未知毒性值,快速、簡單,依賴較少的試驗測試數據完成多種毒性數據缺乏化合物的毒性終點預測。

權利要求書

權利要求書
1.  評價納米金屬氧化物健康效應的QSAR毒性預測方法,其特征在于,根據納米金屬氧化物的結構特征與細胞毒性的定量關系預測未知納米金屬氧化物的毒性終點;
具體包括以下步驟:
步驟a,建模毒性數據采集,篩選,運算和匯總;
步驟b,構建納米金屬氧化物結構描述符數據集,以各金屬氧化物對應的結構參數為自變量進行線性相關性分析和主成分分析,獲得最優的結構描述符組合;
步驟c,構建毒性預測模型及穩健性檢驗;建立多元回歸方程,對參數進行估計,采用F統計量對應的P值進行檢驗;
步驟d,QSAR模型的內部驗證;
步驟e,模型適用范圍計算;經過校驗的模型,以杠桿值h為橫坐標,以各數據點的標準殘差為縱坐標,繪制Williams圖;
步驟f,對未知納米金屬氧化物的毒性進行快速篩選與預測。

2.  根據權利要求1所述的評價納米金屬氧化物健康效應的QSAR毒性預測方法,其特征在于,所述步驟b中,構建納米金屬氧化物結構描述符數據集,分別為金屬離子軟指數σp、單位電荷軟指數σP/Z、原子序數AN、離子半徑r、IP:ON態離子的離子勢、IP(N+1):ON+1態離子的離子勢、IP(N+1)和IP的差值ΔIP、原子半徑R、原子量AW、鮑林(Pauling)電負性Xm、共價指數Xm2r、原子電離勢AN/ΔIP、第一水解常數|logKOH|、電化學勢ΔE0、原子大小AR/AW、實測電負性x、極化率z/rx、離子價Z、極化力參數Z/r、Z/r2、Z2/r、似極化力參數Z/AR、Z/AR2、氣態陽離子的生成焓ΔHme+、能壘GAP、氧化物簇的標準生成熱HoF。

3.  根據權利要求1或2所述的評價納米金屬氧化物健康效應的QSAR毒性預測方法,其特征在于,所述步驟b具體包括以下過程:
步驟b1,以毒性終點為因變量,各金屬氧化物對應的結構參數為自變量進行線性相關性分析,根據下述公式(1)計算相關系數r;
r=Σi=1n(xi-x‾)(yi-y‾)Σi=1n(xi-x‾)2(yi-y‾)2---(1)]]>
式中,分別表示各結構參數和毒性值的平均值,xi和yi分別表示第i種金屬對應的結構參數和毒性值;
相關系數r>0.8為顯著相關參數;
步驟b2,在顯著相關的前提下,通過主成分分析,獲得最優的結構描述符組合;具體公式:
F=a1i*ZX1+a2i*ZX2+......+api*ZXp  (2)
其中a1i,a2i,......,api(i=1,......,m)為X的協方差陣∑的特征值所對應的特征向量,ZX1,ZX2,......,ZXp是原始變量經過標準化處理的值;
A=(aij)p×m-(a1,a2,...,am)  (3)
Rai=λiai  (4)
R為相關系數矩陣,λi、ai是相應的特征值和單位特征向量,λ1≥λ2≥...≥λp≥0。

4.  根據權利要求1所述的評價納米金屬氧化物健康效應的QSAR毒性預測方法,其特征在于,所述的步驟c包括以下過程:
步驟c1,多元回歸方程的構建與參數估計;
步驟c中確定的兩最佳結構參數為自變量X,金屬氧化物細胞毒性值為因變量Y,利用多元線性回歸分析方法構建各模式生物的QICAR方程Y=XB+E,見公式(5),其中:
Y=y1y2...yn,X=1x11x121x21x22.........1xn1xn2,B=β0β1β2,Eϵ1ϵ2...ϵn---(5)]]>
n為觀測值個數;
采用最小二乘法對方程中參數進行估計,X′為X的轉置矩陣:

步驟c2,擬合優度檢驗和回歸方程的顯著性檢驗,采用F檢驗;
模型的擬合優度檢驗指標為:相關系數的平R2和自由度校正的相關系數標準偏差RMSE;
F檢驗的指標為多因子方差分析(Multi-ANOVA)計算得到的F值和相關概率p(SignificanceF);采用F統計量對應的P值進行檢驗;
步驟c3,判別標準:根據毒性數據獲取途徑,體外實驗R2≥0.81,體內試驗R2≥0.64;顯著水平為α,當p<α時,回歸方程顯著。

5.  根據權利要求4所述的評價納米金屬氧化物健康效應的QSAR毒性預測方法,其特征在于,所述步驟c3按照下述公式計算,
R2=1-Σi=1n(yi-y^)2Σi=1n(yi-y‾)2---(7)]]>
R2‾=1-(1-R2)n-1n-3]]>
RMSE=Σi=1n(yi-y^)2n-3---(8)]]>
F=[SS(total)-SS(residual)]/2SS(residual)/(n-3)=[Σi=1n(yi-y‾)2-Σi=1n(yi-y^)2](n-3)2×Σi=1n(yi-y^)2---(9)]]>
式中,R2表示相關系數的平方,R2表示自由度校正的相關系數,RMSE表示標準偏差。

6.  根據權利要求1所述的評價納米金屬氧化物健康效應的QSAR毒性預測方法,其特征在于,所述步驟d的具體過程包括:
步驟d1,在給定的建模樣本中,抽取一個樣本作為預測集,其余樣本作為訓練集建模,并計算該樣本的預測誤差;
步驟d2,記錄每個方程中預測誤差的平方加和,直到所有的樣本都被預報了一次而且僅被預報一次;
步驟d3,計算交叉驗證相關系數Q2cv和交叉驗證均方根誤差RMSECV,判別依據:Q2cv>0.6,R2-Q2cv≤0.3。

7.  根據權利要求6所述的評價納米金屬氧化物健康效應的QSAR毒性預測方法,其特征在于,所述步驟d3采用的計算公式為:
QCV2=1-Σi=1n(yiobs-yipredcv)2Σi=1n(yiobs-y‾obs)2---(10)]]>
RMSECV=Σi=1n(yiobs-yipredcv)2n---(11)]]>
式中,表示第i個化合物毒性的實測值,代表第i個化合物毒性的預測值,代表訓練集毒性的平均值,n表示訓練集中化合物數。

8.  根據權利要求1所述的評價納米金屬氧化物健康效應的QSAR毒性預測方法,其特征在于,所述步驟e中,杠桿值hi的計算公式為:
hi=xiT(XTX)-1xi  (12)
式中,xi代表第i個金屬的結構參數組成的列向量;對于雙參數模型,xi=xi1xi2,]]>X=x11x12x21x22......xn1xn2;]]>XT表示矩陣X的轉置矩陣,(XTX)-1表示對XTX矩陣的逆矩陣。

9.  根據權利要求8所述的評價納米金屬氧化物健康效應的QSAR毒性預測方法,其特征在于,所述步驟e中,臨界值h*的計算公式為:
h*=3(p+1)n---(13)]]>
式中,p代表模型中變量數,雙參數模型中p=2,n代表模型訓練集化合物的數量,根據步驟a-d校驗過后QSAR方程中訓練集金屬氧化物個數決定;
在Williams圖中h<h*的坐標空間為模型的適用范圍。

10.  根據權利要求1所述的評價納米金屬氧化物健康效應的QSAR毒性預測方法,其特征在于,所述步驟f中具體過程為,按照上述步驟a-步驟e所述的方法獲得納米QSAR預測方程,搜集并整理待預測納米金屬氧化物的所有結構描述符的值,代入方程計算待預測的毒性終點。

說明書

說明書評價納米金屬氧化物健康效應的QSAR毒性預測方法
技術領域
本發明涉及環境中有毒物質預測領域,具體為評價納米金屬氧化物健康效應的QSAR毒性預測方法。
背景技術
基于納米技術取得的豐碩成果使人們獲益良多,納米材料已廣泛應用于人們的日常用品中,在生物醫學領域如藥物載體、癌癥治療、基因治療、抗菌材料、醫學診斷、生物傳感器等方面具有更加廣泛的應用前景。納米金屬氧化物是工業生產納米顆粒物中的重要組成部分,在食品、材料、環保、化學和生物醫學等方面有較高的應用價值。然而,人們越來越擔心納米材料的納米特性,如小尺寸效應、表面和界面效應以及量子尺寸效應等,可能引發特殊的生物學效應,給人類健康造成威脅、給環境以及社會帶來負面影響;這就需要能夠反映納米金屬氧化物特性以及提供便于安全應用的依據,納米毒性的認知將起到關鍵的作用,有助于對納米產品進行必要的安全性評價。
在納米尺度上研究納米金屬的生物毒性和健康效應已成為近十年來的研究熱點,相較于納米金屬單質的致毒效應,金屬氧化物的致毒機理可能更為復雜。同時,不同元素的納米氧化物顆粒可能存在相似的作用位點和致毒機制。劑量效應關系和預測模型在理論和實際層面都具有重要意義。QSARs技術的最原始初衷是預測未測試化合物的毒性,并將這些知識應用于風險評估中。對于具有同一作用模式的一系列物質,QSAR可通過統計學手段構建化合物的結構參數與生物活性或毒性的相關關系,并進而預測未知化合物的活性或毒性影響。近十年來,對于納米尺度上的QSAR研究十分活躍。Winkler等分析了當前應用QSAR方法研究納米毒性效應的現狀并預測了未來潛力,認為該方法可以在毒理學調查中優化資源,降低毒性測試的道德和貨幣成本。Wolterbeek和Walker綜述20種陽離子的物理化學性質與不同物種的潛在毒性效應,識別和解釋毒作用模式。開發了合適的化合物分類和交叉參照的方法對納米材料進行了初步的危害風險評估。Meng認為在納米材料的安全性評估中,機遇正確毒理學路徑和損傷機理的QSAR方法起到至關重要的作用。Pathakoti等測定17種金屬金屬氧化物納米顆粒對大腸桿菌的毒性,并基于此建立雙參數QSAR模型預測無光(F=33.83,R2=0.87)和光誘導 (F=20.51,R2=0.804)的毒性效應。Epa等建立了納米顆粒誘導胰腺癌細胞多類型細胞PaCa2和人類臍靜脈內皮細胞攝入和凋亡的定量預測模型,分別提出了針對不同材料和同一材料表面不同修飾的建模策略。Toropova等提出不依賴于空間結構的最優描述符,建立了大腸桿菌毒性預測模型。盡管Leszczynski初步構建了13種納米金屬氧化物的毒性預測模型,但模型的預測效果和適用范圍仍需要進一步的研究論證。
總體而言,以上方法只對納米金屬離子的毒性進行了初步的模型預測,對于納米金屬氧化物毒性效應的定性模式識別和定量預測,缺乏系統的研究和可靠的預測方法。
鑒于上述缺陷,本發明創作者經過長時間的研究和實踐終于獲得了本創作。
發明內容
本發明的目的在于提供一種評價納米金屬氧化物健康效應的QSAR毒性預測方法,用以克服上述技術缺陷。
為實現上述目的,本發明提供一種基于納米金屬氧化物定量構效關系的毒性預測方法,根據納米金屬氧化物的結構特征與細胞毒性效應的定量關系預測未知納米金屬氧化物的毒性終點;
具體包括以下步驟:
步驟a,建模毒性數據采集,篩選,運算和匯總;
步驟b,構建納米金屬氧化物結構描述符數據集,以各金屬氧化物對應的結構參數為自變量進行線性相關性分析和主成分分析,獲得最優的結構描述符組合;
其中,構建納米金屬氧化物結構描述符數據集,分別為金屬離子軟指數σp、單位電荷軟指數σP/Z、原子序數AN、離子半徑r、IP:ON態離子的離子勢、IP(N+1):ON+1態離子的離子勢、IP(N+1)和IP的差值ΔIP、原子半徑R、原子量AW、鮑林(Pauling)電負性Xm、共價指數Xm2r、原子電離勢AN/ΔIP、第一水解常數|logKOH|、電化學勢ΔE0、原子大小AR/AW、實測電負性x、極化率z/rx、離子價Z、極化力參數Z/r、Z/r2、Z2/r、似極化力參數Z/AR、Z/AR2、氣態陽離子的生成焓ΔHme+、能壘GAP、氧化物簇的標準生成熱HoF。
步驟b具體包括以下過程:
步驟b1,以毒性終點為因變量,各金屬氧化物對應的結構參數為自變量進行線性相關性分析,根據下述公式(1)計算相關系數r;
r=Σi=1n(xi-x‾)(yi-y‾)Σi=1n(xi-x‾)2(yi-y‾)2---(1)]]>
式中,分別表示各結構參數和毒性值的平均值,xi和yi分別表示第i種金屬對應的結構參數和毒性值;
相關系數r>0.8為顯著相關參數。
步驟b2,在顯著相關的前提下,通過主成分分析,獲得最優的結構描述符組合;具體公式:
F=a1i*ZX1+a2i*ZX2+......+api*ZXp  (2)
其中a1i,a2i,......,api(i=1,......,m)為X的協方差陣∑的特征值所對應的特征向量,ZX1,ZX2,......,ZXp是原始變量經過標準化處理的值;
A=(aij)p×m=(a1,a2,...,am)  (3)
Rai=λiai  (4)
R為相關系數矩陣,λi、ai是相應的特征值和單位特征向量,λ1≥λ2≥...≥λp≥0。
步驟c,構建毒性預測模型及穩健性檢驗;建立多元回歸方程,對參數進行估計,采用F統計量對應的P值進行檢驗;
具體的,步驟c1,多元回歸方程的構建與參數估計;
步驟c中確定的兩最佳結構參數為自變量X,金屬氧化物細胞毒性值為因變量Y,利用多元線性回歸分析方法構建各模式生物的QICAR方程Y=XB+E,見公式(5),其中:
Y=y1y2···yn,X=1x11x121x21x22·········1xn1xn2,B=β0β1β2,E=ϵ1ϵ2···ϵn---(5)]]>
n為觀測值個數;
采用最小二乘法對方程中參數進行估計,X′為X的轉置矩陣:

步驟c2,擬合優度檢驗和回歸方程的顯著性檢驗,采用F檢驗;
模型的擬合優度檢驗指標為:相關系數的平R2和自由度校正的相關系數標準偏差RMSE;
F檢驗的指標為多因子方差分析(Multi-ANOVA)計算得到的F值和相關概率p(SignificanceF);采用F統計量對應的P值進行檢驗;
步驟c3,判別標準:根據毒性數據獲取途徑,體外實驗R2≥0.81,體內試驗R2≥0.64;顯著水平為α,當p<α時,回歸方程顯著。
步驟c3按照下述公式計算,
R2=1-Σi=1n(yi-y^)2Σi=1n(yi-y‾)2---(7)]]>
R2‾=1-(1-R2)n-1n-3]]>
RMSE=Σi=1n(yi-y^)2n-3---(8)]]>
F=[SS(total)-SS(residual)]/2SS(residual)/(n-3)=[Σi=1n(yi-y‾)2-Σi=1n(yi-y^)2](n-3)2×Σi=1n(yi-y^)2---(9)]]>
式中,R2表示相關系數的平方,R2表示自由度校正的相關系數,RMSE表示標準偏差。
步驟d,QSAR模型的內部驗證;
步驟d的具體過程包括:
步驟d1,在給定的建模樣本中,抽取一個樣本作為預測集,其余樣本作為訓練集建模,并計算該樣本的預測誤差;
步驟d2,記錄每個方程中預測誤差的平方加和,直到所有的樣本都被預報了一次而且僅被預報一次;
步驟d3,計算交叉驗證相關系數Q2cv和交叉驗證均方根誤差RMSECV,判別依據:Q2cv>0.6,R2-Q2cv≤0.3。
步驟d3采用的計算公式為:
QCV2=1-Σi=1n(yiobs-yipredcv)2Σi=1n(yiobs-y‾obs)2---(10)]]>
RMSECV=Σi=1n(yiobs-yipredcv)2n---(11)]]>
式中,表示第i個化合物毒性的實測值,代表第i個化合物毒性的預測值,代表訓練集毒性的平均值,n表示訓練集中化合物數。
步驟e,模型適用范圍計算;經過校驗的模型,以杠桿值h為橫坐標,以各數據點的標準殘差為縱坐標,繪制Williams圖;
步驟e中,杠桿值hi的計算公式為:
hi=xiT(XTX)-1xi  (12)
式中,xi代表第i個金屬的結構參數組成的列向量;對于雙參數模型,xi=xi1xi2,]]>X=x11x12x21x22······xn1xn2;]]>XT表示矩陣X的轉置矩陣,(XTX)-1表示對XTX矩陣的逆矩陣。
臨界值h*的計算公式為:
h*=3(p+1)n---(13)]]>
式中,p代表模型中變量數,雙參數模型中p=2,n代表模型訓練集化合物的數量,根據步驟a-d校驗過后QSAR方程中訓練集金屬氧化物個數決定;
在Williams圖中h<h*的坐標空間為模型的適用范圍。
步驟f,對未知納米金屬氧化物的毒性進行快速篩選與預測。
具體過程為,按照上述步驟a-步驟e所述的方法獲得納米QSAR預測方程,搜集并整理待預測納米金屬氧化物的所有結構描述符的值,代入方程計算待預測的毒性終點。
本發明提供的評價納米金屬氧化物健康效應的QSAR毒性預測方法,基于納米金屬氧化物的作用模式和致毒機理,構建納米金屬毒性預測模型。通過QSAR模型方法預測未知毒性值,快速、簡單,依賴較少的試驗測試數據完成多 種毒性數據缺乏化合物的毒性終點預測。
附圖說明
圖1為本發明的預測方法的流程示意圖;
圖2為本發明模型適用范圍評價的Williams圖之一;
圖3為本發明模型適用范圍評價的Williams圖之二。
具體實施方式
以下結合附圖,對本發明上述的和另外的技術特征和優點作更詳細的說明。
本發明的原理是根據納米金屬氧化物的結構特征與細胞毒性效應的定量關系預測未知氧化物的毒性終點。是綜合納米金屬氧化物理化結構參數和致毒機理建立納米金屬毒性預測模型,并將其應用于預測未知納米金屬氧化物的毒性終點的一種方法。
如圖1所示,其為本發明一種評價納米金屬氧化物健康效應的QSAR毒性預測方法的流程示意圖,該具體過程為:
步驟a,建模毒性數據采集,篩選,運算和匯總;
步驟a1,數據采集過程;
步驟a2,數據篩選過程;數據篩選滿足的條件為:
1)所有納米氧化物的細胞毒性數據須來自同一試驗來源,同一研究組和相同試驗條件;
2)毒性終點數據類型包括致死率,生長率和繁殖率,表現為EC50或LC50;
3)毒性測試必須在一定范圍的環境條件下以標準的操作流程進行;
4)生物測試暴露時間48~96小時,納米金屬氧化物顆粒的粒徑在30-100nm之間。
步驟a3,數據運算過程;在本發明實施例中的運算方法為:
以納米金屬氧化物的水溶液濃度為數據的衡量指標,如單位為質量濃度除以分子量統一轉化為摩爾濃度,即mol/L。
步驟a4,數據匯總過程:
最終得到的數據集包括納米金屬氧化物分子式,受試細胞類型,毒性效應類型,終點指標,試驗條件,暴露時間,數據來源。
詳細的毒性數據獲取過程如下:
建模的急性毒性數據優先采集自美國環保局ECOTOX毒性數據庫 (http://cfpub.epa.gov/ecotox/)。如果毒性數據不足,以近10年SCI科學引文索引查詢的有效數據(ISIWebofKnowledge)作為補充。通過數據庫和文獻檢索引擎,輸入納米金屬氧化物名稱、待測物種名稱和急性毒性等關鍵詞,導出滿足條件的毒性數據集。在滿足步驟a2條件的前提下,篩選出合格的毒性數據。以金屬自由離子濃度為數據的衡量指標,如果原始數據以離子化合物質量為毒性終點指標。需除以分子量統一轉化為微摩爾濃度,即μmol/L。在數據匯編過程中,記錄納米金屬氧化物分子式,受試細胞類型,毒性效應類型,終點指標,試驗條件,暴露時間,數據來源等信息,整理成Excel表格作為建模依據。
以大腸桿菌的細胞活力毒性終點為例,進行數據篩選,運算和匯總,結果如表1所示。
表1中的數據來源為:
PuzynT.etal.Usingnano-QSARtopredictthecytotoxicityofmetaloxides,NatureNanotechnology.6:175-178。
表1 納米金屬氧化物細胞毒性數據篩選,運算和匯總范例


步驟b,構建納米金屬氧化物結構描述符數據集;
構建金屬離子結構描述符集合,采用量子化學半經驗方法與文獻統計相結合,計算30-100nm納米級金屬氧化物的26種理化結構參數,包括金屬離子的理化參數,金屬納米顆粒的理化參數,尺度參數和熱力學參數。分別為金屬離子軟指數σp、單位電荷軟指數σP/Z、原子序數AN、離子半徑r、IP:ON態離子的離子勢、IP(N+1):ON+1態離子的離子勢、IP(N+1)和IP的差值ΔIP,原子半徑R、原子量AW、鮑林(Pauling)電負性Xm、共價指數Xm2r、原子電離勢AN/ΔIP、第一水解常數|logKOH|、電化學勢ΔE0、原子大小AR/AW、實測電負性x、極化率z/rx、離子價Z、極化力參數Z/r、Z/r2、Z2/r、似極化力參數Z/AR、Z/AR2、氣態陽離子的生成焓ΔHme+、能壘GAP、氧化物簇的標準生成熱HoF。其中ΔHme+、GAP、HoF利用MOPAC量子化學軟件中的PM6半經驗算法完成。
步驟b1,以毒性終點為因變量,各納米金屬氧化物對應的結構參數為自變量進行線性相關性分析,根據下述公式(1)計算皮爾遜相關系數r;
r=Σi=1n(xi-x‾)(yi-y‾)Σi=1n(xi-x‾)2(yi-y‾)2---(1)]]>
式中,xi和yi分別表示第i種金屬對應的結構參數和實測毒性值,分別表示各結構參數和實測毒性值的平均值。相關系數r>0.8為顯著相關參數。采用皮爾遜相關可以簡便,客觀的度量兩個因子之間的關聯程度。該步驟中通過相關系數r,篩選出與毒性顯著相關的結構參數,避免了偽相關參數引入模型。
按照步驟b1所述的方法,分別計算各結構參數的皮爾遜相關系數r,如表2所示。

步驟b2,在顯著相關的前提下,通過主成分分析,獲得最優的結構描述符組合。具體公式:
F=a1i*ZX1+a2i*ZX2+......+api*ZXp  (2)
其中a1i,a2i,......,api(i=1,......,m)為X的協方差陣∑的特征值所對應的特征向量,ZX1,ZX2,......,ZXp是原始變量經過標準化處理的值。
A=(aij)p×m=(a1,a2,...,am)  (3)
Rai=λiai  (4)
R為相關系數矩陣,λi、ai是相應的特征值和單位特征向量,λ1≥λ2≥...≥λp≥0。
主成分分析是對于原先提出的所有變量,將關系緊密的變量刪去多余,建立盡可能少的新變量,使得這些新變量是兩兩不相關的,而且這些新變量盡可能保持原有的信息。
按照步驟b2所述的方法,分別計算各結構參數的皮爾遜相關系數r,如表3所示。
表3 各結構參數的主成分分析


步驟c,構建毒性預測模型及穩健性檢驗;
步驟c1,多元回歸方程的構建與參數估計;
以上述步驟d中確定的兩最佳結構參數為自變量X,金屬氧化物細胞毒性值為因變量Y,利用多元線性回歸分析方法構建各模式生物的QICAR方程Y=XB+E,請參閱下述公式(5),其中:
Y=y1y2···yn,X=1x11x121x21x22·········1xn1xn2,B=β0β1β2,E=ϵ1ϵ2···ϵn---(5)]]>
n為觀測值個數;B代表未知參數,是方程中需要通過最小二乘法進行估計的;E代表隨機誤差項,反映了除x1,x2對y的線性關系之外的隨機因素對y的影響。與一元線性回歸相比,方程(5)采用多元線性回歸建立了兩種不同結構參數與毒性值的關系,完整、準確地表達預測對象與相關因素的關系。
采用最小二乘法對方程中參數進行估計,X′為X的轉置矩陣:

最小二乘回歸是從誤差擬合角度對回歸模型進行參數估計,是一種標準的多元建模工具,尤其適用于預測分析。
步驟c2,擬合優度檢驗和回歸方程的顯著性檢驗(F檢驗);
模型的擬合優度檢驗指標為:相關系數的平方(R2)和自由度校正的相關系 數(),標準偏差(RMSE)。F檢驗的指標為多因子方差分析(Multi-ANOVA)計算得到的F值和相關概率p(SignificanceF)。通常采用F統計量對應的P值進行檢驗。
步驟c3,判別標準:根據毒性數據獲取途徑,體外實驗R2≥0.81,體內試驗R2≥0.64。顯著水平為α,當p<α時,回歸方程顯著。
R2=1-Σi=1n(yi-y^)2Σi=1n(yi-y‾)2---(7)]]>
R2‾=1-(1-R2)n-1n-3]]>
RMSE=Σi=1n(yi-y^)2n-3---(8)]]>
F=[SS(total)-SS(residual)]/2SS(residual)/(n-3)=[Σi=1n(yi-y‾)2-Σi=1n(yi-y^)2](n-3)2×Σi=1n(yi-y^)2---(9)]]>
式中,yi表示第i種金屬實測的毒性值,表示第i種金屬預測的毒性值,表示各毒性值的平均值,n為訓練集中金屬的個數。
方程(7)、(8)的相關系數和標準偏差可以度量回歸直線的擬合優度;方程(9)是檢驗因變量與多個自變量的線性關系是否顯著的通用方法。
步驟d,QSAR模型的內部驗證;
每個物種的QSAR模型還應采用抽一法進行驗證,方法的核心思想是隨機從訓練集中抽出一個數據,用其他的毒性數據和步驟c獲得的最佳結構描述符建立多元回歸模型,根據抽出數據的預測值與實驗值的比較,來校驗所建立的網絡模型。為了減少交叉驗證結果的可變性,對一個樣本數據集進行多次不同的劃分,得到不同的互補子集,進行多次交叉驗證。本步驟中,取多次驗證的平均值作為驗證結果。
此內部驗證方法的優勢在于用幾乎所有的樣本來訓練模型,最接近樣本,這樣評估所得的結果比較可靠;實驗沒有隨機因素,整個過程是可重復的。
具體步驟如下:
步驟d1,在給定的建模樣本中,抽取一個樣本作為預測集,其余樣本作為訓練集建模,并計算該樣本的預測誤差;
步驟d2,記錄每個方程中預測誤差的平方加和,直到所有的樣本都被預報了一次而且僅被預報一次;
步驟d3,計算交叉驗證相關系數Q2cv和交叉驗證均方根誤差RMSECV,計算公式如下所述;判別依據:Q2cv>0.6,R2-Q2cv≤0.3;
QCV2=1-Σi=1n(yiobs-yipredcv)2Σi=1n(yiobs-y‾obs)2---(10)]]>
RMSECV=Σi=1n(yiobs-yipredcv)2n---(11)]]>
式中,表示第i個化合物毒性的實測值,代表第i個化合物毒性的預測值,代表訓練集毒性的平均值,n表示訓練集中化合物數。
方程(10)、(11)是抽一法內部驗證的指示參數,可有效降低模型對訓練集數據的過擬合,測定訓練集中有無特定金屬對模型穩健性的影響。
采用本發明步驟d所述的方法對模型進行內部驗證。以預測方程Pred.MLR=(4.412±0.165)+(-0.001±2.57×10-4)ΔHme++(-0.121±0.068)Z/r為例,對模型進行抽一法內部驗證,相關擬合參數見表4。根據步驟d3中的公式(7)和(8),計算Q2cv=0.7422,RMSECV=0.2695,R2-Q2cv=0.8793-0.7422=0.1371。滿足模型穩健性判別依據Q2cv>0.6,R2-Q2cv≤0.3,該模型通過內部驗證。
表4 模型內部驗證抽一法相關參數
金屬ΔHme+Z/r觀測值系數1系數2截距相關系數預測值氧化鋅662.442.7033.45-0.00103-0.12364.39510.86323.38氧化銅713.742.7403.20-0.00107-0.12794.47000.87843.36三氧化二釔837.153.3332.87-0.00109-0.12364.48570.89933.16三氧化二鉍1137.402.9132.82-0.00101-0.136154.43030.87982.88三氧化二銦1271.133.7502.81-0.00117-0.094024.41150.89132.57氧化鋁1187.835.5562.49-0.00105-0.125134.42070.87702.48
三氧化二鐵1363.405.4552.29-0.00105-0.122564.41640.87252.32二氧化錫1717.325.7972.01-0.00113-0.116864.46640.86541.85氧化鈦1575.736.5571.74-0.00108-0.089754.32760.86132.04三氧化二釩1097.734.6883.14-0.00094-0.159464.40960.93972.63三氧化二銻1233.063.9472.64-0.00105-0.123824.42000.87872.64二氧化鋯1357.665.5562.15-0.00107-0.110514.393560.87582.33二氧化鈷594.593.0773.510.00098-0.133114.377390.86224.55氧化鎳596.882.8993.45-0.00104-0.125064.412980.86193.43三氧化二鉻1266.624.8392.51-0.00105-0.124504.421180.87752.49三氧化二鑭1017.222.9132.87-0.00099-0.143814.450000.88373.02
步驟e,模型適用范圍計算;
經過校驗的模型,采用杠桿值法計算模型的適用范圍,以Williams圖直觀表示。此方法可保證模型在預測過程中具有最佳的可靠性。
杠桿值hi的計算公式為:
hi=xiT(XTX)-1xi  (12)
式中,xi代表第i個金屬的結構參數組成的列向量;對于雙參數模型,xi=xi1xi2,]]>X=x11x12x21x22······xn1xn2;]]>XT表示矩陣X的轉置矩陣,(XTX)-1表示對XTX矩陣的逆矩陣。
臨界值h*的計算公式為:
h*=3(p+1)n---(13)]]>
式中,p代表模型中變量數,雙參數模型中p=2,n代表模型訓練集化合物的數量,根據步驟a-d校驗過后各QSAR方程中訓練集金屬個數決定。
以杠桿值h為橫坐標,以各數據點的標準殘差為縱坐標,繪制Williams圖。在圖中h<h*的坐標空間為模型的適用范圍。
訓練集各納米金屬氧化物的結構參數和毒性終點為如表5所示。臨界值h*=3*(2+1)/16=0.5625。
表5 納米金屬氧化物毒性預測模型適用范圍的計算
種類Z/rh(Z/r)ΔHme+h(ΔHme+)觀測值預測值標準殘差氧化鋅2.7030.14664662.440.172613.453.390.06氧化銅2.7400.14213713.740.151883.203.35-0.15三氧化二釔3.3330.08999837.150.102812.873.13-0.26三氧化二鉍2.9130.124331137.400.06312.822.87-0.05三氧化二銦3.7500.069381271.130.078072.812.620.19氧化鋁5.5560.13761187.830.066382.492.460.03三氧化二鐵5.4550.126181363.400.114342.292.250.04二氧化錫5.7970.165791717.320.273642.011.890.12氧化鈦6.5570.284621575.730.187311.741.95-0.21三氧化二釩4.6880.072991097.730.062533.142.690.45三氧化二銻3.9470.064391233.060.071762.642.620.02二氧化鋯5.5560.13761357.660.098482.152.31-0.16二氧化鈷3.0770.10878594.590.204873.513.390.12氧化鎳2.8990.12531596.880.207783.453.420.03三氧化二鉻4.8390.079931266.620.077622.512.480.03三氧化二鑭2.9130.124331017.220.066822.873.04-0.17
以各金屬的兩最優結構參數的杠桿值為橫坐標,預測殘差為縱坐標繪制Williams圖,如圖2和圖3所示。圖中三條虛線內部的空間為模型的適用范圍,計算結果顯示訓練集的16種納米金屬氧化物在模型的預測范圍之內。
步驟f,按照上述步驟a-e所述的方法獲得納米QSAR預測方程,搜集并整理待預測納米金屬氧化物的所有結構描述符的值,代入方程計算待預測的毒性終點。

關于本文
本文標題:評價納米金屬氧化物健康效應的QSAR毒性預測方法.pdf
鏈接地址:http://www.wwszu.club/p-6369602.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
鬼佬大哥大