基于光譜特征細分和分類器級聯的有機化學品定性判定方法
【技術領域】
[0001] 本發明涉及一種利用化學品的光譜特征判定其類別的方法,具體地,是一種利用 波長范圍從紫外光到紅外光的光譜技術快速識別化學品的方法。特別是基于光譜特征細分 和分類器級聯的有機化學品定性判定方法。
【背景技術】
[0002] 有機化合物是含碳的、主要由氧元素、氫元素等組成的化合物。目前,世界上已知 的有機物有幾千萬種之多,包括烴類化合物和其各種衍生物,如醇、酚、醚、醛、酮、酸、酯、 胺、腈等,這些有機化學品被廣泛用于工業、農業、醫療衛生、生命科學、檢驗檢疫、環境保 護、能源開發、國防軍工、科學研究和國民經濟的各行各業,為我們的衣、食、住、行提供了極 大方便的同時,也有力的促進了社會的發展和進步。
[0003] 有機化學品在給人類生活帶來便捷的同時,也帶來了一些危害甚至災難。比如化 工廠在生產對人類有用的化學品的同時,也產生了很多有毒有害的副產品,對河流和土壤 都造成了非常嚴重的污染,尤其是一些運行多年化工廠舊址,被其污染過的土地在幾十年 內都無法正常使用。由于這些污染的嚴重性,使得快速識別這些污染物進而進行有效的治 理就顯得尤為緊迫和重要。而出現在化學品進出口中的瞞報與夾帶,使一些有毒有害甚至 是高危劇毒的化學品在沒有監管的情況下流入國內,不僅擾亂了我國正常的貿易秩序,對 國家安全也造成了嚴重威脅。在危險化學品篩查、廢棄和未知化學品無害化處理中,如何快 速識別化學品同樣具有非常重要的現實意義。
[0004] 簡單的有機化學品分析方法,利用一些化學反應中的顏色、溫度變化或者氣體、沉 淀的生成來鑒別有機化合物,如利用其能與氯化鐵能產生顯色反應鑒別酚類,只能獲知其 官能團信息,而對其具體的成分信息卻無能為力。要獲知其具體的化學成分,則需更為精密 的分析手段,如化學分析法和儀器分析法。然而,化學分析如重量分析和滴定分析,需要耗 費大量樣品,分析過程繁瑣且耗時,因此自上世紀50年代以后便逐漸被儀器分析法取代。 與光譜分析方法相比,儀器分析法如電化學分析、波譜分析和色譜分析等成本較高,不僅需 要經驗豐富的專業人員進行操作,且難以進行現場檢測。
[0005] 光譜分析法是光學分析法的一種,是基于物質與輻射能量發生作用下,由物質內 部發生量子化的能級之間的躍迀而產生的發射、吸收或散射輻射的波長和強度而進行分析 的方法,包括可見光、紫外、近紅外和中紅外等分析方法。其中近紅外和中紅外光譜可以準 確的反映各種化學鍵的振動情況,如C-H、C=C、〇-H、N-H、S-H等的彎曲和伸縮振動,而有機 物在紫外光或可見的作用下發生電子躍迀而產生吸收光譜。由于這些吸收光譜可以全面、 有效的反映有機化合物中各種化學鍵的振動情況,且具有采樣方式靈活、測試速率高、對樣 品無損、可設定多通道瞬間多點采集并通過與化學計量學的結合,瞬間輸出分析結果等諸 多優點,因而在農副產品質鑒定、工業生產在線監測、中西藥質量和真假鑒別等領域發揮著 越來越重要的作用。
[0006] 雖然有機化學品的智能識別有巨大的需求,但是由于有機化合物數量繁多,結構 復雜,因此單純利用吸收光譜難以獲得直觀的信息,須結合化學計量學方法,尤其是本專利 所述的級聯分類器分類法,進行逐級的識別分類,最終達到智能識別的目的。
【發明內容】
[0007] 本發明利用有機物在可見、紫外、近紅外、中紅外光源下的吸收光譜,結合化學計 量學的方法將這些反映在譜圖上的信息有效的提取出來,進而實現對有機化學品的有效識 別。
[0008] 本發明利用級聯分類器方法對有機化合物的譜圖進行建模,其中單個分類器的 構建可以使用基于LDA或PCA的聚類分析方法。LDA方法,又稱線性判別式分析(Linear DiscriminantAnalysis),它能將樣本在矢量空間上進行最優化投影,以達到獲得最佳鑒 別矢量空間、抽取分類信息、壓縮特征空間維數的目的,使得模型樣本在新的子空間有最大 的類間距離和最小的類內距離,即樣本在該空間中有最佳的可分離性。級聯分類能對同一 個訓練集訓練出不同的分類器(弱分類器),然后把這些弱分類器集合起來,構成一個更強 的最終分類器(強分類器)。利用該分類器的多層分類模型,級級分類層層識別,提取不同 有機化合物的特征并逐步細化,使化合物之間的差別逐級放大,進而實現正確的分類和識 另IJ。利用該模型可以有效解決有機化學品的種類多樣性、結構復雜性而導致分類和識別過 程中的易混淆的問題,如不同類別但含有部分相同官能團的化合物在分類的時候極易出現 類間的混淆的問題、而同類的有機化合物尤其是分子量相近的化合物在識別其具體成分的 時候出現識別的混淆的問題。該方法(光譜結合化學計量學)具有操作簡便、快速準確等 優點,在進出口化學品檢驗和危險、未知化學品處理中有很好的應用前景。
[0009] 本發明是通過以下技術方案加以實現的。
[0010] -種基于光譜特征細分和分類器級聯的有機化學品定性判定方法,包括以下步 驟:
[0011] 首先對有機化學品的光譜特征進行細分,然后選取不同的特征采用聚類分析方法 構建單個分類器,然后將構建的單個分類器進行級聯,形成級聯的分類器,實現對未知有機 化學品的層層篩選、逐級分類,最終得到判定結果;包括以下步驟:
[0012] a)光譜的采集與預處理
[0013] 采集一些已知類別和成分的化學品光譜作為訓練集;采用透射或漫反射方式采集 光譜數據;光譜的預處理可采用平滑、一階導數、二階導數或小波變換;對待判定類別的化 學品采用與訓練集一致的方法進行光譜采集與預處理;
[0014] b)光譜特征細分
[0015] 將訓練集的光譜進行特征細分,將這些特征分成多組,每組分別用于不同分類器 的設計;特征分組按照從粗大到細致的原則;第一級分類器,僅實現幾個化學品大類別的 準確劃分;第二級實現在第一級已判定的大類別中的二級類別的劃分;依次進行下去,最 終實現化學品類別的準確識別;
[0016] c)采用訓練集中的光譜數據建立級聯的分類器;
[0017] 對每一級分別進行分類器設計:
[0018] 1)第一級識別僅有1個分類器組成,僅實現化學品的大類別劃分;在允許一定的 假陽性結果,但不允許出現假陰性結果的原則下,選擇適當的類別總數,進行第一級的分類 器設計;
[0019] 2)第二級在第一級的基礎上進行設計,需要設計&個分類器,分類器i= 1,2,… N1分別對應第一級劃分的第i= 1,2,…叱個類別;每個分類器內部針對某一個大類別進行 第二次特征細分,分別分為\2個二級子類別,設計原則與a相同,即不允許出現假陰性結 果;
[0020] 3)第三級設計及以下各級的設計與b相同,均需要在前一級設計好的基礎上,進 行進一步的特征細分;
[0021] 4)最終將所有級的分類器進行級聯,前一級的輸出結果,選定了后一級的分類器, 然后輸入分類器進行識別,再依次輸入下一級,直至最后一級,得到最終的判定結果;
[0022] d)光譜識別
[0023] 將未知類別的光譜經過與訓練集相同的預處理,然后輸入(3)中建立的級聯分類 器,依次經過層層判定,獲得最終的判定結果。
[0024] 所述的分類器的設計可以使用LDA、PCA或聚類樹等聚類分析方法。
[0025] 若使用LDA方法,其步驟為:
[0026] ①選定適宜的類數,計算每類的樣本均值U1和總樣本均值u:
[0035] ③計算矩陣()的特征值及特征向量,取最大特征值A_對應的特征向量L 作為投影空間;
[0036] ④將樣本在特征向量空間L上投影,通過樣本投影值的大小關系判斷其在新空間 上距離的大小和分類效果的優劣;
[0037] ⑤若分類效果不佳,可調整分類數c,重復以上步驟直到實現最佳的分類效果。
[0038] 所述的光譜選用化學品的官能團特征中的一種或者幾種作為分類標準;利用化學 品在可見、紫外、近紅外、中紅外光源下的吸收光譜,結合化學計量學的方法將這些反映在 譜圖上的信息有效的提取出來,進而實現對有化學品的有效識別。
[0039] 可選用化學品的官能團特征中的一種或者幾種作為分類標準,如O-H(醇)、 O-H(酚)、O-H(酸)、C-O(醚)、C= 0(醛)、C= 0(酮)、C= 0(酸)、C= 0(酯)、C= 〇(酰鹵)、N-H(酰胺)、C-N(酰胺)、C=N(腈)、C=C、-C=C-(苯環)等。當選用的官 能團特征越少時,分類器越弱,弱分類器可作為低級的分類器,比如醇類分類器、酸類分類 器等等;當選用的官能團特征越多,化學品的類別越精確。
[0040] 光譜特征進行細分,還可以選用不同的波段,當選用的波段越窄,波段數越少,光 譜特征越少,分類器越弱,弱分類器可作為低級的分類器,比如醇類分類器、酸類分類器等 等;當選用的波段越寬,波段數越多,光譜特征越多,分類器越強,化學品的類別越精確。
[0041] 本發明涉及的化學品包含有機化學品,如化工和醫藥行業常用化學品,尤其是在 進出口檢驗、危險化學品篩查和實驗室廢棄化學品處理中常見的化學品,如烴類及其衍生 物,經、醇、醚、醛、酮、酸、酯、胺等。
[0042] 本發明采用的光譜可以為紫外光、可見光、近紅外光、中紅外光,波長范圍為 100nm-4000nm〇
[0043] 本發明識別的化學品可以為液態或固態的,可以為透射光譜或漫反射光譜。本發 明的方法應用于醫藥行業化學品,進出口檢驗化學品、危險化學品篩查和實驗室廢棄化學 品處理。
【附圖說明】
[0044] 圖1利用LDA方法對醇、酸、醛、酮和酯類化合物進行最優化投影的結果。
[0045] 圖2利用LDA方法對醇類化合物和酸類化合物進行最優化投影