專利名稱:配方產品理化數據與感官指標相關性分析的方法
技術領域:
本發明涉及一種數據分析的方法流程,具體地是實現理化數據與感官指標相關性分析、以指導配方產品的質量評定和等級劃分。
背景技術:
在現有配方產品制造行業,針對產品所采用的配方及其成份組成,需要在生產質量管理和原料分級等工藝流程進行感官質量的評定。例如對于卷煙制品,通常是以香型風格、刺激性、勁頭等指標來加以評定,以向消費者標明其不同等級。
對于工業生產配方產品,以往的評定過程主要是依靠品評專家,通過現場品嘗的方式、憑借個人的感官體驗來劃分等級、優劣。配方產品的生產企業雖然經過長期的生產管理而積累了一定數量的專家評估數據,但是由于執行質量評定的是個人行為,因而這些評估數據本身不可避免地存在諸多人為因素。如專家在質量評定過程中,會受其本人情緒、身體狀況、個人感官喜好、以及感受疲勞程度等因素的干擾,在客觀上存在著感覺誤差,最終反映在配方產品的等級劃分不準確、難以進行生產工藝的進一步提高和優化。而且,組織專家進行質量評估也需較高的費用和大量時間。另外,通過分析大量的專家評估數據可以看出,配方產品的感官質量與其配方原料成份及其比例之間存在著必然的密切關聯,控制產品配方的原料及其比例可以直接反映在感官質量的優劣上來,例如,煙葉中包含有多種化學組分,在吸煙過程中這些化學組分相互反應而刺激人的感官。目前已獲知,煙堿成份的比例會直接影響到感官刺激性和勁頭等特性,而鉀、氯等成份又與其燃燒性、灰分等有著相當大的相關性。
目前在工業化生產現場,單片機和信息處理技術得到了廣泛應用。如何利用現行積累的評定數據和樣本標準、在脫離人為因素干擾的前提下,利用數學統計和邏輯分析來提示配方產品的理化數據與感官指標之間的相關性,以實現指導配方產品的質量評定和等級劃分,一直是配方產品生產企業急待解決的技術課題。
發明內容
本發明所述配方產品理化數據與感官指標相關性分析的方法,其目的是基于支撐向量機的階梯分析法,來實現生產現場的理化數據實測值與感官指標之間相關程度的測算。所述配方產品理化數據與感官指標相關性分析的方法,是在配方產品的生產過程中建立一種能夠確定上述相關性的工藝流程。通過該方法可以在各理化數據中找出與感官指標相關的參數、并分別建立能夠描述出這類相關性的檢測樣本,從而針對生產現場實測的理化數據直接標注出兩者的相關指標,從而為配方產品的質量評定和等級劃分提供定量分析數據。
現有配方產品包括有消費者日常使用的各類產品,如卷煙、食品、香料、食品添加劑等。如在生產卷煙的煙葉原料中包含有多種化學組分,在吸煙過程中這些化學組分相互作用,共同刺激吸煙人的感官,包括味覺、嗅覺、觸覺,從統計學角度來分析,這些化學組分與形成人的感官指標之間必然形成各種因果關系,即形成簡單的線型和復雜的非線性映射關系。
通過大量地積累專家在配方產品評估時做出的感官評定數據,可以初步揭示這些配方產品的理化數據與感官指標的映射關系。但是對于現有配方產品生產過程中,往往存在著的小樣本(經驗數據積累少)、高維、非線性等的數據特征,因而依賴于專家評定數據難以達到應有的實現評估準確度。
本發明所述的相關性分析方法,在分析實測的理化數據與感官指標類型之間的相關性時將階梯分析法與支撐向量機相結合,利用階梯樣本從支持向量機模型中進行關于相關性的知識提取,從而揭示理化數據與感官指標的相關性。
本發明所采用的支持向量機,是在小樣本即采取小批量數據的基礎上能夠實現自我學習的一種統計理論,其出發點是立足于有限樣本的假設。如清華大學出版社于2004年2月1日出版的《統計學習理論》一書中所公開的有關于支撐向量機的內容。
例如假設H1、H2分別是兩維界面的實心點和空心點兩類樣本集,H為分類線,而且H1、H2分別為距離分類線H最近的樣本且平行于分類線的直線,則上述直線間的距離叫做分類間隔(margin)。若求得所謂的最優分類線,就是要求分類線不但能將兩類正確分開(訓練錯誤率為0),而且使分類間隔最大。
所述的支持向量機可以較好地應用于回歸估計中。考慮用F(X)=W.X+b擬合數據{xi,yi},i=1,2,Λ,n;xi∈Rd,yi∈Rd的問題。并假設所有的訓練數據映射到高維特征空間后可用線性函數無誤差地以精度ε擬合,即
yi-w·xi-b≤ϵ,w·xi+b-yi≤ϵ,]]>i=1,…,n與最優分類面中最大化分類間隔相似,這里控制函數集復雜性的方法是使回歸函數最平坦,它等價于最小化2/‖W‖2。考慮到允許擬合誤差的情況,引入松弛因子ξi+≥0和ξi-≥0,則以上表達式變成,yi-w·xi-b≤ϵ+ξi+,w·xi+b-yi≤ϵ+ξi-,]]>i=1,…,n則目標函數轉化為,φ(w,ξ)=12||w||2+C(Σi=1nξi++ξi-)]]>其中C是正則化參數,用于控制學習模型的推廣性能。利用和模式識別同樣的優化方法得到上述問題的對偶問題,即在約束,Σi=1n(αi+-αi-)=0]]>0≤αi+,]]>αi-≤C,]]>i=1,…,n下,對Lagrange乘子αi+,αi-最大化目標函數,Q(α+,α-)=-ϵΣi=1n(αi++αi-)+Σi=1nyi(αi+-αi-)-]]>12Σi,j=1n(αi+-αi-)(αj+-αj-)K(xi,xj)]]>得到的非線性回歸函數為,F(x)=(w+·x)+b+=Σi=1n(αi++-αi-+)K(xi,x)+b+]]>上述關于支撐向量機的建模過程,能夠實現小樣本數據的學習。
為達到本發明的目的,即通過輸入生產現場實際的理化檢測數據來獲得與感官指標之間的相關性分析結果,根據相關性程度來進行特征選擇,提高預測符合度,本發明將階梯分析法與支撐向量機相結合,利用階梯樣本對由支持向量機模型進行知識提取,以揭示輸入與輸出之間的相關性。
根據現有積累的專家評定數據樣本來構造階梯樣本,具體地假設配方產品的某一個理化指標xi與感官指標Y之間存在著相關性,為獲得相關程度的分析結論,可以取數據樣本集中的該指標xi的最大值與最小值,根據經驗選取適當小的Δxi,建立從最小值到最大值逐個相差Δxi的階梯式值。
同時,其它理化指標的輸入變量分別取某一個定值Ci,所有理化指標(包括其他定值Ci和xi階梯值構成數據樣本集一階梯樣本。
依據統計學觀點,假設樣本服從正態分布,定值Ci通常應選擇其他理化指標輸入變量的樣本數據均值。利用構造好的階梯樣本對訓練過的支撐向量機模型進行知識提取,揭示二者的相關性。這里對模型知識提取的過程,實質上就是將階梯樣本送入訓練過的支撐向量機模型進行測試的過程。對于多維輸入樣本,除要考察的理化指標,其它指標均為定值,所以測試結果(同樣也是階梯值)的趨勢線(階梯圖)可以直接反映二者的相關關系。
上述測試結果所形成的趨勢線,直觀地映射出理化指標xi與感官指標Y之間的相關程度,定義這一相關程度為上述趨勢線的陡峭指數ρ,也就是在輸入變量(理化指標)xi與輸出變量(感官指標)y趨勢線上任意一點x0的斜率,其定義如下ρ‾=E(dydx|x=x0)=∫[dydx|x=x0*f(x0)]dx0---(1)]]>該陡峭指數ρ的絕對值大小,直接映射出某一輸入變量(理化指標)xi與輸出變量(感官指標)y的影響有多大,即其之間的正、負相關性的強弱。
在上述所有理化指標xi相互獨立的情況下分別做出上述趨勢階梯圖的陡峭指數ρ,采用一元回歸方法可以綜合推導出評估所有相關理化指標與該感官指標的相關度定量c,某一感官指標y與所有相關的理化指標x1,x2,...,xm的表達式如下Y=F(x1,x2,...,xm)=f(x1)+f(x2)+...+f(xm)+c (2)令y=f(x1)+f(x2)+...+f(xm)(3)將已積累評定數據所形成的訓練樣本集中的數據送入以下表達式(4)中來推導出相應的y值,則相關度定量c通過下式求得c=∑Yt/n-∑yt/n (4)其中,m為理化指標的項數,n為訓練樣本集中樣本個數。
將(4)式所得的相關度定量c代入(2)式,即得某一感官指標Y與所有相關的理化指標x1,x2,...,xm的表達式。
若上述各理化指標相互獨立,則可直接對各關系表達式進行加和;若各理化指標相互之間不獨立,則應當首先對其樣本進行正交變換,再進行分析工作。
本發明所述配方產品理化數據與感官指標相關性分析的方法,是基于支撐向量機的階梯分析法,其方法流程是實際檢測配方產品的各項理化指標并組織行業專家對成品進行評定,將所得到的評定數據進行積累、記錄,并形成以數據樣本集;根據專家的行業經驗剔除上述數據樣本集中的錯誤或特異樣本,以求盡量直觀地映射出理化數據與感官指標之間的相關性及其程序大小;根據產地、等級、風格等指標將整理后的理化數據樣本集,分為訓練樣本集和驗證樣本集;應用階梯分析法構造出若干個階梯樣本,用于對支撐向量機模型進行知識提取和相關性分析;調取支撐向量機的知識模型并對其各參數初始化,將訓練樣本送入模型中進行訓練,并利用驗證樣本預測的符合度作為選擇模型的標準;若符合度較高,則說明模型已基本學習到樣本內部的全部真實規律;否則,說明模型的參數選擇并不合適,則重新調整模型直到符合度達到標準;將階梯樣本送入模型中進行測試并得到輸出結果,根據輸出結果(即感官指標Y與該輸入數據(即某一理化指標xi)得到趨勢線的陡峭指數ρ,即表達式(1)所映射出的階梯圖,進行初步定性分析相關關系;根據階梯圖反映出的陡峭指數ρ,將較小的指標項剔除掉,僅保留較大的某理化指標xi做為映射感官指標Y的特征選擇;通過各個理化指標xi與感官指標Y的表達式獲得相關度定量c,即表達式(2)所映射出的針對某一感官指標Y的所有相關理化指標xi的表達關系式。
所述方法的流程結束。
根據上述方法流程所確定的配方產品的陡峭指數ρ和相關度定量c,在配方產品實際生產過程中可以根據各實測理化指標xi的輸入數值,直接通過上述表達式(1)和表達式(2)直觀地映射出感官指標Y的相關程度,從而為生產配方產品的原料、或是配方產品的成品進行等級劃分、質量是否合格的評定。
綜上所述,本發明所述配方產品理化數據與感官指標相關性分析的方法,其優點和有益效果是利用現行積累的評定數據和樣本標本,可以實現在脫離單純的專家行為而通過現場實測數據直接映射出各相關感官指標,實現了從人腦分析到硬件設備的直接轉化,從而實現了機器學習和分析評定的轉型。
應用上述方法可以依靠小批量數據樣本和小模型即可建立指導配方產品生產和等級的分析流程,簡單可行、準確率高、易于在現有配方產品生產企業推廣使用。
不再依賴于反復組織專家進行現場評定,可以節約大量的資金和時間。
隨著應用上述方法獲取的相關性分析結論數據,可以不斷擴充方法使用的訓練樣本集和驗證樣本集,從而逐步提高分析流程的準確度,因而具有不斷學習和自我完善的升級機制,使用可靠性可以不斷提升、該方法具有較強的適應能力。
圖1是所述配方產品理化數據與感官指標相關性分析的方法流程圖;圖2是確定各個理化指標xi與感官指標Y相關度分析和相關度定量c的流程圖;圖3是所述建立訓練樣本集和驗證樣本集的流程圖;圖4是應用所述方法實現煙葉配方優化的流程圖;圖5是圖4中所確定的階梯趨勢圖。
具體實施例方式
實施例1,如圖1所示,所述配方產品理化數據與感官指標相關性分析的方法流程是實際檢測配方產品的各項理化指標并組織行業專家對成品進行評定,將所得到的評定數據進行積累、記錄,并形成以數據樣本集;根據專家的行業經驗剔除上述數據樣本集中的錯誤或特異樣本,以求盡量直觀地映射出理化數據與感官指標之間的相關性及其程序大小;根據產地、等級、風格等指標將整理后的理化數據樣本集,分為訓練樣本集和驗證樣本集;應用階梯分析法構造出若干個階梯樣本,用于對支撐向量機模型進行知識提取和相關性分析;
調取支撐向量機的知識模型并對其各參數初始化,將訓練樣本送入模型中進行訓練,并利用驗證樣本預測的符合度作為選擇模型的標準;若符合度較高,則說明模型已基本學習到樣本內部的全部真實規律;否則,說明模型的參數選擇并不合適,則重新調整模型直到符合度達到標準;將階梯樣本送入模型中進行測試并得到輸出結果,根據輸出結果(即感官指標Y與該輸入數據(即某一理化指標xi)得到趨勢線的陡峭指數ρ,即表達式(1)所映射出的階梯圖,進行初步定性分析相關關系;根據階梯圖反映出的陡峭指數ρ,將較小的指標項剔除掉,僅保留較大的某理化指標xi做為映射感官指標Y的特征選擇;通過各個理化指標xi與感官指標Y的表達式獲得相關度定量c,即表達式(2)所映射出的針對某一感官指標Y的所有相關理化指標xi的表達關系式。
如圖2所示,確定所述各個理化指標xi與感官指標Y相關度分析和相關度定量c的流程是根據已經做出的各個理化指標xi與感官指標Y之間相關性的階梯趨勢圖,對階梯樣本的預測值進行回歸估計;在各理化指標xi相互獨立的前提下,直接對各函數表達式(2)進行加和;若各理化指標xi相互之間不獨立,則應當首先對其樣本進行正交變換,再進行分析工作;將已積累評定數據所形成的訓練樣本集中的數據送入以下表達式(4)中推導出相關度定量c;最終獲得某一感官指標Y與所有相關的理化指標x1,x2,...,xm的表達式Y=F(x1,x2,...,xm)=f(x1)+f(x2)+...+f(xm)+c (2)在圖1和圖2的基礎上,如圖3至圖5所示,在卷煙生產過程中進行分析單料煙中的煙葉理化指標與感官質量指標—刺激性之間的相關性,其操作流程是第一步,進行數據收集,錄入檢測得到的各單料煙或成品煙的基本屬性、理化、感官評吸質量、煙氣指標的數據。形成下述表1和表2。
表1
表2第二步,進行數據整理,根據專家經驗把錯誤的和奇異的樣本過濾掉;然后將各屬性正交化處理形成待分析的數據樣本。
第三步,構造各樣本集,根據產地、等級、風格等指標將整理后的數據樣本分為訓練樣本集和驗證樣本集,樣本容量之比為5∶1,同時運用階梯法構造階梯樣本。
第四步,初始化參數,初始化支撐向量機的模型參數,包括正則化參數、核函數的具體形式等。
第五步,將訓練樣本集送入設定的模型中進行訓練。
第六步,將驗證樣本集送入訓練好的支撐向量機模型中,得到測試結果。
第七步,判斷支撐向量機模型是否合適,并根據企業制定的符合度公式推算其符合度。即以輸出的實數值與目標值的誤差和允許誤差的比值作為評估準確度的計算標準,如下式
如果符合度較高,則說明模型已經學習到樣本的內部規律;否則,修改模型參數重復第5,6兩步驟操作,直到符合度達到70%以上。
第八步,測試階梯樣本將構造好的階梯樣本送入模型中測試,得到階梯式的輸出結果,該輸出結果即揭示了樣本輸出隨特定樣本輸入的變化規律。
第九步,做出理化指標-總氮與感官指標-刺激性之間相關性的階梯趨勢圖,輸入理化指標數據為橫坐標,以輸出感官指標Y為縱坐標,如圖5所示。
從圖5可以看出,總氮與煙葉的刺激性成顯著的正相關,即隨著煙葉中總氮含量的增多,煙葉刺激性越來越大。
第十步,計算出根據階梯趨勢圖反映出的陡峭指數ρ,如以下表3
通過表3可以看出,煙堿、糖堿比、蛋白質及總氮與刺激性成較為顯著的正相關,而還原糖、總糖及施木克與刺激性呈負相關。
根據階梯指數絕對值的大小,我們可以將鉀氯比、鉀及氯三個屬性項剔除,達到特征選擇的目的。在今后分析煙葉的刺激性時,可以不需要檢測這三項理化指標。
根據最終得到所有理化指標與感官指標的函數關系,刺激性=-0.261*總糖+0.689*總煙堿-0.468*還原糖+0.196*蛋白質+0.169*總氮-0.0022*氯-0.0025*鉀-0.137*施木克+0.243*糖堿比-0.041*鉀氯比+1.96。
其中,相關度定量c=1.96。
如上所述,即是所述配方產品理化數據與感官指標相關性分析的方法的主要方案。對于本方法的適當修改,包括階梯分析法和其它智能建模的結合均應為本發明的保護范圍。
權利要求
1.一種配方產品理化數據與感官指標相關性分析的方法,其特征在于其方法流程是,實際檢測配方產品的各項理化指標并組織行業專家對成品進行評定,將所得到的評定數據進行積累、記錄,并形成以數據樣本集;根據專家的行業經驗剔除上述數據樣本集中的錯誤或特異樣本,以求盡量直觀地映射出理化數據與感官指標之間的相關性及其程序大小;根據產地、等級、風格等指標將整理后的理化數據樣本集,分為訓練樣本集和驗證樣本集;應用階梯分析法構造出若干個階梯樣本,用于對支撐向量機模型進行知識提取和相關性分析;調取支撐向量機的知識模型并對其各參數初始化,將訓練樣本送入模型中進行訓練,并利用驗證樣本預測的符合度作為選擇模型的標準;若符合度較高,則說明模型已基本學習到樣本內部的全部真實規律;否則,說明模型的參數選擇并不合適,則重新調整模型直到符合度達到標準;將階梯樣本送入模型中進行測試并得到輸出結果,根據輸出結果(即感官指標Y與該輸入數據(即某一理化指標xi)得到趨勢線的陡峭指數ρ,即表達式(1)所映射出的階梯圖,進行初步定性分析相關關系;根據階梯圖反映出的陡峭指數ρ,將較小的指標項剔除掉,僅保留較大的某理化指標xi做為映射感官指標Y的特征選擇;通過各個理化指標xi與感官指標Y的表達式獲得相關度定量c,即表達式(2)所映射出的針對某一感官指標Y的所有相關理化指標xi的表達關系式。
2.根據權利要求1所述的配方產品理化數據與感官指標相關性分析的方法,其特征在于所述感官指標Y與某一理化指標xi的趨勢線陡峭指數ρ滿中以下表達式,ρ‾=E(dydx|x=x0)=∫[dydx|x=x0*f(x0)]dx0---(1)]]>該一陡峭指數ρ即是輸入變量(理化指標)xi與輸出變量(感官指標)y趨勢線上任意一點x0的斜率。
3.根據權利要求2所述的配方產品理化數據與感官指標相關性分析的方法,其特征在于所述確定各個理化指標xi與感官指標Y相關度分析和相關度定量c的流程是,根據已經做出的各個理化指標xi與感官指標Y之間相關性的階梯趨勢圖,對階梯樣本的預測值進行回歸估計;在各理化指標xi相互獨立的前提下,直接對各函數表達式(2)進行加和;若各理化指標xi相互之間不獨立,則應當首先對其樣本進行正交變換,再進行分析工作;將已積累評定數據所形成的訓練樣本集中,則相關度定量c滿足下述表達式,c=∑Yt/n-∑yt/n(4)其中,m為理化指標的項數,n為訓練樣本集中樣本個數;最終獲得某一感官指標Y與所有相關的理化指標x1,x2,...,xm的相關性,滿足下述表達式,Y=F(x1,x2,...,xm) (2)=f(x1)+f(x2)+...+f(xm)+c其中,c即是相關度定量。
全文摘要
本發明所述配方產品理化數據與感官指標相關性分析的方法,其目的是基于支撐向量機的階梯分析法、實現生產現場的理化數據實測值與感官指標之間相關程度的測算。所述配方產品理化數據與感官指標相關性分析的方法,是在配方產品的生產過程中建立一種能夠確定上述相關性的工藝流程。通過該方法可以在各理化數據中找出與感官指標相關的參數、并分別建立能夠描述出這類相關性的檢測樣本,從而針對生產現場實測的理化數據直接標注出兩者的相關指標,從而為配方產品的質量評定和等級劃分提供定量分析數據。
文檔編號G06F17/00GK1828575SQ20051004247
公開日2006年9月6日 申請日期2005年3月1日 優先權日2005年3月1日
發明者楊寧, 劉挺, 賀英, 傅昕宇, 馬琳濤, 侯瑞春, 丁香乾, 王魯生, 周志明, 魏旭 申請人:中國海洋大學