專利名稱:發現帶有噪聲的模式的系統和方法
技術領域:
本發明涉及發現長項序列中的有效模式,并且更具體地涉及一種識別帶有噪聲的序列中的有效模式的系統和方法。
背景技術:
隨著存儲和使用大量數據,發現并理解大的數據集中的有效模式變為更加重要。在許多新領域中以及在現有技術的許多新應用中,有效模式的發現更為重要。在R.Agrawal等的“Mining association rules between sets ofitems in Large database”(Proc.ACM SIGMOD Conf.onManagement of Data,207-216,1993)文章中提出把對模式的支持(出現次數)看成是有效性的度量。如Agrawal等人的文中所討論那樣,輸入是一組事務,每個事務包含一組項。一組項的有效性是通過含有該組項的事務數量確定的。
由于存在噪聲,一個符號可能由一些其它符號錯誤表示。這種替代可能阻止識別出某模式的出現,并且接著大大降低對該模式的支持。從而,噪聲可能“掩蓋”常見的模式。這種現象普遍地存在于許多應用中。
例如,在生物醫學研究中,氨基酸的突變是生物環境中研究的普遍現象。某些突變被證明在常規環境是按不可忽略概率出現的并且對生物體的生物功能產生很小的改變。例如人體內的氨基酸N可能由于對行為很小影響突變到D。在這種意義下,不應把這些氨基酸看成是完全獨立的。
在性能分析領域中,許多系統監視應用涉及收集并分析取連續數值的屬性。一種處理數據的常見方法是把域量化成多個分類。如果某屬性的真值接近量化邊界,觀測值落入相鄰的分類中并用一個不同的標記表示的可能性相當大。希望在數據挖掘處理中能夠考慮到這種類型的失真。例如,在消費者行為中,消費者在超市中常常因為各種原因,例如所需產品缺貨或錯放,消費者常常購買和他們所希望的略微不同的產品和牌子。項目匹配中模糊能揭露出消費者的真實購買意圖。
當模式為很長,時該問題成為關鍵性問題,因為長模式的出現更會由噪聲引起失真。通常,如果把氨基酸作為分析的粒度,基因表達式的長度可高達數百個鏈。一些臨床研究表明,氨基酸N、K和V分別相對地更可能突變到D、R和I。突變后的對應基因表達式可能和標準表達式不同。把它們看成該標準表達式的可能(退化)出現要比把它們當成完全獨立的基因表達式更為合理。
發明內容
從而,需要一種在考慮噪聲影響下發現有效模式的系統和方法。還需要一種新的說明發現有效模式中的數據的突變或者自然發生變化的度量標準。
一種用于確定數據序列中的模式的系統和方法建立一個相容性矩陣,該矩陣提供一個項目的實際出現和在該數據序列的每個項目中該項目或者其它項目的觀測出現之間的概率。生成候選模式。這些候選模式包含該數據序列中的項目。對照該數據序列檢驗這些候選模式以便根據該相容性矩陣確定匹配值,并且根據帶有超過一閾值的匹配值的候選模式組確定各有效匹配。
在替代的系統和方法中,項目可以包括符號并且可以構建相容性矩陣,包括構建一個確定數據序列中的任何二個符號之間的匹配的矩陣。該相容性矩陣可包括行和列并且該相容性矩陣中各個條目和一個行及一個列對應。二個項目之間的匹配值可包括0和1之間的數。
可對照該數據序列檢驗各候選模式以便根據該相容性矩陣確定匹配值。對于一個模式P和一個符號序列S,這可包括通過相對于S中每個帶有1個符號的子序列S′聚集P確定P相對于S的總匹配值。該確定P相對于S的總匹配值可包括通過取該數據序列的每個位置處的符號之間的匹配值的乘積確定P和S′之間的匹配值。
可以通過試驗或專家見解確定一個項目的實際出現的概率。項目可包括符號,并且可利用層次法產生候選模式,該方法中在每一層上對候選模式中考慮的符號總數量添加一個附加的符號。如果一候選模式的所有子模式滿足閾值,這些候選模式可包括一個有效模式。根據各個具有超過一閾值的匹配值的候選模式確定有效匹配,從而對于每個候選模式,對照該輸入序列驗證該候選模式的匹配值以確定一組滿足該閾值的模式。
從下面連同各附圖閱讀的示范實施例的詳細說明,本發明的這些和其它目的、特征和優點會變得清楚。
參照各附圖在下面的優選實施例的說明中詳細地說明本發明,附圖中圖1描述一個依據本發明的相容性矩陣的例子;圖2是一個框/流程圖,其示出一種依據本發明的根據匹配模型發現有效模式的系統/方法;圖3是一個框/流程圖,其示出一種依據本發明的用來尋找用于圖2的框201的單候選模式的系統/方法;圖4是一個框/流程圖,其示出一種依據本發明的用來為圖2中的框203收集每個候選模式的匹配的系統/方法;以及圖5是一個框/流程圖,其示出一種依據本發明的用來為圖2中的框205產生下一層的候選模式的系統/方法。
具體實施例方式
本發明提供一種在考慮噪聲影響下發現數據中的有效模式的系統和方法。本發明提供一種新的說明發現有效模式中的數據的突變或自然發生的變化的度量標準。本發明允許模式匹配中的某種靈活性。用于模式的現有技術模型典型地只考慮數據中的準確模式匹配。本發明提供一種更靈活的允許模式匹配中的模糊性的模型。包含一個相容性矩陣以便能清楚地表示符號替代中的似然性。該矩陣中的每個項對應一對符號(x,y)并且表示觀測到y下x為真值的條件概率。本發明還提供一種發現滿足某最小匹配閾值的模式的有效方法。
應理解圖1-4示出的各個部分可以按各種形式的硬件、軟件或它們的組合實現。這些部分最好用軟件在一個或多個具有處理器、存儲器和輸入/輸出接口的適當編程的通用數字計算機上實現。該軟件最好以可以包含在某軟件應用中的編程代碼實現。
現參照其中用相同的數字代表相同的或相似的部分的各附圖,并且初始參照示出依據本發明的相容性矩陣100的示范例子的圖1。相容式矩陣100建立觀測和該觀測的基礎本質之間的自然橋梁或連接。從而把每個觀測到的符號解釋為一組按不同概率出現的符號。例如,觀測到的d1對應d1、d2和d3分別按概率0.9、0.05和0.05的真實出現。類似地,把觀測到的符號組合看成一組按不同程度出現的模式。從而建議用一種以下稱為“匹配”的新的度量標準量化模式的有效性并且把它定義為觀測到的序列中的某模式的“累積出現量”。
對于一個序列模式p=(p1,p2,…,p1),p對1個符號或項目(d1,d2,…,d1)的序列S的匹配是S來自P的概率。從而,P對S的匹配為C(p1,d1)×C(p2,d2)×…×C(p1,d1),其中C(p,d)是d在模式p中的相容性。一模式中的“不介意”位置用“*”標志。很清楚C(*,d)=1。對于帶有超過1個符號的序列S,對于S中的每1個相繼的符號S′,計算P和S′之間的匹配,并且P和S之間的總匹配是P和所有可能的S′之間的匹配的和。對于一個模式P和一個符號序列S,P對S的總匹配是P對S中的每個帶有1個符號的子序列S′的聚集。P和S′間的匹配定義為每個位置處符號間的匹配的乘積。
模式的匹配表示若不存在噪聲期望“實際支持”。可以通過經驗性試驗得到相容性矩陣。例如,對于氨基酸的突變,專家可以利用臨床試驗確定二種氨基酸間的突變的概率。在其它例子中,可以利用營銷試驗確定對商標名或產品類型的優選選擇,或者可以利用專家見解估計概率,等等。
如圖1中所示,相容性矩陣100包括多個條目100。該矩陣中的每個條目表示條件概率P(真值|觀測值)。例如,若觀測到符號d1,則在0.9的概率下真值為d1。另一方面,在0.05的概率下,真值可為d2。矩陣示意性地示出四個項目或符號d1、d2、d3和d4的概率;但是,矩陣100可包括任何數量的項目。
參照圖2,圖中示出一種依據本發明的一個實施例的挖掘序列模式的系統/方法。為1個位置的序列模式進行挖掘,這些模式滿足一個最小匹配閾值。在框2 01,生成一組包括一個(1)符號(用C1表示)的候選模式(C),其余1-1個位置填以表示“不介意”位置的“*”。會參照圖3更詳細地對此加以解釋,把計數器j初始化為1。在框202,進行檢查以判定Cj是否為空,若Cj不為空,在框203找出這些模式在候選組Cj中的匹配值。在框204,將匹配值滿足一最小匹配閾值的模式Xj添加到組Lj中。根據Lj,在框205產生一個新的候選模式組(Cj+1)。Cj+1包括各個帶有j+1個非“*”符號的模式。繼續該進程,直到在框202中判定Cj+1(或第一次迭代中Cj)是空的。
可以通過一個簡單的例子解釋圖2。一個數據集或輸入序列具有一個長的符號序列(例如一百個)。希望確定該輸入序列中的有效模式。在該例子中,模式可包括一個、二個、三個或四個符號(例如,1=4)。同樣在該例子中,可能的符號組包括a、b、c和d。在框201中,C1產生各個帶有一個符號的候選模式,例如,C1的所有的單符號模式包括(a,*,*,*),(b,*,*,*), (c,*,*,*)和(d,*,*,*)。由于Cj(C0為該情況)是非空的(存在至少一個的單符號模式),處理在框203中繼續。在框203,為每個候選模式收集匹配值。匹配值量化一個模式的有效性并且用觀測到的序列中的一個模式的“累積出現量”定義。如果它的所有子模式滿足一個最小匹配閾值,該模式是候選的。對于每個候選模式,對照輸入序列驗證該模式的確切匹配,并且確定滿足該最小匹配閾值的模式組。
對于數據集的輸入序列中的1個符號的序列模式p=(p1,p2,…,p1)(例如1個相繼符號),p對1個符號的序列S(本例中第一次迭代時一個符號)的匹配為S來自P的概率。從而,P對S的匹配為(p1,d1)×C(p2,d2)×…×C(p1,d1),其中C(pi,di)是di在模式pi中的相容性,而i=1,2,…,1。在本例中,d1=a,d2=b,d3=c和d4=d。模式中的“不介意”位置用“*”標記。對于多于1個符號的序列S,對S中的每1個相繼符號S′,計算P和S′之間的匹配,并且P和S之前的總匹配是P和所有可能的S′之間的匹配的和(見圖3)。來自相容性表的概率(例如見圖1)組合到匹配值中以提供靈活性,如前面說明那樣。
一旦確定匹配值,把具有大于一閾值的匹配值的候選模式Cj確定為有效模式和用X表示,并且在框204把它們添加到存儲有效模式的Lj中,在本例中,(a,*,*,*),(b,*,*,*)是有效的,因為它們的匹配值超過匹配閾值。把有效模式組X=(a,*,*,*),(b,*,*,*)添加到Lj中。
然后,在框205中生成新的候選模式組。這是通過首先檢查是否所有的“低層”模式都在L中。通過對上面的例子當j=3時對此作出演示。如果低層模式(a,b,*,*),(a,*,c,*)和(a,b,*,*)是有效的,即在L中,則(a,b,c,*)(高層模式)是一個候選模式并且插入到C3中。從而,C3是非空的。當該方法循環回到框202時,C3是非空的并且因此該方法繼續。但是,如果三個模式(a,b,*,*),(a,*,c,*)和(a,b,*,*)中的一個不是有效的,即不在L中,則(a,b,c,*)不是候選并且不插入到C3中。從而,如果C3是空的,則該方法終止。
在這種方式下,依據本發明對輸入序列提供更加靈活的模式分析,圖2的結果作為輸出的組L,其包括該數據集(輸入序列)中的所有有效模式。L有益地不僅提供準確匹配的序列而且提供具有高匹配概率的但出于某種原因,例如噪聲或環境突變,不是準確匹配序列的序列。
參照圖3更詳細地說明圖2的框201中的單符號候選模式的生成。在框301中,對于輸入序列(來自該數據集)中的每個不同的符號S,在框302中生成一個帶有1個位置的模式。對于這次迭代,除了第一個位置為S外所有其它位置為“*”。在下個以及以后的迭代中,根據有效匹配值生成候選模式C。框201代表初始化,以便開始對有效模式的搜索。
參照圖4,依據圖2的框203對每個候選模式C進行匹配值的收集。在框401,把變量m設置為0。在框402,對于輸入序列中的稱為窗口Y的每1個相繼符號,在框403中用輸入序列中的1個符號和P之間的匹配增大變量m。在一個例子中,如果候選模式包括兩個符號和兩個“*”,窗口Y每次沿著輸入序列移動1個符號并且進行該窗口中的符號和該模式P中的符號之間的匹配比較。
參照圖5更詳細地說明圖2的框205中的生成新的候選模式組C3+1。在框501中,Cj+1被初始化為空。Ci+1可潛在地是j+1個非“*”符號新生成的候選模式組。對于每個帶有j+1個非“*”符號的可能模式P(框502),如果P的所有子模式滿足該最小匹配閾值(框503),即都在L中,則在框504中把P插入到Cj+1中。如果當并且僅當對于每個位置i,p′i=pi或pi=*,則p′=(p′1,p′2,…,p′1)是p=(p1,p2,…,p1)的子模式。
工業可應用性依據本發明的在大數據集中的模式發現可用在許多應用中,例如包括計算生物研究、消費者行為分析、系統性能分析等。在噪聲環境下,觀測到的序列可能不準確地反映基礎行為。例如,人體中的氨基酸N有可能在很小影響蛋白質的生物功能下突變成D。觀測中出現D可以和適當方式下來自N的可能突變相關。本發明相容性矩陣提供一種與觀測到真實基礎值的概率聯系。還提供一種新的度量標準“匹配”以捕獲對無噪聲環境下所期望的模式的“真實支持”。
在說明了一種用來發現帶有噪聲的模式的系統和方法的各優選實施例(它們只是示范性的而不是限制性的)后,應注意,業內人士根據上面的講授可以做出各種修改和改變,從而應理解,在附屬權利要求書所概述的本發明的范圍和精神內,可對所公開的本發明的各具體實施例做出改變。在按專利法所要求的詳細和特殊性說明本發明下,所要求的并且希望受到專利法保護的專利范圍在附屬權利要求書中闡述。
權利要求
1.一種確定數據序列中的模式的方法,特征在于建立一個相容性矩陣(100),該矩陣提供一個項目的實際出現和在該數據序列的每個項目中該項目或者其它項目觀測出現之間的概率;生成候選模式(201),這些候選模式包含該數據序列中的項目;對照該數據序列檢驗這些候選模式以便根據該相容性矩陣確定匹配值(203);以及根據帶有超過某閾值的匹配值的候選模式組確定各有效匹配(204)。
2.權利要求1所述的方法,其中這些項目包括符號,并且其中建立相容性矩陣包括建立一個矩陣從而確定該數據序列中的任何兩個符號之間的匹配。
3.權利要求1所述的方法,其中該相容性矩陣包括行和列并且該相容性矩陣中的每個條目和一個行以及一個列對應。
4.權利要求1所述的方法,其中兩個項目之間的匹配值包括0和1之間的一個數。
5.權利要求1所述的方法,其中對照該數據序列檢驗各候選模式以便根據該相容性矩陣確定匹配值包括對于一個模式P和一個符號序列S,通過相對于S中的每個帶有1個符號的子序列S′聚集P,確定P相對于S的總匹配值。
6.權利要求5所述的方法,其中確定P相對于S的總匹配值包括通過取該數據序列的每個位置處的符號之間的匹配值的乘積確定P和S′之間的匹配值。
7.權利要求1所述的方法,其中通過試驗和專家見解之一確定一個項目的實際出現的概率。
8.權利要求1所述的方法,其中項目包括符號,并且生成候選模式包括利用層次法生成候選模式,在該方法中在每一層上對候選模式中考慮的符號總數添加一個附加的符號。
9.權利要求8所述的方法,其中候選模式的所有子模式都滿足該閾值,這些候選模式可包括一個有效模式。
10.權利要求8所述的方法,其中根據具有超過一閾值的匹配值的各候選模式確定有效匹配包括對每個候選模式,對照該輸入序列驗證該候選模式的匹配值以確定一組滿足該閾值的模式。
11.一種實現權利要求1-10中的任一方法的計算機系統。
全文摘要
一種用于確定數據序列中的模式的系統和方法(圖1)建立一個相容性矩陣(100),該矩陣提供一個項目的實際出現和該數據序列的每個項目中該項目或者其它模式的觀測出現之間的概率。生成候選模式(201)。這些候選模式包含該數據序列中的項目。對照該數據序列檢驗這些候選模式以便根據該相容性矩陣確定匹配值(203),并且根據帶有超過某閾值的匹配值的各候選模式確定各有效匹配。
文檔編號G06F19/00GK1498387SQ02806878
公開日2004年5月19日 申請日期2002年3月22日 優先權日2001年3月22日
發明者偉 王, 王偉, 渝, 楊炯, P·S-L·渝 申請人:國際商業機器公司