本發明涉及信息處理領域,尤其涉及一種信息識別的方法及裝置。
背景技術:
隨著科學技術的發展,信息識別技術日益受到人們所關注,例如,終端可以通過信息識別技術來過濾掉推銷、詐騙等垃圾信息,以免用戶受到打擾。
現有的信息識別技術中需要首先識別通知信息中所包括的目標單關鍵詞。在識別出目標單關鍵詞后,為了提高識別的準確性,防止誤判,還需要根據已識別的目標單關鍵詞,進一步識別目標組合關鍵詞,其中,目標組合關鍵詞由目標單關鍵詞組合而成。當識別出通知信息中包含目標組合關鍵詞時,可以確定通知信息為預設類型信息。
但是,在識別目標組合關鍵詞的過程中,需要遍歷所有的組合關鍵詞。在實際應用中,隨著待識別通知信息多樣性的日益增加,組合關鍵詞的數量也將激增,使得信息識別技術具有較高的時間復雜度,進而導致信息識別技術的效率下降。
技術實現要素:
為解決上述技術問題,本發明實施例期望提供一種信息識別的方法及裝置,以降低信息識別的時間復雜度,提高信息識別的效率。
本發明的技術方案是這樣實現的:
第一方面,本發明實施例提供一種信息識別的方法,所述方法包括:接收通知信息;在確定所述通知信息中包括關鍵詞集中的目標單關鍵詞之后,在所述關鍵詞集中獲取包括所述目標單關鍵詞的目標組合關鍵詞;將所述通知信息與所述目標組合關鍵詞進行匹配,獲得匹配結果;當所述匹配結果表明所述通知信息中包括所述目標組合關鍵詞時,將所述通知信息確定為預設類型信息。
進一步地,所述在所述關鍵詞集中獲取包括所述目標單關鍵詞的目標組合關鍵詞,包括:根據所述目標單關鍵詞對應的位置信息,在所述關鍵詞集中獲取所述目標組合關鍵詞。
進一步地,在所述確定所述通知信息中包括關鍵詞集中的目標單關鍵詞之前,所述方法還包括:獲取首字符相同的單關鍵詞;按照所述單關鍵詞的特征值的大小順序,將所述單關鍵詞存儲至所述關鍵詞集中。
進一步地,所述確定所述通知信息中包括關鍵詞集中的目標單關鍵詞,包括:通過對所述通知信息進行分詞,獲取所述通知信息的特征詞;在所述關鍵詞集中查找出與所述特征詞的首字符相同的所述單關鍵詞;根據所述單關鍵詞的存儲順序,依次比較所述特征詞的特征值與所述單關鍵詞的特征值;當在所述單關鍵詞中確定出所述目標單關鍵詞時,確定所述通知信息中包括目標單關鍵詞,其中,所述目標單關鍵詞為與所述特征詞的特征值相等的單關鍵詞。
進一步地,所述在接收通知信息之后,且在確定所述通知信息中包括關鍵詞集中的目標單關鍵詞之前,所述方法還包括:讀取與所述通知信息所屬業務對應的所述關鍵詞集。
第二方面,本發明實施例提供一種信息識別的裝置,所述裝置包括:接收單元,用于接收通知信息;匹配單元,用于在確定所述通知信息中包括關鍵詞集中的目標單關鍵詞之后,在所述關鍵詞集中獲取包括所述目標單關鍵詞的目標組合關鍵詞;將所述通知信息與所述目標組合關鍵詞進行匹配,獲得匹配結果;確定單元,用于當所述匹配結果表明所述通知信息中包括所述目標組合關鍵詞時,將所述通知信息確定為預設類型信息。
進一步地,所述匹配單元,具體用于根據所述目標單關鍵詞對應的位置信息,在所述關鍵詞集中獲取所述目標組合關鍵詞。
進一步地,所述裝置還包括:獲取單元,用于獲取首字符相同的單關鍵詞;存儲單元,用于按照所述單關鍵詞的特征值的大小順序,將所述單關鍵詞存儲至所述關鍵詞集中。
進一步地,所述匹配單元,具體用于通過對所述通知信息進行分詞,獲取所述通知信息的特征詞;在所述關鍵詞集中查找出與所述特征詞的首字符相同的所述單關鍵詞;根據所述單關鍵詞的存儲順序,依次比較所述特征詞的特征值與所述單關鍵詞的特征值;當在所述單關鍵詞中確定出所述目標單關鍵詞時,確定所述通知信息中包括目標單關鍵詞,其中,所述目標單關鍵詞為與所述特征詞的特征值相等的單關鍵詞。
進一步地,所述匹配單元,還用于在確定所述通知信息中包括所述目標單關鍵詞之前,讀取與所述通知信息所屬業務對應的所述關鍵詞集。
本發明實施例提供了一種信息識別的方法及裝置,首先,該裝置在接收到通知信息后,確定該通知信息中所包括的目標單關鍵詞,然后,在關鍵詞集中獲取包括目標單關鍵詞的目標組合關鍵詞,接下來,上述裝置僅將通知信息與目標組合關鍵詞進行匹配,獲得匹配結果,那么,當匹配結果表明通知信息中包含目標組合關鍵詞時,將通知信息確定為預設類型信息。可見,該裝置無需如現有技術一般將通知信息與關鍵詞集中所有的組合關鍵詞進行匹配,而是僅需要和少量的目標組合關鍵詞進行匹配,大大降低了通知消息與關鍵詞的匹配次數,進而降低了信息識別的時間復雜度,提高了信息識別方法的效率。
附圖說明
圖1為本發明實施例一中提供的信息識別的方法流程示意圖;
圖2為本發明實施例二中提供的信息識別的方法流程示意圖;
圖3為本發明實施例三中提供的信息識別裝置的一種結構示意圖;
圖4為本發明實施例三中提供的信息識別裝置的另一種結構示意圖。
具體實施方式
下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述。
實施例一
本實施例提供一種信息識別的方法,應用于信息識別裝置。該信息識別裝置可以為智能手機、平板電腦智能手表等終端,還可以為服務器、網絡監控器等網絡設備,本發明實施例不作具體限定。
參見圖1所示,該信息識別的方法可以包括:
S101:接收通知信息;
在實際應用中,通知信息可以為終端接收到的短信、即時消息等,還可以為網絡設備接收到的用于網絡設備間進行通信的業務信息,本發明實施例不作具體限定。
S102:在確定通知信息中包括關鍵詞集中的目標單關鍵詞之后,在關鍵詞集中獲取包括目標單關鍵詞的目標組合關鍵詞;
這里,為了對通知信息進行識別,信息識別裝置中需要存儲與預設類型信息相對應的關鍵詞集,該關鍵詞集中包括單關鍵詞與由單關鍵詞按照預設規則組成的組合關鍵詞。其中,單關鍵詞與組合關鍵詞可以通過機器學習的方式,從大量的預設類型信息中提取。需要說明的是,在實際應用中預設規則可以根據具體情況進行設置,本發明實施例對此不作限定。較佳的,單關鍵詞可以按照與、或、非等邏輯關系組成組合關鍵詞。
示例的,當信息識別裝置接收到通知信息后,需要首先判斷通知信息中是否包括關鍵詞集中的單關鍵詞。例如,可以通過在通知信息中依次查找關鍵詞集中的所有單關鍵詞,來判斷通知信息中是否包括其中的一個或者多個目標單關鍵詞;還可以先對通知信息進行分詞,進而獲取通知信息的特征詞,然后將特征詞與關鍵詞集中的所有單關鍵詞進行匹配,來判斷通知信息中是否包括關鍵詞集中的單關鍵詞。當通知信息中包括關鍵詞集中的單關鍵詞時,可以確定該單關鍵詞即為目標單關鍵詞,從而確定通知信息中包括目標單關鍵詞;當通知信息中不包括關鍵詞集中的任意一個單關鍵詞時,可以確定通知信息不是預設類型信息。
為了識別結果的準確性,防止誤判,信息識別裝置在確定通知信息中包括目標單關鍵詞之后,還需要確定通知信息中是否包括目標組合關鍵詞。信息識別裝置可以根據目標單關鍵詞,獲取目標組合關鍵詞。例如,信息識別裝置可以通過在關鍵詞集的所有組合關鍵詞中查找目標單關鍵詞的方式,查找出所有包括目標單關鍵詞的組合關鍵詞,即為目標組合關鍵詞。
S103、將通知信息與目標組合關鍵詞進行匹配,獲得匹配結果;
具體地,在S102之后,信息識別裝置需要將通知信息與通過S102確定出來的每個目標組合關鍵詞進行匹配,獲得匹配結果,其中,匹配結果可以表明通知信息中包括該目標組合關鍵詞,也可以表明通知信息中不包括該目標組合關鍵詞。
下面,以目標單關鍵詞按照與、或邏輯關系組成目標組合關鍵詞為例,進行說明。
信息識別裝置可以將目標組合關鍵詞中的目標單關鍵詞分為至少一個小組,每個小組中包括至少一個目標單關鍵詞。其中,每個小組中的目標單關鍵詞之間的邏輯關系為“或”,即只要通知信息中包括該小組中的任意一個目標單關鍵詞,就可以確定通知信息包括該小組。目標組合關鍵詞的小組之間的邏輯關系為“與”,即當通知信息中包括某個目標組合關鍵詞的所有小組時,匹配結果才可以表明通知信息中包括該目標組合關鍵詞。
例如,關鍵詞集中,組合關鍵詞“人壽理財健康車輛保險”中所包括的單關鍵詞為“人壽”、“理財”、“健康”、“車輛”、“保險”,其中,“人壽”、“理財”、“健康”、“車輛”屬于第一小組,“保險”屬于第二小組。首先,由于第一小組中的“人壽”、“理財”、“健康”、“車輛”的組成關系為邏輯“或”,因此,通知信息中只要包括“人壽”、“理財”、“健康”、“車輛”中的任意一個單關鍵詞,則可以表明通知信息中包括第一小組,比如通知信息中包括“人壽”。同時,第一小組與第二小組的組成關系為邏輯“與”,因此,通知信息中還需要包括第二小組,第二小組中只有單關鍵詞“保險”,因此,當通知信息中還包括“保險”時,可以確定通知信息中包括該組合關鍵詞“人壽理財健康車輛保險”,該組合關鍵詞即為目標組合關鍵詞。
這樣一來,僅將通知信息與目標組合關鍵詞進行匹配來獲取匹配結果,而無需如現有技術一般將通知信息與關鍵詞集中所有的組合關鍵詞進行匹配來獲得匹配結果,從而大幅降低了匹配次數,繼而降低了信息識別方法的時間復雜度,進而提高了信息識別方法的效率。
S104、當匹配結果表明通知信息中包括目標組合關鍵詞時,將通知信息確定為預設類型信息。
具體的,由于關鍵詞集中的單關鍵詞與組合關鍵詞提取至大量的預設類型信息中,因此,當通知信息中包括關鍵詞集中的目標單關鍵詞和目標組合關鍵詞時,可以較為準確地確定出通知信息為預設類型信息。
可選的,在關鍵詞集中獲取包括目標單關鍵詞的目標組合關鍵詞時,可以根據目標單關鍵詞對應的位置信息,在關鍵詞集中獲取目標組合關鍵詞。
示例的,關鍵詞集中的所有組合關鍵詞存儲于一個數組中,數組的長度表示關鍵詞集中所有組合關鍵詞的數量,數組中的每個元素對應于一個組合關鍵詞,例如,關鍵詞集中存儲有10000個組合關鍵詞,則該數組的長度為10000。數組中的每個元素又分為若干單元,其中每個單元對應于一個該組合關鍵詞所包括的單關鍵詞,例如,組合關鍵詞“人壽保險”由單關鍵詞“人壽”、“保險”組成,則第1個單元存儲單關鍵詞“人壽”,第2個單元存儲單關鍵詞“保險”。
相應的,在存儲單關鍵詞時,會同時存儲所有包括該單關鍵詞的組合關鍵詞的位置信息。例如,包括單關鍵詞“保險”的組合關鍵詞“人壽保險”、“保險經紀”分別存儲于組合關鍵詞數組中的第1個和第10個。在組合關鍵詞“人壽保險”所對應的數組元素中,單關鍵詞“保險”存儲在第2個單元中,同時,在組合關鍵詞“保險經紀”所對應的數組元素中,單關鍵詞“保險”存儲在第1個單元中,因此,可以將包括單關鍵詞“保險”的組合關鍵詞的位置信息,以二維坐標的方式記為(1,2)、(10,1)。因此,當確定單關鍵詞“保險”為目標單關鍵詞之后,可以根據“保險”的位置信息(1,2)、(10,1),獲取關鍵詞集中組合關鍵詞數組中的第1個和第10個元素所對應的組合關鍵詞作為目的組合關鍵詞。
可選的,在確定通知信息中包括關鍵詞集中的目標單關鍵詞之前,可以首先獲取首字符相同的單關鍵詞;然后,按照的大小順序,將單關鍵詞存儲至關鍵詞集中。
示例的,可以首先計算單關鍵詞首字符的字符編碼的哈希值,然后獲取哈希值相同的單關鍵詞,作為首字符相同的單關鍵詞。接下來,在首字符相同的單關鍵詞中,計算單關鍵詞所有字符的字符編碼的哈希值,作為單關鍵詞的特征值,并按照單關鍵詞特征值的字典排序,將單關鍵詞存儲至關鍵詞集中。例如,首字符相同的單關鍵詞的特征值分別為“abf”、“abc”、“add2”、“ada”、“add1”,則按照字典排序,上述特征值的順序為:“abc”、“abf”、“ada”、“add1”、“add2”。
可選的,在確定通知信息中包括關鍵詞集中的目標單關鍵詞時,可以首先通過對通知信息進行分詞,獲取通知信息的特征詞;然后,在關鍵詞集中查找出與特征詞的首字符相同的單關鍵詞;繼而,根據單關鍵詞的存儲順序,依次比較特征詞的特征值與單關鍵詞的特征值;接下來,當在單關鍵詞中確定出目標單關鍵詞時,確定通知信息中包括目標單關鍵詞,其中,目標單關鍵詞為與特征詞的特征值相等的單關鍵詞。
示例的,可以通過分詞技術對通知信息進行分詞,獲取通知信息的特征詞,其中,分詞技術包括字符串匹配分詞法、詞義分詞法、統計分詞法等。然后,計算特征詞首字符的字符編碼的哈希值。繼而,在關鍵詞集中獲取與特征詞的哈希值相同的單關鍵詞,作為首字符與特征詞的首字符相同的單關鍵詞。例如,首字符與特征詞的首字符相同的單關鍵詞的存儲順序為:“abc”、“abf”、“ada”、“add1”、“add2”,這里,使用每個單關鍵詞的特征值來表示該單關鍵詞,可以看出特征值“abc”、“abf”、“ada”、“add1”、“add2”按照字典排序進行排列。然后,計算特征詞所有字符的字符編碼的哈希值,作為特征詞的特征值,例如,特征詞的特征值為“abe”。接下來,按照字典排序的規則,依次比較“abe”與“abc”、“abf”、“ada”、“add1”、“add2”的大小,來查找特征值與“abe”相等的單關鍵詞。首先,比較“abe”與“abc”的大小,由于“abe”大于“abc”,因此,需要繼續比較“abe”與“abf”,由于“abe”小于“abf”,說明存儲在“abf”之后的特征詞“ada”、“add1”、“add2”均大于“abe”,從而可以確定不存在特征值與“abe”相等的單關鍵詞,繼而確定通知信息中不包括目標單關鍵詞,因此無需繼續比較“abe”與“ada”、“add1”、“add2”的大小。
這樣一來,在首字符相同的單關鍵詞中,按照單關鍵詞的存儲順序,依次匹配特征詞與單關鍵詞,當可以確定不存在與特征詞匹配的單關鍵詞時,無需繼續遍歷剩余的單關鍵詞,從而減少了匹配次數,繼而降低了信息識別方法的時間復雜度,進而提高了信息識別方法的效率。
可選的,在接收通知信息之后,且在確定通知信息中包括關鍵詞集中的目標單關鍵詞之前,可以首先讀取與通知信息所屬業務對應的關鍵詞集。
示例的,為了提高信息識別方法的效率,可以按照通知信息所屬業務的不同,采用分布式識別模塊對通知信息進行識別,同時,不同的業務所對應的關鍵詞集也可以采用分布式存儲。以通知信息是短信為例進行說明,來自同一個手機號碼的短信可以對應于一種業務,或者,來自相同歸屬地手機號碼的短信可以對應于一種業務。
較佳的,通知信息中可以包括識別模塊標識以及關鍵詞集標識,所屬業務相同的通知信息具有相同的識別模塊標識以及關鍵詞集標識,其中識別模塊標識用于指示對通知信息進行識別的分布式識別模塊的標號,關鍵詞集標識用于指示分布式識別模塊需要讀取的關鍵詞集的標號。
例如,來自歸屬地為北京的手機號碼的短信中的識別模塊標識為1或2,則表明需要使用標號為1或2的分布式識別模塊對短信進行識別,因此,標號為1的分布式識別模塊會接收到該短信并對該短信進行識別,如果標號為1的分布式識別模塊處于異常狀態,例如,處于斷電或死機狀態,則標號為2的分布式識別模塊會接收到該短信并對該短信進行識別,從而為短信的即時識別提供了保障。本實施例以標號為1的分布式識別模塊接收并識別該短信為例進行說明。假設短信中的關鍵詞集標識為1和3,則標號為1的分布式識別模塊在接收該短信之后,會首先讀取標號為1和標號為3的關鍵詞集,然后,在標號為1和標號為3的關鍵詞集中確定該短信中是否包括目標單關鍵詞和目標組合關鍵詞。當該短信中包括目標單關鍵詞和目標組合關鍵詞時,將該短信確定為預設類型信息。
這樣一來,按照通知信息所屬業務的不同,采用分布式識別模塊對通知信息進行識別,使得可以通過不同的分布式識別模塊,對不同的通知信息進行識別,有效利用了硬件資源,提高了信息識別方法的效率。同時,不同的業務所對應的關鍵詞集也采用分布式存儲,可以使得所屬同種業務的通知信息在該種業務所對應的關鍵詞集中進行匹配,避免了通知信息與其它業務所對應的關鍵詞進行匹配,不僅提高了匹配效率,還可以防止其它業務所對應的關鍵詞對于識別該種業務的通知信息時所形成的干擾,提高識別的準確性。
本發明實施例提供了一種信息識別的方法與裝置,首先接收通知信息;然后在確定通知信息中包括關鍵詞集中的目標單關鍵詞之后,在關鍵詞集中獲取包括目標單關鍵詞的目標組合關鍵詞;接下來,僅將通知信息與目標組合關鍵詞進行匹配,并獲得匹配結果;繼而,當匹配結果表明通知信息中包含目標組合關鍵詞時,將通知信息確定為預設類型信息。而無需如現有技術一般將通知信息與關鍵詞集中所有的組合關鍵詞進行匹配來獲得匹配結果,從而大幅降低了匹配次數,繼而降低了信息識別的時間復雜度,進而提高了信息識別的效率。
實施例二
本發明實施例提供了一種信息識別的方法,應用于具有信息處理能力的裝置,如終端、服務器、網絡監控器等,如圖2所示,上述信息識別方法,包括:
S201、獲取首字符相同的單關鍵詞;
示例的,可以首先計算單關鍵詞首字符的GB2312(信息交換用漢字編碼字符集)編碼的哈希值,然后獲取哈希值相同的單關鍵詞即為首字符相同的單關鍵詞。
S202、獲取單關鍵詞的特征值;
示例的,可以計算單關鍵詞所有字符的GB2312編碼的哈希值,作為單關鍵詞的特征值;也可以計算單關鍵詞預設字符的GB2312編碼的哈希值,作為單關鍵詞的特征值,在實際應用中,預設字符可以根據具體情況進行設置,本發明實施例對此不做限定。
S203、按照單關鍵詞的特征值的大小順序,將單關鍵詞以及單關鍵詞所對應的位置信息存儲至關鍵詞集中;
這里,單關鍵詞所對應的位置信息,用于指示包括單關鍵詞的組合關鍵詞在關鍵詞集中的位置。
示例的,可以按照單關鍵詞的特征值的字典排序,將單關鍵詞以及單關鍵詞所對應的位置信息存儲至關鍵詞集中。
S204、接收通知信息;
示例的,通知信息可以是終端接收到的短信、微信等信息,也可以是網絡裝置接收到的用于裝置之間進行通信的信息。
S205、讀取與通知信息所屬業務對應的關鍵詞集;
示例的,可以根據通知信息中的關鍵詞集標識,讀取與通知信息所屬業務對應的關鍵詞集。
S206、通過對通知信息進行分詞,獲取通知信息的特征詞;
示例的,可以通過分詞技術對通知信息進行分詞,獲取通知信息的特征詞,其中分詞技術包括字符串匹配分詞法、詞義分詞法、統計分詞法等。
S207、在關鍵詞集中查找出與特征詞的首字符相同的單關鍵詞;
具體的,需要首先在關鍵詞集中查找是否存在首字符與特征詞的首字符相同的單關鍵詞;當在關鍵詞集中查找出首字符與特征詞的首字符相同的單關鍵詞時,表明通知信息中可能包括關鍵詞集中的單關鍵詞,還需要在查找出的單關鍵詞中進行進一步判斷;當在關鍵詞集中沒有查找出首字符與特征詞的首字符相同的單關鍵詞時,表明通知信息中不包括關鍵詞集中的單關鍵詞。
S208、比較特征詞的特征值與第i個單關鍵詞的特征值的大小;當特征詞的特征值大于第i個單關鍵詞的特征值時,執行S209;當特征詞的特征值等于第i個單關鍵詞的特征值時,執行S210;當特征詞的特征值小于第i個單關鍵詞的特征值時,執行S204;
這里,i為大于或等于1的整數。
示例的,單關鍵詞按照字典排序進行存儲,即單關鍵詞按照從小到大的順序進行存儲,因此,當特征詞的特征值大于第i個單關鍵詞的特征值時,說明特征值有可能與特征詞的特征值相等的單關鍵詞位于第i個單關鍵詞之后,應該繼續比較特征詞的特征值與下一個單關鍵詞的特征值的大小;當特征詞的特征值等于第i個單關鍵詞的特征值時,說明特征詞與第i個單關鍵詞相同,可以確定第i個單關鍵詞為目標單關鍵詞,從而確定通知信息中包括目標單關鍵詞;當特征詞的特征值小于第i個單關鍵詞的特征值時,由于排在第i個單關鍵詞之后的單關鍵詞的特征值均大于第i個單關鍵詞的特征值,從而說明排在第i個單關鍵詞之后的單關鍵詞的特征值均大于特征詞的特征值,因此,可以確定排在第i個單關鍵詞之后的單關鍵詞中不存在與特征詞相同的單關鍵詞,進而可以確定通知信息中不包括目標單關鍵詞,應該停止繼續比較特征詞的特征值與下一個單關鍵詞的特征值的大小,從而可以降低比較的次數,提高信息識別方法的效率。
S209、將i+1的值賦給i,返回S208;
這里,第i+1個單關鍵詞為在單關鍵詞的存儲順序中,位于第i個單關鍵詞之后的下一個單關鍵詞。
S210、確定第i個單關鍵詞即為目標單關鍵詞,從而確定通知信息中包括目標單關鍵詞;
具體的,當特征詞的特征值等于第i個單關鍵詞的特征值時,說明特征詞與第i個單關鍵詞相同,可以確定第i個單關鍵詞為目標單關鍵詞,從而確定通知信息中包括目標單關鍵詞。
S211、根據目標單關鍵詞對應的位置信息,在關鍵詞集中獲取目標組合關鍵詞;
示例的,組合關鍵詞可以按照在關鍵詞集中的標號進行存儲,相應的,單關鍵詞對應的位置信息為所有的包括該單關鍵詞的組合關鍵詞在關鍵詞集中的標號。例如,目標單關鍵詞對應的位置信息為1和10,則可以在關鍵詞集中獲取標號為1的組合關鍵詞和標號為10的組合關鍵詞,作為目標組合關鍵詞。
S212、將通知信息與目標組合關鍵詞進行匹配,獲得匹配結果;
具體的,匹配結果可以表明通知信息中包括目標組合關鍵詞,也可以表明通知信息中不包括目標組合關鍵詞。
S213、當匹配結果表明通知信息中包括目標組合關鍵詞時,將通知信息確定為預設類型信息。
具體的,當通知信息既包括目標單關鍵詞又包括目標組合關鍵詞時,可以較為準確地將通知信息確定為預設類型信息。
需要說明的是,本發明實施例提供的信息識別方法步驟的先后順序可以進行適當調整,步驟也可以根據情況進行相應增減,任何熟悉本技術領域的技術人員在本發明揭露的技術范圍內,可輕易想到變化的方法,都應涵蓋在本發明的保護范圍之內,因此不再贅述。
本發明實施例提供了一種信息識別的方法,首先接收通知信息;然后在確定通知信息中包括關鍵詞集中的目標單關鍵詞之后,在關鍵詞集中獲取包括目標單關鍵詞的目標組合關鍵詞;接下來,僅將通知信息與目標組合關鍵詞進行匹配,并獲得匹配結果;繼而,當匹配結果表明通知信息中包含目標組合關鍵詞時,將通知信息確定為預設類型信息。而無需如現有技術一般將通知信息與關鍵詞集中所有的組合關鍵詞進行匹配來獲得匹配結果,從而大幅降低了匹配次數,繼而降低了信息識別的時間復雜度,進而提高了信息識別的效率。
實施例三
本發明實施例提供了一種信息識別裝置,參見圖3所示,裝置30包括:接收單元301,用于接收通知信息;匹配單元302,用于在確定通知信息中包括關鍵詞集中的目標單關鍵詞之后,在關鍵詞集中獲取包括目標單關鍵詞的目標組合關鍵詞;將通知信息與目標組合關鍵詞進行匹配,獲得匹配結果;確定單元303,用于當匹配結果表明通知信息中包括目標組合關鍵詞時,將通知信息確定為預設類型信息。
可選的,匹配單元302,具體用于根據目標單關鍵詞對應的位置信息,在關鍵詞集中獲取目標組合關鍵詞。
可選的,參見圖4所示,裝置30還包括:獲取單元304,用于獲取首字符相同的單關鍵詞;存儲單元305,用于按照單關鍵詞的特征值的大小順序,將單關鍵詞存儲至關鍵詞集中。
可選的,匹配單元302,具體用于通過對通知信息進行分詞,獲取通知信息的特征詞;在關鍵詞集中查找出與特征詞的首字符相同的單關鍵詞;根據單關鍵詞的存儲順序,依次比較特征詞的特征值與單關鍵詞的特征值;當在單關鍵詞中確定出目標單關鍵詞時,確定通知信息中包括目標單關鍵詞,其中,目標單關鍵詞為與特征詞的特征值相等的單關鍵詞。
可選的,匹配單元302,還用于在確定通知信息中包括目標單關鍵詞之前,讀取與通知信息所屬業務對應的關鍵詞集。
需要說明的是,第一,所屬領域的技術人員可以清楚地了解到,為描述的方便和簡潔,上述描述的裝置和單元的具體工作過程,可以參考前述方法實施例中的對應過程,在此不再贅述。
第二,在實際應用中,匹配單元302、確定單元303、獲取單元304、存儲單元305均可由位于裝置30中的中央處理器(Central Processing Unit,CPU)、微處理器(Micro Processor Unit,MPU)、數字信號處理器(Digital Signal Processor,DSP)、或現場可編程門陣列(Field Programmable Gate Array,FPGA)等實現。接收單元301可由位于裝置30中的天線、天線的驅動電路以及又由各種光電接收設備或端口來實現。
本發明實施例提供了一種信息識別裝置,包括:接收單元,用于接收通知信息;匹配單元,用于在確定通知信息中包括關鍵詞集中的目標單關鍵詞之后,在關鍵詞集中獲取包括目標單關鍵詞的目標組合關鍵詞;將通知信息與目標組合關鍵詞進行匹配,獲得匹配結果;確定單元,用于當匹配結果表明通知信息中包括目標組合關鍵詞時,將通知信息確定為預設類型信息。相較于現有技術,通知信息僅與目標組合關鍵詞進行匹配,而無需與關鍵詞集中所有的組合關鍵詞進行匹配,從而大幅降低了匹配次數,繼而降低了信息識別的時間復雜度,進而提高了信息識別的效率。
本領域內的技術人員應明白,本發明的實施例可提供為方法、系統、或計算機程序產品。因此,本發明可采用硬件實施例、軟件實施例、或結合軟件和硬件方面的實施例的形式。而且,本發明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限于磁盤存儲器和光學存儲器等)上實施的計算機程序產品的形式。
本發明是參照根據本發明實施例的方法、設備(系統)、和計算機程序產品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數據處理設備的處理器以產生一個機器,使得通過計算機或其他可編程數據處理設備的處理器執行的指令產生用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些計算機程序指令也可存儲在能引導計算機或其他可編程數據處理設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產生包括指令裝置的制造品,該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些計算機程序指令也可裝載到計算機或其他可編程數據處理設備上,使得在計算機或其他可編程設備上執行一系列操作步驟以產生計算機實現的處理,從而在計算機或其他可編程設備上執行的指令提供用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
以上所述,僅為本發明的較佳實施例而已,并非用于限定本發明的保護范圍。