專利名稱::一種獲取口語詞條的方法、裝置以及一種輸入法系統的制作方法
技術領域:
:本發明屬于信息處理領域,特別是涉及一種從互聯網信息中提取口語詞條的方法和裝置,以及一種應用在前述過程中得到的口語詞條和口語模板的輸入法系統和一種分詞裝置。
背景技術:
:當前的輸入法系統(包括中文、日文等等)都是基于其詞庫系統以及詞庫系統中的詞頻來為使用者在信息輸入過程中提供候選詞的排序。候選詞的排序是使用者在信息輸入過程中首選詞命中率高低的一個重要指標。所述首選詞命中率是指,接收用戶的輸入信息之后,排序在前的詞匯或字是用戶最需要的。現有技術為了提高首選詞命中率,采取了各種措施,例如,擴大詞庫的容量,存儲更多的詞條;或者通過各種方式獲取最近的新詞以及更準確的詞頻信息;或者,釆用加載專業詞庫的方式,提高用戶在某些特殊輸入情況下的首選詞命中率。應該說,這些技術改進在一定程度上可以提高用戶的首選詞命中率,但是對于本發明期望處理的口語詞條,卻是無能為力。本發明期望獲取的口語詞條實際上可以分為兩個類別,一是普通的口頭用語,一是網絡語言。對于口頭用語,由于人們對口頭用語的使用比書面語更力口的靈活和不拘一格,如,"試試看"、"走一走"、"吃個飯"、"打會球,,等等,所以釆用現有的各種詞匯的收集方法難以獲得準確的和足夠全面的口頭用語。而對于網絡語言,由于其具有更為復雜的特性,例如漢字/凄t字/字母混用("8錯"、"期待ing,,等),甚至還有符號的參與;錯詞率非常高("娃哈哈"、"哇哈哈"、"挖哈哈,,等);隨時間的動態變化性4艮強。所以釆用現有的各種詞匯的收集方法更是無法獲取。現今對上述的口語詞條的獲取和研究往往采用人工的形式,因為研究人員的主觀能動性可以很好的滿足這些口語詞條的復雜特性。例如,由北京廣播學院播音主持藝術學院研究員于根元編纂的《中國網絡用語詞典》在2001年6月《分正式出版。該詞典收入詞條2000多條,正文約40萬字,它的來源就是依靠人工整理。但是人工收集有著難以克服的缺陷收集速度太低、成本太高;并且,其收集速度難以適應口語詞條的更新速度。進而,由于語言的更新速度越來越快,新的網絡語言詞匯及用法層出不窮,單純依靠人工的方式要持續耗費大量的人力物力。由于隨著互聯網的興起,人們相互交流通信的代價大為降低,發布信息更多也更便捷,因此,語言也以一種前所未有的速度瘋狂發展。網民在BBS、Blog和即時通訊工具上發布信息的過程中,使用口語詞條的機會大大增加,而現有的輸入法卻無法滿足這樣需求。因此,當前需要本領域技術人員迫切解決的一個技術問題就是提出一種創新的口語詞條的自動獲取方法,以獲得比較準確和全面的口語詞條集合;進而為用戶的信息輸入提供方便。
發明內容本發明所要解決的技術問題是提供一種能夠自動獲取口語詞條的方法和裝置,以從豐富的互聯網語料中獲取所需的口語詞條,能夠快速地獲取較大量的口語詞匯并應用到中文輸入法、中文分詞乃至語言研究中。相應的,本發明還提供了一種應用在前述過程中得到的口語詞條和口語模板的輸入法系統,能夠幫助用戶更好的輸入口語詞匯,提高輸入體驗和輸入效率。相應的,本發明還提供了一種應用在前述過程中得到的口語詞條和口語模板的分詞裝置,能夠實現對原始語料更合理的切分。為了解決上述問題,本發明公開了一種獲取口語詞條的方法,包括定向獲取所需的互聯網語料,形成語料庫;按照預置策略,從所述語料庫中抽取符合條件的詞條;所述預置策略與口語詞條的各種特征相關;針對抽取得到的詞條進行過濾,得到所需的口語詞條。優選的,可以通過以下預置策略完成對詞條的抽取預置多個規則模板,所述規則模板用于描述詞條中的單字組合方式;依據所述規則模板進行多次詞條抽取,每次詞條抽取采用一個或者多個規則模板。優選的,也可以通過以下預置策略完成對詞條的抽取針對語料庫中一給定的字符串,依據分詞詞庫進行切分;將分詞碎片轉換為多個候選詞條;依據預置的特征庫,判斷一候選詞條是否屬于口語詞條,如果是,則抽取。優選的,還可以通過以下預置策略完成對詞條的抽取針對語料庫中一給定的字符串,依據分詞詞庫進行切分;將分詞碎片轉換為多個候選詞條;依據預置的多個規則模板進行多次詞條抽取,每次詞條抽取采用一個或者多個規則模板;所述規則模板用于描述詞條中的單字組合方式。優選的,所述方法還可以包括分析所獲取的口語詞條,針對預置策略提供反饋信息;所述反饋信息用于改進原有規則模板或特征,或者提供新規則模板或新特征。優選的,所述方法還可以包括將獲得的口語詞條添加至輸入法詞庫中;和/或,將依據反饋信息改進后的抽取策略中的規則模板添加至輸入法智能組詞規則庫中。優選的,所述方法還可以包括將獲得的口語詞條添加至語料分詞詞庫中;和/或,將依據反饋信息改進后的抽取策略中的規則模板添加至語料分詞規則庫中。優選的,所述方法還可以包括針對詞條進行糾錯。優選的,所述方法還可以包括基于詞條在發音上的相似性,將詞條的各種變體轉變為標準形式。優選的,所述方法還可以包括對所收集的互聯網語料進行數據凈化預處理。依據本發明的另一實施例,還公開了一種獲取口語詞條的裝置,包括語料獲取模塊,用于定向獲取所需的互聯網語料,形成語料庫;詞條抽取模塊,用于按照預置策略,從所述語料庫中抽取符合條件的詞條;所述預置策略與口語詞條的各種特征相關;過濾模塊,用于針對抽取得到的詞條進行過濾,得到所需的口語詞條。其中,所述詞條抽取模塊可以進一步包括多個規則模板,所述規則模板用于描述詞條中的單字組合方式;模板抽取子模塊,用于依據所述規則模板進行多次詞條抽取,每次詞條抽取采用一個或者多個規則模板。或者,所述詞條抽取;f莫塊也可以進一步包括切分器,用于針對語料庫中一給定的字符串,依據分詞詞庫進行切分;轉換器,用于將分詞碎片轉換為多個候選詞條;特征抽取子模塊,用于依據預置的特征庫,判斷一候選詞條是否屬于口語詞條,如果是,則抽取。或者,所述詞條抽取模塊也可以進一步包括切分器,用于針對語料庫中一給定的字符串,依據分詞詞庫進行切分;轉換器,用于將分詞碎片轉換為多個候選詞條;多個規則才莫板,所述規則模板用于描述詞條中的單字組合方式;模板抽取子模塊,用于依據預置的多個規則模板進行多次詞條抽取,每次詞條抽取采用一個或者多個規則模板。優選的,所述的裝置還可以包括分析反饋才莫塊,用于分析所獲取的口語詞條,針對預置策略提供反饋信息;所述反饋信息用于改進原有規則模板或特征,或者提供新規則模板或新特征。優選的,所述的裝置還可以包括糾錯模塊,用于針對詞條進行糾錯。優選的,所述的裝置還可以包括詞條歸一化模塊,用于基于詞條在發音上的相似性,將詞條的各種變體轉變為標準形式。依據本發明的另一實施例,還公開了一種輸入法系統,包括詞庫;口語模板;輸入接口單元,用于接收用戶的輸入信息;信息轉換單元,用于依據所接收的輸入信息,檢索詞庫,得到相應的候選項;智能組詞單元,用于依據所述口語模板,智能組詞得到相應的候選項;顯示輸出單元,用于展示候選項,并輸出用戶選擇的候選項。其中,所述口語模板可以通過以下方式得到定向獲取所需的互聯網語料,形成語料庫;按照預置的規則模板,從所述語料庫中抽取符合條件的詞條;針對抽取得到的詞條進行過濾,得到所需的口語詞條;分析所獲取的口語詞條,針對預置的規則模板提供反饋信息;依據反饋信息優化所述預置策略中的規則模板,得到口語模板。依據本發明的另一實施例,還公開了另一種輸入法系統,包括存儲有口語詞條的詞庫;所述口語詞條通過以下方式獲取定向獲取所需的互聯網語料,形成語料庫;按照預置策略,從所述語料庫中抽取符合條件的詞條;針對抽取得到的詞條進行過濾,得到所需的口語詞條;其中,所述預置策略與口語詞條的各種特征相關;口語模板;所述口語模板通過以下方式得到分析所獲取的口語詞條,針對預置策略提供反饋信息;依據反饋信息優化所述預置策略中的規則模板,得到口語模板;輸入接口單元,用于接收用戶的輸入信息;信息轉換單元,用于依據所接收的輸入信息,檢索詞庫,得到相應的候選項;智能組詞單元,用于依據所述口語4莫板,智能組詞得到相應的候選項;顯示輸出單元,用于展示候選項,并輸出用戶選擇的候選項。依據本發明的另一實施例,還公開了一種分詞裝置,包括分詞詞庫;存儲有口語模板的分詞規則庫,所述口語才莫板通過以下方式得到定向獲取所需的互聯網語料,形成語料庫;按照預置的規則模板,從所述語料庫中抽取符合條件的詞條;針對抽取得到的詞條進行過濾,得到所需的口語詞條;分析所獲取的口語詞條,針對預置的規則模板提供反饋信息;依據反饋信息優化所述預置策略中的規則模板,得到口語模板;分詞執行模塊,用于利用分詞詞庫中的詞條和分詞規則庫中的規則模板對語料進行分詞。依據本發明的另一實施例,還公開了另一種分詞裝置,包括存儲有口語詞條的分詞詞庫,所述口語詞條通過以下方式獲取定向獲取所需的互聯網語料,形成語料庫;按照預置策略,從所述語料庫中抽取符合條件的詞條;針對抽取得到的詞條進行過濾,得到所需的口語詞條;其中,所述預置策略與口語詞條的各種特征相關;存儲有口語沖莫板的分詞規則庫,所述口語4莫板通過以下方式得到分析所獲取的口語詞條,針對預置策略提供反饋信息;依據反饋信息優化所述預置策略中的規則模板,得到口語模板;分詞執行模塊,用于利用分詞詞庫中的詞條和分詞規則庫中的規則模板對語料進4于分詞。依據本發明的另一實施例,還公開了一種智能組詞的方法,包括接收用戶的輸入信息;依據所述輸入信息與預置的口語才莫板,智能組詞得到相應的候選項;展示候選項,并輸出用戶選擇的候選項。優選的,所述口語模板可以通過以下方式得到定向獲取所需的互聯網語料,形成語料庫;按照預置的規則模板,從所述語料庫中抽取符合條件的詞條;針對抽取得到的詞條進行過濾,得到所需的口語詞條;分析所獲取的口語詞條,針對預置的規則模板提供反饋信息;依據反饋信息優化所述預置策略中的規則模板,得到口語模板。與現有技術相比,本發明具有以下優點首先,本發明能夠自動實現從互聯網語料庫中抽取大量的口語詞條,效率較高而且成本較低,并且可以適應口語詞匯變化更新速度比較快的特性。其次,本發明通過對口語模板的迭代優化(包括改進和擴充),可以得到非常貼近實際情況、準確率和覆蓋率較高的口語模板;進而,利用這樣的口語模板進行智能組詞,可以不受限于詞庫中所收錄的口語詞條實例;以及,利用這樣的口語模板進行分詞,可以得到對原始語料的合理切分。圖1是本發明一種獲取口語詞條的方法實施例的步驟流程圖2是本發明一種獲取口語詞條的方法優選實施例的步驟流程圖3是本發明一種獲取口語詞條的裝置實施例的結構框圖4是本發明一種輸入法系統實施例的結構框圖5是本發明另一種輸入法系統實施例的結構框圖6是本發明一種分詞裝置實施例的結構框圖7是本發明另一種分詞裝置實施例的結構框圖。具體實施例方式為使本發明的上述目的、特征和優點能夠更加明顯易懂,下面結合附圖和具體實施方式對本發明作進一步詳細的說明。本發明所述的方法可以在由計算機執行的計算機可執行指令的一般上下文中描述,例如程序模塊。一般地,程序模塊包括執行特定任務或實現特定抽象數據類型的例程、程序、對象、組件、數據結構等等。也可以在分布式計算12環境中實踐本發明,在這些分布式計算環境中,由通過通信網絡而被連接的遠程處理設備來執行任務。在分布式計算環境中,程序模塊可以位于包括存儲設備在內的本地和遠程計算機存儲介質中。參照圖1,示出了本發明一種獲取口語詞條的方法實施例,具體可以包括步驟IOI、定向獲取所需的互聯網語料,形成語料庫。語料一詞,一般可以理解為用于獲取所需信息訓練文本處理模型的文本樣本;其精度、覆蓋面直接決定了獲取信息的質量和訓練出的模型精度。而本發明所希望獲取的口語詞條在某些互聯網語料中出現的比較頻繁,而在另外一些互聯網語料中出現的則比較少,因此,本發明需要定向獲取所需的語料。定向獲取的方式可以提高語料的質量,避免由于語料不精導致的一些本來不屬于抽取目標的詞匯卻混入了符合抽取條件的行列,比如一些工作招聘信息中的短句或縮寫等。例如,本發明可以獲取那些口語詞條頻繁出現的BBS、blog、用戶個性化口語詞庫或文本/語音聊天記錄等資源。獲取方式可以為使用定向網絡蜘蛛(focusedcrawler)抽取,或者從可信任的用戶詞庫或聊天記錄庫中獲得,比如,搜狗輸入法官方主頁提供的用戶細胞詞庫上傳功能等。而對于定向抽取,站點的選取可以是指定站點抽取,也可以是基于抽取網頁內容的分類點過濾。而具體的抽取過程屬于本領域公知的技術內容,在此不再詳述。步驟102、按照預置策略,從所述語料庫中抽取符合條件的詞條。(Out-of-Vocabularyword,未登錄詞)一是詞典詞條的口語化派生用法,如"吃個飯"、"高高興興"、"試試看";另一類是在互聯網應用中廣為使用的互聯網語言,如"轟趴"、"醬紫"、"8錯"、"PPMM"等。雖然前一類別的詞條在人們的日常交際中使用更為普遍,但是由于主要以聲音為媒介,所以是無法收集到相關語料的,而隨著互聯網的興起,這些詞匯越來越多的出現在互聯網這個海量的資源倉庫里,因此,本發明才得以對這些詞條進行抽取和挖掘。另一方面,互聯網語言和傳統的口頭語言這兩類之間也沒有絕對的界限,它們總是互相影響,互相滲透,而且在互聯網這個海量的資源庫中同存共生。也正因為此,本發明才能通過一些方法,把它們及時大量的抽取出來并加以研究。當然,為了能夠抽取獲得符合條件的詞條,首先需要對上述詞條進行特征分析,進而建立相應的抽取策略。步驟102中的策略就可以基于對口語詞條的特征分析情況進行設置,一般的,抽取策略可以分為規則模板和統計分類兩種,或者二者的混合情況。下面簡單介紹方式l可以通過以下預置策略完成對詞條的抽取預置多個規則模板,所述規則模板用于描述詞條中的單字組合方式;依據所述規則模板進行多次詞條抽取(當然,在規則模板較少的情況下,也可以僅僅進行一次抽取),每次詞條抽取釆用一個或者多個規則模板。例如,ABC(抽支煙)、AAB(試試看)、ABAB(歡歡喜喜)模板等,每次可以設定一個或多個模板用于詞條抽取。方式2可以通過以下預置策略完成對詞條的抽取針對語料庫中一給定的字符串,依據分詞詞庫進行切分;將分詞碎片轉換為多個候選詞條;依據預置的特征庫,判斷一候選詞條是否屬于口語詞條,如果是,則抽取。方式2屬于統計分類的一種具體實現,其原理主務濃托于機器學習領域的分類理論。例如,給定一個長度為n的漢字串,首先使用一個分詞器對該串進行切分,其中的口語串因為未收錄在分詞詞典中而成為分詞碎片;然后把分詞碎片轉化為一系列的可能的口語詞條候選,再根據口語詞條的一些特征判定每一個候選是或者不是口語詞條,從而完成分類。例如,^a居詞條的頻率,標點、長度等上下文特征進行判定等等。由于發現的口語詞條4艮可能在接下來的分詞過程中出現,這些詞條可以動態的加入分詞詞庫中,提升分詞精度。方式2主要針對分詞碎片的口語詞條抽取,如果釆用方式1進行抽取的話,則可以不需要分詞處理。上面兩個方式相比,方式l所采用的規則模板的抽取方案,其執行過程比較簡單,但是其詞條抽取的質量和數量受限于模板自身的質量和覆蓋面。方式2所采用的統計分類方案雖然可操作性較高,但需要大量的數據做統計,但是實際中往往存在"數據稀疏"問題。因此在本發明的優選實施例中,可以考慮兩者的混合,將一些規則模板等判定標準以特征形式整合到統計判別分類模型中,往往能獲得更好的效果。詳見下面的方式3的介紹。方式3可以通過以下預置策略完成對詞條的抽取針對語料庫中一給定的字符串,依據分詞詞庫進行切分;將分詞碎片轉換為多個候選詞條;依據預置的多個規則模板進行多次詞條抽取,每次詞條抽取采用一個或者多個規則模板;所述規則模板用于描述詞條中的單字組合方式。例如,根據下述的特征模板,對每一個候選進行二元分類,所述AAB、ABC、AABB等形式特性也作為分類的一類特征。在統計分類模型的大框架下,結合其他類別的特征綜合判定每個候選是否是口語詞條,往往能獲得較高的評判精度。下表提供了一些可能的口語詞條特征和一些可能的口語模板:<table>tableseeoriginaldocumentpage15</column></row><table>其他垃圾詞典整理的垃圾詞條列表,如果命中則可以直接丟棄該詞條上面簡單介紹了采用規則模板和統計分類及二者組合應用的詞條抽取方案,但是本領域技術人員應該知悉,還可能存在其他可行的抽取方案,即本發明并不限于上述的三種抽取方式,只要依據口語詞條的各種特征及判定標準進行抽取,就屬于本發明所述的預置策略的解釋范圍。步驟103、針對抽取得到的詞條進行過濾,得到所需的口語詞條。所述過濾規則可以包括但不限于按照出現頻率、成詞概率、時間、語法和形式特征等標準,也可以按照出現范圍等信息學相關標準。當然,在特定情況下,還可以采用人工過濾的方式。優選的,還可以采用一些外界資源或信息學理論過濾其中的垃圾。例如,依據所收集整理的垃圾詞典、垃圾詞的前后綴詞表等等進行過濾,以去除垃:敗詞匯。再例如,按照信息熵理論,抽取詞條頻率以及出現在該詞條左/右鄰不同漢字的個數,從而判斷該詞條是否是碎詞,即不屬于本發明所需的口語詞條。舉一個例子,對于按照ABA模板抽取的詞條"又氣又",發現左邊一個"又"左邊出現的字比較多,而右邊一個"又"字右邊出現的字很少,集中在"恨、惱,,上,從而可以知道它是一個碎詞,即"又氣又"并不是本發明所需的類似"嘗一嘗"之類的口語詞條。再例如,還可以針對每個所得到的詞條,在語料庫中統計其出現次數,如果大于或者等于預定閾值,則確定該詞條為所需的口語詞條。參照圖2,示出了一種獲取口語詞條的優選實施例,具體可以包括以下步驟,其中,與圖1所示實施例相似部分就不再詳述。步驟201、定向獲取所需的互聯網語料,形成語料庫。步驟202、對所收集的互聯網語料進行數據凈化預處理。如前所述,語料的質量直接影響了最終抽取的詞條的質量,因此,在本優選實施例中,增加了凈化的預處理步驟。例如,從格式方面,可以去除網頁中的html標簽等無效信息;從內容方面,還可以去除一些類型網頁上的無效才莫板,例如,BBS網頁中的一些固定才莫板信息等。有些情況下還需要去除某些用戶的干擾輸入,比如一些BBS用戶喜歡用多個"頂"字拼湊成一個大的"頂"字以表達自己強烈的情感,或者將某個短語或句子重復若干遍。諸如此類的情況都會對抽取過程造成影響,因此,都可以通過步驟202加以去除。如果語料來源是用戶的語音聊天記錄,則還需要作語音到漢字的轉換,使得提供給抽取步驟的輸入統一為計算機能處理的文本格式。步驟203、按照預置策略,從所述語料庫中抽取符合條件的詞條。步驟204、針對詞條進行糾錯。即糾正詞條中的錯別字,優選的,可以基于上下文的相似度,對詞條中的錯別字進行更正。例如,"博斗"一般是作為"搏斗"的錯誤形式,但如果上下文有博客、爭斗、罵等關鍵詞,可以認定它這里是指博主在博客上互相爭斗的意思,并不一定是^l晉詞。再例如,王菲專輯《菲賣品》、"默默無蚊"廣告詞步驟205、基于詞條在發音上的相似性,將詞條的各種變體(例如,數字、英文等)轉變為標準形式。一般的標準形式可以通過出現頻率的高低加以判定。通常可以將步驟205稱為"詞條歸一化"的過程,例如,將"88","byebye"全部轉化為標準形式"byebye";"娃哈哈"、"哇哈哈"、"挖哈哈"全部轉化為標準的"娃哈哈,,,等等。具體歸一化的方法可以但不限于基于發音模型建立數字、英文到漢字的映射;優選的,具體歸一化的過程還需要考慮上下文的相似性。需要說明的是,步驟204和步驟205并不必然同時出現,因為其分別針對不同的詞條誤差。另外,如果本發明所獲取的口語詞條主要用于輸入法,則由于中文輸入法詞庫詞條必須嚴格是漢字以方便注音,在這個應用場景中就必須將詞條中包含的數字、字母、符號等歸一化。而當本發明所獲取的口語詞條主有相當一部分是商標名、命名實體等包含數字、字母的,則可以保留這些詞條的原始形式而不用做詞條歸一化。步驟206、針對抽取得到的詞條進行過濾,得到所需的口語詞條。需要進一步說明的是,雖然在本實施例的描述中,步驟204、步驟205和步驟206是依次描述的,但是實際上,這三個步驟還可以同時完成,即在一個步驟中完成。步驟207、分析所獲取的口語詞條,針對預置策略提供反饋信息;所述反饋信息用于改進原有規則模板或特征,或者提供新規則模板或新特征。步驟207所提供的反饋信息可以針對步驟202提供一些無效模板,或者針對原有無效模板的改進,以實現更優的凈化預處理過程。步驟207所提供的反饋信息還可以針對步驟203提供優化的或者新的抽取模板,以提高詞條抽取的準確性和全面性。從步驟207可以看出,規則模板的抽取和改進是一個迭代的過程,逐漸的可以達到最佳點。比如ABC模板的迭代優化其中AC要求是詞典里的詞。第一步可以選定一批B字種子,如"完"、"只"、"個",統計出一批ABC詞條。第二步統計這里面與AC詞條共現的B字集合,也進行必要的人工監控,從而擴充一開始的B字種子,再進入第一步。如此迭代,可以找出絕大多數符合ABC模板的B字集合。同樣的,這個迭代過程還可以用于在抽取的口語詞條實例中發現新的模板。比如某段時間內獲取了很多詞條諸如"暴強"、"暴爽"、"暴有錢"等,那么我們可以通過機器自動發現或者人工干預的形式,發現"暴+<形容詞>"的模板,這里"暴"作為一個程度副詞,與"很,,"非常"同義。然后我們可以有意識的應用這個模板,抽取到"暴郁悶"、"暴帥氣"等更多的詞條。相同的道理可以自動發現"倍+<形容詞>"、"<形容詞〉+的說"和"……撒"模板等等。從而逐漸的得到全面性和精確度都比較高的口語模板。再例如,通過分析可以得知,所抽取的"越來越"、"人見人"等詞條,并不應該屬于"ABA"模板中的口語詞條,而應該屬于ABAC模板中詞條的一部分,從而通過增加限定條件而優化"ABA"模板。對于所抽取的"先進后,,等詞條,通過分析可以得知,其并不應該屬于"ABC"模板中的口語詞條,而應該屬于ABCD模板,其中AC互為反義詞;從而調整抽取^莫板,更新過濾標準,進行更加有效的抽取。步驟208、將獲得的口語詞條添加至輸入法詞庫中;和/或,將依據反饋信息改進后的抽取策略中的規則模板添加至輸入法智能組詞規則庫中。智能組詞,一般可以理解為輸入法工具根據輸入的拼音,從若干可能的漢字串候選中動態的選取最可能候選輸出漢字串的過程。由于其屬于本領域的公知技術,在現有輸入法中已經應用較多,但是現有的智能組詞一般都是才艮據詞之間的連接概率信息進行組詞的,而本發明創新的提出還可以通過預置口語模板進行口語詞匯的智能組詞。例如,最簡單的一種在智能組詞中應用口語模板的方式可以為依據用戶的輸入信息得到多個可能的單字組合,然后利用口語模板對這些單字組合進行匹配過濾,則可以得到在詞庫中沒有存儲的口語詞條作為候選項。實際上,傳統的輸入法對于各種可能的音節切分,總是結合相鄰的音節段到詞庫里查找對應的漢字候選;而在本發明下的組詞過程中,可以跨音節進行模板的匹配。比如gao,gao,xing,xing切分結果符合AABB模板,它可以將AB拼音結合在一起查找詞典里的詞條,而不會像傳統輸入法那樣以字為單位組詞,潛在地降低了組詞開銷。具體而言,在步驟208中,僅僅將獲得的口語詞條添加至輸入法詞庫中,即屬于基于口語詞條實例的精確匹配,相當于把口語詞條實例擴充已有詞庫,由于本發明能夠獲取大量的口語詞條實例,所以可以在一定程度上提高用戶對口語詞條的輸入效率,但是難以解決未收錄詞條的情況。而將依據反饋信息改進后的抽取策略中的規則模板添加至輸入法智能組詞規則庫中,則屬于基于口語才莫板的動態構建。比如已有才莫板ABC,其中AC是詞庫收錄的一個動賓短語,而B的范圍是有限并可以動態發現的,如"個、支、完、一"。那么在用戶輸入拼音串"xi,ge,zao"時,輸入法發現該拼音對應的候選"洗個澡"完全匹配該模板,從而能將洗個澡作為最佳答案輸出。當然,這兩種方法不是互斥的,可以同時存在以滿足不同場合的需要。例如,用戶輸入字符串"huanle",則候選項顯示"歡樂"等詞庫已有的普通詞條以及"換了"等詞庫已有的口語詞條;而當用戶輸入字符串"huanle錢",則候選項首詞顯示"還了錢",緊接著顯示"換了錢"等,因為依據預置的口語模板,在已有模板ABC中,AC是詞庫收錄的一個動賓短語"還錢"或者"換錢",而"了"屬于B集合中的一個,因此,可以智能組詞得到詞庫中沒有的候選項"還了錢"和"換了錢",以進一步方便用戶的口語輸入。進一步,由于本發明的口語模板通過多次迭代之后,可以達到很好的準確度和全面性,因此,將其應用在輸入法系統中,則可以更好的滿足用戶的輸入需求,提高用戶口語詞條的輸入效率。信息以及語音輸入等等。即所述輸入信息可以包括編碼字符串,也可以包括手寫輸入信息以及語音輸入的信息,因為這些輸入方式也都需要用到詞庫進行候選項排序。由于這些輸入方式中的信息轉換都屬于公知技術,在此就不詳述了。下面僅僅以編碼字符串輸入為例進行詳細說明。另外,由于現有技術中,輸入法平臺可以運行在多種計算設備上,例如,個人電腦、個人數字助理、移動終端設備等等,所以本發明也可以適用在上述各種計算設備中。本發明可以應用于日文、韓文等需要出現候選詞排序的輸入法系統,例如,對于日文而言,由日文中的平假名、片假名拼成短語的時候就需要出現候選詞排序。由于本發明在上述幾種輸入法系統中的應用都是相似的,所以為了方便說明,本說明書僅僅以應用在中文的情況進行舉例說明。步驟209、將獲得的口語詞條添加至語料分詞詞庫中;和/或,將依據反饋信息改進后的抽取策略中的規則模板添加至語料分詞規則庫中。以中文為例,中文分詞應用,尤其是信息檢索領域的中文分詞,主要是采用基于詞典的分詞方法,很大程度上依賴于詞條的覆蓋面,收錄部分口語類的未登錄詞有助于提升分詞精度;進一步,將本發明迭代獲取的優質口語模板進行詞邊界的動態切分,可以獲得更佳的分詞效果。至于具體的分詞過程,由于并非本發明的重點,因此不再詳述。對于前述的各方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本發明并不受所描述的動作順序的限制,因為依據本發明,某些步驟可以采用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬于優選實施例,所涉及的動作和模塊并不一定是本發明所必須的。參照圖3,示出了一種獲取口語詞條的裝置實施例,具體可以包括以下部件語料獲取模塊301,用于定向獲取所需的互聯網語料,形成語料庫;詞條抽取沖莫塊302,用于按照預置策略,從所述語料庫中抽取符合條件的詞條;所述預置策略與口語詞條的各種特征相關;過濾模塊303,用于針對抽取得到的詞條進行過濾,得到所需的口語詞條。在本發明的一個實施例中,所述詞條抽取模塊可以進一步包括多個身見則模板,所述規則模板用于描述詞條中的單字組合方式;模板抽取子模塊,用于依據所述規則模板進行多次詞條抽取,每次詞條抽取采用一個或者多個規則模板。在本發明的另一個實施例中,所述詞條抽取模塊可以進一步細分為切分器,用于針對語料庫中一給定的字符串,依據分詞詞庫進行切分;轉換器,用于將分詞碎片轉換為多個候選詞條;特征抽取子模塊,用于依據預置的特征庫,判斷一候選詞條是否屬于口語詞條,如果是,則抽取。在本發明的另一個實施例中,所述詞條抽取^f莫塊可以進一步包括切分器,用于針對語料庫中一給定的字符串,依據分詞詞庫進行切分;轉換器,用于將分詞碎片轉換為多個候選詞條;多個規則模板,所述規則模板用于描述詞條中的單字組合方式;模板抽取子模塊,用于依據預置的多個規則模板進行多次詞條抽取,每次詞條抽取采用一個或者多個規則模板。為了獲得優質的口語才莫板,在本發明一優選實施例中,還可以包括分析反饋模塊304,用于分析所獲取的口語詞條,針對預置策略提供反饋信息;所述反饋信息用于改進原有規則模板或特征,或者提供新規則模板或新特征。為了提高詞條獲取的準確性,在本發明一優選實施例中,還可以包括糾錯模塊305,用于在過濾之前,針對詞條進行糾錯。以及,詞條歸一化模塊306,用于在過濾之前,基于詞條在發音上的相似性,將詞條的各種變體轉變為標準形式。當然,這兩個模塊,并不一定需要同時包括,根據需要擇一選用即可。為了提高語料的精度,本實施例還可以包括預處理模塊307,用于對所收集的互聯網語料進行數據凈化預處理。參照圖4,示出了一種輸入法系統實施例,具體可以包括詞庫401;口語模板402;所述口語模板通過以下方式得到定向獲取所需的互聯網語料,形成語料庫;按照預置的規則模板,從所述語料庫中抽取符合條件的詞條;針對抽取得到的詞條進行過濾,得到所需的口語詞條;分析所獲取的口語詞條,針對預置的規則才莫板提供反饋信息;依據反饋信息優化所述預置策略中的規則模板,得到口語模板;實際上,如前表所示,本發明所述的口語模板還可以包括一些口語規則;輸入接口單元403,用于接收用戶的輸入信息;信息轉換單元404,用于依據所接收的輸入信息,檢索詞庫501,得到相應的候選項;智能組詞單元405,用于依據口語模板402,智能組詞得到相應的候選項;顯示輸出單元406,用于展示候選項,并輸出用戶選擇的候選項。實際上,正是本發明第一次提出將口語模板;1入到智能組詞過程中,因而,使得在不需要預置很完善的口語詞條實例的詞庫條件下,也可以幫助用戶快速輸入所需的口語詞條。而對于口語模板的設立,本發明并不需要加以限定,本領域技術人員可以通過各種方式獲取,例如,人工設定等等。當然,在圖4的實施例中,提出了一種得到較佳的口語模板的方式,以進一步提高用戶輸入口語詞條的效率,但不能將該方式認為是本發明獲取口語模板的唯一方式。如果釆用口語模板通過智能組詞進行口語詞匯的輸出,則/人表象上看可以表現為對于詞庫中沒有的口語詞條,在沒有啟動智能組詞的情況下無法輸入,而在啟動智能組詞的情況下則可以輸入;或者,如果提供開關口語模板功能,則在關閉口語模板功能的情況下,無法輸入詞庫中沒有的口語詞條,而開啟口語模板功能之后,就可以輸入。參照圖5,示出了另一種輸入法系統實施例,包括存儲有口語詞條的詞庫501;所述口語詞條通過以下方式獲取定向獲取所需的互聯網語料,形成語料庫;按照預置策略,從所述語料庫中抽取符合條件的詞條;針對抽取得到的詞條進行過濾,得到所需的口語詞條;其中,所述預置策略與口語詞條的各種特征相關;口語模板502;所述口語才莫板通過以下方式得到分析所獲取的口語詞條,針對預置策略提供反饋信息;依據反饋信息優化所述預置策略中的規則模板,得到口語模板;輸入接口單元503,用于接收用戶的輸入信息;信息轉換單元504,用于依據所接收的輸入信息,才全索存儲有口語詞條的詞庫501,得到相應的^芙選項;智能組詞單元505,用于依據口語模板502,智能組詞得到相應的候選項;顯示輸出單元506,用于展示候選項,并輸出用戶選擇的候選項。圖4和圖5是比較相近的兩個實施例,主要區別在于,圖4所示的實施例僅僅將本發明通過迭代優化得到的口語模板應用到輸入法系統中,主要通過口語模板來完成口語詞條的輸入;而圖5所示的實施例則將本發明得到的口語詞條和口語模板都應用到輸入法系統中,通過口語詞條實例的覆蓋以及口語模板的補充,則可以達到更佳的輸入效果。參照圖6,示出了一種分詞裝置的實施例,具體可以包括分詞詞庫601;存儲有口語模板的分詞規則庫602,所述口語才莫板通過以下方式得到定向獲取所需的互聯網語料,形成語料庫;按照預置的規則模板,從所述語料庫中抽取符合條件的詞條;針對抽取得到的詞條進行過濾,得到所需的口語詞條;分析所獲取的口語詞條,針對預置的規則模板提供反饋信息;依據反饋信息優化所述預置策略中的規則模板,得到口語模板;分詞執行才莫塊603,用于利用分詞詞庫中的詞條和分詞規則庫中的規則才莫板對語料進行分詞。參照圖7,示出了另一種分詞裝置的實施例,包括存儲有口語詞條的分詞詞庫701,所述口語詞條通過以下方式獲取定向獲取所需的互聯網語料,形成語料庫;按照預置策略,從所述語料庫中抽取符合條件的詞條;針對抽取得到的詞條進行過濾,得到所需的口語詞條;其中,所述預置策略與口語詞條的各種特征相關;存儲有口語模板的分詞規則庫702,所述口語才莫板通過以下方式得到分析所獲取的口語詞條,針對預置策略提供反饋信息;依據反饋信息優化所述預置策略中的規則模板,得到口語模板;分詞執行模塊703,用于利用分詞詞庫中的詞條和分詞規則庫中的規則模板對語料進行分詞。圖6和圖7是比較相近的兩個實施例,主要區別在于,圖6所示的實施例僅僅將本發明通過迭代優化得到的口語模板應用到分詞過程中,主要通過口語模板來提高分詞效率;而圖7所示的實施例則將本發明得到的口語詞條和口語才莫板都應用到分詞過程中,通過口語詞條實例的覆蓋以及口語才莫板的補充,則可以達到更合理的分詞效果。相應的本發明還公開了一種智能組詞的方法實施例,即利用智能組詞得到候選項的過程,具體包括步驟a、接收用戶的輸入信息;步驟b、依據所述輸入信息與預置的口語模板,智能組詞得到相應的候選項;步驟c、展示候選項,并輸出用戶選擇的候選項。其中,優選的,所述口語才莫板可以通過以下方式得到定向獲取所需的互聯網語料,形成語料庫;按照預置的規則模板,從所述語料庫中抽取符合條件的詞條;針對抽取得到的詞條進行過濾,得到所需的口語詞條;分析所獲取的口語詞條,針對預置的規則模板提供反饋信息;依據反饋信息優化所述預置策略中的規則模板,得到口語模板。本說明書中的各個實施例均采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。對于裝置實施例而言,由于其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。總之,輸入法系統作為軟件/互聯網公司"搶占用戶桌面"最重要的一步,其自身的質量和用戶友好程度直接決定了用戶是否樂意于選用該輸入法,或者從其他輸入法轉向該輸入法。隨著互聯網基礎設施的不斷完善,普通網民互相交流的方式日益增多,便利程度也越來越加強,他們可以通過oicq/icq、live/yahoo/aolmessenger等IM,BBS,blog評論等形式用口頭語言進行交流。這種情況凸顯了傳統輸入法詞庫缺乏鮮活的口語詞匯和網民日益增長的使用口語網絡語言交流的矛盾。而本發明所提出的技術方案就可以快速有效的獲取口語化詞匯,并不斷發現其中的口語模板,能夠達到如下的技術效果1、覆蓋較大規模的口語詞條的范圍。對抽取出來的口語詞條不是簡單的加進輸入法詞庫,而是將規則模板等參與智能組詞,這樣能覆蓋更多的情況,^L升用戶的輸入流暢度。2、及時有效的更新詞條。我們知道,互聯網語言有著更新變化速度快的特點,由于本發明是一種自動的抽取方法,需要人工參與干涉的地方較少,所以可以及時的獲取當前最新的口語詞匯,獲知當前口語變化的趨勢。另一方面,面對海量的數據,人們需要快速準確的管理和訪問所需的信息,其中包括電子郵件、聊天記錄、多媒體文檔等個人數據。處理這些信息所用到的分詞程序很大程度上依賴于分詞詞庫的覆蓋程度。通過本發明的口語詞條自動抽取方法,我們可以及時大量的擴充分詞詞庫及分詞規則庫。對于未抽取到的口語詞條實例,則也可以通過模板匹配的方式做出處理。以上對本發明所提供的一種從互聯網信息中提取口語詞條的方法和裝置,一種智能組詞的方法以及一種應用在前述過程中得到的口語詞條和口語模板的輸入法系統和一種分詞裝置,進行了詳細介紹,本文中應用了具體個例對本發明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發明的方法及其核心思想;同時,對于本領域的一般技術人員,依據本發明的思想,在具體實施方式及應用范圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本發明的限制。權利要求1、一種獲取口語詞條的方法,其特征在于,包括定向獲取所需的互聯網語料,形成語料庫;按照預置策略,從所述語料庫中抽取符合條件的詞條;所述預置策略與口語詞條的各種特征相關;針對抽取得到的詞條進行過濾,得到所需的口語詞條。2、如權利要求1所述的方法,其特征在于,通過以下預置策略完成對詞條的抽取預置多個規則模板,所述規則模板用于描述詞條中的單字組合方式;依據所述規則模板進行多次詞條抽取,每次詞條抽取采用一個或者多個規則模板。3、如權利要求l所述的方法,其特征在于,通過以下預置策略完成對詞條的抽取針對語料庫中一給定的字符串,依據分詞詞庫進行切分;將分詞碎片轉換為多個候選詞條;依據預置的特征庫,判斷一候選詞條是否屬于口語詞條,如果是,則抽取。4、如權利要求1所述的方法,其特征在于,通過以下預置策略完成對詞條的抽取針對語料庫中一給定的字符串,依據分詞詞庫進行切分;將分詞碎片轉換為多個候選詞條;依據預置的多個規則模板進行多次詞條抽取,每次詞條抽取采用一個或者多個規則模板;所述規則模板用于描述詞條中的單字組合方式。5、如權利要求l所述的方法,其特征在于,還包括分析所獲取的口語詞條,針對預置策略提供反饋信息;所述反饋信息用于改進原有規則模板或特征,或者提供新規則才莫板或新特征。6、如權利要求5所述的方法,其特征在于,還包括將獲得的口語詞條添加至輸入法詞庫中;和/或,將依據反饋信息改進后的抽取策略中的規則沖莫板添加至輸入法智能組詞規則庫中。7、如權利要求5所述的方法,其特征在于,還包括將獲得的口語詞條添加至語料分詞詞庫中;和/或,將依據反饋信息改進后的抽取策略中的規則模板添力。至語料分詞規則庫中。8、如權利要求l所述的方法,其特征在于,還包括針對詞條進行糾錯。9、如權利要求l所述的方法,其特征在于,還包括基于詞條在發音上的相似性,將詞條的各種變體轉變為標準形式。10、如權利要求l所述的方法,其特征在于,還包括對所收集的互聯網語料進行數據凈化預處理。11、一種獲取口語詞條的裝置,其特征在于,包括語料獲取模塊,用于定向獲取所需的互聯網語料,形成語料庫;詞條抽取模塊,用于按照預置策略,從所述語料庫中抽取符合條件的詞條;所述預置策略與口語詞條的各種特征相關;過濾模塊,用于針對抽取得到的詞條進行過濾,得到所需的口語詞條。12、如權利要求11所述的裝置,其特征在于,所述詞條抽取模塊進一步包括多個規則模板,所述規則模板用于描述詞條中的單字組合方式;模板抽取子模塊,用于依據所述規則模板進行多次詞條抽取,每次詞條抽取采用一個或者多個規則模板。13、如權利要求11所述的裝置,其特征在于,所述詞條抽取模塊進一步包括切分器,用于針對語料庫中一給定的字符串,依據分詞詞庫進行切分;轉換器,用于將分詞碎片轉換為多個候選詞條;特征抽取子模塊,用于依據預置的特征庫,判斷一候選詞條是否屬于口語詞條,如果是,則抽取。14、如權利要求11所述的裝置,其特征在于,所述詞條抽^^莫塊進一步包括切分器,用于針對語料庫中一給定的字符串,依據分詞詞庫進行切分;轉換器,用于將分詞碎片轉換為多個候選詞條;多個規則模板,所述規則模板用于描述詞條中的單字組合方式;模板抽取子模塊,用于依據預置的多個規則模板進行多次詞條抽取,每次詞條抽取采用一個或者多個規則模板。15、如權利要求11所述的裝置,其特征在于,還包括分析反饋模塊,用于分析所獲取的口語詞條,針對預置策略提供反饋信息;所述反饋信息用于改進原有規則模板或特征,或者提供新MJ'J模板或新特征。16、如權利要求11所述的裝置,其特征在于,還包括糾錯模塊,用于針對詞條進行糾錯。17、如權利要求11所述的裝置,其特征在于,還包括詞條歸一化模塊,用于基于詞條在發音上的相似性,將詞條的各種變體轉變為標準形式。18、一種輸入法系統,其特征在于,包括詞庫;口語模板;輸入接口單元,用于接收用戶的輸入信息;信息轉換單元,用于依據所接收的輸入信息,檢索詞庫,得到相應的候選項;智能組詞單元,用于依據所述口語模板,智能組詞得到相應的候選項;顯示輸出單元,用于展示候選項,并輸出用戶選擇的候選項。19、如權利要求18所述的輸入法系統,其特征在于,所述口語模板通過以下方式得到定向獲取所需的互聯網語料,形成語料庫;按照預置的規則模板,從所述語料庫中抽取符合條件的詞條;針對抽取得到的詞條進行過濾,得到所需的口語詞條;分析所獲取的口語詞條,針對預置的規則模板提供反饋信息;依據反饋信息優化所述預置策略中的規則模板,得到口語模板。20、一種輸入法系統,其特征在于,包括存儲有口語詞條的詞庫;所述口語詞條通過以下方式獲取定向獲取所需的互聯網語料,形成語料庫;按照預置策略,從所述語料庫中抽取符合條件的詞條;針對抽取得到的詞條進行過濾,得到所需的口語詞條;其中,所述預置策略與口語詞條的各種特征相關;口語模板;所述口語模板通過以下方式得到分析所獲取的口語詞條,針對預置策略提供反饋信息;依據反饋信息優化所述預置策略中的規則模板,得到口語模板;輸入接口單元,用于接收用戶的輸入信息;信息轉換單元,用于依據所接收的輸入信息,檢索詞庫,得到相應的候選項;智能組詞單元,用于依據所述口語模板,智能組詞得到相應的候選項;顯示輸出單元,用于展示候選項,并輸出用戶選擇的候選項。21、一種分詞裝置,其特征在于,包括分詞詞庫;存儲有口語模板的分詞規則庫,所述口語模板通過以下方式得到定向獲取所需的互聯網語料,形成語料庫;按照預置的規則模板,從所述語料庫中抽取符合條件的詞條;針對抽取得到的詞條進行過濾,得到所需的口語詞條;分析所獲取的口語詞條,針對預置的規則模板提供反饋信息;依據反饋信息優化所述預置策略中的規則模板,得到口語模板;分詞執行模塊,用于利用分詞詞庫中的詞條和分詞規則庫中的規則模板對語料進行分詞。22、一種分詞裝置,其特征在于,包括存儲有口語詞條的分詞詞庫,所述口語詞條通過以下方式獲取定向獲取所需的互聯網語料,形成語料庫;按照預置策略,從所述語料庫中抽取符合條件的詞條;針對抽取得到的詞條進行過濾,得到所需的口語詞條;其中,所述預置策略與口語詞條的各種特征相關;存儲有口語模板的分詞規則庫,所述口語模板通過以下方式得到分析所獲取的口語詞條,針對預置策略提供反饋信息;依據反饋信息優化所述預置策略中的規則模板,得到口語模板;分詞執行模塊,用于利用分詞詞庫中的詞條和分詞規則庫中的規則模板對語料進行分詞。23、一種智能組詞的方法,其特征在于,包括接收用戶的輸入信息;依據所述輸入信息與預置的口語模板,智能組詞得到相應的候選項;展示候選項,并輸出用戶選擇的候選項。24、如權利要求23所述的方法,其特征在于,所述口語模板通過以下方式得到定向獲取所需的互聯網語料,形成語料庫;按照預置的規則模板,從所述語料庫中抽取符合條件的詞條;針對抽取得到的詞條進行過濾,得到所需的口語詞條;分析所獲取的口語詞條,針對預置的規則模板提供反饋信息;依據反饋信息優化所述預置策略中的規則模板,得到口語模板。全文摘要本發明提供了一種獲取口語詞條的方法,包括定向獲取所需的互聯網語料,形成語料庫;按照預置策略,從所述語料庫中抽取符合條件的詞條;所述預置策略與口語詞條的各種特征相關;針對抽取得到的詞條進行過濾,得到所需的口語詞條。首先,本發明能夠自動實現從互聯網語料庫中抽取大量的口語詞條,效率較高而且成本較低,可以適應口語詞匯變化更新速度比較快的特性。其次,本發明通過對口語模板的迭代優化,可以得到非常貼近實際情況、準確率和覆蓋率較高的口語模板;進而,利用這樣的口語模板進行智能組詞,可以不受限于詞庫中所收錄的口語詞條實例;以及,利用這樣的口語模板進行分詞,可以得到對原始語料的合理切分。文檔編號G06F17/27GK101114298SQ20071012124公開日2008年1月30日申請日期2007年8月31日優先權日2007年8月31日發明者揚張,奇郭申請人:北京搜狗科技發展有限公司