分詞詞典的生成方法和裝置及分詞處理方法和裝置的制造方法
【技術領域】
[0001]本發明涉及語音處理技術領域,尤其涉及一種分詞詞典的生成方法和裝置及分詞處理方法和裝置。
【背景技術】
[0002]語音合成,又稱文語轉換(Text to Speech),能將文字信息實時轉換為語音朗讀出來,相當于給機器裝上了人工嘴巴。對于語音合成系統,首先需要對輸入的文本進行處理,其中包括分詞處理。分詞算法主要有兩類,一種是基于詞典匹配的算法,另一種是基于訓練語料的學習算法。詞典和訓練語料分別是基于詞典的匹配算法和基于訓練語料的學習算法所必須的數據。
[0003]現有技術中,不管是詞典生成還是語料生成,都必須依靠人工篩選和分詞器切分,因此更新周期長且過于依賴已有分詞器,無法識別未登錄的詞條或者語料。
【發明內容】
[0004]本發明旨在至少在一定程度上解決相關技術中的技術問題之一。
[0005]為此,本發明的一個目的在于提出一種分詞詞典的生成方法,該方法可以不依賴人工篩選和分詞器,可以識別未登錄的詞條,從而提高分詞詞典的生成速度和效果。
[0006]本發明的另一個目的在于提出一種分詞處理方法,該方法可以結合基于詞典匹配的算法和基于訓練語料的學習算法的優點,從而提高分詞效果。
[0007]本發明的另一個目的在于提出一種分詞詞典的生成裝置。
[0008]本發明的另一個目的在于提出一種分詞處理裝置。
[0009]為達到上述目的,本發明第一方面實施例提出的分詞詞典的生成方法,包括:獲取原始句語料;對所述原始句語料進行切分,得到分詞,并對所述分詞進行過濾,得到過濾結果,所述過濾包括如下項中的至少一項:基于詞頻和逆頻率的過濾,基于邊界的過濾,基于拼接的過濾;根據所述過濾結果生成分詞詞典。
[0010]本發明第一方面實施例提出的分詞詞典的生成方法,通過對切分后的分詞進行過濾,生成分詞詞典,可以不依賴人工篩選和分詞器,可以識別未登錄的詞條,從而提高分詞詞典的生成速度和效果。
[0011]為達到上述目的,本發明第二方面實施例提出的分詞處理方法,包括:將待切分的原始文本,采用預先獲取的分詞詞典,進行基于詞典的匹配,將所述原始文本切分為分詞;根據所述分詞和預先獲取的訓練模型,進行基于訓練語料的學習,得到分詞結果;其中,所述分詞詞典采用如本發明第一方面實施例所述的方法生成。
[0012]本發明第二方面實施例提出的分詞處理方法,在分詞處理后,可以結合基于詞典的匹配算法和基于訓練語料的學習算法,因此可以結合這兩種算法的優點,在分詞時不僅可以參考詞典的詞條,還可以參考上下文信息,提高分詞處理的效果。
[0013]為達到上述目的,本發明第三方面實施例提出的分詞詞典的生成裝置,包括:獲取模塊,用于獲取原始句語料;過濾模塊,用于對所述原始句語料進行切分,得到分詞,并對所述分詞進行過濾,得到過濾結果,所述過濾包括如下項中的至少一項:基于詞頻和逆頻率的過濾,基于邊界的過濾,基于拼接的過濾;生成模塊,用于根據所述過濾結果生成分詞詞典。
[0014]本發明第三方面實施例提出的分詞詞典的生成裝置,通過對切分后的分詞進行過濾,生成分詞詞典,可以不依賴人工篩選和分詞器,可以識別未登錄的詞條,從而提高分詞詞典的生成速度和效果。
[0015]為達到上述目的,本發明第四方面實施例提出的分詞處理裝置,包括:第一切分模塊,用于將待切分的原始文本,采用預先獲取的分詞詞典,進行基于詞典的匹配,將所述原始文本切分為分詞;第二切分模塊,用于根據所述分詞和預先獲取的訓練模型,進行基于訓練語料的學習,得到分詞結果;其中,所述分詞詞典采用如本發明第一方面實施例所述的方法生成。
[0016]本發明第四方面實施例提出的分詞處理裝置,在分詞處理后,可以結合基于詞典的匹配算法和基于訓練語料的學習算法,因此可以結合這兩種算法的優點,在分詞時不僅可以參考詞典的詞條,還可以參考上下文信息,提高分詞處理的效果。
[0017]本發明附加的方面和優點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發明的實踐了解到。
【附圖說明】
[0018]本發明上述的和/或附加的方面和優點從下面結合附圖對實施例的描述中將變得明顯和容易理解,其中:
[0019]圖1是本發明一實施例提出的分詞詞典的生成方法的流程示意圖;
[0020]圖2是本發明實施例中第一次過濾處理的流程示意圖;
[0021]圖3是本發明實施例中第二次過濾處理的流程示意圖;
[0022]圖4是本發明實施例中第三次過濾處理的流程示意圖;
[0023]圖5是本發明另一實施例提出的分詞處理方法的流程示意圖;
[0024]圖6是本發明實施例中訓練流程和預測流程的示意圖;
[0025]圖7是本發明另一實施例提出的分詞詞典的生成裝置的結構示意圖;
[0026]圖8是本發明另一實施例提出的分詞詞典的生成裝置的結構示意圖;
[0027]圖9是本發明另一實施例提出的分詞處理裝置的結構示意圖;
[0028]圖10是本發明另一實施例提出的分詞處理裝置的結構示意圖。
【具體實施方式】
[0029]下面詳細描述本發明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的模塊或具有相同或類似功能的模塊。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發明,而不能理解為對本發明的限制。相反,本發明的實施例包括落入所附加權利要求書的精神和內涵范圍內的所有變化、修改和等同物。
[0030]圖1是本發明一實施例提出的分詞詞典的生成方法的流程示意圖,該方法包括:
[0031]Sll:獲取原始句語料。
[0032]其中,可以對已有數據進行收集,獲取原始句語料,例如,原始句語料是已有的新聞文本中的句子。可以理解的是,在獲取到文本后,對文本進行劃分得到句子的方式不限定,例如,可以將標點符號隔開的部分作為一個句子。
[0033]S12:對所述原始句語料進行切分,得到分詞,并對所述分詞進行過濾,得到過濾結果,所述過濾包括如下項中的至少一項:基于詞頻和逆頻率的過濾,基于邊界的過濾,基于拼接的過濾。
[0034]現有技術中,在生成分詞詞典(簡稱為詞典)時,先利用分詞器切分原始句語料,得到分詞,之后,統計分詞詞頻,設置閾值過濾低頻詞,人工篩選低質詞,從而生成詞典。
[0035]而本實施例中,不需要人工篩選,通過過濾實現詞典中的詞條的自動篩選。
[0036]—個實施例中,以包括上述三次過濾且三次過濾依次執行為例。
[0037]具體的,所述對所述分詞進行過濾,得到過濾結果,包括:
[0038]對所述分詞進行基于詞頻和逆頻率的過濾,得到第一次過濾結果;
[0039]根據所述第一次過濾結果,進行基于邊界的過濾,得到第二次過濾結果;
[0040]根據所述第一次過濾結果和所述第二次過濾結果,進行拼接過濾,得到所述過濾結果。
[0041]如圖2所示,從原始句語料開始到得到第一次過濾結果的流程可以包括:
[0042]S21:獲取原始句語料。
[0043]例如,獲取新聞類的文本,再對文本進行劃分,得到句子,從而得到原始句語料。
[0044]S22:對原始句語料進行切分,得到分詞。
[0045]其中,在對句子進行切分時,可以將句子切分為不同長度的字符串,每個字符串的長度可以設置。
[0046]本實施例中,以最小長度n0 = 1,最大長度N = 5,且相鄰兩個長度的差值L = I為例,則,對應一個原始句語料:我愛北京天安門,可以切分為如下的分詞:
[0047]切分時,從“我”開始切分,得到的分詞是:我,我愛,我愛北,我愛北京,我愛北京天。
[0048]之后,再從“愛”開始,用同樣的方法進行切分,依此類推,最后從“門”開始切分,得到“門”。
[0049]S23:統計每個分詞的詞頻和逆頻率。
[0050]其中,詞頻是指一個分詞在切分后得到的所有分詞中的出現次數,例如,統計“我愛”在所有分詞中的出現次數。
[0051]一個長度為η的分詞,且逆頻率是指包含該分詞,且長度為(n+L)的分詞的個數,其中,η是分詞的任一長度,L是切分時兩個相鄰長度的差值。以上述切分為例,L= I。
[0052]例如,“我愛”的逆頻率是指包含“我愛”的“我愛你”,“我愛他”,“我愛誰”這些分詞的個數。
[0053]S24:根據所述詞頻和逆頻率計算每個分詞的權重,并根據所述權重對分詞進行排序。
[0054]其中,權重與詞頻和逆頻率成正比關系,具體公式可以設置。
[0055]本實施例中,以如下計算公式為例:
[0056]weight = log(frq+1)*log(idf+1);
[0057]其中,weight表示一個分詞的權重,frq表示該分詞的詞頻,idf表示該分詞的逆頻率,log表示取對數運算,*表示相乘運算。
[0058]在得到權重后,可以按照權重從大到小的順序對分詞進行排序。
[0059]其中,詞頻(詞頻的對數可以用tf表示)越高,代表這個詞越重要。idf越高代表這個詞含有的信息量越充足,例如微博”可以組成“發微博、寫微博、看微博”,可以明顯看出“微博”是這幾個三字詞中的重點,而“發、寫、看”則并不是那么重要,因此通過idf可以較輕松的得到“微博”這種高質量詞。
[0060]S25:在排序后的分詞中,選擇預設個數的權重較大,且詞頻大于第一預設值以及逆頻率大于第二預設值的分詞,得到選擇后的分詞。
[0061]例如,按照權重從大到小的順序進行排序后,可以從前到后選擇分詞,并判斷這些分詞的詞頻和逆頻率是否大于相應的預設值,從而得到預設個數的選擇后的分詞。
[0062]由于對原始句語料切分為長度分別是1,2,…,N的分詞后,會得到分詞的數據量過大,通過設置第一預設值和第二預設值可以過濾掉一些分詞,降低處理的數據量。另外,tf或idf多低的分詞,表明相應的分詞很少出現在文本中或者信息量不足,因此,這些分詞也不需要加入詞典中。
[0063]S26:在所述選擇后的分詞中獲取第一長度的分詞,以及包含第一長度的分詞的第二長度的分詞,并計算所述第二長度的分詞的詞頻與所述第一長度的分詞的詞頻之間的比值,其中,所