一種基于語(yǔ)音識(shí)別的文本處理方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及語(yǔ)音識(shí)別技術(shù)領(lǐng)域,特別是涉及一種基于語(yǔ)音識(shí)別的文本處理方法和 一種基于語(yǔ)音識(shí)別的文本處理裝置。
【背景技術(shù)】
[0002] 目前,移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展帶動(dòng)了如手機(jī)、平板電腦等移動(dòng)設(shè)備的廣泛普及,而 作為移動(dòng)設(shè)備上人機(jī)交互最方便自然的方式之一,語(yǔ)音輸入正逐漸被廣大用戶所接受。
[0003] 目前語(yǔ)音識(shí)別一般是應(yīng)用大規(guī)模非特定人連續(xù)語(yǔ)音識(shí)別,其目的是把輸入的語(yǔ)音 轉(zhuǎn)化為文字輸出,一般輸出的識(shí)別結(jié)果為一連串的文本。
[0004] 在輸入法等應(yīng)用場(chǎng)景中,用戶需要手動(dòng)對(duì)對(duì)識(shí)別的文本進(jìn)行定位和添加標(biāo)點(diǎn)符 號(hào),尤其對(duì)于長(zhǎng)語(yǔ)句及移動(dòng)設(shè)備,其屏幕較小,界面顯示的位置也較小,斷句的定位操作、標(biāo) 點(diǎn)符號(hào)的添加操作都很繁瑣,使得語(yǔ)音輸入的操作十分繁瑣。
【發(fā)明內(nèi)容】
[0005] 鑒于上述問(wèn)題,提出了本發(fā)明以便提供一種克服上述問(wèn)題或者至少部分地解決上 述問(wèn)題的一種基于語(yǔ)音識(shí)別的文本處理方法和相應(yīng)的一種基于語(yǔ)音識(shí)別的文本處理裝置。
[0006] 依據(jù)本發(fā)明的一個(gè)方面,提供了一種基于語(yǔ)音識(shí)別的文本處理方法,包括:
[0007] 獲取對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別獲得的第一文本;
[0008] 對(duì)所述第一文本進(jìn)行斷句,獲得一個(gè)或多個(gè)文本片段;
[0009] 對(duì)所述一個(gè)或多個(gè)文本片段添加標(biāo)點(diǎn)符號(hào),組合成第二文本。
[0010] 可選地,所述對(duì)所述第一文本進(jìn)行斷句,獲得一個(gè)或多個(gè)文本片段的步驟包括:
[0011] 對(duì)所述第一文本進(jìn)行切詞處理,獲得一個(gè)或多個(gè)字;
[0012] 識(shí)別所述一個(gè)或多個(gè)字的詞位置;
[0013] 在所述第一文本的指定的詞位置處進(jìn)行斷句,獲得一個(gè)或多個(gè)文本片段。
[0014] 可選地,所述識(shí)別所述一個(gè)或多個(gè)字的詞位置的步驟包括:
[0015] 按照字的順序,按照前一個(gè)字的每一個(gè)詞位置的概率,計(jì)算出后一個(gè)字的每一個(gè) 詞位置的概率;
[0016] 按照字的逆序,按照后一個(gè)字基于概率標(biāo)注的詞位置,標(biāo)注出前一個(gè)字的詞位置。
[0017] 可選地,所述按照字的順序,按照前一個(gè)字的每一個(gè)詞位置的概率,計(jì)算出后一個(gè) 字的每一個(gè)詞位置的概率的步驟包括:
[0018] 通過(guò)預(yù)設(shè)的序列標(biāo)注模型,計(jì)算出第1個(gè)字的每個(gè)詞位置的概率;
[0019]通過(guò)預(yù)設(shè)的序列標(biāo)注模型,基于第i_l個(gè)字的每個(gè)詞位置的概率,計(jì)算出第i個(gè)字 的每個(gè)詞位置的概率,i為大于1的正整數(shù);
[0020] 針對(duì)第i個(gè)字的每個(gè)詞位置的概率,以值最高的概率作為所述詞位置的概率。
[0021] 可選地,所述序列標(biāo)注模型為條件隨機(jī)場(chǎng)模型,基于訓(xùn)練文本及針對(duì)所述訓(xùn)練文 本中的字標(biāo)注的詞位置訓(xùn)練生成,所述訓(xùn)練文本的標(biāo)點(diǎn)符號(hào)被替換。
[0022] 可選地,所述按照字的逆序,按照后一個(gè)字基于概率標(biāo)注的詞位置,標(biāo)注出前一個(gè) 字的詞位置的步驟包括:
[0023]針對(duì)最后一個(gè)字,標(biāo)注值最高的概率所屬的詞位置;
[0024] 當(dāng)?shù)趇個(gè)字確定詞位置時(shí),查詢計(jì)算出第i個(gè)字詞位置的概率的第i-Ι個(gè)字的概率, i為大于1的正整數(shù);
[0025] 針對(duì)第i-Ι個(gè)字,標(biāo)注所述第i-Ι個(gè)字的概率所屬的詞位置。
[0026] 可選地,所述詞位置包括詞首、詞尾、詞中、單字詞中的一個(gè)或多個(gè);
[0027] 所述在所述第一文本的指定的詞位置處進(jìn)行斷句的步驟包括:
[0028] 在所述第一文本的詞首和/或單字詞之前進(jìn)行斷句;
[0029] 和/或,
[0030] 在所述第一文本的詞尾和/或單字詞之后進(jìn)行斷句。
[0031] 可選地,所述對(duì)所述一個(gè)或多個(gè)文本片段添加標(biāo)點(diǎn)符號(hào)的步驟包括:
[0032] 針對(duì)每個(gè)文本片段,識(shí)別出關(guān)鍵詞;
[0033] 查找所述關(guān)鍵詞對(duì)應(yīng)的標(biāo)點(diǎn)符號(hào);
[0034] 在所述文本片段之后添加所述標(biāo)點(diǎn)符號(hào)。
[0035]根據(jù)本發(fā)明的另一方面,提供了一種基于語(yǔ)音識(shí)別的文本處理裝置,包括:
[0036] 第一文本獲取模塊,適于獲取對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別獲得的第一文本;
[0037] 斷句模塊,適于對(duì)所述第一文本進(jìn)行斷句,獲得一個(gè)或多個(gè)文本片段;
[0038] 標(biāo)點(diǎn)符號(hào)添加模塊,適于對(duì)所述一個(gè)或多個(gè)文本片段添加標(biāo)點(diǎn)符號(hào),組合成第二 文本。
[0039] 可選地,所述斷句模塊還適于:
[0040]對(duì)所述第一文本進(jìn)行切詞處理,獲得一個(gè)或多個(gè)字;
[0041 ]識(shí)別所述一個(gè)或多個(gè)字的詞位置;
[0042]在所述第一文本的指定的詞位置處進(jìn)行斷句,獲得一個(gè)或多個(gè)文本片段。
[0043] 可選地,所述斷句模塊還適于:
[0044] 按照字的順序,按照前一個(gè)字的每一個(gè)詞位置的概率,計(jì)算出后一個(gè)字的每一個(gè) 詞位置的概率;
[0045] 按照字的逆序,按照后一個(gè)字基于概率標(biāo)注的詞位置,標(biāo)注出前一個(gè)字的詞位置。 [0046] 可選地,所述斷句模塊還適于:
[0047] 通過(guò)預(yù)設(shè)的序列標(biāo)注模型,計(jì)算出第1個(gè)字的每個(gè)詞位置的概率;
[0048] 通過(guò)預(yù)設(shè)的序列標(biāo)注模型,基于第i-Ι個(gè)字的每個(gè)詞位置的概率,計(jì)算出第i個(gè)字 的每個(gè)詞位置的概率,i為大于1的正整數(shù);
[0049]針對(duì)第i個(gè)字的每個(gè)詞位置的概率,以值最高的概率作為所述詞位置的概率。
[0050]可選地,所述序列標(biāo)注模型為條件隨機(jī)場(chǎng)模型,基于訓(xùn)練文本及針對(duì)所述訓(xùn)練文 本中的字標(biāo)注的詞位置訓(xùn)練生成,所述訓(xùn)練文本的標(biāo)點(diǎn)符號(hào)被替換。
[0051 ] 可選地,所述斷句模塊還適于:
[0052]針對(duì)最后一個(gè)字,標(biāo)注值最高的概率所屬的詞位置;
[0053]當(dāng)?shù)趇個(gè)字確定詞位置時(shí),查詢計(jì)算出第i個(gè)字詞位置的概率的第i-Ι個(gè)字的概率, i為大于1的正整數(shù);
[0054] 針對(duì)第i_l個(gè)字,標(biāo)注所述第i_l個(gè)字的概率所屬的詞位置。
[0055] 可選地,所述詞位置包括詞首、詞尾、詞中、單字詞中的一個(gè)或多個(gè);
[0056] 所述斷句模塊還適于:
[0057]在所述第一文本的詞首和/或單字詞之前進(jìn)行斷句;
[0058] 和/或,
[0059] 在所述第一文本的詞尾和/或單字詞之后進(jìn)行斷句。
[0060] 可選地,所述標(biāo)點(diǎn)符號(hào)添加模塊還適于:
[0061 ]針對(duì)每個(gè)文本片段,識(shí)別出關(guān)鍵詞;
[0062] 查找所述關(guān)鍵詞對(duì)應(yīng)的標(biāo)點(diǎn)符號(hào);
[0063] 在所述文本片段之后添加所述標(biāo)點(diǎn)符號(hào)。
[0064] 本發(fā)明實(shí)施例對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別的結(jié)果,即第一文本,進(jìn)行斷句,對(duì)斷句之 后的文本片段添加標(biāo)點(diǎn)符號(hào),組合成第二文本,實(shí)現(xiàn)了標(biāo)點(diǎn)符號(hào)的自動(dòng)添加,避免用戶手動(dòng) 進(jìn)行定位、添加標(biāo)點(diǎn),大大提高的語(yǔ)音輸入的簡(jiǎn)便性。
[0065] 上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段, 而可依照說(shuō)明書(shū)的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠 更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
【附圖說(shuō)明】
[0066] 通過(guò)閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通 技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明 的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0067] 圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種基于語(yǔ)音識(shí)別的文本處理方法實(shí)施例的 步驟流程圖;以及
[0068] 圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種基于語(yǔ)音識(shí)別的文本處理裝置實(shí)施例的 結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0069] 下面將參照附圖更詳細(xì)地描述本公開(kāi)的示例性實(shí)施例。雖然附圖中顯示了本公開(kāi) 的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開(kāi)而不應(yīng)被這里闡述的實(shí)施例 所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開(kāi),并且能夠?qū)⒈竟_(kāi)的范圍 完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0070] 參照?qǐng)D1,示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種基于語(yǔ)音識(shí)別的文本處理方法實(shí) 施例的步驟流程圖,具體可以包括如下步驟:
[0071] 步驟101,獲取對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別獲得的第一文本;
[0072] 在具體實(shí)現(xiàn)中,用戶可以通過(guò)配置有麥克風(fēng)等聲卡設(shè)備的電子設(shè)備輸入語(yǔ)言數(shù) 據(jù)。
[0073] 其中,該電子設(shè)備可以為移動(dòng)設(shè)備,如手機(jī)、平板電腦、個(gè)人數(shù)字助理、穿戴設(shè)備 (如眼鏡、手表等)等等,也可以為固定設(shè)備,如個(gè)人電腦、智能電視、智能家居/家電(如空 調(diào)、電飯煲)等等,本發(fā)明實(shí)施例對(duì)此不加以限制。
[0074]當(dāng)電子設(shè)備接收到聲卡設(shè)備轉(zhuǎn)換的語(yǔ)言數(shù)據(jù)時(shí),可以在本地進(jìn)行語(yǔ)音識(shí)別、添加 標(biāo)點(diǎn)符號(hào),也可以發(fā)送至服務(wù)器進(jìn)行語(yǔ)音識(shí)別、添加標(biāo)點(diǎn)符號(hào),本發(fā)明實(shí)施例對(duì)此不加以限 制。
[0075] 在具體實(shí)現(xiàn)中,進(jìn)行語(yǔ)音識(shí)別的語(yǔ)音識(shí)別系統(tǒng)可以基于WFST(Weighted Finite-state Transducer,加權(quán)有限狀態(tài)轉(zhuǎn)換器) 構(gòu)建網(wǎng)絡(luò),通常由以下幾個(gè)基本模塊所構(gòu)成 :
[0076] 1、信號(hào)處理及特征提取模塊;該模塊的主要任務(wù)是從音頻數(shù)據(jù)中提取特征,供聲 學(xué)模型處理。同時(shí),它一般也包括了一些信號(hào)處理技術(shù),以盡可能降低環(huán)境噪聲、信道、說(shuō)話 人等因素對(duì)特征造成的影響。
[0077] 2、聲學(xué)模型;語(yǔ)音識(shí)別系統(tǒng)多采用基于一階隱馬爾科夫模型進(jìn)行建模。
[0078] 3、發(fā)音詞典;發(fā)音詞典包含語(yǔ)音識(shí)別系統(tǒng)所能處理的詞匯集及其發(fā)音。發(fā)音詞典 實(shí)際提供了聲學(xué)模型與語(yǔ)言模型的映射。
[0079] 4、語(yǔ)言模型;語(yǔ)言模型對(duì)語(yǔ)音識(shí)別系統(tǒng)所針對(duì)的語(yǔ)言進(jìn)行建模。理論上,包括正則 語(yǔ)言,上下文無(wú)關(guān)文法在內(nèi)的各種語(yǔ)言模型都可以作為語(yǔ)言模型,但目前各種系