專(zhuān)利名稱(chēng):基于專(zhuān)用語(yǔ)音芯片的非特定人語(yǔ)音識(shí)別與語(yǔ)音合成裝置的制作方法
技術(shù)領(lǐng)域:
本實(shí)用新型涉及一種基于專(zhuān)用語(yǔ)音芯片的非特定人語(yǔ)音識(shí)別與語(yǔ)音合成裝置,屬 于語(yǔ)音交互領(lǐng)域。
背景技術(shù):
基于聽(tīng)覺(jué)的人機(jī)交互是當(dāng)今科學(xué)技術(shù)領(lǐng)域的一個(gè)重要發(fā)展方向。目前主流的語(yǔ)音 識(shí)別技術(shù)是基于統(tǒng)計(jì)模式。然而,由于統(tǒng)計(jì)模型訓(xùn)練算法復(fù)雜,運(yùn)算量大,一般由工控機(jī)、PC 機(jī)或筆記本來(lái)完成,成本較高,這無(wú)疑限制了它的運(yùn)用。嵌入式語(yǔ)音識(shí)別系統(tǒng)和PC機(jī)的語(yǔ) 音識(shí)別系統(tǒng)相比,雖然其運(yùn)算速度和內(nèi)存容量有一定限制,但它具有體積小、功耗低、可靠 性高、投入小、安裝靈活等優(yōu)點(diǎn)。目前嵌入式語(yǔ)音交互系統(tǒng)的開(kāi)發(fā)主要采用在嵌入式處理器 中直接調(diào)用語(yǔ)音開(kāi)發(fā)包的方式,而這種方法程序量大,計(jì)算復(fù)雜,需要占用大量的處理器資 源,開(kāi)發(fā)周期長(zhǎng)。
實(shí)用新型內(nèi)容本實(shí)用新型針對(duì)嵌入式語(yǔ)音交互系統(tǒng)的開(kāi)發(fā)中存在的不足,提供了一種基于專(zhuān)用 語(yǔ)音芯片的非特定人語(yǔ)音識(shí)別與語(yǔ)音合成裝置,它采用嵌入式處理器外圍擴(kuò)展專(zhuān)用語(yǔ)音芯 片的方式,實(shí)現(xiàn)了語(yǔ)音識(shí)別與語(yǔ)音合成。為實(shí)現(xiàn)上述目的,本實(shí)用新型采用如下技術(shù)方案一種基于專(zhuān)用語(yǔ)音芯片的非特定人語(yǔ)音識(shí)別與語(yǔ)音合成裝置,它包括對(duì)話管理模 塊,該模塊與語(yǔ)音輸入模塊、外部設(shè)備接口模塊、顯示模塊、語(yǔ)音合成模塊和語(yǔ)音輸出模塊 連接;電源模塊為整個(gè)裝置供電。所述對(duì)話管理模塊包括主控制器和存儲(chǔ)模塊。所述主控制器與存儲(chǔ)模塊間采用1 總線通信,主控制器還分別通過(guò)SPI總線與 語(yǔ)音輸入模塊,通過(guò)SPI接口與顯示模塊連接;通過(guò)USB或UART總線與外部設(shè)備通信;通過(guò) UART總線與語(yǔ)音合成模塊通信。所述語(yǔ)音輸入模塊包括語(yǔ)音識(shí)別芯片,它與外圍電路連接,語(yǔ)音識(shí)別芯片與對(duì)話 管理模塊通信。所述語(yǔ)音合成模塊包括語(yǔ)音合成芯片,它與外圍電路連接,語(yǔ)音合成芯片與對(duì)話 管理模塊通信。所述語(yǔ)音輸出模塊包括音頻放大電路,它與外圍電路連接。本實(shí)用新型的系統(tǒng)包括以下幾個(gè)部分對(duì)話管理模塊、語(yǔ)音輸入模塊、語(yǔ)音合成模 塊以及外部設(shè)備接口模塊。本實(shí)用新型的有益效果是無(wú)需預(yù)先訓(xùn)練,識(shí)別率高,語(yǔ)音交互流暢自然,性能穩(wěn) 健等特點(diǎn)。可以應(yīng)用于智能家居的語(yǔ)音控制,智能機(jī)器人的語(yǔ)音交互,以及智能玩具控制等 語(yǔ)音交互和語(yǔ)音控制領(lǐng)域。
圖1為本實(shí)用新型的系統(tǒng)結(jié)構(gòu)圖。圖2為主控制器原理圖。圖3為電源模塊原理圖。圖4為語(yǔ)音輸入模塊原理圖。圖5為語(yǔ)音合成模塊原理圖。圖6為音頻放大電路原理圖。圖7為外部設(shè)備接口原理圖。其中,1.對(duì)話管理模塊,2.語(yǔ)音輸入模塊,3.外部設(shè)備接口模塊,4.顯示模塊, 5.語(yǔ)音合成模塊,6.語(yǔ)音輸出模塊,7.主控制器,8.存儲(chǔ)模塊,9.語(yǔ)音識(shí)別芯片,10.語(yǔ)音 合成芯片,11.音頻放大電路。
具體實(shí)施方式
以下結(jié)合附圖與實(shí)例對(duì)本實(shí)用新型做進(jìn)一步說(shuō)明。圖1中,它包括對(duì)話管理模塊1,該模塊與語(yǔ)音輸入模塊2、外部設(shè)備接口模塊3、顯 示模塊4、語(yǔ)音合成模塊5和語(yǔ)音輸出模塊6連接。1.對(duì)話管理模塊對(duì)話管理模塊1包括主控制器7和存儲(chǔ)模塊8。主控制器7選用的是ST公司的STM32F103C8T6芯片。該芯片基于ARM Cortex_M3 32位的RISC內(nèi)核,工作頻率最高可達(dá)72MHz,內(nèi)置高速存儲(chǔ)器(64K字節(jié)的閃存和20K字節(jié) 的SRAM),豐富的增強(qiáng)I/O端口和聯(lián)接到兩條APB總線的外設(shè)。STM32系列提供了全新的 32位產(chǎn)品選項(xiàng),結(jié)合了高性能、實(shí)時(shí)、低功耗、低電壓等特性,同時(shí)保持了高集成度和易于開(kāi) 發(fā)的優(yōu)勢(shì),將32位MCU世界的性能和功效引向一個(gè)新的級(jí)別。擴(kuò)展存儲(chǔ)器選用24C256,容 量為256KB,1 通信,用于存儲(chǔ)大量的對(duì)話信息和指令信息。在裝置使用之前,可通過(guò)USB 或RS232對(duì)存儲(chǔ)器的數(shù)據(jù)進(jìn)行初始化,以實(shí)現(xiàn)該裝置的通用性。同時(shí)預(yù)留LCD接口,可連接 SPI接口的設(shè)備,如液晶屏,本裝置調(diào)試實(shí)現(xiàn)了 NOKIA 3510 液晶屏的顯示。圖2為STM32主控制器的設(shè)計(jì)原理圖,參考了 STMicroelectronics發(fā)布的 STMFlOxxx硬件開(kāi)發(fā)入門(mén)文檔。為了保證可靠復(fù)位,選用了 MAXIM公司的DS1233A作為復(fù)位 芯片;STM32的模擬電源輸入采用了 LC濾波電路;采用3路LED指示狀態(tài),三個(gè)操作按鍵實(shí) 現(xiàn)特定操作。圖3為電源模塊原理圖2.電源供電部分,可以采用外部電源供電(USB供電或適配器供電),也可采用可 充電電池。該裝置以REG1117-3. 3V和)(C6209B182MR兩種電壓轉(zhuǎn)換芯片為核心配合必要的 外圍電路,為裝置提供穩(wěn)定的3. 3V和1. 8V電源,供電電壓范圍為4. 75V 12V ;為了減少 干擾,數(shù)字電路與模擬電路部分采用不同的電源分開(kāi)供電,數(shù)字地與模擬地分開(kāi)布線,最后 在電源供電處采用0歐姆電阻共地,如圖3所示。3.語(yǔ)音輸入模塊語(yǔ)音輸入模塊2包括語(yǔ)音識(shí)別芯片9,它與外圍電路連接,語(yǔ)音識(shí)別芯片9與對(duì) 話管理模塊通信,它為L(zhǎng)D3320芯片,其內(nèi)部集成了快速穩(wěn)定的優(yōu)化算法,不需外接Flash、RAM,不需要用戶事先訓(xùn)練和錄音而完成非特定人語(yǔ)音識(shí)別,識(shí)別準(zhǔn)確率高。以LD3320為核 心,配合必要的外圍電路和模擬信號(hào)采集電路,實(shí)現(xiàn)語(yǔ)音識(shí)別。圖4中,LD3320采用SPI串行行方式直接與STM32相接,片選信號(hào)LD_SCS,復(fù)位信 號(hào)LD_RSTB以及中斷返回信號(hào)LD_INTB與STM32直接相連,采用IkQ電阻上拉,輔助系統(tǒng) 穩(wěn)定工作;閑置的LD3320的數(shù)字端口采用IkQ電阻上拉,給以穩(wěn)定電平,保證CMOS工藝芯 片可靠工作;LD3320和STM32共用一個(gè)外部8MHz時(shí)鐘;LD3320的模擬電源輸入采用了 LC 濾波電路;發(fā)光二極管Dl用于復(fù)位后芯片工作狀態(tài)指示;MBS (管腳12)作為麥克風(fēng)偏置, 接了一個(gè)RC電路,保證能輸出一個(gè)浮動(dòng)電壓給麥克風(fēng)。4.語(yǔ)音合成模塊語(yǔ)音合成模塊5包括語(yǔ)音合成芯片10,它與外圍電路連接。語(yǔ)音合成芯片10與對(duì) 話管理模塊通過(guò)串口通信。語(yǔ)音合成芯片10以科大訊飛的XFS4041cn為核心芯片,實(shí)現(xiàn)語(yǔ)音合成。XFS4041 是合肥訊飛數(shù)碼科技有限公司推出的一款高性能的中文語(yǔ)音合成芯片,芯片可以通過(guò)UART 或SPI兩種通信方式接收待合成的文本,把文本合成為語(yǔ)音輸出。芯片接口簡(jiǎn)單、功能豐 富,主要面向中高端應(yīng)用領(lǐng)域。XFS4041CN語(yǔ)音合成芯片的產(chǎn)品形式是由雙芯片構(gòu)成的套 片,兩個(gè)芯片分別命名為XFS4041A和XFS4041B。該語(yǔ)音合成裝置具有如下特點(diǎn)具有智能的文本分析處理算法,可正確的識(shí)別和 處理數(shù)值、號(hào)碼、時(shí)間日期及一些常用的度量衡符號(hào);具備較強(qiáng)的多音字處理和中文姓氏處 理能力;提供兩男、兩女、一個(gè)效果器和一個(gè)女童聲6個(gè)中文發(fā)音人,可指令修改;內(nèi)部集成 20種常見(jiàn)的提示音效;支持多種控制命令,包括合成、停止、暫停、繼續(xù);可通過(guò)發(fā)送控制 標(biāo)記調(diào)節(jié)語(yǔ)速,支持11級(jí)語(yǔ)速調(diào)整;可通過(guò)發(fā)送控制標(biāo)記調(diào)節(jié)語(yǔ)調(diào),支持11級(jí)語(yǔ)調(diào)調(diào)整; 可通過(guò)發(fā)送控制標(biāo)記調(diào)節(jié)音量,支持11級(jí)音量調(diào)整;支持多種文本控制標(biāo)記,提升文本處 理的正確率;支持多種方式查詢模塊工作狀態(tài);支持GB2312、GBK、BIG5、UNICODE四種內(nèi)碼 格式文本的合成;每次合成的文本量最多可達(dá)4k字節(jié);支持UART、SPI兩種數(shù)據(jù)通訊接口 ; 支持正常工作模式、Power Down模式、IDLE模式3種芯片模式;可合成任意的中文文本,支 持英文字母的合成;清晰、自然、準(zhǔn)確的語(yǔ)音合成效果。如圖5所示,BAUDl和BAUD2置高,即語(yǔ)音合成單元與STM32控制器單元之間采 用固化的串口波特率115200bps,以實(shí)現(xiàn)較高的傳輸速率,提高語(yǔ)音合成的效率。為了提供 XFS4041CN復(fù)位所需的2ms以上的低電平,并檢測(cè)電路電壓,裝置選用復(fù)位芯片CAT811R,對(duì) XFS4041CN進(jìn)行復(fù)位,CAT811R的MR連接STM32的I/O 口以實(shí)現(xiàn)軟件復(fù)位。CAT811R在上電 后或MR腳低電平后會(huì)持續(xù)保持大概140ms的低電平,可保障XFS4041CN可靠復(fù)位。另夕卜, RDY連接STM32的1/0,可以檢測(cè)XFS4041CN的工作狀態(tài),并執(zhí)行相應(yīng)的操作命令。為了給 XFS4041CN提供穩(wěn)定可靠的模擬電源,對(duì)電路中3. 3V和1. 8V電源LC濾波處理。6.語(yǔ)音輸出模塊語(yǔ)音輸出模塊6包括音頻放大電路11,它與帶自動(dòng)開(kāi)關(guān)的耳機(jī)座連接。音頻放大 電路11通過(guò)帶自動(dòng)開(kāi)關(guān)的耳機(jī)座連接到XFS4041CN的差動(dòng)音頻輸出,這樣使裝置既可以外 接有源音箱,也可以通過(guò)板上的功放電路輸出,電路原理圖如圖6所示。LM4861是美國(guó)半導(dǎo) 體公司推出的一款1. IW橋鏈音頻功率放大器。當(dāng)負(fù)載為8Ω,供電電壓為5V時(shí),穩(wěn)定輸出 功率為1. 1W。圖中F_SWB端子連接STM32的I/O 口,開(kāi)關(guān)控制功放電路的工作狀態(tài),以降低功耗。7.外部設(shè)備接口模塊如圖7所示,它以CH340TDS1為核心,實(shí)現(xiàn)串口到USB的轉(zhuǎn)換,同時(shí)預(yù)留USART2的 端口,可以連接串口設(shè)備。CH340TDS1的T)(D和RXD管腳與一個(gè)雙路開(kāi)關(guān)連接,以實(shí)現(xiàn)USB 接口與串行接口之間的切換。USB接口主要用以連接PC機(jī),實(shí)現(xiàn)與上位機(jī)的通信,便于裝置 的對(duì)話集的初始化;串行接口主要連接被控設(shè)備或是RF無(wú)線傳輸模塊,如ZigBee節(jié)點(diǎn)、無(wú) 線數(shù)傳設(shè)備,以實(shí)現(xiàn)語(yǔ)音命令的傳輸。
權(quán)利要求1.一種基于專(zhuān)用語(yǔ)音芯片的非特定人語(yǔ)音識(shí)別與語(yǔ)音合成裝置,其特征是,它包括對(duì) 話管理模塊,該模塊與語(yǔ)音輸入模塊、外部設(shè)備接口模塊、顯示模塊、語(yǔ)音合成模塊和語(yǔ)音 輸出模塊連接;電源模塊為整個(gè)裝置供電。
2.如權(quán)利要求1所述的基于專(zhuān)用語(yǔ)音芯片的非特定人語(yǔ)音識(shí)別與語(yǔ)音合成裝置,其特 征是,所述對(duì)話管理包括主控制器和存儲(chǔ)模塊。
3.如權(quán)利要求2所述的基于專(zhuān)用語(yǔ)音芯片的非特定人語(yǔ)音識(shí)別與語(yǔ)音合成裝置,其特 征是,所述主控制器與存儲(chǔ)模塊間采用Ic總線通信,主控制器還分別通過(guò)SPI總線接口與 語(yǔ)音輸入模塊,通過(guò)SPI總線接口與顯示模塊連接;通過(guò)USB或UART總線與外部設(shè)備通信; 通過(guò)UART總線與語(yǔ)音合成模塊通信。
4.如權(quán)利要求1所述的基于專(zhuān)用語(yǔ)音芯片的非特定人語(yǔ)音識(shí)別與語(yǔ)音合成裝置,其特 征是,所述語(yǔ)音輸入模塊包括語(yǔ)音識(shí)別芯片,它與外圍電路連接,語(yǔ)音識(shí)別芯片與對(duì)話管理 模塊通信。
5.如權(quán)利要求1所述的基于專(zhuān)用語(yǔ)音芯片的非特定人語(yǔ)音識(shí)別與語(yǔ)音合成裝置,其特 征是,所述語(yǔ)音合成模塊包括語(yǔ)音合成芯片,它與外圍電路連接,語(yǔ)音合成芯片與對(duì)話管理 模塊通信。
6.如權(quán)利要求1所述的基于專(zhuān)用語(yǔ)音芯片的非特定人語(yǔ)音識(shí)別與語(yǔ)音合成裝置,其特 征是,所述語(yǔ)音輸出模塊包括音頻放大電路,它與外圍電路連接。
專(zhuān)利摘要本實(shí)用新型涉及一種基于專(zhuān)用語(yǔ)音芯片的非特定人語(yǔ)音識(shí)別與語(yǔ)音合成裝置,它采用嵌入式處理器外圍擴(kuò)展專(zhuān)用語(yǔ)音芯片的方式,實(shí)現(xiàn)了語(yǔ)音識(shí)別與語(yǔ)音合成。它包括對(duì)話管理模塊,該模塊與語(yǔ)音輸入模塊、外部設(shè)備接口模塊、顯示模塊、語(yǔ)音合成模塊和語(yǔ)音輸出模塊連接;電源模塊為整個(gè)裝置供電。對(duì)話管理模塊由以STM32為核心的主控制電路和以24C256為核心的擴(kuò)展存儲(chǔ)器電路組成;電源模塊進(jìn)行了模擬電源與數(shù)字電源的隔離;語(yǔ)音輸入模塊以LD3320專(zhuān)用非特定人語(yǔ)音識(shí)別芯片為核心,實(shí)現(xiàn)語(yǔ)音識(shí)別,并將識(shí)別結(jié)果反饋給主控制器;語(yǔ)音合成模塊以XFS4041CN專(zhuān)用語(yǔ)音合成芯片為核心,實(shí)現(xiàn)語(yǔ)音合成;另外,設(shè)計(jì)了外部串行設(shè)備接口單元和LCD液晶屏接口,便于裝置的初始化和外部設(shè)備的連接。
文檔編號(hào)G10L13/00GK201936600SQ201120048679
公開(kāi)日2011年8月17日 申請(qǐng)日期2011年2月28日 優(yōu)先權(quán)日2011年2月28日
發(fā)明者臺(tái)述鵬, 周祥章, 周風(fēng)余, 王小龍, 王然, 田國(guó)會(huì), 蘇鵬, 陳磊 申請(qǐng)人:山東大學(xué)