一種用于保護(hù)漢語(yǔ)語(yǔ)音私密度的掩蔽信號(hào)的生成方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種用于保護(hù)漢語(yǔ)語(yǔ)音私密度的掩蔽信號(hào)的生成方法,更具體的說(shuō), 尤其涉及一種可形成無(wú)實(shí)際意義的、與正常說(shuō)話語(yǔ)音極其相似的、減小了聽(tīng)覺(jué)上負(fù)面影響 的用于保護(hù)漢語(yǔ)語(yǔ)音私密度的掩蔽信號(hào)的生成方法。
【背景技術(shù)】
[0002] 會(huì)議室保密涉及到國(guó)家、商業(yè)、科技等機(jī)密信息的保護(hù),屬于信息安全領(lǐng)域,從國(guó) 家安全到商業(yè)應(yīng)用都有迫切的需求,商業(yè)竊聽(tīng)每年給國(guó)家造成的經(jīng)濟(jì)損失可達(dá)數(shù)百億元。 作為保密會(huì)議室最基本的信息形式,聲音是需要保護(hù)的重點(diǎn)。保密會(huì)議室中聲音信息的泄 露主要有兩種方式:主動(dòng)泄露和無(wú)意識(shí)泄露。主動(dòng)泄露指的是通過(guò)在會(huì)議室內(nèi)部安裝竊聽(tīng) 設(shè)備所造成的泄露,而無(wú)意識(shí)泄露指的是會(huì)議召開(kāi)期間,聲音通過(guò)空氣傳聲、固體傳聲等方 式泄露,而被非授權(quán)人員聽(tīng)到。具體而言,聲音信號(hào)無(wú)意識(shí)泄露的通道主要包括:門(mén)、窗、墻 體以及各種管道等。本文所提出的方法主要針對(duì)聲音信號(hào)的無(wú)意識(shí)泄露。目前,針對(duì)聲音 信號(hào)的無(wú)意識(shí)泄露,大都采用聲掩蔽技術(shù)進(jìn)行防護(hù)。具體而言,就是在可能存在聲音泄露的 位置、途徑上布設(shè)干擾源,產(chǎn)生干擾信號(hào),從而掩蔽有用的語(yǔ)音信號(hào),從而達(dá)到聲音泄露防 護(hù)的作用。上述干擾信號(hào)被稱為掩蔽信號(hào)。
[0003] 掩蔽信號(hào)的選擇要考慮兩個(gè)方面的因素,一是掩蔽效果,二是掩蔽信號(hào)對(duì)人的心 理和生理影響。目前常見(jiàn)的掩蔽信號(hào)主要有白噪聲、粉噪聲、暖通空調(diào)噪聲等。白噪聲和粉 噪聲,通常具有比較穩(wěn)定的統(tǒng)計(jì)特性,但掩蔽效率較低。而暖通空調(diào)噪聲信號(hào)本身具有不連 續(xù)、不穩(wěn)定、分布不均或是聲音級(jí)過(guò)高,有時(shí)候反而成為噪聲源,對(duì)人的心理和生理影響比 較大,負(fù)面效應(yīng)明顯。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的主要目的是利用漢語(yǔ)發(fā)音的特點(diǎn),包括字、詞、句的各項(xiàng)統(tǒng)計(jì)特性,合成 一種新的掩蔽信號(hào),由于其與正常發(fā)音的統(tǒng)計(jì)特性類(lèi)似,因而不容易被破解,掩蔽效果好, 同時(shí)會(huì)降低掩蔽信號(hào)對(duì)人心理和生理的影響,兼具一定的迷惑性。
[0005] 本發(fā)明的用于保護(hù)漢語(yǔ)語(yǔ)音私密度的掩蔽信號(hào)的生成方法,其特別之處在于,通 過(guò)以下步驟來(lái)實(shí)現(xiàn): a) .統(tǒng)計(jì)語(yǔ)句概率表,以具有代表性的漢語(yǔ)語(yǔ)料庫(kù)為統(tǒng)計(jì)樣本,對(duì)語(yǔ)料 庫(kù)中每個(gè)段落所包含的語(yǔ)句數(shù)進(jìn)行統(tǒng)計(jì),獲得組成段落的語(yǔ)句數(shù)的概率表
[心J2, ,簡(jiǎn)稱語(yǔ)句概率表,其中Ji表示語(yǔ)句數(shù)目為:的段落占所有段落的百分比, I ; b) .統(tǒng)計(jì)句段概率表,對(duì)語(yǔ)料庫(kù)中所有語(yǔ)句所包含的句段數(shù)進(jìn)行統(tǒng)計(jì),獲得語(yǔ)句的句段 數(shù)的概率表A ···,A],簡(jiǎn)稱句段概率表,其中A表示句段數(shù)目為I的語(yǔ)句占所有語(yǔ) 句的百分比,1彡i ; C).統(tǒng)計(jì)詞組概率表,對(duì)語(yǔ)料庫(kù)中所有句段所包含的詞組數(shù)進(jìn)行統(tǒng)計(jì),獲得句段的詞組 數(shù)的概率表j,簡(jiǎn)稱詞組概率表,其中Ci表示詞組數(shù)目為|的句段占所有句 段的百分比,1彡i彡分; d) .統(tǒng)計(jì)漢字概率表,對(duì)語(yǔ)料庫(kù)中所有詞組所包含的漢字?jǐn)?shù)進(jìn)行統(tǒng)計(jì),獲得詞組的漢字 數(shù)的概率表,簡(jiǎn)稱漢字概率表,其中4表示漢字?jǐn)?shù)目為i的詞組占所有詞 組的百分比,I P ; e) .統(tǒng)計(jì)音節(jié)概率表,首先按照字母順序?qū)σ艄?jié)進(jìn)行排序,記為把A2, A…為, 然后根據(jù)各音節(jié)在日常用語(yǔ)中出現(xiàn)的概率,獲得音節(jié)概率表(A11A2.?…,?],簡(jiǎn)稱音節(jié)概率 表,其中&表示音節(jié)乓在日常用語(yǔ)中出現(xiàn)的頻率,I Si ; f) .生成文本信息,按照如下步驟生成語(yǔ)音對(duì)應(yīng)的文本信息: f-Ι).確定自然段的語(yǔ)句數(shù),在區(qū)間范圍
【主權(quán)項(xiàng)】
1. 一種用于保護(hù)漢語(yǔ)語(yǔ)音私密度的掩蔽信號(hào)的生成方法,其特征在于,通過(guò)以下步驟 來(lái)實(shí)現(xiàn): a) .統(tǒng)計(jì)語(yǔ)句概率表,以具有代表性的漢語(yǔ)語(yǔ)料庫(kù)為統(tǒng)計(jì)樣本,對(duì)語(yǔ)料 庫(kù)中每個(gè)段落所包含的語(yǔ)句數(shù)進(jìn)行統(tǒng)計(jì),獲得組成段落的語(yǔ)句數(shù)的概率表 匕,J2, J3簡(jiǎn)稱語(yǔ)句概率表,其中Ji表示語(yǔ)句數(shù)目為S的段落占所有段落的百分比, I ; b) .統(tǒng)計(jì)句段概率表,對(duì)語(yǔ)料庫(kù)中所有語(yǔ)句所包含的句段數(shù)進(jìn)行統(tǒng)計(jì),獲得語(yǔ)句的句段 數(shù)的概率表,A ··、A],簡(jiǎn)稱句段概率表,其中A表示句段數(shù)目為:的語(yǔ)句占所有語(yǔ) 句的百分比,1彡:彡/ ; C).統(tǒng)計(jì)詞組概率表,對(duì)語(yǔ)料庫(kù)中所有句段所包含的詞組數(shù)進(jìn)行統(tǒng)計(jì),獲得句段的詞組 數(shù)的概率表1cl.C2,C3 ···.〇; j,簡(jiǎn)稱詞組概率表,其中q表示詞組數(shù)目為i的句段占所有句 段的百分比,1彡?彡分; d) .統(tǒng)計(jì)漢字概率表,對(duì)語(yǔ)料庫(kù)中所有詞組所包含的漢字?jǐn)?shù)進(jìn)行統(tǒng)計(jì),獲得詞組的漢字 數(shù)的概率表_!,簡(jiǎn)稱漢字概率表,其中Zi表示漢字?jǐn)?shù)目為^的詞組占所有詞 組的百分比,I P ; e) .統(tǒng)計(jì)音節(jié)概率表,首先按照字母順序?qū)σ艄?jié)進(jìn)行排序,記為[At1A2,瑪-,圮], 然后根據(jù)各音節(jié)在日常用語(yǔ)中出現(xiàn)的概率,獲得音節(jié)概率表(?,?,?,簡(jiǎn)稱音節(jié)概率 表,其中4表示音節(jié)乓在日常用語(yǔ)中出現(xiàn)的頻率,1 是; f) .生成文本信息,按照如下步驟生成語(yǔ)音對(duì)應(yīng)的文本信息: f-Ι).確定自然段的語(yǔ)句數(shù),在區(qū)間范目
內(nèi)產(chǎn)生隨機(jī)數(shù)并判斷隨機(jī)數(shù)q所
屬區(qū)間;如果在區(qū)間 則得出自然段中所包含的語(yǔ)句數(shù)為,其中,1 rI 彡J0=O ;通過(guò)步驟f-2)確定出自然段中的每個(gè)語(yǔ)句;
f-2).確定語(yǔ)句中的句段數(shù),在區(qū)間; 內(nèi)產(chǎn)生隨機(jī)數(shù)^,并判斷隨機(jī)數(shù) rI q所屬區(qū)間;如果q在區(qū)丨1勾,則得出語(yǔ)句中所包含的句段數(shù)為μ,其中, 1彡《2彡i, A = 〇 ;通過(guò)步驟卜3)
確定出每個(gè)語(yǔ)句中的句段; f_3).確定句段中的詞組數(shù),在區(qū)間范目
內(nèi)產(chǎn)生隨機(jī)數(shù)并判斷隨機(jī)數(shù) &所屬區(qū)間;如果&在區(qū)間
內(nèi),則得出句段中所包含的詞組數(shù)為其中, 1彡《3彡, Q = O ;通過(guò)步驟f-4)確定每個(gè)句段中的詞組; f_4).確定詞組中的漢字?jǐn)?shù),在區(qū)間范圍
內(nèi)產(chǎn)生隨機(jī)數(shù)q,并判斷隨機(jī)數(shù)
所屬區(qū)間;如果q在區(qū)I 內(nèi),則得出詞組中所包含的漢字?jǐn)?shù)為,漢字?jǐn)?shù)即音 4 ?4 節(jié)數(shù),每個(gè)漢字對(duì)應(yīng)一個(gè)音節(jié),其中,I , 2〇 = 〇 ;通過(guò)步驟f_5)確定每個(gè)漢字的 音節(jié); f_5).確定音節(jié),在區(qū)間范圍
~產(chǎn)生隨機(jī)數(shù)&,并判斷隨機(jī)數(shù)5所屬區(qū)間;如 果q在區(qū)間
內(nèi),則得出漢字的音節(jié)為,其中,1彡》5彡無(wú),& = 〇 ;直至詞組 中所有漢字的音節(jié)確定完畢; 按照步驟f-Ι)至f-5)生成自然段的文本信息,直至所生成的自然段數(shù)目滿足要求; g).語(yǔ)音合成,利用與每個(gè)音節(jié)的發(fā)音相對(duì)應(yīng)的語(yǔ)音庫(kù),將步驟f)中獲取的自然段的 文本信息中的音節(jié),與語(yǔ)音庫(kù)中的發(fā)音一一對(duì)應(yīng)形成相應(yīng)的語(yǔ)音數(shù)據(jù),通過(guò)在保密會(huì)議中 的聲音泄漏位置播放該語(yǔ)音數(shù)據(jù),即可形成與正常發(fā)音的統(tǒng)計(jì)特性類(lèi)似、掩蔽性好、對(duì)會(huì)議 人員影響小的語(yǔ)音掩蔽信號(hào)。
2. 根據(jù)權(quán)利要求1所述的用于保護(hù)漢語(yǔ)語(yǔ)音私密度的掩蔽信號(hào)的生成方法,其特征 在于:步驟f)在語(yǔ)音文本信息的生成過(guò)程中,語(yǔ)句末的符號(hào)為句號(hào)、問(wèn)號(hào)或感嘆號(hào),句段末 的符號(hào)為冒號(hào)、逗號(hào)或分號(hào),段末的符號(hào)為回車(chē)或換行符;在文本信息生成發(fā)音數(shù)據(jù)的過(guò)程 中,自然段之間、各語(yǔ)句之間以及各句段之間均加入靜音段。
3. 根據(jù)權(quán)利要求1或2所述的用于保護(hù)漢語(yǔ)語(yǔ)音私密度的掩蔽信號(hào)的生成方法,其特 征在于:步驟a)、b)、c)、d)中語(yǔ)句概率、句段概率、詞組概率、漢字概率均精確至0. 01,步驟 e)中的音節(jié)概率精確至0.0001。
4. 根據(jù)權(quán)利要求1或2所述的用于保護(hù)漢語(yǔ)語(yǔ)音私密度的掩蔽信號(hào)的生成方法,其特 征在于:步驟a)中所述的語(yǔ)料庫(kù)為國(guó)家語(yǔ)委立項(xiàng)建設(shè)的現(xiàn)代漢語(yǔ)通用平衡語(yǔ)料庫(kù)。
【專(zhuān)利摘要】本發(fā)明的用于保護(hù)漢語(yǔ)語(yǔ)音私密度的掩蔽信號(hào)的生成方包括a).統(tǒng)計(jì)語(yǔ)句概率表;b).統(tǒng)計(jì)句段概率表;c).統(tǒng)計(jì)詞組概率表;d).統(tǒng)計(jì)漢字概率表;e).統(tǒng)計(jì)音節(jié)概率表;f).按照確定自然段的語(yǔ)句數(shù)、語(yǔ)句中的句段數(shù)、句段中的詞組數(shù)、詞組中的漢字?jǐn)?shù)、漢字的音節(jié)生成文本信息;g).語(yǔ)音合成。本發(fā)明的掩蔽信號(hào)的生成方法,充分考慮了會(huì)議室聲音掩蔽的需求及漢語(yǔ)語(yǔ)音的特點(diǎn),摒棄了采用穩(wěn)態(tài)噪聲等掩蔽信號(hào)的傳統(tǒng)方式,基于漢語(yǔ)語(yǔ)言中字、詞、句的各項(xiàng)統(tǒng)計(jì)特性,利用人類(lèi)發(fā)聲語(yǔ)音庫(kù),生成一種無(wú)實(shí)際意義的、與正常說(shuō)話語(yǔ)音極其相似的掩蔽信號(hào)。這種掩蔽信號(hào)相比傳統(tǒng)的掩蔽噪聲,大大減弱了聽(tīng)覺(jué)上的各種負(fù)面影響,提高了聲音掩蔽效果。
【IPC分類(lèi)】G10L19-018
【公開(kāi)號(hào)】CN104637485
【申請(qǐng)?zhí)枴緾N201510094030
【發(fā)明人】李曄, 馬曉鳳, 郝秋赟, 樊燕紅, 姜競(jìng)賽, 張鵬
【申請(qǐng)人】山東省計(jì)算中心(國(guó)家超級(jí)計(jì)算濟(jì)南中心)
【公開(kāi)日】2015年5月20日
【申請(qǐng)日】2015年3月3日