一種字幕內(nèi)容的糾錯(cuò)方法和裝置與流程

文檔序號：11779051閱讀：435來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

本發(fā)明實(shí)施例涉及多媒體技術(shù)，尤其涉及一種字幕內(nèi)容的糾錯(cuò)方法和裝置。

背景技術(shù)：

通常在音視頻的字幕制作時(shí)，一般是一邊看視頻或者邊聽音頻，一邊錄入字幕文本，而錄好的字幕文本內(nèi)容是否與視頻中的音頻內(nèi)容相符或?qū)?yīng)，影響用戶觀看視頻或收聽音頻的體驗(yàn)。

現(xiàn)有技術(shù)中通常是人工去檢查，反復(fù)核對去發(fā)現(xiàn)問題。人工糾錯(cuò)帶來的結(jié)果是效率地下，投入成本高。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明實(shí)施例提供一種字幕內(nèi)容的糾錯(cuò)方法和裝置，實(shí)現(xiàn)了對字幕內(nèi)容的智能糾錯(cuò)，解決人工糾錯(cuò)效率低下以及投入成本高的問題。

第一方面，本發(fā)明實(shí)施例提供了一種字幕內(nèi)容的糾錯(cuò)方法，所述方法包括：

提取視頻文件中目標(biāo)字幕條對應(yīng)的第一文本信息；

識別所述目標(biāo)字幕條的音頻信息得到對應(yīng)的第二文本信息；

將所述第一文本信息與所述第二文本信息通過文本比對進(jìn)行糾錯(cuò)，輸出糾錯(cuò)結(jié)果。

進(jìn)一步的，所述提取視頻文件中目標(biāo)字幕條的第一文本信息包括：

判斷當(dāng)前圖像幀是否有字幕，若是，則確定所述字幕條的位置以及所述字幕條的起始幀和終止幀；

提取所述字幕條的第一文本信息。

進(jìn)一步的，所述識別所述目標(biāo)字幕條的音頻信息對應(yīng)的第二文本信息包括：

根據(jù)所述起始幀和所述終止幀確定時(shí)間間隔；

根據(jù)所述時(shí)間間隔解析和切割視頻中的音頻信息；

將解析和切割后的音頻信息與預(yù)設(shè)文本庫進(jìn)行比對，識別所述音頻信息對應(yīng)的第二文本信息。

進(jìn)一步的，所述將所述第一文本信息和所述第二文本信息通過文本比對進(jìn)行糾錯(cuò)，輸出糾錯(cuò)結(jié)果包括：

將所述第一文本信息和所述第二文本信息以字或詞語為單位一一進(jìn)行比對；

記錄所述第二文本中與所述第一文本不同的字或詞語；

將所述字或詞語作為糾錯(cuò)結(jié)果進(jìn)行輸出。

進(jìn)一步的，所述預(yù)設(shè)文本庫存儲在與語音識別模塊相連的服務(wù)器中。

第二方面，本發(fā)明實(shí)施例提供了一種字幕內(nèi)容的糾錯(cuò)裝置，所述裝置包括：

信息提取模塊，用于提取視頻文件中目標(biāo)字幕條對應(yīng)的第一文本信息；

信息識別模塊，識別所述目標(biāo)字幕條的音頻信息得到對應(yīng)的第二文本信息；

信息比對模塊，用于將所述第一文本信息與所述第二文本信息通過文本比對進(jìn)行糾錯(cuò)，輸出糾錯(cuò)結(jié)果。

進(jìn)一步的，所述信息提取模塊具體用于：

判斷當(dāng)前圖像幀是否有字幕，若是，則確定所述字幕條的位置以及所述字幕條的起始幀和終止幀；

提取所述字幕條的第一文本信息。

進(jìn)一步的，所述信息識別模塊具體用于：

根據(jù)所述起始幀和所述終止幀確定時(shí)間間隔；

根據(jù)所述時(shí)間間隔解析和切割視頻中的音頻信息；

將解析和切割后的音頻信息與預(yù)設(shè)文本庫進(jìn)行比對，識別所述音頻信息對應(yīng)的第二文本信息。

進(jìn)一步的，所述信息比對模塊具體用于：

將所述第一文本信息和所述第二文本信息以字或詞語為單位一一進(jìn)行比對；

記錄所述第二文本中與所述第一文本不同的字或詞語；

將所述字或詞語作為糾錯(cuò)結(jié)果進(jìn)行輸出。

進(jìn)一步的，所述預(yù)設(shè)文本庫存儲在與語音識別模塊相連的服務(wù)器中。

本發(fā)明實(shí)施例中，提取視頻文件中目標(biāo)字幕條對應(yīng)的第一文本信息；識別所述目標(biāo)字幕條的音頻信息得到對應(yīng)的第二文本信息；將所述第一文本信息與所述第二文本信息通過文本比對進(jìn)行糾錯(cuò)，輸出糾錯(cuò)結(jié)果。實(shí)現(xiàn)了對字幕內(nèi)容的智能糾錯(cuò)，解決人工糾錯(cuò)效率低下以及投入成本高的問題。

附圖說明

圖1是本發(fā)明實(shí)施例一中的一種字幕內(nèi)容的糾錯(cuò)方法的流程圖；

圖2是本發(fā)明實(shí)施例二中的一種字幕內(nèi)容的糾錯(cuò)方法的流程圖；

圖3是本發(fā)明實(shí)施例三中的一種字幕內(nèi)容的糾錯(cuò)方法的流程圖；

圖4是本發(fā)明實(shí)施例四中的一種字幕內(nèi)容的糾錯(cuò)裝置的結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面結(jié)合附圖和實(shí)施例對本發(fā)明作進(jìn)一步的詳細(xì)說明?？梢岳斫獾氖?，此處所描述的具體實(shí)施例僅僅用于解釋本發(fā)明，而非對本發(fā)明的限定。另外還需要說明的是，為了便于描述，附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部結(jié)構(gòu)。

實(shí)施例一

圖1為本發(fā)明實(shí)施例一提供的一種字幕內(nèi)容的糾錯(cuò)方法的流程圖，本實(shí)施例可適用于對字幕內(nèi)容進(jìn)行糾錯(cuò)的情況，該方法可以由本發(fā)明是實(shí)施例提供的一種字幕內(nèi)容的糾錯(cuò)裝置來執(zhí)行，該裝置可采用軟件和/或硬件的方式實(shí)現(xiàn)。參考圖1，該方法具體可以包括如下步驟：

s110、提取視頻文件中目標(biāo)字幕條對應(yīng)的第一文本信息。

具體的，用戶觀看視頻的過程中，需要結(jié)合視頻中的字幕信息和用戶聽到的音頻信息來欣賞視頻中的畫面。通常字幕條位于用戶觀看畫面的整個(gè)屏幕的中下部，在視頻播放的過程中，會出現(xiàn)多個(gè)字幕條，在多個(gè)字幕條中根據(jù)用戶的需求確定至少一個(gè)字幕條為目標(biāo)字幕條，提取視頻文件中目標(biāo)字幕條對應(yīng)的第一文本信息。其中，第一文本信息與目標(biāo)字幕條上的字幕一一對應(yīng)。

可選的，利用紋理去噪方法提取目標(biāo)字幕條對應(yīng)的第一文本信息。具體過程如下：求存在同一條字幕的多幀圖像幀亮度圖像的字幕條區(qū)域的平均和圖像；將平均和圖像進(jìn)行通過最大類間方差法進(jìn)行分割，生成只有黑白兩種顏色連通域的字幕區(qū)域圖像；對最大類間方差法分割后的圖像確定哪種顏色為文字區(qū)域；最后剔除非文字噪聲。

s120、識別所述目標(biāo)字幕條的音頻信息得到對應(yīng)的第二文本信息。

其中，對目標(biāo)字幕條對應(yīng)的音頻信息進(jìn)行語音識別，識別結(jié)果標(biāo)記為第二文本信息，其中，第二文本信息與目標(biāo)字幕條的音頻信息相對應(yīng)。

s130、將所述第一文本信息與所述第二文本信息通過文本比對進(jìn)行糾錯(cuò)，輸出糾錯(cuò)結(jié)果。

具體的，將第一文本信息與第二文本信息通過文本比對方法進(jìn)行糾錯(cuò)，可選的，由于第二文本信息為對音頻信息進(jìn)行語音識別獲得，可以將第二文本信息作為目標(biāo)文本信息，將第一文本信息與目標(biāo)文本信息進(jìn)行比對。比對結(jié)果中，將兩個(gè)文本信息中不同的部分定義為錯(cuò)誤部分，也即，糾錯(cuò)結(jié)果，然后輸出糾錯(cuò)結(jié)果。

在上述技術(shù)方案的基礎(chǔ)上，“將所述第一文本信息與所述第二文本信息通過文本比對進(jìn)行糾錯(cuò)，輸出糾錯(cuò)結(jié)果”具體可以是：

將所述第一文本信息和所述第二文本信息以字或詞語為單位一一進(jìn)行比對；記錄所述第二文本信息中與所述第一文本信息不同的字或詞語；將所述字或詞語作為糾錯(cuò)結(jié)果進(jìn)行輸出。

可選的，在對文本的具體糾錯(cuò)實(shí)現(xiàn)方式上，可以將第一文本信息和第二文本信息以字或詞語為單位一一進(jìn)行比對。在一個(gè)具體的例子中，詞語可以是短詞語或者長詞語，對具體的詞語長度不做具體限定。需要說明的是，詞語的長度越短，比對的結(jié)果越準(zhǔn)確。對比對不同的字或詞語進(jìn)行記錄，將記錄結(jié)果作為進(jìn)錯(cuò)結(jié)果進(jìn)行輸出。

實(shí)施例二

圖2為本發(fā)明實(shí)施例二提供的一種字幕內(nèi)容的糾錯(cuò)方法的流程圖，本實(shí)施例在上述實(shí)施例的基礎(chǔ)上，對“提取視頻文件中目標(biāo)字幕條的第一文本信息”進(jìn)行了優(yōu)化。參考圖2，該方法具體可以包括如下步驟：

s210、判斷當(dāng)前圖像幀是否有字幕，若是，則執(zhí)行s220，若否，則返回執(zhí)行s210。

具體的，根據(jù)正在播放的視頻中確定當(dāng)前的圖像幀，并判斷當(dāng)前的圖像幀中行是否有字幕，如果沒有字幕，則返回繼續(xù)判斷當(dāng)前圖像幀是否有字幕，直到有字幕出現(xiàn)。

s220、確定所述字幕條的位置以及所述字幕條的起始幀和終止幀。

具體的，確定字幕條的位置時(shí)，首先采集圖像幀的亮度圖像，生成紋理圖，通過垂直紋理圖水平投影求差分，先確定水平字幕條的上下邊框，再確定水平字幕條的左右邊框，從而確定字幕條的水平位置；接著確定垂直字幕條的位置，通過水平紋理圖垂直投影求查分，先確定垂直字幕條左右邊框，再確定垂直字幕條上下邊框，最后進(jìn)行字幕條去噪，確定字幕條的位置。

其中，如果出現(xiàn)字幕條，設(shè)當(dāng)前圖像幀為字幕條關(guān)鍵幀，則在前一個(gè)關(guān)鍵幀和該字幕條關(guān)鍵幀之間確定字幕條的起始幀，然后該字幕條關(guān)鍵幀的字幕條區(qū)域依次匹配后面的關(guān)鍵幀，如果匹配一致，則繼續(xù)匹配，直到匹配不一致，則在前一個(gè)關(guān)鍵幀和當(dāng)前關(guān)鍵幀確定字幕條的終止幀。

s230、提取所述字幕條的第一文本信息。

s240、識別所述目標(biāo)字幕條的音頻信息得到對應(yīng)的第二文本信息。

s250、將所述第一文本信息與所述第二文本信息通過文本比對進(jìn)行糾錯(cuò)，輸出糾錯(cuò)結(jié)果。

本發(fā)明實(shí)施例中，通過判斷當(dāng)前圖像幀中是否有字幕，若有，則確定字幕條的位置以及該字幕條的起始幀和終止幀，若沒有則一直進(jìn)行判斷直到檢測到存在字幕為止。通過字幕條的起始幀和終止幀的判斷，實(shí)現(xiàn)了對字幕條中字幕信息的提取。

實(shí)施例三

圖3為本發(fā)明實(shí)施例三提供的一種字幕內(nèi)容的糾錯(cuò)方法的流程圖，本實(shí)施例在上述實(shí)施例的基礎(chǔ)上，對“識別所述目標(biāo)字幕條的音頻信息對應(yīng)的第二文本信息”進(jìn)行了優(yōu)化。參考圖3，該方法具體可以包括如下步驟：

s310、判斷當(dāng)前圖像幀是否有字幕，若是，則執(zhí)行s320，若否，則返回執(zhí)行s310。

s320、確定所述字幕條的位置以及所述字幕條的起始幀和終止幀。

s330、提取所述字幕條的第一文本信息。

s340、根據(jù)所述起始幀和所述終止幀確定時(shí)間間隔。

具體的，根據(jù)起始幀和終止幀確定一個(gè)時(shí)間間隔，給時(shí)間間隔可以即為t，也即，從同一個(gè)字幕條的起始幀到終止幀的時(shí)間為t。

s350、根據(jù)所述時(shí)間間隔解析和切割視頻中的音頻信息。

其中，以確定的時(shí)間間隔為基準(zhǔn)，對視頻中的音頻信息進(jìn)行解析和分割。在一個(gè)具體的例子中，將視頻以時(shí)間間隔t為基準(zhǔn)，將視頻中的音頻進(jìn)行分割成若干段音頻信息，并對分割后的音頻信息進(jìn)行解析。

s360、將解析和切割后的音頻信息與預(yù)設(shè)文本庫進(jìn)行比對，識別所述音頻信息對應(yīng)的第二文本信息。

具體的，將解析和切割后的音頻信息與預(yù)設(shè)文本庫進(jìn)行比對，可選的，預(yù)設(shè)文本庫可以通過語音識別功能獲得，在一個(gè)具體的例子中，可以通過調(diào)用科大訊飛語音識別的開源接口來獲得。其中，預(yù)設(shè)文本庫中存儲有各音頻內(nèi)容和與其對應(yīng)的文本信息的對應(yīng)關(guān)系。將解析和切割后的音頻信息與預(yù)設(shè)文本庫進(jìn)行比對，識別音頻信息對應(yīng)的第二文本信息。

可選的，所述預(yù)設(shè)文本庫存儲在與語音識別模塊相連的服務(wù)器中。

其中，語音識別模塊與服務(wù)器相連，預(yù)設(shè)文本庫存儲在該服務(wù)器中。服務(wù)器中存儲有該預(yù)設(shè)文本，實(shí)現(xiàn)了根據(jù)用于需求對預(yù)設(shè)文本庫的實(shí)時(shí)調(diào)用。

s370、將所述第一文本信息與所述第二文本信息通過文本比對進(jìn)行糾錯(cuò)，輸出糾錯(cuò)結(jié)果。

本發(fā)明實(shí)施例中，首選圖像幀的起始幀和所述終止幀確定時(shí)間間隔，并根據(jù)所述時(shí)間間隔解析和切割視頻中的音頻信息，將解析和切割后的音頻信息與預(yù)設(shè)文本庫進(jìn)行比對，識別所述音頻信息對應(yīng)的第二文本信息。實(shí)現(xiàn)了對音頻信息對應(yīng)的第二文本信息的識別。

實(shí)施例四

圖4是本發(fā)明是實(shí)施例四提供的一種字幕內(nèi)容的糾錯(cuò)裝置的結(jié)構(gòu)示意圖，該裝置適用于執(zhí)行本發(fā)明實(shí)施例提供給的一種字幕內(nèi)容的糾錯(cuò)方法。如圖4所示，該裝置具體可以包括：

信息提取模塊410，用于提取視頻文件中目標(biāo)字幕條對應(yīng)的第一文本信息；

信息識別模塊420，識別所述目標(biāo)字幕條的音頻信息得到對應(yīng)的第二文本信息；

信息比對模塊430，用于將所述第一文本信息與所述第二文本信息通過文本比對進(jìn)行糾錯(cuò)，輸出糾錯(cuò)結(jié)果。

進(jìn)一步的，信息提取模塊410具體用于：

判斷當(dāng)前圖像幀是否有字幕，若是，則確定所述字幕條的位置以及所述字幕條的起始幀和終止幀；

提取所述字幕條的第一文本信息。

進(jìn)一步的，信息識別模塊420具體用于：

根據(jù)所述起始幀和所述終止幀確定時(shí)間間隔；

根據(jù)所述時(shí)間間隔解析和切割視頻中的音頻信息；

將解析和切割后的音頻信息與預(yù)設(shè)文本庫進(jìn)行比對，識別所述音頻信息對應(yīng)的第二文本信息。

進(jìn)一步的，信息比對模塊430具體用于：

將所述第一文本信息和所述第二文本信息以字或詞語為單位一一進(jìn)行比對；

記錄所述第二文本中與所述第一文本不同的字或詞語；

將所述字或詞語作為糾錯(cuò)結(jié)果進(jìn)行輸出。

進(jìn)一步的，所述預(yù)設(shè)文本庫存儲在與語音識別模塊相連的服務(wù)器中。

本發(fā)明實(shí)施例提供的字幕內(nèi)容的糾錯(cuò)裝置可執(zhí)行本發(fā)明任意實(shí)施例提供的字幕內(nèi)容的糾錯(cuò)方法，具備執(zhí)行方法相應(yīng)的功能模塊和有益效果。

注意，上述僅為本發(fā)明的較佳實(shí)施例及所運(yùn)用技術(shù)原理。本領(lǐng)域技術(shù)人員會理解，本發(fā)明不限于這里所述的特定實(shí)施例，對本領(lǐng)域技術(shù)人員來說能夠進(jìn)行各種明顯的變化、重新調(diào)整和替代而不會脫離本發(fā)明的保護(hù)范圍。因此，雖然通過以上實(shí)施例對本發(fā)明進(jìn)行了較為詳細(xì)的說明，但是本發(fā)明不僅僅限于以上實(shí)施例，在不脫離本發(fā)明構(gòu)思的情況下，還可以包括更多其他等效實(shí)施例，而本發(fā)明的范圍由所附的權(quán)利要求范圍決定。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王金龍
技術(shù)所有人：廣東小天才科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時(shí)頻分析理論與測試系統(tǒng)設(shè)計(jì) 2.汽車檢測系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

制冷裝置設(shè)計(jì)涉及內(nèi)容相關(guān)技術(shù)

漢語糾錯(cuò)方法相關(guān)技術(shù)