本發(fā)明實(shí)施例涉及多媒體技術(shù),尤其涉及一種字幕內(nèi)容的糾錯(cuò)方法和裝置。
背景技術(shù):
通常在音視頻的字幕制作時(shí),一般是一邊看視頻或者邊聽音頻,一邊錄入字幕文本,而錄好的字幕文本內(nèi)容是否與視頻中的音頻內(nèi)容相符或?qū)?yīng),影響用戶觀看視頻或收聽音頻的體驗(yàn)。
現(xiàn)有技術(shù)中通常是人工去檢查,反復(fù)核對去發(fā)現(xiàn)問題。人工糾錯(cuò)帶來的結(jié)果是效率地下,投入成本高。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例提供一種字幕內(nèi)容的糾錯(cuò)方法和裝置,實(shí)現(xiàn)了對字幕內(nèi)容的智能糾錯(cuò),解決人工糾錯(cuò)效率低下以及投入成本高的問題。
第一方面,本發(fā)明實(shí)施例提供了一種字幕內(nèi)容的糾錯(cuò)方法,所述方法包括:
提取視頻文件中目標(biāo)字幕條對應(yīng)的第一文本信息;
識別所述目標(biāo)字幕條的音頻信息得到對應(yīng)的第二文本信息;
將所述第一文本信息與所述第二文本信息通過文本比對進(jìn)行糾錯(cuò),輸出糾錯(cuò)結(jié)果。
進(jìn)一步的,所述提取視頻文件中目標(biāo)字幕條的第一文本信息包括:
判斷當(dāng)前圖像幀是否有字幕,若是,則確定所述字幕條的位置以及所述字幕條的起始幀和終止幀;
提取所述字幕條的第一文本信息。
進(jìn)一步的,所述識別所述目標(biāo)字幕條的音頻信息對應(yīng)的第二文本信息包括:
根據(jù)所述起始幀和所述終止幀確定時(shí)間間隔;
根據(jù)所述時(shí)間間隔解析和切割視頻中的音頻信息;
將解析和切割后的音頻信息與預(yù)設(shè)文本庫進(jìn)行比對,識別所述音頻信息對應(yīng)的第二文本信息。
進(jìn)一步的,所述將所述第一文本信息和所述第二文本信息通過文本比對進(jìn)行糾錯(cuò),輸出糾錯(cuò)結(jié)果包括:
將所述第一文本信息和所述第二文本信息以字或詞語為單位一一進(jìn)行比對;
記錄所述第二文本中與所述第一文本不同的字或詞語;
將所述字或詞語作為糾錯(cuò)結(jié)果進(jìn)行輸出。
進(jìn)一步的,所述預(yù)設(shè)文本庫存儲在與語音識別模塊相連的服務(wù)器中。
第二方面,本發(fā)明實(shí)施例提供了一種字幕內(nèi)容的糾錯(cuò)裝置,所述裝置包括:
信息提取模塊,用于提取視頻文件中目標(biāo)字幕條對應(yīng)的第一文本信息;
信息識別模塊,識別所述目標(biāo)字幕條的音頻信息得到對應(yīng)的第二文本信息;
信息比對模塊,用于將所述第一文本信息與所述第二文本信息通過文本比對進(jìn)行糾錯(cuò),輸出糾錯(cuò)結(jié)果。
進(jìn)一步的,所述信息提取模塊具體用于:
判斷當(dāng)前圖像幀是否有字幕,若是,則確定所述字幕條的位置以及所述字幕條的起始幀和終止幀;
提取所述字幕條的第一文本信息。
進(jìn)一步的,所述信息識別模塊具體用于:
根據(jù)所述起始幀和所述終止幀確定時(shí)間間隔;
根據(jù)所述時(shí)間間隔解析和切割視頻中的音頻信息;
將解析和切割后的音頻信息與預(yù)設(shè)文本庫進(jìn)行比對,識別所述音頻信息對應(yīng)的第二文本信息。
進(jìn)一步的,所述信息比對模塊具體用于:
將所述第一文本信息和所述第二文本信息以字或詞語為單位一一進(jìn)行比對;
記錄所述第二文本中與所述第一文本不同的字或詞語;
將所述字或詞語作為糾錯(cuò)結(jié)果進(jìn)行輸出。
進(jìn)一步的,所述預(yù)設(shè)文本庫存儲在與語音識別模塊相連的服務(wù)器中。
本發(fā)明實(shí)施例中,提取視頻文件中目標(biāo)字幕條對應(yīng)的第一文本信息;識別所述目標(biāo)字幕條的音頻信息得到對應(yīng)的第二文本信息;將所述第一文本信息與所述第二文本信息通過文本比對進(jìn)行糾錯(cuò),輸出糾錯(cuò)結(jié)果。實(shí)現(xiàn)了對字幕內(nèi)容的智能糾錯(cuò),解決人工糾錯(cuò)效率低下以及投入成本高的問題。
附圖說明
圖1是本發(fā)明實(shí)施例一中的一種字幕內(nèi)容的糾錯(cuò)方法的流程圖;
圖2是本發(fā)明實(shí)施例二中的一種字幕內(nèi)容的糾錯(cuò)方法的流程圖;
圖3是本發(fā)明實(shí)施例三中的一種字幕內(nèi)容的糾錯(cuò)方法的流程圖;
圖4是本發(fā)明實(shí)施例四中的一種字幕內(nèi)容的糾錯(cuò)裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面結(jié)合附圖和實(shí)施例對本發(fā)明作進(jìn)一步的詳細(xì)說明??梢岳斫獾氖?,此處所描述的具體實(shí)施例僅僅用于解釋本發(fā)明,而非對本發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部結(jié)構(gòu)。
實(shí)施例一
圖1為本發(fā)明實(shí)施例一提供的一種字幕內(nèi)容的糾錯(cuò)方法的流程圖,本實(shí)施例可適用于對字幕內(nèi)容進(jìn)行糾錯(cuò)的情況,該方法可以由本發(fā)明是實(shí)施例提供的一種字幕內(nèi)容的糾錯(cuò)裝置來執(zhí)行,該裝置可采用軟件和/或硬件的方式實(shí)現(xiàn)。參考圖1,該方法具體可以包括如下步驟:
s110、提取視頻文件中目標(biāo)字幕條對應(yīng)的第一文本信息。
具體的,用戶觀看視頻的過程中,需要結(jié)合視頻中的字幕信息和用戶聽到的音頻信息來欣賞視頻中的畫面。通常字幕條位于用戶觀看畫面的整個(gè)屏幕的中下部,在視頻播放的過程中,會出現(xiàn)多個(gè)字幕條,在多個(gè)字幕條中根據(jù)用戶的需求確定至少一個(gè)字幕條為目標(biāo)字幕條,提取視頻文件中目標(biāo)字幕條對應(yīng)的第一文本信息。其中,第一文本信息與目標(biāo)字幕條上的字幕一一對應(yīng)。
可選的,利用紋理去噪方法提取目標(biāo)字幕條對應(yīng)的第一文本信息。具體過程如下:求存在同一條字幕的多幀圖像幀亮度圖像的字幕條區(qū)域的平均和圖像;將平均和圖像進(jìn)行通過最大類間方差法進(jìn)行分割,生成只有黑白兩種顏色連通域的字幕區(qū)域圖像;對最大類間方差法分割后的圖像確定哪種顏色為文字區(qū)域;最后剔除非文字噪聲。
s120、識別所述目標(biāo)字幕條的音頻信息得到對應(yīng)的第二文本信息。
其中,對目標(biāo)字幕條對應(yīng)的音頻信息進(jìn)行語音識別,識別結(jié)果標(biāo)記為第二文本信息,其中,第二文本信息與目標(biāo)字幕條的音頻信息相對應(yīng)。
s130、將所述第一文本信息與所述第二文本信息通過文本比對進(jìn)行糾錯(cuò),輸出糾錯(cuò)結(jié)果。
具體的,將第一文本信息與第二文本信息通過文本比對方法進(jìn)行糾錯(cuò),可選的,由于第二文本信息為對音頻信息進(jìn)行語音識別獲得,可以將第二文本信息作為目標(biāo)文本信息,將第一文本信息與目標(biāo)文本信息進(jìn)行比對。比對結(jié)果中,將兩個(gè)文本信息中不同的部分定義為錯(cuò)誤部分,也即,糾錯(cuò)結(jié)果,然后輸出糾錯(cuò)結(jié)果。
本發(fā)明實(shí)施例中,提取視頻文件中目標(biāo)字幕條對應(yīng)的第一文本信息;識別所述目標(biāo)字幕條的音頻信息得到對應(yīng)的第二文本信息;將所述第一文本信息與所述第二文本信息通過文本比對進(jìn)行糾錯(cuò),輸出糾錯(cuò)結(jié)果。實(shí)現(xiàn)了對字幕內(nèi)容的智能糾錯(cuò),解決人工糾錯(cuò)效率低下以及投入成本高的問題。
在上述技術(shù)方案的基礎(chǔ)上,“將所述第一文本信息與所述第二文本信息通過文本比對進(jìn)行糾錯(cuò),輸出糾錯(cuò)結(jié)果”具體可以是:
將所述第一文本信息和所述第二文本信息以字或詞語為單位一一進(jìn)行比對;記錄所述第二文本信息中與所述第一文本信息不同的字或詞語;將所述字或詞語作為糾錯(cuò)結(jié)果進(jìn)行輸出。
可選的,在對文本的具體糾錯(cuò)實(shí)現(xiàn)方式上,可以將第一文本信息和第二文本信息以字或詞語為單位一一進(jìn)行比對。在一個(gè)具體的例子中,詞語可以是短詞語或者長詞語,對具體的詞語長度不做具體限定。需要說明的是,詞語的長度越短,比對的結(jié)果越準(zhǔn)確。對比對不同的字或詞語進(jìn)行記錄,將記錄結(jié)果作為進(jìn)錯(cuò)結(jié)果進(jìn)行輸出。
實(shí)施例二
圖2為本發(fā)明實(shí)施例二提供的一種字幕內(nèi)容的糾錯(cuò)方法的流程圖,本實(shí)施例在上述實(shí)施例的基礎(chǔ)上,對“提取視頻文件中目標(biāo)字幕條的第一文本信息”進(jìn)行了優(yōu)化。參考圖2,該方法具體可以包括如下步驟:
s210、判斷當(dāng)前圖像幀是否有字幕,若是,則執(zhí)行s220,若否,則返回執(zhí)行s210。
具體的,根據(jù)正在播放的視頻中確定當(dāng)前的圖像幀,并判斷當(dāng)前的圖像幀中行是否有字幕,如果沒有字幕,則返回繼續(xù)判斷當(dāng)前圖像幀是否有字幕,直到有字幕出現(xiàn)。
s220、確定所述字幕條的位置以及所述字幕條的起始幀和終止幀。
具體的,確定字幕條的位置時(shí),首先采集圖像幀的亮度圖像,生成紋理圖,通過垂直紋理圖水平投影求差分,先確定水平字幕條的上下邊框,再確定水平字幕條的左右邊框,從而確定字幕條的水平位置;接著確定垂直字幕條的位置,通過水平紋理圖垂直投影求查分,先確定垂直字幕條左右邊框,再確定垂直字幕條上下邊框,最后進(jìn)行字幕條去噪,確定字幕條的位置。
其中,如果出現(xiàn)字幕條,設(shè)當(dāng)前圖像幀為字幕條關(guān)鍵幀,則在前一個(gè)關(guān)鍵幀和該字幕條關(guān)鍵幀之間確定字幕條的起始幀,然后該字幕條關(guān)鍵幀的字幕條區(qū)域依次匹配后面的關(guān)鍵幀,如果匹配一致,則繼續(xù)匹配,直到匹配不一致,則在前一個(gè)關(guān)鍵幀和當(dāng)前關(guān)鍵幀確定字幕條的終止幀。
s230、提取所述字幕條的第一文本信息。
s240、識別所述目標(biāo)字幕條的音頻信息得到對應(yīng)的第二文本信息。
s250、將所述第一文本信息與所述第二文本信息通過文本比對進(jìn)行糾錯(cuò),輸出糾錯(cuò)結(jié)果。
本發(fā)明實(shí)施例中,通過判斷當(dāng)前圖像幀中是否有字幕,若有,則確定字幕條的位置以及該字幕條的起始幀和終止幀,若沒有則一直進(jìn)行判斷直到檢測到存在字幕為止。通過字幕條的起始幀和終止幀的判斷,實(shí)現(xiàn)了對字幕條中字幕信息的提取。
實(shí)施例三
圖3為本發(fā)明實(shí)施例三提供的一種字幕內(nèi)容的糾錯(cuò)方法的流程圖,本實(shí)施例在上述實(shí)施例的基礎(chǔ)上,對“識別所述目標(biāo)字幕條的音頻信息對應(yīng)的第二文本信息”進(jìn)行了優(yōu)化。參考圖3,該方法具體可以包括如下步驟:
s310、判斷當(dāng)前圖像幀是否有字幕,若是,則執(zhí)行s320,若否,則返回執(zhí)行s310。
s320、確定所述字幕條的位置以及所述字幕條的起始幀和終止幀。
s330、提取所述字幕條的第一文本信息。
s340、根據(jù)所述起始幀和所述終止幀確定時(shí)間間隔。
具體的,根據(jù)起始幀和終止幀確定一個(gè)時(shí)間間隔,給時(shí)間間隔可以即為t,也即,從同一個(gè)字幕條的起始幀到終止幀的時(shí)間為t。
s350、根據(jù)所述時(shí)間間隔解析和切割視頻中的音頻信息。
其中,以確定的時(shí)間間隔為基準(zhǔn),對視頻中的音頻信息進(jìn)行解析和分割。在一個(gè)具體的例子中,將視頻以時(shí)間間隔t為基準(zhǔn),將視頻中的音頻進(jìn)行分割成若干段音頻信息,并對分割后的音頻信息進(jìn)行解析。
s360、將解析和切割后的音頻信息與預(yù)設(shè)文本庫進(jìn)行比對,識別所述音頻信息對應(yīng)的第二文本信息。
具體的,將解析和切割后的音頻信息與預(yù)設(shè)文本庫進(jìn)行比對,可選的,預(yù)設(shè)文本庫可以通過語音識別功能獲得,在一個(gè)具體的例子中,可以通過調(diào)用科大訊飛語音識別的開源接口來獲得。其中,預(yù)設(shè)文本庫中存儲有各音頻內(nèi)容和與其對應(yīng)的文本信息的對應(yīng)關(guān)系。將解析和切割后的音頻信息與預(yù)設(shè)文本庫進(jìn)行比對,識別音頻信息對應(yīng)的第二文本信息。
可選的,所述預(yù)設(shè)文本庫存儲在與語音識別模塊相連的服務(wù)器中。
其中,語音識別模塊與服務(wù)器相連,預(yù)設(shè)文本庫存儲在該服務(wù)器中。服務(wù)器中存儲有該預(yù)設(shè)文本,實(shí)現(xiàn)了根據(jù)用于需求對預(yù)設(shè)文本庫的實(shí)時(shí)調(diào)用。
s370、將所述第一文本信息與所述第二文本信息通過文本比對進(jìn)行糾錯(cuò),輸出糾錯(cuò)結(jié)果。
本發(fā)明實(shí)施例中,首選圖像幀的起始幀和所述終止幀確定時(shí)間間隔,并根據(jù)所述時(shí)間間隔解析和切割視頻中的音頻信息,將解析和切割后的音頻信息與預(yù)設(shè)文本庫進(jìn)行比對,識別所述音頻信息對應(yīng)的第二文本信息。實(shí)現(xiàn)了對音頻信息對應(yīng)的第二文本信息的識別。
實(shí)施例四
圖4是本發(fā)明是實(shí)施例四提供的一種字幕內(nèi)容的糾錯(cuò)裝置的結(jié)構(gòu)示意圖,該裝置適用于執(zhí)行本發(fā)明實(shí)施例提供給的一種字幕內(nèi)容的糾錯(cuò)方法。如圖4所示,該裝置具體可以包括:
信息提取模塊410,用于提取視頻文件中目標(biāo)字幕條對應(yīng)的第一文本信息;
信息識別模塊420,識別所述目標(biāo)字幕條的音頻信息得到對應(yīng)的第二文本信息;
信息比對模塊430,用于將所述第一文本信息與所述第二文本信息通過文本比對進(jìn)行糾錯(cuò),輸出糾錯(cuò)結(jié)果。
進(jìn)一步的,信息提取模塊410具體用于:
判斷當(dāng)前圖像幀是否有字幕,若是,則確定所述字幕條的位置以及所述字幕條的起始幀和終止幀;
提取所述字幕條的第一文本信息。
進(jìn)一步的,信息識別模塊420具體用于:
根據(jù)所述起始幀和所述終止幀確定時(shí)間間隔;
根據(jù)所述時(shí)間間隔解析和切割視頻中的音頻信息;
將解析和切割后的音頻信息與預(yù)設(shè)文本庫進(jìn)行比對,識別所述音頻信息對應(yīng)的第二文本信息。
進(jìn)一步的,信息比對模塊430具體用于:
將所述第一文本信息和所述第二文本信息以字或詞語為單位一一進(jìn)行比對;
記錄所述第二文本中與所述第一文本不同的字或詞語;
將所述字或詞語作為糾錯(cuò)結(jié)果進(jìn)行輸出。
進(jìn)一步的,所述預(yù)設(shè)文本庫存儲在與語音識別模塊相連的服務(wù)器中。
本發(fā)明實(shí)施例提供的字幕內(nèi)容的糾錯(cuò)裝置可執(zhí)行本發(fā)明任意實(shí)施例提供的字幕內(nèi)容的糾錯(cuò)方法,具備執(zhí)行方法相應(yīng)的功能模塊和有益效果。
注意,上述僅為本發(fā)明的較佳實(shí)施例及所運(yùn)用技術(shù)原理。本領(lǐng)域技術(shù)人員會理解,本發(fā)明不限于這里所述的特定實(shí)施例,對本領(lǐng)域技術(shù)人員來說能夠進(jìn)行各種明顯的變化、重新調(diào)整和替代而不會脫離本發(fā)明的保護(hù)范圍。因此,雖然通過以上實(shí)施例對本發(fā)明進(jìn)行了較為詳細(xì)的說明,但是本發(fā)明不僅僅限于以上實(shí)施例,在不脫離本發(fā)明構(gòu)思的情況下,還可以包括更多其他等效實(shí)施例,而本發(fā)明的范圍由所附的權(quán)利要求范圍決定。