視頻配音方法和裝置的制造方法
【專利摘要】本發明提供了一種視頻配音方法,包括:客戶端檢測到用戶的加入會話操作,響應所述加入會話操作,打開會話界面,在所述會話界面進行視頻文件的播放,在播放所述視頻文件時,所述客戶端獲取自身采集的和/或所述會話中其他客戶端采集后發送的配音音頻數據,所述配音音頻數據為根據所屬客戶端采集的添加了時間戳的音頻數據,按照所述時間戳,將所述音頻數據和所述視頻文件合成配音視頻文件。此外,還提供了一種與該方法匹配的視頻配音裝置。上述視頻配音方法和裝置能夠實現一個視頻配音場景下多路音頻數據的獲得,提高多方進行視頻配音的效率。
【專利說明】
視頻配音方法和裝置
技術領域
[0001]本發明涉及互聯網應用技術領域,特別涉及一種視頻配音方法和裝置。
【背景技術】
[0002]隨著互聯網技術的高速發展以及人們生活質量的提高,人們在生活中的娛樂活動越來越豐富,對電視、電影等視頻片段進行配音正逐步走向人們的生活。
[0003]目前,對視頻進行配音時,通過在終端進行視頻的播放,然后對視頻進行配音,得到配音后的視頻文件。
[0004]然而,當有多個用戶對同一個視頻進行合作配音時,上述視頻配音方法要求多個用戶同時對著同一個終端進行配音,而在配音時用戶的聲音可能有大小、遠近的差別,從而導致配音的效果較差;并且配音時如果有一個用戶表現不佳,可能就要重新配音,過程繁瑣,也受場地、人數的限制。
【發明內容】
[0005]基于此,有必要提供一種視頻配音方法,所述方法能夠實現一個視頻配音場景下多路音頻數據的獲得,提高多方進行視頻配音的效率。
[0006]另外,還有必要提供一種視頻配音裝置,所述裝置能夠實現一個視頻配音場景下多路音頻數據的獲得,提高多方進行視頻配音的效率。
[0007]為解決上述技術問題,將采用如下技術方案:
第一方面,提供了一種視頻配音方法,包括:
客戶端檢測到用戶的加入會話操作,響應所述加入會話操作,打開會話界面;
在所述會話界面進行視頻的播放;
在播放所述視頻文件時,獲取所述客戶端自身采集的和/或所述會話中其他客戶端采集后發送的配音音頻數據,所述配音音頻數據為根據所屬客戶端采集的添加了時間戳的音頻數據,所述時間戳為采集所述配音音頻數據時對應所述視頻文件播放的時間點;
按照所述時間戳,將所述配音音頻數據和所述視頻文件合成配音視頻文件。
[0008]結合第一方面,在第一種可能的實現方式中,所述客戶端為所述視頻文件播放的操控端,所述在所述會話界面進行視頻文件的播放的步驟包括:
通過在所述會話界面觸發進行視頻文件的播放,在自身的會話界面中播放所述視頻文件,并將所述視頻文件發送至所述會話中的其它客戶端。
[0009]結合第一方面,在第二種可能的實現方式中,所述客戶端為所述視頻文件播放的受控端,所述在所述會話界面進行視頻文件的播放的步驟包括:
接收所述會話中其它客戶端發送的視頻文件;
在自身的會話界面進行所述視頻文件的播放。
[0010]結合第一方面,在第三種可能的實現方式中,所述按照所述時間戳,將所述配音音頻數據和所述視頻文件合成配音視頻文件的步驟包括: 將所述視頻文件解析為背景音頻數據與視頻數據;
按照所述時間戳,將所述配音音頻數據與所述背景音頻數據進行混音,得到混音音頻數據;
將所述混音音頻數據與所述視頻數據進行編碼并生成配音視頻文件。
[0011]結合第一方面,在第四種可能的實現方式中,所述將所述配音音頻數據與所述背景音頻數據進行混音的步驟之前,所述方法還包括:
對所述配音音頻數據和/或所述背景音頻數據進行處理。
[0012 ]第二方面,提供了一種視頻配音裝置,該裝置包括:
會話發起模塊,用于檢測到用戶的加入會話操作,響應所述加入會話操作,打開會話界面;
視頻播放模塊,用于在所述會話界面進行視頻文件的播放;
配音音頻數據獲取模塊,用于獲取所述客戶端自身采集的和/或所述會話中其他客戶端采集后發送的配音音頻數據,所述配音音頻數據為根據所屬客戶端采集的添加了時間戳的音頻數據,所述時間戳為采集所述配音音頻數據時對應所述視頻文件播放的時間點;合成模塊,用于按照所述時間戳,將所述配音音頻數據和所述視頻文件合成配音視頻文件。
[0013]結合第二方面,在第一種可能的實現方式中,所述視頻播放模塊運行于操控所述視頻文件播放的客戶端,所述視頻播放模塊包括:
視頻播放單元,用于通過在所述會話界面觸發進行視頻文件的播放,在自身的會話界面中播放所述視頻文件;
視頻文件發送單元,將所述視頻文件發送至所述會話中的其它客戶端。
[0014]結合第二方面,在第二種可能的實現方式中,所述視頻播放模塊運行于受控所述視頻文件播放的客戶端,所述視頻播放模塊包括:
視頻文件接收單元,用于接收所述會話中其它客戶端發送的視頻文件;
視頻播放單元,用于在自身的會話界面進行所述視頻文件的播放。
[0015]結合第二方面,在第三種可能的實現方式中,所述合成模塊包括:
解析單元,用于將所述視頻文件解析為背景音頻數據與視頻數據;
混音單元,用于按照所述時間戳,將所述配音音頻數據與所述背景音頻數據進行混音,得到混音音頻數據;
編碼生成單元,用于將所述混音音頻數據與所述視頻數據進行編碼并生成配音視頻文件。
[0016]結合第二方面,在第四種可能的實現方式中,所述裝置還包括:
音頻處理模塊,用于對所述配音音頻數據和/或視頻文件的背景音頻數據進行處理。
[0017]在對視頻進行配音時,通過加入會話的操作指令,用戶加入會話并進入會話界面,在會話界面客戶端進行視頻文件的播放,在播放視頻文件時,獲取客戶端自身采集的和/或在會話中其他客戶端采集后發送的配音音頻數據,配音音頻數據為根據所屬客戶端采集的添加了時間戳的音頻數據,時間戳為采集配音音頻數據時對應視頻文件播放的時間點,按照所述時間戳,將配音音頻數據和視頻文件合成配音視頻文件,使多個客戶端之間建立會話連接后,能夠獲取不同客戶端的多路音頻數據,避免了多個用戶同時對著同一個客戶端進行配音時出現配音的音效效果較差的問題,并且能過對其中音效效果不理想的一路或多路音頻數據進行單獨配音,提高了對視頻進行配音的效率。
【附圖說明】
[0018]圖1是一個實施例中視頻配音方法的流程圖;
圖2是一個實施例中針對圖1中客戶端為視頻文件播放的操控端時在會話界面進行視頻文件的播放步驟的方法流程圖;
圖3是另一個實施例中針對圖1中客戶端為視頻文件播放的受控端時在會話界面進行視頻文件的播放步驟的方法流程圖;
圖4是一個實施例中針對圖1中按照時間戳,將配音音頻數據和視頻文件合成配音視頻文件步驟的方法流程圖;
圖5是一個實施例中視頻配音裝置的結構示意圖;
圖6是一個實施例中針對圖5中視頻播放模塊運行于操控視頻文件播放的客戶端時視頻播放模塊的結構示意圖;
圖7是一個實施例中針對圖5中視頻播放模塊運行于受控視頻文件播放的客戶端時視頻播放模塊的結構示意圖;
圖8是另一個實施例中針對圖5中合成模塊的結構示意圖。
【具體實施方式】
[0019]體現本發明特征與優點的典型實施方式將在以下的說明中詳細敘述。應理解的是本發明能夠在不同的實施方式上具有各種的變化,其皆不脫離本發明的范圍,且其中的說明及圖示在本質上是當作說明之用,而非用以限制本發明。
[0020]基于此,為提高視頻配音效率,特提出一種視頻配音方法,該視頻配音方法由計算機程序實現,與之相對應的,所構建的視頻配音裝置則被存儲于帶有屏幕的終端設備中,以在該終端設備中運行,進而提高多方進行視頻配音的效率。
[0021]在一個實施例中,具體的,該視頻配音方法如圖1所示,包括:
步驟SI 10,客戶端檢測到用戶的加入會話操作,響應加入會話操作,打開會話界面。
[0022]客戶端是運行于終端設備中的視頻配音軟件。通過操作指令觸發,客戶端通過用戶建立會話連接,通過會話連接使得用戶所在的客戶端以會話界面的形式顯示于終端設備的顯示屏中,方便用戶進行控制。
[0023]客戶端之間可以是基于互聯網通過服務器建立會話連接,也可以通過局域網建立會話連接,還可以是以其他的方式建立會話連接,在此不做限定。
[0024]觸發會話連接的操作指令可以是通過會話界面中按鈕被觸發而生成的,也可以是通過其他的方式進行觸發。
[0025]例如,用戶a開通一個房間,邀請用戶b和用戶c進入房間,在用戶b和用戶c同意后,用戶a、b和c分別所在的客戶端A、B和C之間建立會話連接關系。
[0026]步驟S120,在會話界面進行視頻文件的播放。
[0027]可以理解的,所進行的會話中,參與的客戶端除了包括本客戶端之外,還包括了其它客戶端。其中,對于加入會話的多個客戶端而言,一客戶端作為視頻播放的操控端,其它客戶端則作為視頻播放的受控端。
[0028]由此將使加入會話的所有客戶端均在一客戶端的操控下進行相同視頻的播放。[0029 ]例如,客戶端A、B和C之間建立會話連接,客戶端A在其會話界面中進行視頻S的播放,則客戶端A作為視頻S播放的操控端,而客戶端B和C作為視頻S播放的受控端,客戶端B和C在他們各自的會話界面中也同樣進行視頻S的播放。
[0030]步驟S130,在播放視頻文件時,客戶端獲取自身采集的和/或會話中其他客戶端采集后發送的配音音頻數據,配音音頻數據為根據所屬客戶端采集的添加了時間戳的音頻數據,時間戳為采集配音音頻數據時對應視頻文件播放的時間點。
[0031]配音音頻數據是為視頻進行配音的音頻數據。所指的配音音頻數據包括來自于本客戶端自身采集的配音音頻數據和會話中其它客戶端采集的配音音頻數據。因此,對于本客戶端,隨著自身所進行的視頻文件播放,將接收到自身采集得到的配音音頻數據,也將接收到其它客戶端采集得到并傳輸的配音音頻數據。
[0032]時間戳是對播放的視頻文件配音時,對應該視頻文件播放的時間點。對于一段配音音頻數據而言,剛開始采集時對應視頻播放的一個時間點;采集結束后,對應視頻文件播放的另一個時間點。因此,對一段配音音頻數據而言,一個時間戳對應著視頻文件播放的兩個時間點。
[0033]在客戶端自身采集配音音頻數據的同時,對視頻文件播放的時間戳進行標記,并將標記的時間戳添加入采集的配音音頻數據中。
[0034]步驟S140,按照時間戳,將配音音頻數據和視頻文件合成配音視頻文件。
[0035]每個標記后的時間戳都有對應的音頻數據,也有對應的視頻文件,這樣,獲取到的音頻數據通過標記的時間戳與視頻文件相對應。按照時間戳,將音頻數據和視頻文件進行合成,生成配音視頻文件。
[0036]由此,多個客戶端建立會話連接,在會話連接中客戶端進行視頻文件的播放,并獲取用于為視頻配音的音頻數據,從而即便音頻數據的提供者不在同一現場時,也能實現一個視頻配音場景下多路音頻數據的獲得,大大提高了多方進行視頻配音的效率。
[0037]進一步的,在一個實施例中,多個客戶端建立會話連接時,會話中的任一客戶端均可進行視頻文件的播放,而其他客戶端通過該會話連接,也將在各自的會話界面中進行視頻文件的播放。
[0038]例如,客戶端A、B、C建立會話連接,客戶端A進行視頻文件的播放時,客戶端B和C的會話界面中均進行該視頻文件的播放。
[0039]由此,會話連接中的任一客戶端均可進行視頻文件的播放,提高了對視頻進行配音的靈活性。
[0040]在一個實施例中,如圖2所示,建立會話連接的多個客戶端中,其中一個客戶端作為視頻文件播放的操控端,進行視頻文件的播放,步驟SI 20包括:
步驟S121,通過在會話界面觸發進行視頻文件的播放,在自身的會話界面中播放視頻文件。
[0041]步驟S122,將視頻文件發送至會話中的其它客戶端。
[0042]作為視頻文件播放的操控端的客戶端進行視頻文件的播放時,將該視頻文件發送給會話中的其他客戶端,以供其他客戶端在各自的顯示界面中進行該視頻的播放。
[0043]在一個實施例中,如圖3所示,客戶端作為視頻文件播放的受控端,進行視頻文件的播放,步驟S120包括:
步驟S124,接收會話中其它客戶端傳送的視頻文件。
[0044]視頻文件是視頻文件播放的操控端傳送過來的。
[0045]步驟S125,在自身的會話界面進行視頻文件的播放。
[0046]視頻文件播放的受控端接收操控端傳送過來的視頻文件,并在自身的會話界面中進行該視頻文件的播放。
[0047]進一步的,在一個實施例中,步驟S130之前,如上所述的方法還包括如下步驟:
步驟S310,當客戶端被觸發視頻配音操作時,進行音頻數據的采集。
[0048]視頻配音操作是客戶端進行音頻數據采集的觸發動作,可以是點擊會話界面中預置的按鈕進行觸發,也可以是通過接收語音信號進行觸發,還可以是其他的觸發方式。
[0049]視頻配音操作被觸發后,客戶端開始采集為視頻配音的音頻數據。
[0050]由此,通過觸發視頻配音操作,進而進行音頻數據的采集,從而在視頻文件播放的任何時間點均可開始配音,提高了對視頻進行配音的靈活性,提高了視頻配音的效率。
[0051 ] 在一個實施例中,如圖4所示,步驟S140包括如下步驟:
步驟S141,將視頻文件解析為背景音頻數據與視頻數據。
[0052]播放的視頻文件中包含有背景音頻數據與視頻數據,將視頻文件解析為背景音頻數據與不含音頻數據的純視頻數據,使音頻數據和不含音頻數據的純視頻數據進行音頻合成,從而提尚配首的效果。
[0053]解析后,背景音頻數據中攜帶有與視頻數據中的時間點對應的時間戳。
[0054]步驟S142,按照時間戳,將配音音頻數據與背景音頻數據進行混音,得到混音音頻數據。
[0055]混音是將不同的音頻數據進行整合處理成一種音頻數據。
[0056]由于配音音頻數據采集時添加了對應視頻文件播放的時間戳,而背景音頻數據中攜帶有與視頻數據中的時間點對應的時間戳,根據時間戳,將背景音頻數據和配音音頻數據進行混音,得到混音后的混音音頻數據。
[0057]混音時,可以根據不同的提取比例對配音音頻數據與背景音頻數據進行混音,從而可以調節配音音頻數據在混音音頻數據中的比重。
[0058]步驟S143,將混音音頻數據與視頻數據進行編碼并生成配音視頻文件。
[0059]混音音頻數據中包含有背景音頻數據的時間戳和配音音頻數據的時間戳,根據這些時間戳,將混音音頻數據與視頻數據進行編碼處理,生成經過配音后的配音視頻文件。
[0060]由此,通過將配音音頻數據和背景音頻數據混音處理后與不含音頻數據的視頻數據合成,避免了視頻文件中因含有背景音頻數據而影響合成的效果,并且在混音時能夠對配音音頻數據與背景音頻數據的比重進行靈活調節,從而更快地達到較好的混音效果,提尚配首的效率。
[0061]在一個實施例中,步驟S140之前,如上所述的方法還包括:
步驟S410,對配音音頻數據和/或視頻文件的背景音頻數據進行處理。
[0062]背景音頻數據是存在與視頻文件中原有的音頻數據,視頻文件可以存在背景音樂,還可以存在其他的背景音頻數據。
[0063]在獲取的配音音頻數據和視頻文件整合之前,預先對獲取的配音音頻數據和視頻文件分別進行數據處理,從而使生成的配音視頻文件的音效效果更好。
[0064]具體的,對獲取的配音音頻數據的音量進行增大、減小或音效處理,對視頻文件中的背景音頻音量增大、減小或音效處理,還可以是其他的處理方式。
[0065]需要說明的是,在對客戶端獲取的配音音頻數據和視頻文件分別進行數據整合之前,當配音音頻數據中的其中一路或多路配音音頻數據的音效效果不理想時,通知該配音音頻數據對應的客戶端重新對視頻進行配音,采集配音音頻數據。
[0066]由此,在進行配音音頻數據和視頻文件整合之前,對視頻文件中的背景音頻數據和采集到的配音音頻數據預先進行音頻處理,并且通知不滿足要求的配音音頻數據對應的客戶端單獨進行配音,從而使配音后視頻文件的音效效果更好,提高了視頻配音的效率和靈活性。
[0067]在一個實施例中,還相應地提供了一種視頻配音裝置,如圖4所示,該裝置包括會話發起模塊110、視頻播放模塊120、配音音頻數據獲取模塊130和合成模塊140,其中:
會話發起模塊110,用于檢測到用戶的加入會話操作,響應所述加入會話操作,打開會話界面;
視頻文件播放模塊120,用于在所述會話界面進行視頻文件的播放;
配音音頻數據獲取模塊130,用于所述客戶端獲取自身采集的和/或所述會話中其他客戶端采集后發送的配音音頻數據,所述配音音頻數據為根據所屬客戶端采集的添加了時間戳的音頻數據,所述時間戳為采集所述配音音頻數據時對應所述視頻文件播放的時間點;合成模塊140,用于按照所述時間戳,將所述配音音頻數據和所述視頻文件合成配音視頻文件。
[0068]進一步的,在一個實施例中,視頻文件播放模塊120運行于操控視頻文件播放的客戶端,視頻播放模塊120包括視頻播放單元121和視頻文件發送單元122,其中:
視頻播放單元121,用于通過在所述會話界面觸發進行視頻文件的播放,在自身的會話界面中播放所述視頻文件;
視頻文件發送單元122,用于將所述視頻文件發送至所述會話中的其它客戶端。
[0069]在一個實施例中,如圖6所示,視頻文件播放模塊120運行于受控視頻文件播放的客戶端,視頻播放模塊120包括視頻文件接收單元124和視頻文件播放單元125,其中:
視頻文件接收單元124,用于接收所述會話中其它客戶端發送的視頻文件;
視頻文件播放單元125,用于在自身的會話界面進行所述視頻文件的播放。
[0070]在一個實施例中,如圖7所示,合成模塊140還包括解析單元141、混音單元142和編碼生成單元143,其中:
解析單元141,用于將所述視頻文件解析為背景音頻數據與視頻數據;
混音單元142,用于按照所述時間戳,將所述配音音頻數據與所述背景音頻數據進行混音,得到混音音頻數據
編碼生成單元143,用于將所述混音音頻數據與所述視頻數據進行編碼并生成配音視頻文件。
[0071 ]在一個實施例中,該裝置還包括音頻處理模塊,其中:
音頻處理模塊,用于對所述配音音頻數據和/或所述視頻文件的背景音頻數據進行處理。
[0072]本領域普通技術人員可以理解實現上述實施例的全部或部分步驟可以通過硬件來完成,也可以通過程序來指令相關的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質中,上述提到的存儲介質可以是只讀存儲器,磁盤或光盤等。
[0073]雖然已參照幾個典型實施方式描述了本發明,但應當理解,所用的術語是說明和示例性、而非限制性的術語。由于本發明能夠以多種形式具體實施而不脫離發明的精神或實質,所以應當理解,上述實施方式不限于任何前述的細節,而應在隨附權利要求所限定的精神和范圍內廣泛地解釋,因此落入權利要求或其等效范圍內的全部變化和改型都應為隨附權利要求所涵蓋。
【主權項】
1.一種視頻配音方法,其特征在于,所述方法包括: 客戶端檢測到用戶的加入會話操作,響應所述加入會話操作,打開會話界面; 在所述會話界面進行視頻文件的播放; 在播放所述視頻文件時,所述客戶端獲取自身采集的和/或所述會話中其他客戶端采集后發送的配音音頻數據,所述配音音頻數據為根據所屬客戶端采集的添加了時間戳的音頻數據,所述時間戳為采集所述配音音頻數據時對應所述視頻文件播放的時間點; 按照所述時間戳,將所述配音音頻數據和所述視頻文件合成配音視頻文件。2.根據權利要求1所述的方法,其特征在于,所述客戶端為所述視頻文件播放的操控端,所述在所述會話界面進行視頻文件的播放的步驟包括: 通過在所述會話界面觸發進行視頻文件的播放,在自身的會話界面中播放所述視頻文件,并將所述視頻文件發送至所述會話中的其它客戶端。3.根據權利要求1所述的方法,其特征在于,所述客戶端為所述視頻文件播放的受控端,所述在所述會話界面進行視頻文件的播放的步驟包括: 接收所述會話中其它客戶端發送的視頻文件; 在自身的會話界面進行所述視頻文件的播放。4.根據權利要求1所述的方法,其特征在于,所述按照所述時間戳,將所述配音音頻數據和所述視頻文件合成配音視頻文件的步驟包括: 將所述視頻文件解析為背景音頻數據與視頻數據; 按照所述時間戳,將所述配音音頻數據與所述背景音頻數據進行混音,得到混音音頻數據; 將所述混音音頻數據與所述視頻數據進行編碼并生成配音視頻文件。5.根據權利要求1所述的方法,其特征在于,所述將所述配音音頻數據與所述視頻文件合成配音視頻文件的步驟之前,所述方法還包括: 對所述配音音頻數據和/或所述視頻文件的背景音頻數據進行處理。6.一種視頻配音裝置,其特征在于,所述裝置包括: 會話發起模塊,用于檢測到用戶的加入會話操作,響應所述加入會話操作,打開會話界面; 視頻播放模塊,用于在所述會話界面進行視頻文件的播放; 配音音頻數據獲取模塊,用于所述客戶端獲取自身采集的和/或所述會話中其他客戶端采集后發送的配音音頻數據,所述配音音頻數據為根據所屬客戶端采集的添加了時間戳的音頻數據,所述時間戳為采集所述配音音頻數據時對應所述視頻文件播放的時間點; 合成模塊,用于按照所述時間戳,將所述配音音頻數據和所述視頻文件合成配音視頻文件。7.根據權利要求6所述的裝置,其特征在于,所述視頻播放模塊運行于操控所述視頻文件播放的客戶端,所述視頻播放模塊包括: 視頻播放單元,用于通過在所述會話界面觸發進行視頻文件的播放,在自身的會話界面中播放所述視頻文件; 視頻文件發送單元,用于將所述視頻文件發送至所述會話中的其它客戶端。8.根據權利要求6所述的裝置,其特征在于,所述視頻播放模塊運行于受控所述視頻文件播放的客戶端,所述視頻播放模塊包括: 視頻文件接收單元,用于接收所述會話中其它客戶端發送的視頻文件; 視頻播放單元,用于在自身的會話界面進行所述視頻文件的播放。9.根據權利要求6所述的裝置,其特征在于,所述合成模塊包括: 解析單元,用于將所述視頻文件解析為背景音頻數據與視頻數據; 混音單元,用于按照所述時間戳,將所述配音音頻數據與所述背景音頻數據進行混音,得到混音音頻數據; 編碼生成單元,用于將所述混音音頻數據與所述視頻數據進行編碼并生成配音視頻文件。10.根據權利要求6所述的裝置,其特征在于,所述裝置還包括: 音頻處理模塊,用于對所述配音音頻數據和/或所述視頻文件的背景音頻數據進行處理。
【文檔編號】H04N5/262GK106060424SQ201610412060
【公開日】2016年10月26日
【申請日】2016年6月14日
【發明人】徐文波
【申請人】徐文波