抄錄語音的制作方法
【專利摘要】一種語音媒體抄錄系統,包括被布置為播放被劃定為多個分段的語音的播放設備。所述系統被編程以為待抄錄的分段提供抄錄員尚未抄錄的分段的部分的自適應估計。所述設備被布置為可選地在已經播放整個所述分段之后,播放所述分段的所述部分。此外,一種分段引擎被布置為通過識別語音本身并使用定時信息,來將所述語音媒體劃分成多個分段,而無需使用機器將語音媒體轉換成文本或文本表達。
【專利說明】抄錄語音
【技術領域】
[0001] 本發明涉及一種分段(segment)和抄錄(transcribe)視頻、音頻或多媒體文件或 播出節目的語音(speech)記錄和語音成分的方法,這樣的記錄和成分在本文被統稱為"語 音媒體"。本文所用的"語音"包括說出的聲音和口頭陳述的任何其它形式,其可以被解釋 為能夠以文本表示的話語。
【背景技術】
[0002] 為了知道"原始"狀態的音頻和視頻媒體中有什么,人們必須聆聽材料(在視頻情 況下觀看材料),從這個意義上來說,"原始"狀態的音頻和視頻媒體是不透明的(opaque)。 通過將媒體標記為具有標題、版權、作者、關鍵詞和其它信息的統一體,可以為音頻或視頻 關聯附加信息(例如,就像在ID3標準下MP3文件與媒體元數據關聯)。此外,可以為媒體文 件關聯包括語音文本信息的定時信息,在本文被統稱為"定時媒體元數據",其允許適當的 系統在媒體中以正確的時間顯示諸如字幕和副字幕等信息(如果需要,還有其它元數據)。
[0003] 無論是標記整個文件,還是提供關于媒體中定時事件的信息,所關聯的定時媒體 元數據都可以嵌入有媒體文件本身(如果有合適的工具、格式和播放器),或者單獨在定時 文本文件(有許多不同的標準格式,如W3C定時文本標記語言(TTML,也稱為分發格式交換 資料DFXP)或同步多媒體(SMIL)標準和專有標準)中,或者在數據庫中。
[0004] 語音媒體的定時部分(其還可以包括時間偏移、播放速率和向原始媒體的引用) 連同文本和其它元數據(其還可以包括更短時間間隔的具體的定時信息)與在本文中被統 稱為"分段"的語音媒體的一部分相關聯。
[0005] 媒體文件和相關聯的元數據也可以被分組為播放列表或頻道,其允許顯示、選擇 和播放一組媒體。如果這樣的播放列表可以與適當的定時媒體元數據相關聯,則整個播放 列表可有效地體現定時、文本和其它元數據,用于應用該方法。
[0006]因為通過搜索引擎進行有效的搜索可提供來自廣告商和贊助商的收益機會,所以 能夠通過搜索定位媒體有很重要的價值。從消費者的角度看(消費者是試圖收看或收聽媒 體的任何人),能夠通過對內容進行文本搜索找到合適的視頻和音頻內容,而不依賴任何標 題和整個媒體標簽很重要。
[0007] 此外,一旦找到媒體,消費者可以(用合適的播放器)基于定時媒體元數據中的文 本搜索,來搜索媒體播放中的特定時間位置,這允許適當的播放器在感興趣的合適位置處 開始播放(而不是消費者需要摸索(scrubthrough)播放)。這允許消費者體驗到媒體的 相關部分,而不用觀看不相關的部分。
[0008]目前,許多司法管轄區對廣播媒體有法規要求,其需要適當的訪問協助,這導致定 時文本元數據例如作為隱藏字幕等可用。
[0009] 在提供到網絡(例如,BBCiPlayer、Google的YouTube?服務和支持字幕或副字 幕的其它在線視頻發布服務)上的視頻和音頻材料的情況下,具有可用的相關聯元數據的 材料的普及度有限(由于立法定位)。盡管事實是元數據的可用性在廣播情形中更為有價 值,這不僅因為元數據具有訪問協助,而且因為其允許媒體能夠容易地被搜索引擎找到,以 及其可以使用戶快速定位媒體中相關的部分。
[0010] 此外,可能提供有帶有定時媒體元數據的豐富多樣的元數據(例如相關聯的圖 像),其提高了其對于用戶的配合(engagement)和價值,并使得用戶更容易吸收所需的信 息,或者"點擊"到其它相關地方。另外,可以將當前的文本分段元數據與相關廣告背景相 關聯。材料的定時關聯還有助于教學環境。
[0011] 將豐富的元數據添加到音頻和視頻材料的主要障礙是用當前的制作和發布系統 這么做所需的復雜性和工作量。
[0012] 存在協助制作字幕、副字幕和各種定時文本格式的多種當前系統。例如,可以 將字幕和標記手動添加到視頻/音頻制作系統的時間線;在視頻的情況下,使用諸如 MicrosoftExpression.1?Encoder、SonyVegas?Pro、Apple?FinalCutPro?或 AdobePremiere?。可選地,可以使用專用字幕和副字幕系統,需要用戶標記事件的定時以 及添加諸如抄錄等元數據形成定時媒體元數據,并且這些或者可以被導入媒體制作工具以 創建嵌入的定時媒體信息,或者可以被導入與播放器中的媒體相關聯的定時文本文件。此 夕卜,速記(steganography)需要由受過訓練的抄錄員可操作的特殊的抄錄終端,并特別適 用于現場加字幕。此外,自動語音識別(ASR)系統能夠制作定時文本,其根據各種語音模型 來識別并通過生成預期的詞字來制作。由于ASR系統的不準確性,一種方法是使用被訓練 為個別抄錄員模式的ASR,并使該個別抄錄員重新朗讀音頻/視頻材料中所說的話并將重 新朗讀插入到副字幕中,因為優良的識別而得到更高質量的結果。
[0013] 還可以通過使用光學字符識別技術來從現有的視頻材料導出定時字幕。當然,這 依賴于材料中已經嵌入了現有的抄錄稿。
[0014] 與定時媒體元數據相關聯的語音媒體的普及度很低。這反映了使用當前系統的在 時間和/或費用上的挑戰。在自動化的ASR的情況下,所得到的抄錄稿的質量不足以用于 許多重要的應用,并且重新朗讀的方法還很費時。
【發明內容】
[0015] 本發明的一個目的是緩解一些或全部這些缺點。
[0016] 本發明的具體實施例滿足了能夠由無需非常熟練的抄錄員高效地制作高質量抄 錄稿和其它元數據的需要,并且允許端到端過程以制作并發布抄錄的結果。
[0017] 根據第一方案,本發明提供了一種語音媒體抄錄系統,所述系統包括被布置為播 放被劃定為多個分段的語音的播放設備,所述系統被編程以為待抄錄的分段提供對抄錄員 尚未抄錄的分段的部分的自適應估計,所述設備被布置為播放所述分段的所述部分。因此, 當語音可能超出抄錄員將其全部回憶起來的能力時,產生這樣的播放(playback)。可以在 可配置的導入時間的基礎上(帶有可選的音量漸響)計算合適的重放位置,并且如果可以, 在詞字(word)的邊界上開始;或者如果該位置接近于開始點,則在分段的起始點開始,并 且如果接近于結束點,則提供最小程度的重放。此外,可以為抄錄員提供用于使用鍵盤組合 來使該系統從重放位置或分段的起始點重放的裝置。
[0018] 所述播放設備可以被布置為在播放被估計為尚未抄錄的所述部分之前播放整個 分段。
[0019] 所述自適應估計可以在以下中的至少一個的基礎上進行:該分段中可能存在的文 本的數量,發言者的語音速度,抄錄員的文本輸入速率,抄錄員的工作記憶,或者抄錄員的 當前活動,即是否正在進行抄錄。當對分段的分析指示該分段可能不包含語音時,可以從播 放中省略該分段或以高速播放該分段。
[0020] 所述系統可以監測抄錄員的文本輸入速率,并以取決于所述文本輸入速率的速度 播放語音。
[0021] 在分段的開頭打字輸入的標點符號可以被自動轉移到前一個打字輸入的分段。
[0022] 所述系統可以包括用于自動重放所述語音用于審閱和校正抄錄的裝置,和/或用 于允許由審閱者識別被認為是錯誤的文本的分段的裝置。
[0023] 根據第二個方案,本發明提供一種抄錄語音媒體的方法,包括:提供如上所述的系 統,允許抄錄員抄錄所述語音媒體的分段的一部分,重放被估計為抄錄員尚未抄錄的所述 分段的部分,以及隨后確定所述分段已被完全抄錄。
[0024] 根據第三個方案,本發明提供一種分段引擎,被布置為通過識別語音本身并使用 定時信息,來將所述語音媒體劃分成多個分段,而無需使用機器將語音媒體轉換成文本或 文本表達。
[0025] 所述分段引擎可以被編程為開始一分段,測量經過的時間,確定所述分段中詞字 之間的間隙,并且當該分段中經過的時間為至少1秒,優選至少2秒,和/或最多15秒,優 選最多10秒時的間隙處結束該分段。
[0026] 用于分段的定時信息可以基于語音媒體中的線索,所述線索選自由以下線索構成 的群組:從自動語音識別系統導出的線索,從語音活動檢測系統導出的線索,以及從對該語 音媒體的音頻或視頻分析得到的線索。
[0027] 在一個實施例中,所述分段引擎被編程為將附加的分段插入兩個分段之間的間 隙,以提供連續的分段。可替代地或另外地,所述引擎可以被編程為消除兩個分段之間的間 隙,以提供連續的分段。它可以允許用戶將一個分段分成兩個或更多個分段,并且可以允許 用戶將兩個或更多個連續分段合并成一個分段。
[0028] 所述分段引擎可以被編程為在沒有來自隨后的分段中的分段的元數據不適用于 該隨后的分段的指示的情況下,保存來自所述隨后的分段中的分段的所述元數據。
[0029] 根據第四個方案,本發明提供一種對語音媒體分段的方法,包括:提供如上所述的 分段引擎,分析定時信息以確定詞字之間的間隙,以及在詞字之間的所述間隙中所選擇的 一些間隙處結束分段。
[0030] 本發明的方法可以包括以下步驟:顯示、發布、或傳輸由該方法制作的抄錄。
【專利附圖】
【附圖說明】
[0031] 現在將參考附圖,僅以示例方式更詳細地描述本發明的實施例,附圖中:
[0032] 圖1是示出根據本發明的系統的方框圖;
[0033] 圖2是更詳細地示出圖1的系統的分段(segmentation)過程的方框圖;
[0034] 圖3是更詳細地示出圖1的系統中的抄錄(transcription)過程的方框圖;以及
[0035] 圖4是示出重放系統參數的時序圖。
【具體實施方式】
[0036] 圖1給出了根據本發明的系統的總覽。該方法的主要步驟是:
[0037]-由其它系統(其可與本發明的系統進行交互)獲取和制作視頻或音頻媒體;
[0038]-對媒體分段以標出合適的語音定時信息(speechtiminginformation);
[0039]-抄錄多個分段以向其有效地添加文本和其它信息;
[0040]-審閱并確認抄錄;
[0041]-用用戶提供的參數以各種形式(包括定時文本文件,且可選地為網頁以及完整 的抄錄稿)自動制作和發布分段后的信息。
[0042] 本發明提供一種連貫的端到端的制作和發布系統。盡管該系統可以主要實現在通 用個人計算機系統中,但所描述的功能、數據流(flow)和控制機制可以實現在多個服務器 和處理器上且功能分布在多個服務器和處理器上,而且,在任何情況下,這通常為用于將所 得到的定時媒體元數據發布給消費者的機制。
[0043] 獲取和制作
[0044] 在分段之前,制作系統可能需要進行媒體格式轉換以為線索生成系統創建合適的 輸入。例如,在媒體為H. 264格式的情況下,其可以被轉換成合適的音頻格式的媒體用于輸 入到該線索生成系統。
[0045] 1.分段
[0046] 圖2示出分段過程。本系統提供自動將語音媒體分段為適當長度的分段的自動能 力,可期望這些分段保持連貫的語音短語。這與需要手動標記分段時間位置的系統不同。此 夕卜,可以提供涵蓋預計沒有待抄錄的任何語音的時間段的分段。
[0047] L 1對線索的分段
[0048] 用能夠標出包括定時信息的語音表達的已知系統開始進行自動分段。這些包括 (但不限于)自動語音識別(ASR)系統和語音活動檢測系統(VAD)。這些系統提供從語音 媒體導出的時間和其它線索,其向分段系統提供信息以及其它分段元數據和詳細的分段粒 度(例如,在ASR的情況下為詞字級別)。可以從音頻或視頻媒體的其它特征導出附加線 索,例如,音頻頻譜組成及其變化,或者在視頻的情況下的場景分割事件(視頻合成中的剪 輯(cut)),或者使用人臉識別系統。可以根據需要使用所有或部分這些線索。
[0049]目前使用ASR系統制作自動字幕,獲得與文本信息的自動制作相耦合的定時信息 (當然這可以隨后被編輯)。在本發明中,系統不依賴于系統的詞字識別,而是使用由ASR 系統提供的定時信息。可以使用識別的其它特征,但不使用來自ASR系統的建議文本,而是 由抄錄員輸入。
[0050] 不依賴ASR詞字制作有三個好處。
[0051] 首先,系統不需要經過訓練的ASR語音模型,以在有多個發言者且沒有為他們訓 練的語音模型的通常情況下實現準確性。
[0052] 其次,較差質量的音頻和有限數量的背景噪聲和音樂(例如)的存在不會嚴重影 響本系統的分段性能(而這極大地降低ASR系統的文本識別的準確性)。
[0053] 第三,因為本發明不依賴于任何特定的ASR語音模型,所以它基本上以與語言無 關的方式工作。某些語言不存在語音模型,因此一個很大的優勢是能夠使用一種語言的單 一語音模型并將其應用到其它語言。
[0054] 分段系統確實利用VAD或ASR系統制作的詞字和短語定時。但不是簡單地使用來 自這些系統的原始定時,本發明在以下幾個方面對分段進行調整。
[0055] L2附加線索
[0056] 還可以從附加線索導出對分段的選擇,從而例如,當有一個視頻場景間斷時,如果 合適,該系統可以優先考慮在媒體中此時應產生分段間斷。可選地,如果音頻的頻譜分析表 明語音媒體中可能有不同的發言者或某些時間可能有變化,則這種信息也可以影響系統的 分段定時選擇(因為期望為不同發言者創建不同的分段)。
[0057] 此外,線索的其它特性可以提供例如關于分段調整和發言者分配信息的附加信 息。在某些情況下,關于給定分段的(多個)發言者的信息是分段元數據的有用的部分,并 且可以包括一組信息,包括名稱、演員、圖像鏈接和其它所需的信息。
[0058] L3最小長度
[0059] 分段一般應在一定長度范圍內,以便被正確顯示并具有有含義的短語。過短的分 段(例如在2秒以下)通常不會為字幕提供可理解的短語,但是如果在較短時間段上出現 的語音在該語音之前或之后具有間隙,則其可以是有效發音(通常是一個感嘆詞)并被該 系統允許(例如,如果有人說"是",其作為邏輯可分辨的分段)。還發現分段系統將300ms 及以上的語音發音中的間隙處理為可分辨的分段非常有效。
[0060] 1. 4防怏閃
[0061] 此外,該系統保護字幕和顯示輸出的觀看者不會看到"過快"的轉變,這已知會造 成潛在的健康問題(例如,避免媒體中的"閃爍"誘導癲癇的法規和標準)。因為限制包括 在輸出中的分段的最小長度,所以該系統自動地避免這些問題。沒有足夠的后期處理的手 動系統或自動系統則無法做到這點。
[0062] 1. 5最大長度
[0063] 通常如果長度超過10秒(視系統配置而定),則分段也可能過長。分段可能過長, 原因有兩個:首先,將"配合"目標顯示(通常包括兩行文本)的顯示長度有限。其次,系統 的目的是提供一種有含義的語義"組塊",這通常實現在較短長度的語音中。當超過此閾值 時,該系統能夠自動估計合適的分段分割,并且對于基于ASR的分段,能夠在可能有合適的 分割點的詞字之間的最大合適邊界處進行分段(例如,當詞字之間有微小的間隙時)。在這 一自動分段分割不能實現所期望的結果時,可以如下所述進行手動調整。
[0064] 在預期語音媒體的一部分不具有可理解的語音信息的情況下,分段系統可以創建 長于如上所述長度的分段,并相應地標記這些分段。
[0065] 1. 6連續分段
[0066] 對于許多應用,以及對于抄錄過程,期望調整定時和/或添加附加分段,以創建跨 度為整個媒體的一組連續的分段。為了使用某些嵌入式或定時文本格式的系統和相關聯的 顯示設備進行適當顯示,可能需要這種連續的特性。此外,某些定時文本格式不支持分段的 結束時間,在這種情況下,如果需要,可以插入附加的分段以在適當的時間改變顯示。連續 分段(及表明其是否可能包含語音的被適當標記的分段)對抄錄或審閱會很有用。
[0067] 在從線索導出的分段之間的間隙被配置得很小(一般在1秒左右)的情況下,系 統可以選擇"閉合"兩個相鄰的分段的定時,使得它們變得連續而不插入短的附加分段。
[0068] I. 7手動詵擇
[0069] 在某些情況下,通過手動選擇一段媒體來為系統導出線索可能是有利的,例如多 軌道編輯器的時間線顯示(無論音頻或視頻),或者由系統或在播放過程中通過用鍵盤手 勢指示開始和停止位置支持的時間線。所選擇的時間間隔可被用作分段系統的另一線索, 注意現有的分段可能需要調整連續性和長度。
[0070] 1. 8手動調整
[0071] 向抄錄員或審閱者提供對分段定時的手動調整,并且這可以用各種不同的機制來 提供。還可以使用手動輸入來改變分段的開始或結束時間(例如,通過使用向前、向后拖曳 滑塊指示位置的"微調",選擇時間線位置,或在ASR的情況下,自動改變詞字邊界的定時)。 當用戶進行這種改變時,分段系統可以自動地調整相鄰的分段,使它們保持連續。
[0072] L9分割和合并
[0073] 除了改變分段開始和結束時間以外,抄錄員還可能希望將一個分段分割成兩個 (持續時間上)更短的分段,可以在改變開始或結束點時間的相同基礎上來完成這一分割 時間的指示。當這樣做時,用戶還可以指示現有的分段抄錄稿中的文本分割點的位置,使得 適當的文本位于所得到的兩個分段的每個分段中。該系統提供將初始分段元數據(例如, 發言者的信息、圖像)復制到所得到的兩個分段的能力。可選地,抄錄員或審閱者還可能希 望合并兩個或更多個所選擇的連續分段。在這種情況下,單個被合并的分段的開始點是第 一個所選擇的分段的開始點,而結束點是最后一個所選擇的分段的結束點。在這種情況下, 所得到的抄錄稿表示待順序合并的各個分段的混合。在其它元數據為非文本并且不能以這 種方式直接被合并時,該系統可以提供默認的選擇(例如,適用于合并后的分段的發言者 是在第一個被合并的分段中所定義的發言者)。
[0074] L10自動繼續
[0075] 為了避免抄錄員需要連續地向分段元數據提供不變的信息,該系統提供了可配置 的機制,以允許分段之間的"繼續"。由參數控制對"繼續"的使用和將其應用到不同格式。 在特定的項沒有接收到抄錄員或審閱者輸入的情況下,元數據可以被視為是連續的。在這 種情況下,該系統可以復制來自第一個有效的先前分段的信息。所以,例如,關于一組分段 的發言者的信息可以僅在語音的開始被標記一次,并且除非明確地指出,隨后的分段也被 假定為由該發言者發言(并且當發布該信息時,由系統自動填充必要的數據)。
[0076] I. 11 防抖(Anti-Flicker)
[0077] 可以提供分段顯示系統,其檢查分段之間的特定的元數據是否已經改變(注意, 即使字幕或副字幕已經改變,但元數據的其它項可能未改變)。一些類型的顯示系統,如果 向其提供寫入到顯示區的信息,即使信息是相同的,其也可能顯示視覺分散行為。通過限 制對顯示區的寫入直到必須改變該區域,該播放系統可以避免這種情況發生。這種功能對 于圖像數據的顯示尤其重要,并適用于在抄錄和/或審閱期間操作的顯示系統以及媒體產 品。
[0078] L12分段刷新
[0079] 在任何分段調整的情況下(無論是通過由人所做的改變,還是由于與顯示類型或 格式相關聯的選擇),該系統可以執行任何已在以上I. 1至1. 12部分描述的任意或全部操 作。
[0080] 2.杪錄
[0081] 圖3示出抄錄過程。一旦高質量的分段可用,則系統使用各種控制和自適應措施 來控制向抄錄員播放每個分段。
[0082] 出于本說明書目的的考慮,可以使用普通的鍵盤機制或經由上述通過"重新朗讀" 機制的語音識別技術的輸入,或者通過任何其它文本輸入方法來執行人的文字輸入。
[0083] 2. 1非語咅處理
[0084] 分段過程可以識別不太可能包含可理解的語音信息的語音媒體部分。可以使得抄 錄和審閱播放機制或者跳過這樣的分段,或者以更快的速度播放它們,從而節省時間(當 然或者也可以正常播放它們)。實現很簡單,即由分段系統檢查此類標記。
[0085] 2. 2系統輔助的杪錄播放和重放
[0086] 盡管現有系統在有高度熟練的抄錄員、可選的額外速記設備或腳踏板協助時工作 最佳,但本發明的抄錄系統可協助各種人用標準設備高效地輸入高品質的抄錄和字幕。[0087] 這是在對以下的自適應估計的基礎上完成的:
[0088] a)在抄錄分段中可能輸入的文本的數量;
[0089]b)發言者的朗讀速度;
[0090]c)抄錄員的打字速度;
[0091] d)抄錄員的工作記憶。
[0092] 在a)的情況下,可根據自然人類語音速率來預測分段中的文本數量(無論是以字 符、詞字還是音素計量)。雖然這在各個人之間有變化并且有時根據條件變化,但是我們已 經發現,正常的語音速率出現在可預測的較窄范圍內。隨著抄錄的進行,我們獲得關于此抄 錄中語音傳輸的實際速率的進一步信息,因此該系統可以使用一系列自適應算法(例如, 指數平均)從先驗速率適應到當前的情況。
[0093] a)和b)的結果是該系統可以以一定的準確性預測需要輸入以完成正被抄錄的分 段的文本數量。
[0094]關于c),可以由系統來測量抄錄員的打字或輸入速率。這種測量可以從系統設置 (諸如輸入技能評估、或對測試抄錄的測量)開始。抄錄員輸入速率的進一步細化可以通過 對本次抄錄以及前一次抄錄的實際輸入速率的系統知識(其還可以包括對輸入類別的知 識一類似的抄錄和抄錄難點被分組為自然項,例如,來自特定顧客或風格的抄錄)來實現。 這使得能夠適應更"難"或較不"難"的媒體。
[0095] 關于d),同樣,先驗估計一個人的工作記憶可以從通常的但較低的估計開始,然后 在輸入時由系統細化(如同c的情況)。特別是,系統可以檢測尚未到達媒體的結束點,但 打字已經停止,而用戶沒有給出分段結束點的信號。
[0096] 抄錄輸入一個主要問題是,很多人輸入信息慢于語音。這意味著在分段的播放結 束的時候用戶只對所需文本的一部分進行打字。
[0097] 分段的存在本身是有用的,因為播放的媒體的數量被很自然地限制了。通常情況 下,如果沒有分段,則播放將繼續,除非用戶用來自人的一些明確的信令停止它。
[0098] 人類對他們聽到但還沒有抄錄的語音具有有限的"緩沖"或工作記憶空間,并且如 果剩下的抄錄比該空間長,則該分段將結束而不能完成對該分段的抄錄。在我們的測量中, 對于通常的分段長度(如圖4中情況A所示),即使是相當熟練的打字員,這也是通常常見 的情況。
[0099]在通常的抄錄系統中,用三種主要方式處理這個問題。第一種,用戶可以在他們的 心理記憶過載之前手動停止抄錄(或用腳踏板,如果有的話)。第二種,可以播放媒體,然 后手動倒帶并依賴于用戶的輸入重放。第三種,一些系統提供可變速播放,由用戶調整來適 應。
[0100] 在時間和文本分段可用的情況下,如在基于ASR的抄錄的情況下,需要人的編輯 來校正ASR錯誤,并且在手動控制下進行播放。
[0101] 因為有時媒體長時間沒有語音(或沒有可理解的語音),但抄錄員仍然需要聽完 媒體(雖然如果系統支持的話可以以更快的速度這樣做),所以抄錄也是復雜的。
[0102] 本發明解決了這些問題。首先,由系統對媒體自動分段,使得向用戶播放的媒體的 數量被限制在任何給定的分段中,并且通常在邏輯上也是連貫的。在系統控制下播放分段, 在結束時照這樣自動前進到下一分段。這種自動前進通過已知的鍵盤組合或在重新朗讀的 情況下的口頭代碼進行。
[0103] 圖4示出用于播放與重放分段的系統。因為該系統具有對預期的輸入量、以及抄 錄員的打字速度和工作記憶的自適應知識,所以其能夠將分段的未抄錄部分的準確部分重 放給用戶,而不是重復整個分段。這節省了抄錄時間并作為抄錄員的首選。換句話說,該系 統"智能地"重放估計尚未抄錄的部分,使得抄錄員可以完成分段輸入。如圖4所示,基于 所估計的當前的抄錄位置、當前播放位置和抄錄員的工作記憶,系統能夠自動地確定合適 的估計條件以實現重放。如圖所示,如果播放位置超出抄錄員的工作記憶(情況A),則系統 停止播放,將播放位置重置到所估計的當前抄錄位置之前的適當位置(如下文所述),然后 重新開始播放。然后,如有必要,重復此過程直到該分段被抄錄。所描述的控制功能可以全 部被設定在通常的先驗值,并且自適應以匹配實際性能。該系統允許與已經抄錄的部分的 一定估計程度的重疊,部分地用以估計錯誤,還允許抄錄員的順利導入。系統還根據輸入繼 續重放過程,并且在一定條件下(例如重放計數、分段的持續時間,或者用戶的不活動一例 如,如果用戶不進行輸入則可以暫停或停止)可停止重放。在重放的估計開始點(可配置 地且通常在2秒內)接近該分段的開始點的情況下,系統可以轉而重放整個分段。此外,如 果重放位置(可配置地)太接近分段的末尾,則代替地使用播放時間的最小量(可配置)。 除了自動重放外,系統還可基于抄錄員信令(例如擊鍵組合)引起重放發生,并且如上所述 可以將重放位置設置到分段的開始處,或者合適的位置處。
[0104]在ASR導出線索的情況下,可以估計重放,使得其在詞字邊界重新開始而不是在 播放的計算出的時間開始,后者更容易導致播放被分開的詞字,并且在音頻音量上突然改 變。在任何情況下,無論選擇VAD或ASR還是其它分段機制,用戶優選使用對音頻音量水平 的漸響(fade-in)方法,并且0. 5至Is的漸響適合于該系統。
[0105]2. 3可奪諫度
[0106] 此外,如果需要,該系統可以基于將與用戶的打字能力相匹配的速率的估計,來自 動改變抄錄播放。對于更熟練的用戶,該系統可以自動加速抄錄播放。播放速率的可懂度 限制通常在0. 75到2. 5倍之間的正常語速(雖然更快的速度可能對抄錄員聽覺檢測語音 區域時有用)。還可以由系統使用鍵盤輸入或以其它方式提供播放速度的手動控制。
[0107] 2. 4啟動和結束分段播放
[0108] 來自抄錄員或審閱者的、應該播放一個分段或者對分段的文本輸入完成的指示, 可以通過使用可編程的鍵盤手勢(或者任何其它合適的輸入手勢或命令或菜單項或按鈕) 給出,而不干擾抄錄文本輸入。這適用于抄錄和審閱播放兩者。在鍵盤命令的情況下這些 手勢可以由用戶可配置地選擇。此外,當多個分段組合成完整的抄錄稿時,變量可以發信號 給系統指示分段的結束點也是一行的結束點或一段落的結束點。一旦完成分段,則系統可 以被設定為自動播放下一個有效分段(從而無需來自抄錄員或審閱者的明確信號)并重復 該過程。
[0109] 2. 5錯誤處理
[0110] 由該系統以多種方式處理抄錄錯誤:
[0111] 2. 5. 1 拼寫等
[0112]對拼寫錯誤的單詞(word)、大寫和拼寫檢查的自動校正是改進這些錯誤的標準方 法。
[0113] 2. 5. 2智能標點
[0114] 此外,在分段之間轉移標點的方法可以如下實現。假設有兩個分段,"男人騎上 馬",接著是"然后他前往鎮上"。在輸入第一個分段時,抄錄員不能先驗地對該分段打標點, 因為下一分段可能是該句子的延續(無標點),或句子中的一個短語(例如用逗號分隔), 或該句子可能已經結束。當抄錄員聽到下一分段"然后他前往鎮上"時,他或她可以確定第 一個分段的正確標點是使用分號。如果第二個分段的輸入是";然后他前往鎮上",則系統 將修改分段,將分號的開始轉移到第一個分段,從而其將讀為:"男人騎上馬;"并且第二個 分段變為"然后他前往鎮上"。可配置的規則確定每種類型的標點符號后面跟隨的空間的 量。請注意,該實現需要對語言相關的規則敏感,例如西班牙語具有在句子的開頭使用一個 感嘆號的結構,并且這些可以被排除在上述自動轉移機制之外。由諸如輸入命令代碼等其 它實現方式可以實現允許這樣的無因果關系的標點法的可替代的結構。
[0115] 在分段不由標點符號結束,而在估計語音中跟隨有明顯的可配置間隙,具有不被 估計為語音的約2秒或以上的默認間隙,則可選地,該系統可以自動地用句點(句號)符號 對該分段打標點。
[0116] 2. 5. 3 宙閱
[0117]用于校正抄錄錯誤的另一種機制在于該系統的審閱功能,其允許抄錄員或其他審 閱者在系統控制下審閱分段(例如,帶有緊跟有或沒有用戶干預的自動分段),以及對抄錄 稿或元數據進行修改的功能,包括播放控制。此外,審閱者可以例如使用合適的鍵盤組合, 用錯誤/注釋指示符和審閱者意見來標記該分段。然后,審閱系統可以播放尚未審閱的那 些分段,或標記錯誤或意見。
[0118] 2. 6.制作完整的杪錄稿
[0119] 用類似于版面設計的文字處理器將分段合并成一個完整的抄錄的能力是本發明 的系統的一個重要的選項,因為其允許同時呈現字幕式抄錄和精美格式的完整抄錄稿。此 夕卜,對各種演示提供版面設計選項以適應不同的應用。例如,完整的抄錄輸出可以根據發言 者用不同色彩作標記;可以包括發言者的名稱;可以包括時間代碼;并且可以包括注釋,可 選地用不同的字體、用括號等。可以制作各種流行的輸出格式的完整抄錄稿。
[0120] 2. 7豐富的元數據
[0121] 該系統不僅呈現簡單的字幕、副字幕或文本分段,還允許豐富的元數據集,適于應 用。與任何特定分段的定時相關聯的可以是任意數量的文本、圖像和視頻鏈接。文本可以 被歸于注釋、說明或其它文字信息。
[0122] 2. 8豐富的元數據傳輸和顯示
[0123] 在合適的格式定時文本文件的情況下,附加的字段類型及其表示的傳輸可以被編 碼為標準表述,或者在諸如TTML(DFXP)和SMIL等XML格式文件的情況下,借助于命名空間 擴展來添加。可以提供合適的播放器以使用這些豐富的擴展并相稱地顯示。
[0124] 2. 9編碼、語言、腳本
[0125] 對文本的編碼也可以被告知,從而例如,可以示出文本編碼(例如UTF,使得可以 存儲包括非西方(non-Western)腳本的各種各樣的腳本);文本表示的含義可被存儲為屬 性(例如,純文本、HTML文本、待打開的URL-其允許任何文字信息的豐富文本顯示)。此 夕卜,表示該文本的語言被編碼,并且這允許任何文本字段設置有來自原始文本的副字幕或 翻譯(其可以由翻譯人員或自動系統或兩者的組合來完成)。
[0126] 2. 10豐富的f本傳輸與顯示
[0127] 此外,在對分段"文字"輸入及其顯示的編碼的雙重標準(或者如果被標準支持, 則為非雙重)的情況下,該系統可以支持完整的豐富文本和媒體對該文本信息進行編碼。 例如,HTML文檔可以被支持為允許各種格式化文本以及圖像和其它媒體的完全混合,并且 此信息可以被編碼為用于在合適的定時文本文件中傳輸,并且用合適的播放器發布顯示; 在網頁瀏覽器上顯示技術的情況下,對于HTML標準的支持自然匹配到瀏覽器的顯示能力。 此外,取決于由觀看者的瀏覽器支持的瀏覽器插件,諸如XAML(可擴展應用程序標記語言) 等格式可以支持傳輸和顯示。
[0128] 3.與媒體制作系統集成
[0129] 上面描述的組件可以與合適的音頻和視頻制作系統集成。這些通常被稱為用于視 頻系統的非線性編輯(NLE)系統,和用于數字音頻工作站系統的多軌道音頻制作工具。這 些在時間線上的多個軌道上布局所需的源媒體"剪輯",然后呈現(render)到被發布的視 頻或音頻媒體(例如,如圖4和圖5所示)。流行的系統包括AdobePremiere?、Apple? FinalCutPro?、MicrosoftExpression㊣Encoder、Avid?和SonyVegas?Pro。
[0130] 取決于媒體制作工具的能力,可以用多種方式支持制作系統與該系統之間的交 互;這些例如包括:編輯決定列表(EDL)文件或其它數據庫、插件支持和應用程序編程接 口、或通過與制作工具直接集成。
[0131] 3. 1映射討稈
[0132] 在合適的情況下,本發明的系統可以用提供顯著益處的強大方式與此類已知系統 交互。特別地,多軌道時間線包括關于輸出視頻的定時以及來自源材料的剪輯定時的信息。 當交互系統生成施加到該材料的元數據信息和分段時,從邏輯上講,其適用于源媒體,并可 以映射到時間線上的剪輯位置,使得其出現在輸出視頻的正確位置。這具有很大的優點,即 當在時間線中改變剪輯位置時(但不相對于源媒體進行調整),相關的定時文本輸出信息 可以由本發明的系統自動地調整(并且如果合適,則傳遞到多軌道編輯器)。這意味著,媒 體制作和抄錄制作可以更為同時地進行,并且如果需要改變輸出媒體(例如,作為正常媒 體制作編輯周期的結果),將不會影響到自動制作相關抄錄稿的能力。在通過此過程將附加 (新)材料添加到時間線的情況下,則該新材料如果尚未被抄錄當然會需要被抄錄。此外, 如果源媒體已經被系統抄錄,則它可以被包括在新項目(用于不同的視頻輸出)中,且現有 的抄錄稿將在新的項目中立即可用,而無需另外的再抄錄工作。
[0133] 4.應用
[0134] 雖然就在線音頻和視頻材料而言描述了本發明的方法和系統的應用,并且為這些 應用提供合適的定時元數據,但其還可以適用于:
[0135] ?廣播系統和電視
[0136] ?制作傳統的抄錄稿,特別是有關證據要求的抄錄稿
[0137] ?一般性地定時/注解會議抄錄稿
[0138] ?教育和教學應用(例如帶有適當的定時和可搜索內容的講座系列、教程和其它 視頻/音頻演示)。
[0139] 此外,對于所有這些應用,基于文本的抄錄和其它元數據的可用性使得能夠使用 通用搜索引擎以及用于媒體資產的特定搜索數據庫來搜索和定位感興趣的媒體。
[0140] 此外,該文本元數據的可用性允許用戶在感興趣的事項的媒體中進行搜索,并為 用戶自動播放該事項(而不必通過手動搜索該媒體)。
[0141] 此外,可以借助于頻道或播放列表來組織媒體。在這些集合中文本元數據與媒體 的關聯允許搜索以在整個頻道或播放列表的基礎上操作。
[0142] 定時元數據的存在還使得能夠顯示在該時間點與媒體相關聯的信息。特別是,這 可以包括對所說內容的注解和評價、可以參考其它信息并同時顯示該信息的注釋、感興趣 的圖像、完整抄錄稿的高亮顯示的視圖以及基于當前的定時和元數據動態顯示其它網頁內 容的能力。該后一種能力在在線廣告和"點擊"應用的背景下有重要意義(relevant)。
[0143] 所有的文字信息可以被翻譯為替代語言或文字再現。這些可以通過自動翻譯系統 或通過手動輸入來生成。
[0144] 本發明可以與合適的媒體制作工具結合使用,其允許靈活地重新使用現有的抄錄 稿、與媒體制作結合的高效的抄錄制作流程,并且具有改變媒體時間線和保持準確的抄錄 定時的能力。
【權利要求】
1. 一種語音媒體抄錄系統,包括被布置為播放被劃定為多個分段的語音的播放設備, 所述系統被編程以為被抄錄的分段提供對抄錄員尚未抄錄的分段的部分的自適應估計,所 述設備被布置為播放所述分段的所述部分。
2. 根據權利要求1所述的抄錄系統,其中所述播放設備被布置為在播放被估計為尚未 抄錄的所述部分之前播放整個分段。
3. 根據權利要求1或2所述的抄錄系統,其中所述自適應估計在以下中的至少一個 的基礎上進行:該分段中可能存在的文本的數量,發言者的發言速度,抄錄員的文本輸入速 率,抄錄員的工作記憶以及抄錄員的當前活動。
4. 根據權利要求1、2或3所述的系統,其中當對分段的分析指示該分段不包含語音時, 從播放中省略該分段或以高速播放該分段。
5. 根據前述權利要求中的任一項所述的系統,被布置為監測抄錄員的文本輸入速率, 并以取決于所述文本輸入速率的速度來播放所述語音。
6. 根據前述權利要求中的任一項所述的系統,包括用于將打字輸入的標點符號自動轉 移到前一個打字輸入的分段的裝置。
7. 根據前述權利要求中的任一項所述的系統,包括用于自動重放所述語音以審閱和校 正抄錄的裝置。
8. 根據前述權利要求中的任一項所述的系統,包括用于允許由審閱者識別被認為是錯 誤的文本的分段的裝置。
9. 一種抄錄語音媒體的方法,包括:提供根據前述權利要求中任一項所述的系統,允 許抄錄員抄錄所述語音媒體的分段的一部分,重放被估計為尚未抄錄的所述分段的部分, 以及隨后確定所述分段已被完全抄錄。
10. -種分段引擎,被布置為通過識別語音本身并使用定時信息,來將所述語音媒體劃 分成多個分段,而無需使用機器將語音媒體轉換成文本或文本表達。
11. 根據權利要求10所述的分段引擎,被編程為開始一分段,測量經過的時間,確定所 述分段中詞字之間的間隙,并且在該分段中所述經過的時間為至少1秒,優選至少2秒時的 間隙處結束該分段。
12. 根據權利要求11所述的分段引擎,其中在經過最多15秒,優選最多10秒的時間之 后,結束該分段。
13. 根據權利要求10、11或12所述的分段引擎,其中用于分段的定時信息是基于所述 語音媒體中的線索的,所述線索選自由以下線索構成的群組:從自動語音識別系統導出的 線索,從語音活動檢測系統導出的線索,以及從對該語音媒體的音頻或視頻分析得到的線 索。
14. 根據權利要求10、11、12或13所述的分段引擎,被編程為將附加的分段插入兩個分 段之間的間隙,以提供連續的分段。
15. 根據權利要求10至14中任一項所述的分段引擎,被編程為消除兩個分段之間的間 隙,以提供連續的分段。
16. 根據權利要求10至15中任一項所述的分段引擎,被編程為允許戶將一個分段分成 兩個或更多個分段。
17. 根據權利要求10至16中任一項所述的分段引擎,被編程為允許用戶將兩個或更多 個連續分段合并成一個分段。
18. 根據權利要求10至17中任一項所述的分段引擎,被編程為在沒有來自隨后的分段 中的分段的元數據不適用于該隨后的分段的指示的情況下,保存來自所述隨后的分段中的 分段的所述元數據。
19. 一種對語音媒體分段的方法,包括:提供根據權利要求10至18中任一項所述的分 段引擎,分析定時信息以確定詞字之間的間隙,以及在詞字之間的所述間隙中所選擇的一 些間隙處結束分段。
【文檔編號】G06F17/30GK104246750SQ201380018139
【公開日】2014年12月24日 申請日期:2013年3月26日 優先權日:2012年3月30日
【發明者】約翰·理查德·貝克 申請人:Jpal有限公司