專利名稱:記錄所捕獲圖像的音頻元數據的制作方法
技術領域:
本發明通常涉及音頻處理領域,并且更具體地涉及在相關聯的靜止或視頻數字化
圖像的圖像文件中嵌入音頻元數據。
背景技術:
數字照相機往往包括視頻捕獲能力。另外,一些數字照相機具有用音頻注解圖像 捕獲數據的能力。音頻波形往往被存儲為數字編碼的音頻樣本并且放置在文件格式的適當 容器內,例如數字靜止圖像文件的元數據標簽或者簡單地作為視頻文件或流中的(一個或 多個)編碼音頻層。 在消費電子學工業中已經有許多創新將圖像內容與聲音進行結合。例如,伊斯 曼'柯達公司在US6496656B1中教導了如何在硬拷貝印刷品中嵌入音頻波形。另一個柯達 專利US6993196B2教導了如何將音頻數據作為非標準元數據存儲在圖像文件的結尾處。
Virage公司具有一個專利US6833865,該專利教導了關于一種用于實時嵌入的元 數據提取的系統,所述元數據提取能夠是與場景或音頻相關的,只要音頻已經存在于視聽 數據流中即可。該處理能夠與捕獲并行地或者順序地進行。 US7113219B2是惠普專利,其教導了使用按鈕上的第一位置來捕獲音頻以及使用 第二位置來捕獲圖像。 盡管這樣的音頻信息駐留在圖像或視頻文件中以用于回放目的,但是該音頻除了 允許在以后查看文件時回放聲音之外沒有其它目的。當前,沒有機制用于在捕獲時或在以 后自動地捕獲與數字圖像或視頻捕獲同時的音頻事件以便后續分析進行理解、組織、分類 或搜索/檢索。
發明內容
簡而言之,依據本發明,提供了一種在圖像捕獲期間記錄音頻元數據的方法,包 括 a)提供用于捕獲靜止或視頻數字化的場景圖像和記錄音頻信號的圖像捕獲設 備; b)當該設備處于開機模式時連續地記錄所述音頻信號;以及 c)由所述圖像捕獲設備啟動靜止圖像或視頻圖像的捕獲,并且將在靜止圖像或視
頻圖像的捕獲終止之前、期間和之后的時間內產生的音頻信號存儲為元數據。
本發明自動地將音頻元數據與圖像捕獲相關聯。而且,本發明自動地將同時發生
的音頻信息的預定段與圖像或圖像的視頻序列相關聯。 要理解,如本發明的該說明書中使用的短語"圖像捕獲"、"捕獲的圖像"、"圖像數 據"涉及靜止圖像捕獲以及運動圖像捕獲,如在視頻中。術語"靜止圖像捕獲"和"視頻捕 獲"或者其變型在需要時將用來描述不同的靜止或運動捕獲情況。
本發明的優點源于如下事實在圖像捕獲之前、期間和之后被捕獲的記錄的音頻信息提供場景的情境以及有用的元數據,其能夠被分析以語義理解所捕獲的圖像。依據本 發明,一個過程將音頻信息的不斷更新的活動窗口與所捕獲的圖像相關聯,以允許用戶有 不必經過驅動按鈕或開關來主動地啟動音頻捕獲的自由。用戶所需的物理動作是啟動圖像 或視頻捕獲事件。音頻信號與(多個)圖像的關聯以及音頻信息的活動窗口的管理由設備 的電子器件自動地處理并且對用戶是完全透明的。 通過查看以下優選實施例的詳細描述和所附權利要求并且參照附圖,將更清楚地 理解和明白本發明的這些以及其它方面、目標、特征和優點。 本發明包括這些優點存儲于存儲器中的開機模式中的音頻的連續捕獲允許捕獲 能夠用于對圖像數據的語義理解的更多信息,以及在查看圖像數據時經過音頻的回放來增 強用戶體驗。在圖像捕獲時,來自靜止和視頻捕獲之前的一段時間、靜止和視頻捕獲期間以 及靜止和視頻捕獲之后的一段時間的音頻樣本作為元數據被自動地存儲在圖像文件中以 用于以后的語義分析。
圖la是描述發明的實施例的框圖; 圖lb示出含有圖像和音頻數據的多媒體文件; 圖2a是描述代表性攝影環境的草圖,含有照相機用戶、對象、場景以及其它產生 環境中聲音的目標; 圖2b是使用發明的優選實施例說明在典型使用情況下發生的高級事件的流程 圖; 圖3a是示出作為與靜止圖像捕獲情況交疊的時變信號的數字化音頻信號波形的 詳細圖; 圖3b是特定于視頻捕獲情況的數字化音頻信號波形的詳細圖;以及
圖4是用于分析所記錄的音頻信號的圖la所示的分析過程的框圖。
具體實施例方式
在以下描述中,本發明將在其優選實施例中被描述為數字照相機設備。本領域技 術人員將容易意識到等效發明還能夠存在于其它實施例中。 圖la示出了數字照相機設備10的示意圖。數字照相機設備IO含有用于圖像捕 獲的照相機鏡頭及傳感器系統15。圖像數據45(參見圖lb)能夠為單獨的靜止圖像或者如 視頻中的一系列圖像。這些圖像數據由專用的圖像模擬_數字轉換器20量化并且計算機 CPU 25處理該圖像數據45并將其編碼為數字多媒體文件40以存儲在內部存儲器30或可 移動存儲器模塊35中。內部存儲器30還為捕獲前緩沖的音頻信號55a和捕獲后緩沖的音 頻信號55c以及為照相機設置和用戶偏好60提供足夠的存儲空間。另外,數字照相機設備 10含有麥克風65,麥克風65記錄場景的聲音或者記錄語音以用于其它目的。麥克風65所 生成的電信號由專用的音頻模擬-數字轉換器70數字化。數字音頻信號175被存儲在內 部存儲器30中作為捕獲前緩沖的音頻信號55a和捕獲后緩沖的音頻信號55c。
圖lb示出了含有數字多媒體文件40的可移動存儲器模塊35 (例如SD存儲卡或 存儲棒)的圖。文件含有先前提到的圖像數據45以及相伴的音頻剪輯50。
在圖2a所示的優選實施例的共用情況內能夠更好地理解圖la中所描述的各種部 件的操作,其中圖2a描述了代表性攝影環境。參照圖2a,帶有數字照相機設備10的攝影師 90與環境85中的對象100進行言語交互。環境85被定義為其中目標對數字照相機設備10 是可見的或可聽到的空間。攝影師90和對象100的各自言語95和105能夠是對話的一部 分,或者能夠是由對象100或攝影師90如以講述或注解的方式單向地產生。攝影場景130 被定義為數字照相機設備10的光學視場。在環境85中能夠存在由其它場景相關目標110 所產生的其它場景相關環境聲音115。在圖2a的情況下,場景相關目標110是在攝影場景 130內的音樂家。來自被示為飛機的非場景相關目標120的非場景相關環境聲音125對麥 克風65是可聽到的并且因此是數字照相機設備10感測的環境85的一部分,然而它們不是 攝影場景130的一部分。圖2a還示出了總聲音135,其被定義為入射到麥克風65上的環境 85內的所有聲源的總和。 圖2b是涉及捕獲圖2a所示的攝影場景130的靜止圖像的事件序列的流程圖。參 照圖2b,數字照相機設備10開機或喚醒步驟140示出了通過打開電源來激活數字照相機設 備10或者以其它方式從休眠或待機模式中喚醒。這個步驟很重要,因為在音頻信號緩沖步 驟145中數字照相機設備10立即開始將麥克風65產生的數字音頻信號175(參見圖3a) 存儲為捕獲前緩沖的音頻信號55a。音頻信號緩沖步驟145允許攝影師90在圖像捕獲事件 150之前進行與攝影場景130或環境85中的對象100或其它屬性的進行對話或者描述所 述對象100或其它屬性。同時,還可能存在麥克風65感測的其它非言語聲音,諸如先前討 論的場景相關環境聲音115或其它非場景相關環境聲音125,其能夠給隨后的圖像捕獲事 件150添加額外的情境。重要的是注意,在音頻信號緩沖步驟145中麥克風165和音頻模 擬_數字轉換器70記錄環境85中存在的總聲音135。在圖像捕獲事件150中,攝影師90 按下捕獲按鈕75(參見圖la),這就啟動捕獲攝影場景130的圖像數據45。在繼續的音頻 信號緩沖步驟155中數字照相機設備10繼續記錄來自環境85的總聲音135達照相機設置 和用戶偏好60中指定的額外時間段。 在這一點上,圖2b的流程圖更詳細地示出了在音頻信號緩沖步驟145到繼續的音 頻信號緩沖步驟155期間所發生的情況。參照圖3a,示出了由麥克風65拾取的作為數字音 頻信號175表示的總聲音135、以及相關聯的時間線180。如先前所陳述的,在音頻信號緩 沖步驟145中,總聲音135被連續地存儲為捕獲前緩沖的音頻信號55a。捕獲前緩沖的音頻 信號55a存儲N秒的音頻信息,如時間線180上由時間線180上的"t = -N"時間標記185 所示。"t = -N"時間標記185指明捕獲前緩沖的音頻信號55a的時間上的起點。這個捕獲 前緩沖的音頻信號55a以"活動窗口"的方式進行連續更新,其中在時間線180上最老的樣 本在"t = -N"時間標記185處溢出緩沖器的末端而當前的音頻樣本填充在"t。 = 0"時間 標記190a處的緩沖器的前端。"t。 = 0"時間標記190a代表數字照相機設備10打開并正 在收聽環境85中存在的總聲音135時的實時當前時刻。捕獲前緩沖的音頻信號55a能夠 被認為是在從"t = -N"時間標記185跨越到"t。 = 0"時間標記190a的FIFO(先進先出) 樣本向量中不斷更新的聲音的活動窗口。 回頭參照圖2b,圖像捕獲事件150 (即,攝影師90按下捕獲按鈕75)與捕獲前緩沖 的音頻信號55a的填入(population)的完成相一致。在"t。 = 0"時間標記190a處發生 的圖像捕獲事件150的時候,繼續的音頻信號緩沖步驟155示出了數字音頻信號175繼續填充捕獲后音頻數據緩沖器55c達額外的M秒,如時間線180上的"t = +M"時間標記195 所示。在靜止圖像捕獲的情況下,理想化的是圖像捕獲事件150(參見圖3a)捕獲時間上的 無窮小時刻,然而圖像捕獲事件實際上跨越了快門的持續時間或傳感器的積分時間。例如, 數字照相機設備10的曝光時間可以在照相機設置和用戶偏好60中被設置為1/20秒。在 一秒的這個分數期間的音頻以無縫的方式被保存以使數字音頻信號175從"t = -N"時間 標記185跨越到"t = +1"時間標記195。在音頻剪輯形成步驟157中捕獲前緩沖的音頻信 號55a和捕獲后緩沖的音頻信號55c被組合以形成音頻剪輯50(參見圖3a)。
圖3b示出了特定于視頻捕獲情況的音頻波形的圖,其中總聲音135(參見圖2a) 被記錄同時數字照相機設備10的照相機鏡頭及傳感器系統15(參見圖la)將圖像數據 45(參見圖lb)記錄為視頻幀。圖像數據45被捕獲同時數字音頻信號175繼續被記錄和存 儲為視頻流55b'的音頻部分達圖像捕獲事件150的持續時間;例如達額外的T秒,如由從 "t。 = 0"時間標記190a到完成圖像捕獲事件150后的 =+T"時間標記190b的時間跨 度所示。視頻捕獲前緩沖的音頻信號55a'、視頻流55b'的音頻部分以及視頻捕獲后緩沖的 音頻信號55c'被合并以形成與圖像捕獲事件150相關聯的音頻剪輯50。
回頭參照圖2b,在視頻捕獲的情況下,音頻剪輯形成步驟157組合視頻捕獲前緩 沖的音頻信號55a'、視頻流55b'的音頻部分以及捕獲后緩沖的音頻信號55c'(參見圖3b)。 音頻剪輯存儲步驟160將音頻剪輯50存儲為數字多媒體文件40的一部分。在語義分析步 驟165中,音頻剪輯50通過語義分析過程80(參見圖la)經歷進一步的分析。最后,增強 的用戶體驗步驟170示出音頻剪輯50能夠被用于增強的用戶體驗。例如,音頻剪輯50能 夠在查看圖像數據時進行簡單的回放。另外,作為語義分析步驟165的結果的從音頻剪輯 50中搜集的信息構成新的元數據205(參見圖4)并且能夠例如被用來增強基于語義的媒體 搜索和檢索。 圖4是用于語義分析步驟165(參見圖2b)的音頻數據分析的更詳細的框圖。語 義分析過程80在本發明的優選實施例中是語音到文本操作200,語義分析過程80將出現 在音頻剪輯50中的言辭轉換成新的元數據205。能夠進行其它分析,例如檢查音頻剪輯50 以幫助對捕獲位置和條件的語義理解,檢測目標或人物的出現或身份。在優選實施例中,新 的元數據205采取一列識別的關鍵字的形式,或者其能夠是一列短語或語音串。新的元數 據205通過將元數據寫到文件操作210而與數字多媒體文件40相關聯。
回頭參照圖3a和3b,捕獲前緩沖的音頻信號55a(視頻捕獲前緩沖的音頻信號 55a')和捕獲后緩沖的音頻信號55c(視頻捕獲后緩沖的音頻信號55c')的持續時間具有 默認值并且在照相機設置和用戶偏好60中(參見圖la)是用戶可調節的,所述照相機設置 和用戶偏好60被存儲在內部存儲器30中。例如,捕獲前緩沖的音頻信號55a默認持續時 間能夠在照相機設置和用戶偏好60中被預置為N = 10秒,而捕獲后緩沖的音頻信號55c 默認持續時間能夠在照相機設置和用戶偏好60中被預置為M = 5秒。緩沖器的持續時間 是任意的并且在需要更多或更少時間的情況下是用戶可調節的。 如果在捕獲后緩沖的音頻信號55c仍在用音頻樣本填入自身的過程中啟動另一 捕獲事件150(這將是處于突發模式捕獲的情況),則能夠支持內部存儲器30中的多個緩沖 器(參見圖la)。 獲得等效音頻剪輯50的另一方法將是把全部數字音頻信號175(參見圖3a、3b)存儲在數字照相機設備10的內部存儲器30中,假設內部存儲器30的存儲容量足夠的話。 在用戶希望捕獲圖像數據45(參見圖lb)的那個時候,用戶按下捕獲按鈕75(參見圖la) 以啟動在"t。 = O"時間標記190a處發生的捕獲事件150(參見圖3a、3b)。在捕獲事件150 的初始"t。 = 0"時間標記190a處,位于在"t。 = 0"時間標記之前N秒的"t = -N"時間 標記185處的時移指針定義音頻剪輯50的開始,一旦捕獲后緩沖的音頻信號55c完成,所 述音頻剪輯50將包括從"t = -N"時間標記185到"t = +M"時間標記195的音頻樣本。
除了具有預置的時間長度來捕獲在圖像捕獲事件之前和之后的音頻之外,還可能 要慎重的是在'切斷數字音頻信號'之前實時地分析數字音頻信號175以確定音頻的連續 性。例如,發生在數字照相機設備10的計算機CPU 25內的連續音頻分析過程17(參見圖 la)能夠實時地分析數字音頻信號175(參見圖3a、3b)并且確定適當的位置以開始和結束 音頻剪輯。例如,如果數字音頻信號175包括口頭獨白,則通過自動調節"t = -N"時間標 記185將保存更長或更短的捕獲前緩沖的音頻信號55a,或者通過自動調節"t = +M"時間 標記195將保存更長或更短的捕獲后緩沖的音頻信號55c,以便維持數字音頻信號175的連 續性。基于音頻連續性或響度閾值找出數字音頻信號175中的適合(convenient)中斷允 許系統適當地剪輯數字音頻信號175,而'固定'時間可能在字中間切斷數字音頻信號175。 換句話說,人們可能期望如果數字音頻信號175下降到閾值之下預定時間量則終止數字音 頻信號175捕獲,因而為聲音不重要時的那些情況節省文件空間。相反,可能存在太多的噪 聲以致聲音對語義或重復使用等而言是無用的。音頻分析過程17將采用針對音頻可用性 的閾值并拋棄任何響亮的、非可辨別的或連續的噪聲。部件列表10數字照相機設備15照相機鏡頭及傳感器系統17音頻分析過程20圖像模擬-數字轉換器25計算機CPU30內部存儲器35可移動存儲器模塊40數字多媒體文件45圖像數據50音頻剪輯55a捕獲前緩沖的音頻信號55a'視頻捕獲前緩沖的音頻信號55b'視頻流的音頻部分55c捕獲后緩沖的音頻信號55c'視頻捕獲后緩沖的音頻信號60照相機設置和用戶偏好65麥克風70音頻模擬-數字轉換器75捕獲按鈕
80語義分析過程 85環境 90攝影師 95攝影師的言語/聲音 100對象 105對象的言語/聲音 110場景相關目標 115場景相關環境聲音 120非場景相關目標 125非場景相關環境聲音 130攝影場景 135總聲音 140設備開機或喚醒步驟 145音頻信號緩沖步驟 150圖像捕獲事件(靜止或視頻) 155繼續的音頻信號緩沖步驟 157音頻剪輯形成步驟 160音頻剪輯存儲步驟 165語義分析步驟 170增強的用戶體驗步驟 175數字音頻信號 180時間線 185t二-N時間標記 190a t0 = 0時間標記 190b tl = T時間標記 195t = +M時間標記 200語音到文本操作 205新的元數據 210將元數據寫到文件操作
8
權利要求
一種在圖像捕獲期間記錄音頻元數據的方法,包括a)提供用于捕獲靜止或視頻數字化的場景圖像和記錄音頻信號的圖像捕獲設備;b)當該設備處于開機模式時將所述音頻信號連續地記錄在緩沖器中;以及c)由所述圖像捕獲設備啟動靜止圖像或視頻圖像的捕獲,并且將在靜止圖像或視頻圖像的捕獲終止之前、或期間和之后的時間內產生的音頻信號存儲為元數據。
2. 權利要求1的方法,還包括在圖像捕獲設備中提供至少一個麥克風以及將該麥克風 捕獲的音頻信號數字化以使得所記錄的元數據音頻信號被數字化。
3. 權利要求l的方法,其中音頻信息被暫時存儲在活動窗口存儲緩沖器中。
4. 權利要求1的方法,還包括包含在視頻圖像捕獲期間捕獲的音頻信號以及存儲在存 儲器中的音頻信號和在視頻圖像的捕獲終止之后的預定時間期間產生的音頻信號。
5. 權利要求l的方法,還包括為音頻緩沖器提供默認持續時間。
6. 權利要求l的方法,還包括根據用戶偏好調節要設置的音頻緩沖器的持續時間。
7. 權利要求6的方法,還提供一種基于對音頻信號的分析來確定捕獲前音頻緩沖器的 持續時間和捕獲后音頻緩沖器的持續時間的自動模式。
8. 權利要求l的方法,其中音頻信號被整體地存儲在存儲器中,并且存儲器地址對待 與圖像數據相關聯的音頻元數據的開始和結尾進行標記。
9. 權利要求7的方法,還包括包含調節待與圖像數據相關聯的音頻元數據的開始和結尾的存儲器地址。
10. 權利要求2的方法 音頻元數據的圖像文件。
11. 權利要求4的方法
12. 權利要求4的方法 義理解。
13. 權利要求6的方法
14. 權利要求6的方法
15. 權利要求6的方法
16. 權利要求6的方法
17. 權利要求6的方法
18. 權利要求6的方法 件的元數據。
19. 權利要求1的方法
20. 權利要求1的方法
21. 權利要求1的方法 間是可調節的。
22. 權利要求20的方法,還包括使用音頻剪輯來提供對音頻信息的語義理解,從而用 于媒體搜索/檢索。
23. 權利要求l的方法,還包括給突發捕獲模式提供多個音頻緩沖器以用于突發捕獲 序列中的每個靜止圖像。,還包括提供與捕獲的圖像相關聯的具有數字化圖像和數字化,還包括提供用于存儲圖像文件的可移動存儲卡。 ,還包括分析音頻元數據以提供對捕獲的靜止或視頻圖像的語,還包括提供音頻元數據的書面文本。,還包括提供對出現在音頻元數據中的環境聲音的描述。,還包括提供音頻元數據中的說話者的身份。,其中對音頻元數據的分析發生在捕獲設備內。,其中對音頻元數據的分析發生在計算設備而不是捕獲設備上。,還包括用從所述分析中獲取的附加元數據來更新現有圖像文,還包括在圖像捕獲之前存儲音頻信息。,還包括組合所存儲的音頻以形成音頻剪輯。,其中在靜止圖像或視頻圖像的捕獲終止之前、期間和之后的時
全文摘要
一種在圖像捕獲期間記錄音頻元數據的方法包括提供用于捕獲靜止或視頻數字化的場景圖像和記錄音頻信號的圖像捕獲設備;當該設備處于開機模式時將所述音頻信號連續地記錄在緩沖器中;以及由所述圖像捕獲設備啟動靜止圖像或視頻圖像的捕獲,并且將在靜止圖像或視頻圖像的捕獲終止之前、期間和之后的時間內產生的音頻信號存儲為元數據。
文檔編號H04N101/00GK101772949SQ200880102117
公開日2010年7月7日 申請日期2008年7月17日 優先權日2007年8月7日
發明者C·W·洪辛格, J·V·內爾遜, K·A·雅各比, T·J·默里 申請人:伊斯曼柯達公司