專利名稱:對具有同步數據的音頻序列進行編碼并輸出的方法和系統的制作方法
技術領域:
本發明涉及音頻序列,尤其涉及對具有同步數據的音頻序列進行編碼并輸出已編碼的文件。
目前的卡拉OK設備使用磁帶,高密度磁盤(CDs),數字化視頻光盤(DVDs),計算機磁盤,視頻高密光盤(VCDs)或其他類型的電子介質以記錄并播放音樂和歌詞。隨著作為娛樂設備的卡拉OK機的普及性的提高,越來越多的歌曲被處理成卡拉OK演唱的格式。其結果是,傳送并存儲這些不斷增長的音樂庫的需求越來越重要。在一些情況下,利用標準的數字壓縮技術來壓縮表示樂曲和歌詞的數字數據。例如,當前流行的一種數字壓縮技術采用了被稱為樂器數字化接口(MIDI)的標準壓縮算法。美國專利No.5648628公開了一種設備,該設備結合了卡拉OK的樂曲和歌詞。`628專利中的設備利用了可存儲MIDI文件的可變盒式磁帶的標準MIDI格式。
國際標準化組織(ISO/IEC)提出了多個公知的用于對運動圖像和有關的音頻數據進行編碼的壓縮標準。該壓縮標準稱為MPEG標準(運動圖像專家組)。在文檔ISO/IEC11172(該文檔定義了MPSG1標準)和ISO/IEC13818(該文檔定義了MPSG2標準)中定義了MPEG標準,在這里通過參考引入了這兩個文檔。另一個流行的非標準壓縮算法被稱為MPEG2.5,該壓縮算法基于MPEG1和MPEG2標準。這三個MPEG版本(MPEG1,MPEG2,MPEG2.5)被統稱為“MPEG1/2”。美國專利5856973公開了這一方法,該方法利用MPEG2格式將專用的應用數據和音頻和視頻數據一起從源點傳送到終點。
MPEG1/2進一步被劃分成數個“層”。通常,MPEG1/2層被標記的越高,則其所涉及的復雜性越高。MPEG1/2 III(MP3)是一個近來出現的流行的壓縮格式,MPEG1/2III被用于對音頻數據進行編碼以努力制造出接近CD音質的效果。
MP3播放器是一種便攜式設備,通常包括一個“閃速”存儲器,一個液晶顯示屏(LCD),一個控制面板,聲響耳機的輸出插孔以及其他類似的設備。音樂樂曲通過與MP3播放器相連的個人計算機(PC)或其他類似設備而被裝載到MP3播放器的“閃速”存儲器中,并被播放以供個人享受。
MP3標準定義了一個“音頻序列”,該序列被劃分成可變大小的“幀”,這些可變大小的“幀”進一步被劃分成“字段”。雖然在MP3標準中描述了每個幀的排列,但是沒有定義每個幀內的字段內容,每個幀內的字段內容是本發明的主題。
一般的卡拉OK設備是酒吧和夜總會中所使用的大型的、合成的、昂貴的系統。卡拉OK設備包括大的顯示屏,高保真度音響系統以及多個諸如CDs這樣的存儲媒體。一般的MP3播放器是較小的且是買的起的,但是只能用來播放音樂。MP3播放器具有僅僅用于顯示歌曲的曲名和播放時間的小的播放器,輸出到耳機的有限音頻輸出,以及最小的擴音器(如果有的話)。
當前一般的MP3播放器不具備將數字字段與音頻信號同步成單個音頻序列文件的能力,數字字段包含有歌曲的歌詞信息,音頻信號包含有歌曲的音樂形式,單個的音頻序列文件可通過卡拉OK播放設備而被存儲,操作,傳送并被播放。
因此,希望具有一個可克服上述缺點的程序和方法。
相應的附圖標記表示全部幾個附圖的相應部分。這里所提出的例子從一個方面說明了本發明的一個優先實施例,并且在任何方面不能把這些例子看作是對本發明范圍的限制。
如上所提到的,MP3標準定義了一個“音頻序列”。
圖1說明了MP3標準的一個通常的音頻序列。音頻序列10(圖1-A給出了更加詳細的描述)被劃分成可變大小的“幀”12。圖1-B給出了音頻序列一個幀的例子。
每個幀進一步被劃分成多個字段14和子字段16。圖1-C,1-D和1-E給出了圖1-B中幀12的字段14和子字段16的例子。在優選實施例中,音頻序列10的每個幀12包括由部首字段,誤差檢驗字段,主數據字段,以及輔助數據字段所組成的固定格式。另外,每個字段進一步被劃分成子字段16,在圖1-C,D和E中給出了所劃分的子字段的例子。雖然在MP3標準中描述了每個幀12的排序,但是沒有定義每個幀12內的字段14和子字段16的內容。此外,在部首和音頻數據幀以及輔助數據幀內所定義的專用位可用于對音頻序列10中的歌詞數據和控制信號進行編碼,或插入歌詞數據和控制信號,以便與音頻信號同步以形成音頻序列10。
最重要的是注意每個幀12的部首字段出現在一固定周期內并且具有特定的大小。然而,與每個幀12相關的數據字段是可變大小的并且不能出現在固定周期內。
更具體的說,本發明涉及使用在部首字段中的專用位(圖1-E,字段8),在主數據字段中的專用位(圖1-C,字段2)和嵌入有歌詞文本,視頻的輔助數據字段(圖1-D),插入歌詞文本或視頻,和/或控制信息。該控制信息被總稱為卡拉OK數據。值得注意的是每個幀可包括也可不包括任何卡拉OK數據。
如果幀包括卡拉OK數據,那么這些數據被存儲在上述可用數據字段的任一部分或全部中。最好是上述信息按照下列順序而存儲在數據字段中第一,部首字段的專用位;第二,主數據字段的專用位;以及第三,輔助數據字段。
圖2給出了在MP3規格標準中所描述的MP3編碼器的高級別方框圖。如上所述,對部首字段的專用位中的卡拉OK數據,主數據字段的專用位中的卡拉OK數據,或輔助數據內的卡拉OK數據進行編碼。圖3說明了用于對卡拉OK數據進行編碼的改進型MP3編碼器的高級示意圖。編碼器的幀打包階段必須提高以使輸入的音頻數據與卡拉Ok數據同步以從而壓縮幀。這可通過發送標記符和卡拉OK數據的控制信息而完成。“合成幀打包”單元利用該信息以適當的排序具有音頻取樣的卡拉OK數據。圖4說明了根據本發明編碼過程的流程圖,該過程把焦點集中在裝配有卡拉Ok數據的幀。此外,圖5說明了在MP3規格中所描述的MP3譯碼器的高級示意圖。圖6說明了改進型MP3譯碼器的高級示意圖。圖7描述了譯碼過程的流程圖,該過程把焦點集中在取出卡拉OK數據。在譯碼處理的過程中,在幀拆包階段的過程中產生了卡拉OK數據,同時產生了音頻數據以作為逆映射階段的最終產物。于是在解碼器之外利用音頻數據對卡拉OK數據進行排序。
參考附圖1-4,提出了如下的用于對音頻序列進行編碼的方法。根據本發明,編碼器接收一音頻取樣和一數據取樣(步驟100)。最好是,編碼器是一個被開發成可同步的利用數據信號對音頻信號進行編碼并創建一音頻序列的系統。在優選實施例中,音頻取樣是一音樂樂曲。或者,音頻取樣可是諸如文本的音頻譯本這樣的口頭信號,該文本例如可以是書,報紙和外語書。在優選實施例中,數據取樣可以是音樂樂曲的詞。或者,數據取樣可以是諸如英語文本的音頻譯本或視頻數據這樣的文本的口頭譯本,該視頻數據例如與體現在音頻取樣中的歌曲的音樂電視相對應。
在接收到音頻取樣和數據取樣之后,編碼器于是將音頻取樣轉換成音頻信號(未給出)。最好是,轉換處理確保根據音頻序列的優選格式來讀出該音頻信號并了解該音頻信號。例如,如果音頻格式是MP3,那么最好是根據MP3格式可讀出音頻信號。
同樣,數據取樣被轉換成數據信號(步驟102)。此外,數據信號包括多個數據段。每個數據段最好是與數據取樣的一部分相對應,以便它可嵌入到合成的音頻序列中。不是數據信號的所有部分都必須在數據段內被編碼。相反,每個數據段可包括與數據信號相對應的數據信號的一小部分。
例如,如果數據取樣包括歌曲的歌詞,那么數據信號可包括各種數據段,每個數據段例如與一個詞或一個節拍相對應。為此,允許數據段按一順序和一位置而嵌入到音頻序列中,以至數據信號與音頻信號相對應(例如,用這樣一種方式即將數據信號與音頻信號相同步),下面將對此進行詳細的描述。
數據信號也可包括一控制信號。最好是,控制信號包含與嵌入到音頻序列中的數據信號的順序相關的信息。例如,在編碼的過程當中,控制信號可規定包含在數據信號內的歌詞的一個特定詞可包括三個音節,每個音節需要位于歌曲的不同節拍上。這樣的信息最好是包含在控制信號內。
在對音頻信號和數據信號進行轉換之后,于是對音頻序列進行解碼。音頻序列由如上所轉換的嵌入有數據信號的音頻信號組成,并且如上的轉換是按照這樣的一種方法,即,使數據信號與音頻信號相同步,這種同步最好是通過將一個數據段嵌入到音頻序列的一個幀中而發生。
更具體的說,編碼過程最好是以下述方式而發生。首先,音頻信號被映射成多個音頻段(步驟105),實質上與上述數據段相似的這些音頻段最好是與歌曲的一個音節相對應。在控制信號被編碼并且被包含在數據信號之后,每個音頻段被打包到音頻序列的一個幀中(步驟110)。因此,一個數據段被打包到音頻序列的一個幀中,以便數據段與裝配到音頻序列中的音頻段相對應。
最好是,對序列進行編碼以至數據段首先嵌入到部首字段的專用位中的音頻序列中(步驟115)。一旦裝入專用位,此外的任何數據段最好是都裝入到主數據字段的專用位中(步驟120)。如果兩個專用位都被裝入了,那么所有的剩余數據段都嵌入到輔助的數據字段中(步驟125)。
值得注意的是數據信號嵌入到音頻序列的較低層(例如字段和子字段),與諸如幀本身這樣的較高層相比而言。按照這種方式,標準的MPEG譯碼器都支持所有嵌入的數據,并且不需要捕獲數據的附加電路。
在操作中,例如,假設音樂樂曲是音樂樂曲“Layla”,那么音頻取樣可包含樂曲的樂譜。數據取樣可以是樂曲的歌詞。兩種取樣于是都被轉換成諸如MP3格式。在編碼處理的過程中,根據音樂的節拍或節奏來劃分歌曲的歌詞。這樣,歌曲的第一行(“What would you do if you getlonely”)將被劃分成音樂的前九個節拍,每個音節的一個。數據信號和音頻信號于是被編碼以按照一方式形成了音頻序列,以便包含第一節拍的幀還包含第一個詞等等。
另外的,在可替代的實施例中,利用一系列指示信號對音頻序列進行編碼以替代利用數據對音頻序列進行編碼。在該實施例中指示信號對存儲在一分離文件中的數據信號進行定位。此外,指示信號根據包含在控制信號中的指令來定位數據信號,并且按照與優選實施例中對數據信號進行同步一樣的方式來對指示信號進行同步(例如,指示信號按照這樣一種方式來定位數據信號,即將音頻序列與數據信號同步)。在這種情況下,音頻序列按照這樣一種方式來編碼,即包含第一節拍的幀也可包含一個定位分離數據文件的指示信號。
在編碼處理之后,音頻序列被輸出到卡拉OK播放器或目前所知的存儲媒體中以在將來播放(步驟130)。參考附圖1-7,提出了輸出具有同步數據信號的音頻信號的方法。提供一音頻序列(步驟200),該序列按照上述所提出的方法被編碼。音頻序列包含一壓縮的音頻信號。該壓縮的音頻信號與上述的音頻信號相對應,該音頻信號包含有音樂樂曲的歌曲部分。此外,提供了與音樂樂曲的歌詞部分相對應的壓縮數據信號。壓縮的數據信號位于音頻信號內或位于如上所述的分離數據文件內(在這種情況下,音頻序列包括指示信號)。就此,壓縮數據信號一般與壓縮音頻信號同步。拆取出壓縮的數據信號并存儲在緩沖器內(步驟205,210,215)。同樣的拆取出壓縮的音頻信號。輸出到輸出設備的兩種信號于是被同步(步驟220,225),輸出設備例如可以是卡拉OK播放機系統。或者,輸出設備也可以是一個揚聲器,一個立體聲系統,一個視頻系統或其他的類似設備。
現轉向設備的討論,圖8給出了MP3播放器設備的示意圖。參考圖8,結合圖1-7,接口端口50最好通過配接站或電纜最好與外部存儲源相聯接。接口端口50用于將來自外部源的“mp3”文件傳輸到卡拉OK設備中以存儲在卡拉OK播放器設備的閃速存儲器52中。外部存儲源可以是一個人計算機或其他類似的設備。
閃速存儲器52用于存儲一個或多個“mp3”文件以由MP3播放器播放。存儲器的這種類型可以是用新的信息來覆蓋,但是它將“記憶”存儲在其上的任何文件直到有目的被覆蓋。
存儲控制器54用于協調接口端口50與閃速存儲器52之間的接口,閃速存儲器52與MP3譯碼器56之間的接口,以及閃速存儲器52與LCD控制器58之間的接口。此外,存儲控制器54最好通過按鈕控制60來與使用卡拉OK播放器設備的人相互作用。
MP3譯碼器56提供了如下的功能。也就是說,對MP3卡拉OK文件(例如,“mp3”文件)進行譯碼,并將音頻數據輸出到音頻混頻器62以及將卡拉OK數據輸出到LCD/卡拉OK控制器58。
LCD/卡拉OK控制器58具有幾個功能。首先,它控制LCD顯示器以顯示文字和歌詞,使詞高亮度,以及文字的滾動。LCD/卡拉OK控制器58還將來自MP3譯碼器56的電視的插入信號發送到電視外部信號插孔64以在外部處理。最后,它控制音頻混頻器62以允許利用設備聲音的人們蓋過原始歌曲的歌手聲音。
按鈕控制60允許用戶利用設備來控制卡拉OK播放器設備的操作。最好是,按鈕控制60包括用于播放,進帶,倒帶,暫停,停止以及其他基本功能的按鈕。按鈕控制60允許用戶根據用戶的要求來選擇一首特定的歌曲以播放和/或演唱歌曲以及跳過歌曲,暫停或對歌曲的其他操作。
電視外部信號插孔64與控制音樂電視顯示的外部設備接口。它也可將MP3譯碼器56所譯碼的信號發送到該外部設備以隨著MP3卡拉OK播放器所播放的文件來排列音樂電視。
LCD顯示器66為使用卡拉OK設備的人們提供了可視化接口。LCD顯示器66足夠的大并具有足夠的靈活性以至可播放幾行文字,高亮顯示的文字,文字的滾動等等。LCD顯示器66還可提供卡拉OK的功能。顯示器66最好是具有足夠的靈活性以至可顯示多種語言的文字,因為除顯示器顯示之外還要用不同的語言播放歌曲。
音頻混頻器62把MP3譯碼器56所提供的源音頻與來自麥克風68的使用該設備的人的聲音混合起來。用戶的聲音蓋過了原始歌曲的歌手聲音。音頻混頻器62的輸出最好被發送到耳機插孔70和音頻輸出插孔72中,最好是通過一數模轉換器74。
最好,當播放歌曲時擴音器68允許使用設備的人們隨著音樂樂曲根據在LCD顯示器66所顯示的歌詞來演唱。
完全可以理解上述實施例在各個方面都被僅僅認為是示意性的且不是限制性的。本發明的保護范圍是由隨后的權利要求來指定的而不是由前述說明來指定的。在其含義和等價的范圍內的各種修改都包含在它們的保護范圍內。
權利要求
1.對具有同步數據的音頻序列進行編碼的方法,包括步驟提供一音頻取樣和一數據取樣;將音頻取樣轉換成音頻信號;將數據取樣轉換成一數據信號,該數據信號包括多個數據段;以及利用數據信號對音頻信號進行編碼以形成音頻序列,音頻序列包括多個幀,每個幀包括至少一個字段以接收數據信號的至少一個數據段。
2.根據權利要求1的方法,其中數據信號進一步包括一控制信號;并且進一步包括步驟按照包含在控制信號內的指令對音頻序列進行編碼。
3.根據權利要求2的方法,進一步包括輸出音頻序列的步驟。
4.根據權利要求1的方法,其中從由MPEG1/2層1/2,AC-3,WMA,AAC,EPAC,流音以及G-2格式所組成的格式組中選擇音頻序列的格式。
5.根據權利要求1的方法,其中數據取樣進一步包括文本數據。
6.根據權利要求1的方法,其中數據取樣進一步包括視頻數據。
7.根據權利要求1的方法,其中音頻取樣包括歌曲。
8.根據權利要求1的方法,其中音頻取樣包括演唱聲音。
9.根據權利要求1的方法,其中編碼步驟進一步包括下列步驟將音頻信號映射成多個數據段;對控制信號進行編碼,該控制信號包含在數據信號內;將音頻段打包成為音頻序列的一個幀。根據包含在控制信號內的指令將每一個數據段打包成為包含有相應音頻段的音頻序列的一個幀。
10.對具有同步數據的音頻序列進行編碼的程序,其中同步數據來自于數據信號,該程序包括提供一音頻取樣和一數據取樣的計算機可讀程序代碼;將音頻取樣轉換成音頻信號的計算機可讀程序代碼;將數據取樣轉換成一數據信號的計算機可讀程序代碼,該數據信號包括多個數據段;以及利用數據信號對音頻信號進行編碼以形成音頻序列的計算機可讀程序代碼,音頻序列包括多個幀,每個幀包括至少一個字段以接收數據信號的至少一個數據段。
11.對具有同步數據的音頻序列進行編碼的方法,包括步驟提供一音頻取樣和一數據取樣;將音頻取樣轉換成音頻信號;將數據取樣轉換成一數據信號,該數據信號包括多個數據段;以及利用多個指示信號對音頻信號進行編碼以形成音頻序列,每一個指示信號定位數據信號的至少一個數據段。
12.根據權利要求11的方法,其中數據信號進一步包括一控制信號;并且進一步包括步驟根據包含在控制信號內的指令對音頻序列進行編碼。
13.根據權利要求12的方法,進一步包括輸出音頻序列的步驟。
14.根據權利要求11的方法,其中從由MPEG1/2層1/2,AC-3,WMA,AAC,EPAC,流音以及G-2格式所組成的這組格式中選擇音頻序列的格式。
15.根據權利要求11的方法,其中數據取樣進一步包括文本數據。
16.根據權利要求11的方法,其中數據取樣進一步包括視頻數據。信號的一個數據段。
17.根據權利要求11的方法,其中音頻取樣包括一歌曲。
18.根據權利要求11的方法,其中音頻取樣包括演唱聲音。
19.根據權利要求11的方法,其中編碼步驟進一步包括下列步驟將音頻信號映射成多個音頻段;對控制信號進行編碼,控制信號包含在數據信號內;將每個音頻段打包成為到音頻序列的一個幀。將每個音頻段裝配到一個指示信號內,每個指示信號定位數據
20.對具有同步數據的音頻序列進行編碼的程序,包括提供一音頻取樣和一數據取樣的計算機可讀程序代碼;將音頻取樣轉換成音頻信號的計算機可讀程序代碼;將數據取樣轉換成一數據信號的計算機可讀程序代碼,該數據信號包括多個數據段;以及利用多個指示信號對音頻信號進行編碼以形成音頻序列的計算機可讀程序代碼,每一個指示信號定位數據信號的至少一個數據段。
21.輸出具有同步數據信號的音頻信號的方法,包括步驟提供具有同步數據的音頻序列,音頻序列包括壓縮的音頻信號;提供壓縮的數據信號,壓縮的數據信號與壓縮的音頻信號同步;對壓縮的數據信號解包;將數據信號存儲到緩沖器中;從音頻序列中對壓縮的音頻信號解包;以及將音頻信號和數據信號輸出到輸出設備。
22.根據權利要求21的方法,進一步包括從音頻序列中對壓縮數據信號解包的步驟。
23.根據權利要求21的方法,音頻序列進一步包括多個指示信號,每個指示信號定位壓縮的數據信號。
24.根據權利要求21的方法,其中音頻序列是MP3格式。
25.根據權利要求21的方法,其中音頻信號是從由歌曲和演唱聲音的組中選取出來的,并且其中數據信號是從由文本和演唱聲音的組中選取出來的。
26.根據權利要求21的方法,其中輸出設備是由擴音器,立體聲系統,卡拉OK系統以及視頻系統所組成的組中選取出來的。
27.輸出具有同步數據信號的音頻信號的程序,包括提供具有同步數據的音頻序列的計算機可讀程序代碼,音頻序列包括壓縮的音頻信號;提供壓縮數據信號的計算機可讀程序代碼,壓縮的數據信號與壓縮的音頻信號同步;對壓縮數據信號解包的計算機可讀程序代碼;將數據信號存儲到緩沖器中的計算機可讀程序代碼;從音頻序列中對壓縮數據信號解包的計算機可讀程序代碼;以及將音頻信號和數據信號輸出到輸出設備的計算機可讀程序代碼。
28.根據權利要求27的程序,進一步包括從音頻序列中對壓縮數據信號解包的計算機可讀程序代碼。
29.根據權利要求27的方法,音頻序列進一步包括多個指示信號,每個指示信號定位壓縮的數據信號。
全文摘要
一種涉及對具有同步信號的音頻序列進行編碼的方法,該方法提供了一音頻取樣和一數據取樣。音頻取樣被轉換成音頻信號,數據取樣被轉換成數據信號。數據信號包括多個數據段,利用數據信號對音頻信號進行編碼以形成音頻序列,該音頻信號包括具有字段的幀以接收數據段或接收數據段的指示信號。為了輸出,與序列中的壓縮的音頻信號相同步的壓縮的數據信號被解碼并被輸出。
文檔編號G10L19/00GK1451153SQ00819334
公開日2003年10月22日 申請日期2000年11月15日 優先權日2000年2月18日
發明者邁克爾·A·米勒, 錢自強 申請人:第一國際數字公司