專利名稱::對多媒體數據進行轉換以將其傳送到多個異種設備的制作方法
技術領域:
:本發明涉及對多媒體數據的操作,更具體地說涉及轉換多媒體數據以傳送到多個異種目標設備。版權注釋/許可聲明本專利文檔的部分開公內容含有受版權保護的資料。版權擁有者不反對按專利商標局專利文件或記錄中的原樣對本專利文檔或專利公開內容制作傳真形式的復制品,除此之外保留所有版權。如下注釋適用于下文及附圖中描述的軟件和數據。Copyright2001,索尼電子公司,版權所有。
背景技術:
:隨著數字設備(如個人計算機,數碼相機、個人數字助理(PDA)、蜂窩電話、掃描儀等)的日益普及,按照眾所周知的標準格式化的多媒體數據正為業余愛好者到新手到行家的所有社會成員所共享。規范多媒體數據的捕獲、存儲和傳輸的許多標準為數字設備廠商廣泛接受,并逐漸與數字設備融合,以允許觀看和共享多種格式和版本的多媒體數據。在因特網上,超文本標記語言(HTML)和同步多媒體集成語言(SMIL)是表示多媒體內容的通用標準。HTML是萬維網聯盟(W3C)定義的基于標準通用標記語言(SGML)的一種標準。HTML將Web頁面描述為一組多媒體對象、元素或資源,如圖像、視頻、音頻和JAVA應用程序連同表示結構。表示結構包括在因特網瀏覽器中顯示HTML網頁時預期的多媒體資源表示的有關信息。這包括例如不同多媒體元素的布局的有關信息。HTML采用嵌套標記來表示表示結構。HTML的更新的版本稱為XHTML,它在功能上相當于基于XML而非SGML的HTML版本。SMIL是基于XML的語言,用于將不同的多媒體資源(如圖像、視頻、音頻等)集成到單一表示內容中。SMIL包含允許引用媒體資源并控制它們的包括定時和布局的表示內容的特征,以及用于鏈接到其它表示內容以創建超媒體表示內容的特征。SMIL是一種未針對表示中所用媒體資源或對象定義任何表示方式的復合語言。相反,SMIL定義一組允許將多媒體資源或對象集成起來或組合到單個表示內容中的標記。雖然HTML中存在某些SMIL特征,但SMIL側重于媒體資源的空間和時間的布局,并提供比HTML大的交互性控制。表示多媒體內容的另一標準是由運動圖像專家組第4版(這里稱為MPEG-4)定義的題為“音頻可視對象的編碼”的ISO/EEC14496標準,MPEG-4規定如何將可聽、可視或視聽內容表示為媒體對象,其中每個媒體對象表示為單一基本流。在MPEG-4中,媒體對象被組織起來形成視聽場景。視聽場景以結構化方式表示不同多媒體對象的復雜表示形式。在場景內,多媒體對象可以是自然的(意味著是從自然界捕獲的),也可以是合成的(意味著是用計算機或其它裝置生成的)。例如,在MPEG-4中會通過文本、圖像和音頻流的媒體對象及描述如何組織這些對象的場景來描述具有音頻背景的包含文本和圖像的場景。MPEG-4視聽場景由組織成層次樹結構(稱為場景圖形)的媒體對象組成。原始媒體對象(如靜止圖像、視頻和音頻)置于場景圖形的葉部位。MPEG-4對這些原始多媒體對象中許多對象,如視頻和音頻的表示方式進行了標準化,但并不限于配合MPEG-4規定的媒體表示方式來使用。每個媒體對象包含允許將該對象包含進視聽場景中的信息。在場景圖形底部可找到作為樹葉的原始媒體對象。更一般地說,MPEG-4的場景描述可以在空間上將媒體對象置于二維(2D)和三維(3D)坐標系中,并應用轉換(例如空間轉換,旋轉)來改變對象的表示方式,將原始媒體對象組成復合媒體對象,以及使場景內對象的表示同步。MPEG-4場景描述是基于虛擬現實建模語言(VRML)的概念構建的。Web3D聯盟為VRML場景定義了基于XML的表示方式,稱為可擴展3D(X3D)。雖然以優化二進制方式對MPEG-4場景進行了編碼以便傳輸,但MPEG已為MPEG-4場景描述定義了基于XML的表示方式,稱為可擴展MPEG-4文本格式(XMT)。XMT利用基于XML的文本語法表示MPEG-4場景描述。XMT可以與SMIL、VRML和MPEG-4播放器互操作。XMT格式可以直接由SMIL播放器解釋并回放,并很容易地轉換為X3D格式,之后由X3D或VRML播放器來回放。XMT還可以編譯為MPEG-4表示形式,如MPEG-4文件格式(稱為MP4),隨后可以由MPEG-4播放器來播放。XMT包含兩種不同的格式XMT-A格式和XMT-Ω格式。XMT-A是MPEG-4內容的基于XML的版本,它含有一個X3D子集,該子集帶XD3擴展,以允許表示特定于MPEG-4的特征。XMT-A在MPEG-4文本和二進制格式提供一一映射。XMT-Ω是基于SMIL的MPEG-4場景的高級版本。數字多媒體信息的發布和使用范圍不斷擴大,以致難以識別用戶特別感興趣的內容。各種組織嘗試通過提供多媒體信息內容的描述來解決此問題。這種描述信息可用于搜索、過濾和/或瀏覽,以查找指定的內容。運動圖像專家組(MPEG)頒布了通稱為MPEG-7的多媒體內容描述接口標準,用于將多媒體信息的內容描述標準化。與在先的MPEG標準(包括定義如何表示編碼多媒體內容的MPEG-4)相反,MPEG-7規定如何描述多媒體內容。就內容的描述而言,MPEG-7可用于描述MPEG-4、SMIL、HTML、VRML以及其它多媒體內容數據。MPEG-7采用數據定義語言(DDL)(DDL規定用于定義描述工具的標準集合和定義新描述工具的語言),并提供核心的描述符和描述模式集。描述符和描述模式集的DDL定義組織成用于不同內容類的“模式(schema)”。模式中的每個描述符的DDL定義規定對應特征的語法和語義。模式中每種描述模式的DDL定義規定其子組件、描述符和描述模式之間的關系的結構和語義。MPEG-7DDL的格式基于XML和XML模式標準,其中描述符、描述模式、語義、語法和結構用XML元素和XM屬性來表示。發明概述轉換多媒體表示以便在多個異種目標設備上播放。基于目標設備的能力來選擇轉換操作,并將選擇的轉換操作用于根據多媒體表示的源版本創建適配的多媒體表示版本。適配版本包含對應于多媒體表示的媒體數據的源版本的適配的媒體數據。在一個方面中,適配的多媒體表示版本還包含對應于多媒體表示的復合數據的源版本的適配的復合數據。在另一方面,適配的媒體數據是根據多媒體表示的描述數據的源版本創建的。附圖簡介通過閱讀下面詳細說明并參考附圖,將會清楚本發明的創新特征,附圖中圖1說明本說明書所述轉換方法的概念示意圖;圖2A說明本說明書所述轉換方法的一個實施例所采用的操作流程圖;圖2B說明本說明書所述轉換方法的一個實施例所采用的操作流程圖3說明根據本說明書所述方法的適配過程的實施例的一個實例;圖4說明本說明書所述適配轉換方法的一個特定實例;圖5A說明例示源多媒體表示數據;圖5B說明例示目標多媒體表示數據;圖6A、6B和6C說明例示轉換規則;圖7說明可以實施本說明書所述轉換和適配方法的實施例的環境。詳細說明本說明書所述的轉換允許對多媒體表示進行轉換,以便傳送到多個異種設備。多媒體表示可以包括媒體數據、復合數據和描述數據。在一個實施例中,本說明書所述的轉換操作對源版本的媒體數據及(可選的)復合數據進行調整,以便可以在目標設備上或一類目標設備上播放所述多媒體表示。在另一個實施例中,源多媒體表示只包含可據以導出適配的媒體數據及(可選的)復合數據的描述數據。為表示圖像、音頻和視頻內容而定義的數據,如用于圖像的眾所周知的GIF和JPEG格式、用于音頻的MP3和WAV格式以及用于視頻的MPEG-1和MPEG-2格式及其它類似格式在本文中概括地稱為媒體數據,而圖像、視頻或視頻數據的單個實例稱為媒體對象。其它標準規定有一些語言格式,用于定義如何在空間和時間上組合媒體對象以形成單一相關多媒體表示。這些標準,如運動圖像專家組MPEG-4(MPEG-4)標準、萬維網聯盟(W3C)同步媒體集成語言(SMIL)、虛擬現實建模語言(VRML)、可擴展3D(X3D)、超文本標記語言(HTML)以及其它類似標準在本文中稱為復合標準,結合這些標準的指令稱為復合數據。復合數據規定媒體對象的空間和時間布局及其同步方式。復合數據連同復合數據引用的所有相關媒體數據這里被稱為多媒體表示數據,多媒體表示數據的實例稱為多媒體表示。可以獨立于媒體數據的格式來選擇復合數據的格式,因為復合數據格式是與媒體數據格式無關的。其它諸如MPEG-7(全稱為多媒體內容描述接口標準)的標準規定描述多媒體內容的格式。MPEG-7標準所涵蓋的數據通常稱為元數據,即描述其它數據的數據。稱為元數據且由MPEG-7及其它標準定義的數據這里稱為描述數據。描述數據可以在多媒體表示中與媒體數據和復合數據組合。在各種實施例中,包含多媒體表示數據的媒體數據、復合數據和描述數據以及多媒體表示數據本身可以其它眾所周知的格式來表示。本說明書所述的轉換和適配操作可以自動或半自動方式對源多媒體表示(包括媒體數據、復合數據以及描述數據中的一項或多項)進行調整和轉換,以便傳送到多個異種目標設備上顯示。適配是通過運用轉換過程來實現的,所述轉換過程作用于媒體數據、復合數據和描述數據的結構化表示、如XML。這種適配過程可以對結構化復合數據表示,如MPEG-4、XMT、SMIL、HTML和VRML/X3D執行。可以按照MPEG-7標準來表示描述數據。適配過程可以通過一組重寫或轉換規則來實現,這些規則規定應該如何轉換多媒體表示的復合數據、媒體數據和描述數據,以便在目標設備上顯示。這些規則可以利用源媒體數據、源復合數據和/或源描述數據以及用戶偏好或設備能力信息來確定如何執行適配過程。圖1說明本說明書所述轉換方法的概念示意圖。在一個實施例中,多媒體表示100可包含媒體數據102、復合數據104和描述數據106。多媒體數據100由轉換引擎110處理,它參照每種型號、類型或類的目標設備的轉換規則根據目標設備的能力來對包括媒體數據、復合數據和描述數據的多媒體表示進行調整。在一個實施例中,針對特定設備進行調整的各種規則可以插件模塊的形式結合到轉換引擎中。可以將源多媒體表示的適配版本傳送到各種目標設備。例如,第一版本120A可以傳送到第一設備130A,第二版本120B可以傳送到第二設備130B,依此類推,直到可以傳送到設備N130N的第N版本120N。圖2A說明本說明書所述轉換方法的一個實施例所采用的操作流程圖。該操作流程對應于圖1所示的轉換引擎110執行的操作。應理解,在不背離本發明范圍的前提下,可以將或多或少的處理過程結合于圖2A所示的方法及本說明書中所述的其它方法和過程中,并且本說明書所述和所示的功能塊的安排方式并不隱含任何特定順序。在一個實施例中,如方框200所示,接收包含媒體數據、復合數據和描述數據的多媒體表示。在另一個實施例中,如方框202所示,可以接收包含媒體數據和復合數據的多媒體表示。在此實施例中,如方框204所示,可以從媒體數據和復合數據導出描述數據。從媒體數據導出描述數據可以根據題為“內容數據和描述數據之間的自動譯碼(TranscodingbetweenContentDataandDescriptionData)”(“′891申請”)的美國專利申請No.10/114891所述的方法來實現。如方框210所示,可針對每種目標設備或每一通用類的目標設備將包含媒體數據、復合數據和描述數據的多媒體表示轉換成多個版本。更具體地說,根據定義每種目標設備所需的調整的規則,基于多媒體數據所要傳送到的目標設備的特征和能力將多媒體表示轉換成多個目標版本。這樣,目標版本適合于目標設備的能力。轉換還可以基于轉換系統和/或目標設備的用戶偏好并由該用戶偏好控制。適配的多媒體表示的相應版本傳送到目標設備,如方框220所示。此傳送操作可以自動進行,例如通過目標設備的訂閱操作進行,或者可以應目標設備的特定傳送請求而進行。圖2B說明本說明書所述轉換方法的一個實施例所采用的操作流程圖。在此實施例中,轉換處理過程接收多媒體表示的描述數據,如方框206所示。在一個實施例中,轉換處理過程直接對源描述數據操作。在此實施例中,源描述數據用于導出源媒體數據和源復合數據,如方框208所示。此轉換操作根據對源描述數據操作的一組規則來控制。此轉換操作可以通過各種方法來實現,包括利用′891申請中所述的方法。在此實施例中,從源描述數據導出的源媒體數據可以從一個或多個媒體源獲得。這些媒體源可位于本地位置,也可能位于需要通過一個或多個網絡(例如因特網)進行通信的遠程位置。根據每種目標設備的規則將所得的多媒體表示轉換成多種目標版本(如方框210所示),以創建目標多媒體表示。轉換還可以基于轉換系統和/或目標設備的用戶偏好并由該用戶偏好控制。適配的多媒體表示的適當版本被傳送到目標設備,如方框220所示。在另一個實施例中,源描述可以根據對應于每種目標設備的規則轉換成目標描述數據,如方框212所示。目標描述數據描述要針對目標設備進行調整的媒體數據。對應于目標設備的目標復合數據和目標媒體數據是從目標描述數據生成的,如方框216所示。此操作可以通過各種方法來實現,包括利用′891申請中所述的方法。在此實施例中,可以從一個或多個媒體源獲得根據目標描述數據生成的目標媒體數據。這些媒體源可以位于本地位置,也可以位于需要通過一個或多個網絡(例如因特網)進行通信的遠程位置。將適配的多媒體表示的適當版本傳送到目標設備,如方框220所示。在一個實施例中,將所接收到的包含源描述數據、復合數據和源媒體數據的源多媒體以及導出的源描述數據,導出的源媒體數據和導出的源復合數據表示為基于XML的表示,如SMIL或稱為XMT-Q的可擴展MPEG-4文本格式,XMT-Q是采用XML的MPEG-4表示形式,類似于SMIL。所描述的轉換方法還可以應用于以其它二進制形式存儲的MPEG-4數據,方法是利用眾所周知的方法(如XMT的MPEG-4參考軟件中公開的那些方法)將其轉換為基于XML的表示,類似于XMT。復合數據和描述數據都可以表示為XML文檔。因此,適配過程是一個XML文檔轉換為另一個XML文檔的過程。因而,在一個實施例中,適配處理實現為一組轉換規則,這些規則作用于表示源描述數據、媒體數據和復合數據的XML數據結構,例如對復合數據應用SMIL/XMT數據和對描述數據應用MPEG-7。轉換多媒體表示的規則可以可擴展樣式表語言(XSL)和可擴展樣式表語言轉換(XSLT)的擴展形式來編寫。即,一個或多個XSLT文件可以控制如何轉換多媒體數據,以便傳送到目的設備并予以表示。在一個實施例中,轉換過程包括將一組轉換規則應用于多媒體表示的描述數據。這些轉換規則可以視為重寫規則。每個規則可以規定一個條件和操作對。每個規則的條件部分定義何時應用該規則,它是參照描述數據的結構化表示和目標設備能力表示的一部分來定義的。規則的操作部分根據源描述數據構造目標描述數據的一部分。轉換過程通過重復應用其條件匹配的規則來進行,直到不再有匹配演化的描述數據的所述規則或者滿足停止條件為止。停止條件在目標描述數據滿足可在目標設備上顯示的多媒體表示的描述要求時出現。在各種實施例中,應用規則的過程可以是確定的或非確定的。在某些實施例中,可以將成本與每個規則相關聯,以便可以利用本
技術領域:
人員熟知的搜索和優化技術,應用搜索算法來查找最佳或接近最佳的規則序列,這些規則序列以最小的成本實現源描述轉換。與規則對應的成本可以表示目標數據在何種程度上滿足對表示進行的調整所針對的目標設備的要求。當描述數據以XML方式表示或可以映射到等效的基于XML的表示時,轉換可以利用XSLT編寫的規則來實現,以及可以利用本
技術領域:
人員熟知的技術通過XSLT引擎來實現。一旦通過轉換過程創建了目標描述數據,就可以將′891申請中所述的方法應用于將描述數據轉譯成目標媒體數據和目標復合數據。目標媒體數據是通過將源媒體數據映射成目標描述數據中所描述的目標媒體的應用媒體適配方法從源媒體數據生成的。例如,當目標描述中的圖像尺寸指定不同的圖像尺寸時,就對圖像應用對應的尺寸縮放操作。在另一個實施例中,轉換過程利用描述數據所控制的規則同時轉換媒體數據和復合數據。此過程中所用的描述數據可以由外部提供,也可以自動生成。在此實施例中,轉換過程由兩種協同操作以對多媒體表示進行調整的轉換操作組成轉換媒體數據的媒體轉換;以及轉換復合數據結構的復合轉換。這種轉換過程應用一序列的媒體和/或復合轉換。媒體轉換可包括利用熟知的信號處理算法實現的低級操作,所述信號處理算法例如執行格式轉換的操作,如將圖像從JPEG轉換成GIF格式;或者改變媒體的低級屬性的操作,如改變音頻數據的采樣率和縮放圖像。其它媒體轉換操作可以將媒體從一種格式轉換成另一種,例如將視頻轉換成一序列表示媒體概要、如關鍵幀的圖像。轉換過程不依賴于源數據創作或創建實現的細節,但是需要知道目標媒體的格式。在一個實施例中,以插件組件的形式來實現原子媒體轉換,其中所述插件組件輸出描述由該插件組件實現的轉換的標準接口。復合轉換作用于復合數據的結構化數據表示。這樣的表示在采用諸如SMIL、XMT等復合數據格式時可以是基于XML的。復合轉換還可以通過將其它表示轉換成等效的基于XML的格式來實現。針對轉換描述數據所述的類似技術還可用于實現復合轉換。在本說明書所述的轉換方法的一個實施例中,將一組規則用于確定和控制對媒體和復合數據進行聯合適應性調整。在此實施例中,每個規則指定一個條件和操作對。每個規則的條件部分定義何時對復合/媒體數據應用該規則,它是參照這里所引用的復合數據和媒體數據的復合數據和相關描述數據的結構化表示的一部分來定義的。操作部分運用媒體和復合調整,生成目標多媒體表示所需的目標復合數據結構和媒體數據。轉換過程包括重復應用條件匹配的規則,直到不再有這樣的規則可應用或出現停止條件為止。停止條件出現在目標復合數據和媒體數據滿足可在目標設備上顯示的多媒體表示的要求時。應用規則的過程可以是確定或非確定的。在某些實施例中,可以將成本與每個規則相關聯,以便可以利用本
技術領域:
人員熟知的搜索和優化技術,應用搜索算法來查找最佳或接近最佳的規則序列,這些規則序列以最小的成本實現源描述轉換。這種成本可以反映所得的輸出目標數據在何種程度上滿足對表示進行的調整所針對的目標設備的要求。當復合數據以XML方式表示,或可以映射到等效的基于XML的表示時,轉換可以利用XSLT編寫的規則來實現以及利用本
技術領域:
人員熟知的技術通過XSLT引擎來實現。圖3說明本說明書所述方法的適配過程的實施例的一個實例。多媒體表示300可包含音頻數據302和視頻數據304形式的媒體數據,音頻數據302和視頻數據304按照MPEG-4/SMIL樹結構化格式中的復合數據進行編排。在一個實施例中,音頻數據可以是MP3或其它熟知的音頻格式,視頻數據可以是MPEG-4視頻或其它熟知的視頻內容數據格式。除了媒體數據外,多媒體表示還可包含描述數據。轉換引擎310接收多媒體數據并對其進行調整,以便可以傳送并在各種目標播放設備340上播放或以其它方式顯示。轉換引擎310所執行的適配可以包括媒體轉換,如當播放設備不能播放視頻數據時將視頻數據轉換成一序列靜止幀,如元素324所示。適配操作還可包括將語音轉換成文本,如元素322所示。這樣,調整的媒體數據可以適當的方式顯示于目標設備上,并執行復合轉換,如圖元素330所示。即,可以將熟知格式(如SMIL或HTML等)的復合數據連同調整的媒體數據提供給目的設備,以便以符合特定調整處理的合理方式顯示調整的媒體數據。例如,當把組合音視頻片段中的多媒體內容調整為一序列靜止幀和文本時,靜止幀的顯示必須與文本協調,以便觀看者能夠欣賞相應的顯示。播放設備340可以包括電視機342、PDA344和蜂窩電話346。在一個實施例中,電視機可以接收多媒體數據的適配版本,該版本符合國家電視標準委員會(NTSC)、逐行倒相制式(PAL)、數字電視(DTV)以及其它類似標準,而提供給PDA和蜂窩電話的版本可以是源多媒體數據的降低了圖像幀分辨率、降低了幀速率、減少了顏色數量等的降等級版本。此外,降等級版本還可加以調整以減小多媒體數據的大小,從而適應借以將多媒體數據的適配版本傳送到或以其它方式傳遞到目標設備的介質的帶寬限制。例如,要通過蜂窩電話系統傳送的數據必須小于可以通過藍牙或IEEE802.11無線系統傳送的數據,因為蜂窩電話系統的帶寬較小。同樣地,對應于符合IEEE802.11、802.11a、802.11b和802.11g標準的各類目標設備,可以創建不同的適配版本。這樣,適配的多媒體表示的保真度或質量可加以定制,以便與目標設備的通信流的能力和特性以及目標設備的分辨率、色彩和其它特征和功能相匹配。圖4說明本說明書所述適配轉換方法的一個特定實例。在此實例中,源多媒體表示410可以是例如電視機400上顯示的有關足球比賽的音視頻饋送信號。此多媒體表示可以包括媒體數據、描述數據和復合數據。源復合數據420可以根據復合適配方法426來調整,以創建或導出適配的復合數據440,視頻數據422形式的媒體數據可以通過視頻適配方法424來調整。更具體來說,如果要調整視頻數據以便在PDA上顯示,則可將每秒40幀、每幀1200×1600點/每英寸的源視頻數據調整為或低等級為每秒15幀、每幀20×30點/每英寸,如降等級視頻數據428所示。如果要適配局限性更大的目標設備(如蜂窩電話),則可以將視頻數據調整成一序列靜止幀,這些靜止幀不同時刻的足球比賽畫面。同樣地,如果有與多媒體源表示內容相關聯的音軌或語音信道,可以將該語音調整成文本。在此情況中,復合適配必須考慮文本與靜止圖像的協調和對齊,以在蜂窩電話上得到可以理解的表示形式。最終結果為目標PDA460上顯示的適配的目標多媒體表示450。本段落所述的適配方式稱為模態適配或模態轉換。模態轉換包括將媒體數據從源模態轉換成目標模態,如從視頻轉換為靜止圖形,從第一語言轉換為第二語言以及從語音轉換為文本。圖5A說明例示源多媒體表示數據,而圖5B說明例示目標多媒體表示數據。圖5A和5B中的例示多媒體表示數據顯示SMIL格式的復合數據。在這些示例中,出于說明的目的,簡化了復合數據。所示源多媒體表示用于高性能設備,如個人計算機,所用語言為英語。目標多媒體表示是調整源多媒體表示以適應功能低的設備(如PDA)并將語言從英語改為日語的結果。更具體地說,圖5A顯示的是可以顯示高質量的視頻和音頻的高性能設備的SMIL復合數據的摘錄。該摘錄是類似于圖4所示的足球比賽的多媒體概要信息的一部分。圖5B顯示的是適用于性能較低的設備的同樣的摘錄,該設備不能顯示視頻,且只可播放低質量音頻。圖5A所示的源復合數據具有同時顯示的三個媒體對象,如<par>元素526所示,它指示并行顯示。第一個媒體對象(由<video>標記520指示)是MPEG-2視頻,它來源于“r1”區所示數據源文件“soccer-goal-30fps.mpg”,每秒30幀且分辨率為640×480像素。第二媒體對象(由<audio>標記522指示)是44千赫茲的高質量英語MP3音頻剪輯,它來源于源文件“narration-en-44khz.mp3”。第三個媒體對象524是英文源文件“caption-en.txt”的英語文字標題。為了調整該源多媒體表示,源復合數據和源媒體數據都要經過轉換,以得到圖5B所示的目標多媒體表示。因為性能較低的目標設備不支持視頻回放,所以所執行的第一適配操作將源視頻數據轉換成一組關鍵幀,選擇這些關鍵幀用于概括視頻內容。多媒體表示的這一部分用圖5B中所示的“seq”和“img”標記530和532表示于復合數據中。在此實例中,還對音頻進行調整,以便音頻信號和音頻內容都經過調整。因為較低質量的設備只支持低保真度音頻回放,所以將源音頻的格式從MP3調整為WAV,并將采樣率從44千赫茲降到8千赫茲,如WAV音頻對象534所示。此外,音頻對象和文本對象的語言從源語言英語調整為目標語言日語,如文本對象536所示。圖6A、6B和6C說明例示轉換規則。這些規則提供了可用于實現從圖5A所示的源多媒體表示數據到圖5B所示的目標多媒體表示數據的轉換規則的實例。圖6A、6B和6C所示的規則以類似于XSLT的語言來表示。每個規則稱為XSLT模板,表示轉換(即重寫)規則,由<xsltemplate>..</xsltemplate>語法指示,如610A和610B所示。“match”屬性612所指示的規則的條件部分指明該規則適用的表示數據類型或種類。包括在“xsltemplate”標記(如規則R1610的標記610A和610B)內的每個規則主體包含形成轉換匹配規則條件的SMIL多媒體的一部分的結果的指令。在圖6A和6B中,規則R1至R3用于轉換復合數據,稱為復合數據轉換規則,而在圖6B中,規則R4至R7用于轉換媒體數據,稱為媒體數據轉換規則。例示規則R1610通過調用VideoToKeyFrame(視頻到關鍵幀轉換)媒體轉換規則,即圖6C所示的規則R4680來調整視頻對象的組成以適應目標設備的性能。雖然未顯示實現VideoToKeyFrame媒體轉換的細節,但此轉換規則通過從視頻中選擇一組關鍵幀創建了一序列概括該視頻的圖像。規則R1與圖5A中所含的<video>元素520匹配,并將其轉換成圖5B中的<seq>.</seq>數據530。例示規則R2620通過根據與音頻對象的媒體源相關聯的描述數據應用轉換操作,以調整源SMIL復合數據中的音頻對象的組成。第一個條件622檢查音頻數據的采樣率是否超過目標設備可支持的最大采樣率8千赫茲。如果音頻數據的采樣率超過此值,則調用AudioDownSample(音頻向下采樣)轉換規則(如圖6C的規則R5682),以便通過降低音頻媒體數據的采樣率來對該音頻數據進行轉換。例示規則R2按如下條件檢查段624中指示采樣率的描述數據“description(@src)//AudioCoding/Sample/@rate>8000”。段624所示的條件中所用的description()函數返回由統一資源定位符(URL)指定的媒體對象的相關MPEG-7描述數據。第二條件626中的類似測試檢查音頻數據是否是WAV格式的,如果不是WAV格式,則調用AudioConvertFormat(音頻轉換格式)規則,如圖6C的規則R6684來進行格式轉碼。否則,該音頻表示數據不經轉碼就直接通過。例示規則R2將應用于圖5A所示的<audio>元素522,以將其轉換為<audio>元素534,其中的媒體數據(由“src”字段值變化指示)從44千赫茲的MP3格式轉換為8千赫茲的WAV格式。例示規則R3用于轉換SMIL復合數據中的文本媒體對象的組成。例示規則R3630包括條件632,它檢查文本語言是否是由$targetLanguage變量指示的期望語言(假定從某些源已知),是否匹配該文本的語言。如果源語言與目標語言不匹配,則調用TranslateText(翻譯文本)轉換規則(如圖6C的規則R7686)將該文本轉換為期望的目標語言。該規則可以應用于圖5A所示的<text>元素524,以翻譯為圖5B的<text>元素536所示的語言。圖7說明可以實施本說明書所述轉換和適配方法的實施例的環境。這里公開的方法可以實現為軟件、硬件以及軟硬件組合(如固件)。媒體數據可以由一個或多個多媒體源生成、創作或以其它方式提供,以供服務器計算機720之用。在各種實施例中,媒體源可以是一個或多個數字電視廣播、現場視頻饋送、股票行情顯示器、音頻廣播以及通過無線電波傳送或在廣域網(如因特網或其它類似網絡750)上廣播的類似媒體源。在一個實施例中,本說明書所述的方法可以在計算機(如服務器計算機720)上實現。在一個實施例中,服務器計算機720包括處理器722和存儲器724。在一個實施例中,實施本說明書所述方法的各種實施例的軟件可以由處理器722來執行。處理器722可以是任何計算機處理器或微處理器,例如可從SantaClara(圣克拉拉州)的Intel公司得到的IntelPentium4處理器,并且存儲器724可以為任何隨機存取存儲器(RAM)。網絡接口736可以是模擬調制解調器、電纜調制解調器、數字調制解調器、網絡接口卡和其它網絡接口控制器,所述其它網絡接口控制器允許通過廣域網(WAN)如網絡750(諸如因特網)、通過局域網(LAN)、通過熟知的無線標準等進行通信。在一個實施例中,可以將軟件程序形式的計算機指令存儲在存儲設備726上,該存儲設備可以是硬盤驅動器。在一個實施例中,可以實現本說明書所述方法的軟件可以稱為轉換軟件728。此計算機軟件可以通過網絡750或其它通過網絡接口736的WAN或LAN下載到服務器計算機720,并存儲在存儲器724和/或存儲設備726中。在各種實施例中,存儲設備726可以是任何機器可讀媒體,包括磁存儲設備如硬盤驅動器、軟盤驅動器以及光存儲設備(如只讀光盤存儲器(CD-ROM)和可讀可寫光盤(CD-RW)設備)、可讀可寫多功能數字盤(DVD)設備、RAM、只讀存儲器(ROM)、閃存設備、存儲棒設備、可以電方式擦寫的可編程只讀存儲器(EEPROM)以及其它硅設備。在各種實施例中,一個或多個機器可讀媒體可以是在本地連接的,如存儲設備726,也可以是可通過電氣方式、光學方式、無線方式、聲學方式以及其它方式(包括通過網絡)從遠程源來訪問的。在一個實施例中,處理器722、存儲器724、存儲設備726、USB控制器730和網絡接口736分別連接到總線740,這些設備通過總線740可彼此進行通信。在各種實施例中,服務器計算機中可以包括兩條或更多的總線。此外,在各種實施例中,服務器計算機720的兩個或兩個以上的組件可以包括在服務器計算機720中。眾所周知,服務器計算機720可包括可從Microsoft公司(Redmond,Washington)獲得的MicrosoftWindowsXP專業版的操作系統。在一個實施例中,服務器計算機720可以實現為兩個或兩個以上的計算機,這些計算機配置成一個群集、一組、局域網(LAN)、子網或其它的多計算機組織形式。此外,當由多個計算機組成時,服務器計算機組可以包括路由器、集線器、防火墻以及其它聯網設備。在此實施例中,所述組可包括多個專用服務器,如圖形服務器、音頻服務器、事務服務器、應用服務器等。在一個實施例中,服務器計算機720可以依靠一個或一個以上的第三方(未顯示),通過網絡750或直接連接來提供事務處理和/或其它信息以及處理幫助。在一個實施例中,作為目的地設備760顯示的目標計算設備,如個人計算機、個人數字助理(PDA)、蜂窩電話、計算輸入板(computingtablet)、便攜式計算機等的用戶可以通過網絡750與服務器計算機720進行通信,以獲得來自遠程源如多媒體源710的多媒體數據。在一個實施例中,目的地設備760可以具有類似于服務器計算機720的配置。此外,目標設備包括視頻顯示裝置和/或音頻輸出裝置,這些裝置在各種實施例中允許目標設備的用戶查看諸如視頻、圖形和/或文本的信息,以及聽取各種質量的音頻,所有這些都取決于目標設備的視頻顯示裝置和音頻裝置的性能。目標設備還包括用戶輸入裝置,如鍵盤、小鍵盤、觸摸屏、鼠標、輸入筆等。在一個實施例中,在根據本說明書所述方法對多媒體表示的復合數據、描述數據和/或媒體數據進行轉換和調整之后,服務器計算機720可以獲得多媒體表示數據并將其傳送到本地設備770。本地設備可以是蜂窩電話、PDA、MP3播放器、便攜式視頻播放器、便攜式計算機以及可以通過如下方式接收轉換的多媒體表示數據和媒體數據的類似設備電氣方式、光學方式、無線方式、聲學方式以及符合任何熟知的通信標準的其它方式,通信標準包括例如通過USB控制器730的通用串行總線(USB)、IEEE1394(更一般地稱為I.Link和Firewire)、BluetoothTM等。服務器720和本地設備之間的通信可以支持諸如如下的通信協議HTML、IEEE802.11、用于移動設備的W3PP和/或WAP協議以及用于請求多媒體表示數據的其它熟知的通信協議。以上說明參照本發明的具體實施例來進行描述。顯然,在不背離所附權利要求書闡明的本發明的精神和范圍的前提下,可以對那些實施例進行各種修改和變更。因此,本說明書和附圖應視為說明性而非限定性的。權利要求1.一種方法,包括根據目標設備(110)的能力從多個轉換操作中選擇轉換操作;以及利用所述選擇的轉換操作根據所述多媒體表示的源版本(100)創建適合于所述目標設備的所述多媒體表示的適配版本(120),所述多媒體表示的所述適配版本包含對應于所述多媒體表示的媒體數據(102)的源版本的適配的媒體數據。2.權利要求1的方法,其特征在于,創建適配版本包括將所述多媒體表示的描述數據的源版本轉換為描述數據的目標版本(212);以及根據所述描述數據的所述目標版本生成所述適配的媒體數據(216)。3.權利要求1的方法,其特征在于,創建適配版本包括根據所述多媒體表示的描述數據的源版本導出所述媒體數據的源版本(208);以及將所述媒體數據的所述源版本轉換為所述適配的媒體數據(210)。4.權利要求1的方法,其特征在于,創建適配版本包括為所述媒體數據的所述源版本中的多個媒體對象中的每個媒體對象準備適配的媒體對象。5.權利要求1的方法,其特征在于,創建適配版本包括如果所述媒體數據的所述源版本包括視頻數據和圖像數據其中至少之一項,則調整空間分辨率和時間分辨率其中至少之一項。6.權利要求1的方法,其特征在于,創建適配版本包括根據期望的比特率調整所述媒體數據的所述源版本的比特率。7.如權利要求6的方法,其特征在于,所述期望的比特率基于用戶偏好、傳輸媒體帶寬和目標設備能力中的至少一項。8.權利要求1的方法,其特征在于,創建適配版本包括生成所述媒體數據的概要形式的所述源版本。9.如權利要求1所述的方法,其特征在于,所述多媒體表示的所述適配版本還包括對應于所述多媒體表示的復合數據(420)的源版本的適配的復合數據(440)。10.權利要求9的方法,其特征在于,創建適配版本包括根據所述目標設備的能力和所述適配的媒體數據的特性,生成所述適配的復合數據。11.權利要求9的方法,其特征在于,創建適配版本包括將所述多媒體表示的描述數據的源版本轉換為所述描述數據的目標版本(212);以及根據所述描述數據的所述目標版本生成所述適配的復合數據(216)。12.權利要求9的方法,其特征在于,創建適配版本包括根據所述多媒體表示的描述數據的源版本導出所述復合數據的所述源版本(208);以及將所述復合數據的所述源版本轉換為所述適配的復合數據(210)。13.如權利要求9所述的方法,其特征在于,所述適配的復合版本包括所述適配的媒體數據中的多個媒體對象的空間和時間布局以及同步信息。14.如權利要求9所述的方法,其特征在于,所述多媒體表示的所述源版本還包括所述復合數據的所述源版本。15.如權利要求1所述的方法,其特征在于,選擇轉換操作包括將所選轉換操作排序以滿足最優化條件。16.如權利要求1所述的方法,其特征在于,所述轉換操作是根據一組規則來選擇的。17.如權利要求1所述的方法,其特征在于,所述目標設備的能力包括用于將所述適配的多媒體表示傳送到所述目標設備的媒體的特性。18.如權利要求1所述的方法,其特征在于,所述轉換操作還基于用戶偏好。19.如權利要求1所述的方法,其特征在于還包括將所述多媒體表示的所述適配版本傳送到所述目標設備(220)。20.如權利要求1所述的方法,其特征在于還包括接收所述多媒體表示的所述源版本的媒體數據源版本、復合數據源版本和描述數據源版本中的至少一項(200、202、206)。21.一種機器可讀媒體,其特征在于具有使機器執行包括如下步驟的方法的指令根據目標設備(110)的能力從多個轉換操作中選擇轉換操作;以及利用所述選擇的轉換操作根據多媒體表示的源版本(100)創建所述目標設備的所述多媒體表示的適配版本,所述多媒體表示的適配版本包含對應于所述多媒體表示的媒體數據(102)的源版本的適配的媒體數據。22.如權利要求21所述的機器可讀媒體,其特征在于,創建適配版本包括將所述多媒體表示的描述數據的源版本轉換為所述描述數據的目標版本(212);以及根據所述描述數據的所述目標版本生成所述適配的媒體數據(216)。23.如權利要求21所述的機器可讀媒體,其特征在于,創建適配版本包括根據所述多媒體表示的描述數據的源版本導出所述媒體數據的源版本(208);以及將所述媒體數據的所述源版本轉換為所述適配的媒體數據(210)。24.如權利要求21所述的機器可讀媒體,其特征在于,創建適配版本包括為所述媒體數據的所述源版本中的多個媒體對象中的每個媒體對象準備適配的媒體對象。25.如權利要求21所述的機器可讀媒體,其特征在于,創建適配版本包括如果所述媒體數據的所述源版本包括視頻數據和圖像數據中的至少一項,則調整空間分辨率和時間分辨率中的至少一項。26.如權利要求21所述的機器可讀媒體,其特征在于,創建適配版本包括根據期望的比特率調整所述媒體的所述源版本的比特率。27.如權利要求26所述的機器可讀媒體,其特征在于,所述期望的比特率基于用戶偏好、傳輸媒體帶寬和目標設備能力中的至少一項。28.如權利要求21所述的機器可讀媒體,其特征在于,創建適配版本包括生成所述媒體數據的概要形式的所述源版本。29.如權利要求21所述的方法,其特征在于,所述多媒體表示的所述適配版本還包括適配的復合數據(440)。30.如權利要求29所述的機器可讀媒體,其特征在于,創建適配版本包括根據所述目標設備的能力和對應于所述多媒體表示的復合數據的源版本的所述適配的媒體數據的特性,生成所述適配的復合數據。31.如權利要求29所述的機器可讀媒體,其特征在于,創建適配版本包括將所述多媒體表示的描述數據的源版本轉換為所述描述數據的目標版本(212);以及根據所述描述數據的所述目標版本生成所述適配的復合數據(216)。32.如權利要求29所述的機器可讀媒體,其特征在于,創建適配版本包括根據所述多媒體表示的描述數據的源版本導出所述復合數據的源版本(208);以及將所述復合數據的所述源版本轉換為所述適配的復合數據(216)。33.如權利要求29所述的機器可讀媒體,其特征在于,所述適配的復合數據包括所述適配的媒體數據中多個媒體對象的空間和時間布局以及同步信息。34.如權利要求29所述的機器可讀媒體,其特征在于,所述多媒體表示的所述源版本還包括所述復合數據的所述源版本。35.如權利要求21所述的機器可讀媒體,其特征在于,選擇轉換操作包括將所選轉換操作排序以滿足最優化條件。36.如權利要求21所述的機器可讀媒體,其特征在于,所述轉換操作是根據一組規則來選擇的。37.如權利要求21所述的機器可讀媒體,其特征在于,所述目標設備的能力包括用于將所述適配的多媒體表示傳送到所述目標設備的媒體的特性。38.如權利要求21所述的機器可讀媒體,其特征在于,所述轉換操作還基于用戶偏好。39.如權利要求21所述的機器可讀媒體,其特征在于,所述方法還包括如下步驟將所述多媒體表示的所述適配版本傳送到所述目標設備(220)。40.如權利要求21所述的機器可讀媒體,其特征在于,所述方法還包括如下步驟接收所述多媒體表示的所述源版本的媒體數據源版本、復合數據源版本和描述數據源版本中的至少一項(200、202、206)。41.一種系統,包括通過總線(740)連接到存儲器(724)的處理器(722);由所述處理器從所述存儲器執行的轉換過程,所述轉換過程使所述處理器根據目標設備(110)的能力從多個轉換操作中選擇轉換操作,并利用所述選擇的轉換操作根據多媒體表示的源版本(100)創建適合于所述目標設備的所述多媒體表示的適配版本(120),所述多媒體表示的適配版本包含對應于所述多媒體表示的媒體數據(102)的源版本的適配的媒體數據。42.如權利要求21所述的系統,其特征在于,所述轉換過程還使所述處理器在創建適配版本時,將所述多媒體表示的描述數據的源版本轉換為所述描述數據的目標版本(212),并根據所述描述數據的所述目標版本生成所述適配的媒體數據(216)。43.如權利要求21所述的系統,其特征在于,所述轉換過程還使所述處理器在創建適配版本時,根據所述多媒體表示的描述數據的源版本導出所述媒體數據的源版本(208),并將所述媒體數據的所述源版本轉換為所述適配的媒體數據(210)。44.如權利要求21所述的系統,其特征在于,所述轉換過程還使所述處理器在創建適配版本時,為所述媒體數據的所述源版本中的多個媒體對象中的每個媒體對象準備適配的媒體對象。45.如權利要求21所述的系統,其特征在于,所述轉換過程還使所述處理器在創建適配版本時,在所述媒體數據的所述源版本包括視頻數據和圖像數據中的至少一項的條件下,調整空間分辨率和時間分辨率中的至少一項。46.如權利要求21所述的系統,其特征在于,所述轉換過程還使所述處理器在創建適配版本時,根據期望的比特率調整所述媒體的所述源版本的比特率。47.如權利要求46所述的系統,其特征在于,所述期望的比特率基于用戶偏好、傳輸媒體帶寬和目標設備能力中的至少一項。48.如權利要求41所述的系統,其特征在于,所述轉換過程還使所述處理器,在創建適配版本時,生成所述媒體數據的概要形式的所述源版本。49.如權利要求41所述的系統,其特征在于,所述多媒體表示的所述適配版本還包括對應于所述多媒體表示的復合數據(420)的源版本的適配的復合數據(440)。50.如權利要求49所述的系統,其特征在于,所述轉換過程還使所述處理器在創建適配版本時,根據所述目標設備的能力和所述適配的媒體數據的特性,生成所述適配的復合數據。51.如權利要求49所述的系統,其特征在于,所述轉換過程還使所述處理器在創建適配版本時,將所述多媒體表示的描述數據的源版本轉換為所述描述數據的目標版本(212);以及根據所述描述數據的所述目標版本生成所述適配的復合數據(216)。52.如權利要求49所述的系統,其特征在于,所述轉換過程還使所述處理器在創建適配版本時,根據所述多媒體表示的描述數據的源版本導出所述復合數據的源版本(208);以及將所述復合數據的所述源版本轉換為所述適配的復合數據(210)。53.如權利要求49所述的系統,其特征在于,所述適配的復合版本包括所述適配的媒體數據中多個媒體對象的空間和時間布局以及同步信息。54.如權利要求49所述的系統,其特征在于,所述多媒體表示的所述源版本還包括所述復合數據的所述源版本。55.如權利要求41所述的系統,其特征在于,所述轉換過程還使所述處理器在選擇轉換操作時,將所選轉換操作排序以滿足最優化條件。56.如權利要求41所述的系統,其特征在于,所述轉換操作是根據一組規則來選擇的。57.如權利要求41所述的系統,其特征在于,所述目標設備的能力包括用于將所述適配的多媒體表示傳送到所述目標設備的媒體的特性。58.如權利要求41所述的系統,其特征在于,所述轉換過程還使所述處理器基于用戶偏好來選擇轉換操作。59.如權利要求41所述的系統,其特征在于還包括通過所述總線連接到所述處理器的接口(736、720);以及其中所述轉換過程還使所述處理器將所述多媒體表示的所述適配版本通過所述接口傳送到所述目標設備(220)。60.如權利要求41所述的系統,其特征在于還包括通過所述總線連接到所述處理器的接口(736);以及其中所述轉換過程還使所述處理器通過所述接口接收所述多媒體表示的源版本的媒體數據源版本、復合數據源版本和描述數據源版本中的至少一項(200,202,206)。61.一種設備,包括用于根據目標設備(310)的能力從多個轉換操作中選擇轉換操作的裝置;以及用以利用所選擇的轉換操作(320)從多媒體表示的源版本創建適合于所述目標設備的所述多媒體表示的適配版本的裝置,所述多媒體表示的適配版本包括對應于所述多媒體表示的媒體數據(302、304)的源版本的適配的媒體數據(322、320)。62.如權利要求61所述的裝置,其特征在于,所述用于創建的裝置包括用于將所述多媒體表示的描述數據的源版本轉換為所述描述數據的目標版本(212)的裝置;以及用于根據所述描述數據的所述目標版本生成所述適配的媒體數據(216)的裝置。63.如權利要求61所述的裝置,其特征在于,所述用于創建的裝置包括用于根據所述多媒體表示的描述數據的源版本導出所述媒體數據的源版本(208)的裝置;以及用于將所述媒體數據的所述源版本轉換為所述適配的媒體數據(210)的裝置。64.如權利要求61所述的裝置,其特征在于,所述多媒體表示的所述適配版本還包括對應于所述多媒體表示的復合數據(420)的源版本的適配的復合數據(440)。65.如權利要求64所述的裝置,其特征在于,所述用于創建的裝置包括用于根據所述目標設備的能力和所述適配的媒體數據的特性生成所述適配的復合數據的裝置。66.如權利要求64所述的裝置,其特征在于,所述用于創建的裝置包括用于將所述多媒體表示的描述數據的源版本轉換為所述描述數據的目標版本(212)的裝置;以及用于根據所述描述數據的所述目標版本生成所述適配的復合數據(216)的裝置。67.如權利要求64所述的裝置,其特征在于,所述用于創建的裝置包括用于根據所述多媒體表示的描述數據的源版本導出所述復合數據的源版本(208)的裝置;以及用于將所述復合數據的所述源版本轉換為所述適配的復合數據(210)的裝置。68.如權利要求64所述的裝置,其特征在于,所述多媒體表示的所述源版本還包括所述復合數據的所述源版本。69.如權利要求61所述的裝置,其特征在于還包括用于將所述多媒體表示的所述適配版本傳送到所述目標設備(220)的裝置。70.如權利要求61所述的裝置,其特征在于還包括用于接收所述多媒體表示的所述源版本的媒體數據源版本、復合數據源版本和描述數據源版本中的至少一項(200、202、206)的裝置。全文摘要轉換多媒體表示(100),以在多個異種目標設備(130)上播放。根據目標設備(110)的能力選擇轉換操作,并將其用于根據多媒體表示的源版本創建該多媒體表示的適配版本(120)。該適配版本包含對應于該多媒體表示的媒體數據(102)的源版本的適配的媒體數據。文檔編號H04L12/28GK1717674SQ02827912公開日2006年1月4日申請日期2002年12月10日優先權日2001年12月12日發明者A·J·塔巴塔拜,T·沃爾克,M·Z·維沙拉姆申請人:索尼電子有限公司