用于搜索多媒體內容的用戶界面方法和設備的制造方法
【技術領域】
[0001]本公開涉及用于支持查詢輸入和查詢結果輸出以檢測多媒體內容中的所需幀、場景或鏡頭并向用戶提供檢測到的幀、場景或鏡頭的用戶界面技術。
【背景技術】
[0002]隨著計算技術的發展,例如音樂、視頻、圖像等的多媒體內容的創建以及多媒體內容的傳輸和購買已經變得簡單,并且因此內容的數量和質量已經非常迅速地提高。例如,可以在例如智能電話、便攜式多媒體播放器(PMP)、平板計算機、控制臺游戲機、臺式計算機等的電子設備中存儲人拍攝的許多圖像、記錄的圖像、購買的音樂文件和下載的電影文件等,并且可以在每個電子設備中搜索內容,或者還可以搜索/共享通過有線/無線通信裝置連接的另一電子設備的內容。此外,可以通過視頻點播(VoD)服務實時地搜索視頻或通過經由互聯網訪問例如Youtube的視頻共享網站來搜索視頻并可以顯示找到的視頻。
[0003]同時,視頻內容技術向具有高壓縮率的編碼/解碼技術應用高分辨率和高音質的多媒體內容。
[0004]結果,對于無論何時何地只要用戶喜歡就搜索電子設備中的大量內容并對用戶想要的場景進行劃分和搜索的用戶愿望增加,并且要處理的數據量和復雜度也增加。
【發明內容】
[0005]技術問題
[0006]因此,運動圖像專家組(MPEG)_7標準被提出作為能夠分析多媒體內容并基于分析的內容有效地顯示多媒體內容的整體或一部分的代表性描述技術。
[0007]MPEG-7被正式稱為多媒體內容描述接口,并與國際標準化組織(ISO)和國際電工委員會(IEC)聯合技術委員會下的MPEG中的多媒體數據的基于內容的搜索的內容表達方案的國際標準相對應。
[0008]MPEG-7定義能夠表達視聽(AV)數據的內容的描述符的標準、定義用于系統地描述AV數據和語義信息的結構的計劃的描述方案(DS)以及作為用于定義描述符和描述方案的語言的描述定義語言(DDL)。
[0009]MPEG-7處理多媒體數據的內容的表達方法,并可以被主要劃分為針對包括語音或聲音信息的音頻數據的基于內容的搜索、針對包括圖片或圖表的靜止圖像數據的基于內容的搜索、以及針對包括視頻的視頻數據的基于內容的搜索。
[0010]例如,可以使用作為MPEG(運動圖像專家組)-7內的一類「概述DS」(描述方案)的「序列概述DS」來描述與圖像或音頻數據同步的樣本(sample)視頻幀序列。當用戶請求樣本視頻時,MPEG-7文檔可以生成,通過可擴展樣式表語言(XSL)轉換為超文本標記語言(HTML),并在網絡中示出。
[0011]通過例如MPEG-7的技術,定義用于表達關于例如視頻、音頻數據、圖像等的多媒體內容的信息的元數據結構,因此可以使用根據標準生成的MPEG-7文檔來提供根據用戶的各種查詢找到的結果。
[0012]MPEG-7是通過基于可擴展標記語言(XML)的文檔做出的并用于描述內容中的內容的屬性。因此,未提供提取或搜索內容中的內容的方法,使得正在發展執行查詢并搜索搜索結果的各種方法。
[0013]當應用這種技術時,可以基于相應多媒體內容的樣本提供電影預告片服務,或可以提供包括短視頻的索引服務或搜索所需場景的服務。MPEG-7與代表性內容內容描述方法相對應,但是可以使用其他描述方法。
[0014]視頻是使用壓縮方案編碼的,并具有例如MPEG、WindowS媒體視頻(WMV)、RealMedia可變比特率(RMVB)、M0V、H.263、H.264等的編解碼器類型。可以使用例如包括在壓縮數據中的運動矢量、殘余信號(離散余弦變換(DCT))、整數系數和宏塊類型的各種信息來處理用于識別和跟蹤壓縮數據中的對象的技術。這種算法可以包括基于馬爾可夫隨機場(MRF)的模型、相異性最小化算法、概率數據關聯濾波(PDAF)算法、概率空時宏塊濾波(PSMF)算法等。
[0015]圖像的分析元素可以包括輪廓、顏色、對象形狀、質地、形式、面積、靜止/運動圖像、音量、空間關系、變形、對象的來源和特征、顏色的改變、亮度、模式、字符、記號、上色、符號、手勢、時間等,并且音頻數據的分析元素可以包括頻率形狀、音頻對象、音色、和聲、頻率分布、聲壓、分貝、語音的節奏內容、聲源的距離、空間結構、音色、聲音的長度、音樂信息、聲音效果、混合信息、持續時間等。文本包括字符、用戶輸入、語言的類型、時間信息、內容相關信息(出品人、導演、標題、演員名字等)、注釋等。
[0016]可能單獨找到或考慮各種信息與適合于該情況的信息一起找到這種信息。例如,可以僅基于男演員的名字來搜索視頻中的場景。然而,除此以外,如果搜索“男演員在下雨天拿著雨傘跳舞同時演唱“雨中唱歌”的歌曲的場景”,則必須考慮復雜的情況以通過視頻圖像分析和音頻分析找到相應場景。在這種情況下,可以將男性圖像、下雨場景、雨傘和動作檢測應用為要在視頻磁軌中找到的描述符,可以在音頻磁軌中搜索男性語音模式、歌曲和語音的內容,并且可以在字幕磁軌的文本中搜索短語“雨中唱歌”。因此,可以分析要在每個磁軌中找到的查詢內容,以根據一個或更多個磁軌中的每一個來合適地應用查詢內容。
[0017]通常,視頻分析使用分析通過連續收集基本關鍵幀生成的鏡頭和通過多個收集的鏡頭而具有語義關系的場景的方法。鏡頭指的是不停地拍攝或記錄直至一個攝像機結束從頭開始的拍攝。鏡頭集合在一起以形成場景,并且一系列場景集合在一起以形成序列。基于圖像解析,可以分析圖像內的對象之間的關系、圖像之間的對象、運動和圖像改變,并可以提取關于圖像的信息。在音頻數據的情況下,可以使用揚聲器識別、語義語音識別、基于聲音的感情識別、空間印象等分析相應情況和時間戳。在字幕的情況下,可以根據圖像中存在字幕并且單獨地存在字幕文件的情況通過圖像分析或文本分析來分析并提取信息,并可以在MPEG7或類似場景中對提取出的信息結構化。
[0018]可以在各種方法中找到提取出的信息。可以基于例如實例查詢(QBE)、草圖(sketch)查詢(QBS)或語音識別的方案來輸入文本或可以輸入要搜索的信息,并且搜索所需場景、聲音或字符,以確定與情境相匹配的位置。在QBE中,用戶搜索所需圖像并對所需圖像和類似圖像進行比較。在QBS中,用戶繪制所需的整個圖像,以找到類似圖像。
[0019]作為對圖像進行分析、查詢和搜索的方法,已經引入了各種技術。所述方法包括IBM的QB 1C、卡內基梅隆大學的Informedia、MIT的照片簿(photobook)、哥倫比亞大學的VisualSeek、伯克利大學的Chabot、索尼的US注冊專利n0.US7284188、LG的韓國注冊專利n0.KR10-0493635、ETRI的韓國注冊專利n0.KR10-0941971、KBS技術研究機構的自動元數據發生器(OMEGA)系統、Blinkx的視頻搜索引擎131;[111?(111^口://www.blinkx.com)、Riya.com的Like.com等,并且還包括除上述以外的其他方法。
[0020]本發明的各實施例提供了關于輸入查詢并搜索查詢結果以基于例如視頻的多媒體內容找到所需場景的方法的用戶界面方法和裝置。
[0021]本發明的各實施例提供了用于在視頻的進度條上顯示與一個或更多個查詢結果相對應的縮略圖或樣本場景視頻(視頻章節功能),以允許用戶容易地并且直觀地掌握查詢結果在視頻中的時間位置和長度,并在一個屏幕上搜索查詢結果中的所需場景的方法和裝置。
[0022]本發明的各實施例提供了通過以下方法執行容易搜索的方法和裝置:提供在查詢結果的數量很大并且因此查詢結果在屏幕上被顯示得非常小或一些查詢結果被隱藏時使用的放大鏡功能和針對聚焦到的查詢結果的導航功能,以及提供例如預覽和控制搜索屏幕的尺寸的功能。
[0023]本發明的各實施例提供了用于評估查詢的匹配程度并根據匹配程度區別地提供顯示查詢結果的位置、尺寸、圖形效果以及聲音效果的方法和裝置。
[0024]本發明的各實施例提供了用于通過經由各種方案(圖像、音樂、屏幕捕獲、草圖、手勢識別、語音識別、面部識別、運動識別等)執行查詢來向用戶提供方便的用戶界面的方法和裝置。
[0025]本發明的各實施例提供了用于存儲查詢結果并當用戶請求相同的查詢結果時再次顯示查詢結果的方法和裝置。
[0026]本發明的各實施例提供了用于根據視頻磁軌、音頻磁軌和文本磁軌中的每一個分析內容中的內容的方法和裝置。
[0027]技術解決方案
[0028]根據本發明的各實施例,一種搜索內容的方法包括:通過用戶界面接收用于搜索所述內容中的內容的查詢的輸入;通過使用與所述內容相關的描述來檢測與所述查詢相對應的所述內容的至少一部分內容,作為所述查詢的結果;確定顯示查詢結果的位置;考慮到所述內容的所述部分內容的長度和所述查詢結果之間的相對距離中的至少一個,確定與所述查詢結果相對應的場景標記的尺寸或顯示所述查詢結果的區域的尺寸;以及根據所確定的所述查詢結果的位置和相關尺寸至少部分地顯示一個或更多個查詢結果。
[0029]根據本發明的各實施例,一種輸入針對在內容中基于內容的查詢的用戶查詢的方法,包括:通過用戶輸入界面設置要搜索的內容;設置針對搜索要搜索的內容中的內容的查詢;通過使用關于要搜索的內容的描述信息來搜索與查詢相對應的內容的部分內容,作為查詢結果;以及基于查詢匹配程度來顯示一個或更多個檢測到的查詢結果。
[0030]根據本發明的各實施例,一種電子設備包括:一個或更多個處理器;存儲器;以及存儲在存儲器中并配置為由所述一個或更多個處理器執行的一個或更多個程序。所述程序包括以下命令:通過使用用戶輸入界面輸入針對搜索所述內容中的內容的查詢;通過使用與所述內容相關的描述信息來檢測與所述查詢相對應的所述內容的至少一部分內容,作為所述查詢結果;基于與所述內容中的至少一個內容中的每一個相對應的回放時段來確定顯示所述查詢結果的位置;考慮所述內容的部分內容的長度和所述查詢結果之間的相對距離中的至少一個,確定與查詢結果相對應的場景標記的尺寸或顯示所述查詢結果的窗口的尺寸;以及根據所確定的所述查詢結果的位置和所確定的相關尺寸至少部分地顯示一個或更多個查詢結果。
[0031]根據本發明的各實施例,一種電子設備包括:一個或更多個處理器;存儲器;以及存儲在存儲器中并配置為由所述一個或更多個處理器執行的一個或更多個程序。程序包括以下命令:通過用戶輸入界面設置要搜索的內容;設置針對搜索要搜索的內容中的內容的查詢;通過使用關于要搜索的內容的描述信息來檢測與查詢相對應的內容的部分內容;以及基于查詢匹配程度來顯示一個或更多個檢測到的查詢結果。
[0032]有益效果
[0033]根據本發明的各實施例,關于例如視頻、音樂等的多媒體內容,概述了場景或將主場景形成為要以預覽形式或全視圖提供的縮略圖或樣本場景文件。
【附圖說明】
[0034]圖1示出了根據本發明的各實施例的視頻內容搜索查詢的結果屏幕;
[0035]圖2示出了根據本發明的各實施例的視頻內容搜索查詢結果;
[0036]圖3示出了根據本發明的各實施例在視頻內容搜索查詢結果中搜索特定場景的方法的示例;
[0037]圖4示出了根據本發明的各實施例的在視頻內容搜索查詢的結果屏幕中使用放大鏡功能的搜索方法;
[0038]圖5示出了根據本發明的各實施例當搜索視頻內容時根據每個磁軌尋找視頻內容的方法;
[0039]圖6示出了根據本發明的各實施例的用于搜索視頻內容的查詢界面屏幕;
[0040]圖7示出了根據本發明的各實施例的通過圖像識別的查詢方法的界面屏幕;
[0041]圖8示出了根據本發明的各實施例的用于搜索視頻內容的各種查詢界面屏幕;
[0042]圖9示出了根據本公開的各實施例的用于搜索查詢結果的屏幕;
[0043]圖10是示出了根據本發明的各實施例的電子設備顯示查詢結果的過程的流程圖;
[0044]圖11是示出了根據本發明的各實施例的電子設備顯示查詢結果的過程的流程圖;
[0045]圖12是示出了根據本發明的各實施例的電子設備顯示查詢結果的過程的流程圖;以及
[0046]圖13是根據本發明的各實施例的電子設備的框圖。
【具體實施方式】
[0047]在下文中,將參照附圖詳細地描述本發明的各實施例。此外,在本發明的以下描述中,當在此結合的公知功能或結構可能使本發明的主題不清楚時,將省略對這些公知功能和結構的詳細描述。以下將描述的術語是考慮本發明中的功能所定義的術語,并且可以根據用戶、用戶的意圖或顧客而異。因此,應基于整個說明書的內容,來定義這些術語。
[0048]本發明的各實施例將描述關于執行查詢并搜索查詢結果以基于例如視頻的多媒體內容找到所需場景的方法的用戶界面方法和裝置。
[0049]圖l(a)_l(d)示出了顯示根據本發明的各實施例的視頻內容搜索查詢的結果的屏蒂。
[0050]圖1(a)示出了在執行查詢之前的一般視頻用戶界面。在視頻的回放期間,可能出現播放/停止按鈕102、快進按鈕104、回退按鈕100和進度條(或進程條)105或滾動條。在圖1
(a)中,當在回放期間暫停視頻時,屏幕停止。這時,可以在進度條105上與停止的屏幕相對應的位置處顯示進度狀態標記110。
[0051]這里,盡管以條形式示出了進度條105,但是進度條105可以具有圓周地旋轉的旋轉球(spinner)形式。此外,根據本發明的各實施例,進度條105不限于條形式或旋轉球形式,并且可以具有各種形狀或尺寸的形式。進度條105是用于顯示視頻回放的進度狀態的圖形用戶界面(GUI)組件之一。根據各實施例,可以與百分比一起顯示進度條105。
[0052]當在停止狀態中或當播放視頻時通過預定接口方法(例如文本輸入、語音識別、查詢圖像選擇等)執行查詢輸入時,圖1(b)-1(d)中所示的示例之一可以被顯示為查詢結果的實施例。稍后將更詳細描述用于輸入查詢的用戶界面和方法。
[0053]如圖1(b)中所示,可以通過使用一個或更多個場景標記在進度條上顯示與查詢相對應的搜索結果(例如與查詢相對應的關鍵幀、鏡頭或場景的位置)。可以使用與查詢相對應的關鍵幀、鏡頭或場景的開始位置來顯示場景標記。根據另一實施例,可以根據與查詢相對應的關鍵幀、鏡頭或場景的長度來各種各樣地顯示場景標記。即,可以根據與查詢相對應的關鍵幀、鏡頭或場景的位置或長度來確定場景標記的長度、尺寸和形狀中的多個之一。例如,如圖l(b)-l(d)中所示,標記的長度可以根據與查詢相對應的關鍵幀、鏡頭或場景的長度而不同。這里,多個場景標記120與同查詢相對應的關鍵幀、鏡頭或場景相對應,并且可以用預定的長度或尺寸在進度條105上的相應位置處顯示與查詢相對應的關鍵幀、鏡頭或場景中的每一個。例如,可以通過標記顯示與查詢相對應的鏡頭和場景中的每一個從開始位置到結束位置的區域。在另一示例中,標記的長度或尺寸可以不同于與查詢相對應的關鍵幀、鏡頭或場景的長度。當與查詢相對應的關鍵幀、鏡頭或場景的長度非常短因此很難在進度條105上顯示關鍵幀、鏡頭或場景時,可以通過具有大于等于1個像素的預定尺寸的標記來顯示關鍵幀、鏡頭或場景,以實現容易的顯示或用戶界面輸入。例如,當使用觸控筆時,可以使用與用手指觸摸進行輸入的情況相比具有更少數量像素的標記。
[0054]根據另一實施例,當在進度條上布置的與查詢相對應的多個關鍵幀、鏡頭或場景之間的間隔比預定長度短時,一個標記可以顯示連續布置的多個查詢結果的位置。
[0055]根據另一實施例,當與多個查詢相對應的關鍵幀、鏡頭或場景中與一個查詢結果B相對應的標記的長度或尺寸非常短或小時,可以將標記的長度或尺寸放