基于聲控式人機交互技術的互聯網電視系統及其實現方法
【專利摘要】本發明公開了基于聲控式人機交互技術的互聯網電視系統及其實現方法,對互聯網電視的EPG系統進行改進,所述系統包括互聯網電視節目服務平臺、互聯網電視集成平臺、互聯網傳輸系統、EPG系統以及互聯網電視終端。EPG系統包括接收模塊、控制轉換模塊、存儲模塊和人機交互操作模塊,用于提供豐富的節目預告信息和靈活便利的檢索引擎,幫助用戶快速定位節目,瀏覽和查詢節目信息。本發明的有益效果:在互聯網電視的終端界面實現交互操作指令與界面組件一一對應的事件綁定,完成所見即所得的應用選擇功能,系統支持聲控式的智能化操控方式,交互過程可以減少不必要的重復交互,實現靈活可控的交互效果。
【專利說明】基于聲控式人機交互技術的互聯網電視系統及其實現方法
【技術領域】
[0001]本發明涉及一種基于聲控式人機交互技術的互聯網電視系統及其實現方法。
【背景技術】
[0002]互聯網電視,是指利用互聯網智能電視設備,通過無線或有線的公共互聯網(internet),以互聯網協議,傳輸視頻、音頻(包括語音)、文字、圖形和數據,面向電視機用戶,提供互聯網應用和服務的個性化、互動性、全方位服務,包括影視音像點播、音樂欣賞、游戲、有聲讀物、視頻通訊等。互聯網智能電視設備,是指具有互聯網功能的電視設備,包含互聯網電視、智能電視等。它可以接入廣播電視網、國際互聯網和移動通訊網等網絡訪問內容或者參與互動。有些概念的變形,例如,互聯網電視(機)、智能電視(機)、智能互聯網3D電視(機)等,都是指此含義的設備。互聯網電視令客廳成為人們休閑娛樂的重要方式,互動點播式的客戶體驗以及影院般的視聽效果,令互聯網電視可以替代計算機成為新型娛樂終端的代表。
[0003]互聯網電視的視頻、音樂、應用等多媒體內容的展示都是通過EPG (電子節目菜單)的方式在終端平臺進行呈現,用戶通過EPG系統與互聯網電視節目平臺進行交互,實現對自己喜愛的節目的點播。EPG是互聯網電視區別于模擬電視的一項標志性業務,被認為是數字電視的靈魂。但目前的EPG系統的界面,其業務的索引和導航的呈現缺乏統一的布局格式,每個數字電視平臺都必須自己設計和開發相關的呈現界面和交互方式,造成了大量重復性勞動,并且在人機交互方面大多數仍然停留在傳統的遙控器操作的方式上,即使有個別智能化的操作出現,也由于性能不佳、響應不靈敏等因素,影響了用戶體驗,因此亟需一種新型的呈現界面規范,彌補傳統互聯網電視在界面呈現和人機交互方面的不足,帶來更舒適的用戶體驗。
[0004]總而言之,目前需要本領域技術人員迫切解決的一個技術問題是:
[0005]第一,如何提供一種智能化、開放的、支持多業務的、具有規范布局格式的EPG系統的寬帶多媒體業務平臺,解決業務索引和導航缺乏統一格式的問題;
[0006]第二,如何提供一種互聯網電視系統的交互特性及方法,并能夠支持新型組塊化的交互操作,以及運用組塊交互技術原理實現的互聯網電視設備,實現即見即得的交互效果,提高用戶體驗。
【發明內容】
[0007]本發明針對傳統互聯網電視的界面呈現以及人機交互涉及存在的問題,提出了一種基于聲控式人機交互技術的互聯網電視系統及其實現方法,該系統重點對互聯網電視的EPG系統進行改進,定義一種基于組塊的Π呈現界面,將應用資源內容以組件的形式進行封裝,互聯網電視的終端EPG系統實現聲控式交互操作指令與界面組件一一對應的事件綁定,完成所見即所得的應用選擇功能,交互過程可以減少不必要的重復交互,實現靈活可控的交互效果,此方法實現的互聯網電視系統實現了一種新型的應用呈現布局并支持聲控式的智能化人機交互方式,方便用戶瀏覽和查詢節目信息,提供個性化的服務。
[0008]為了實現上述目的,本發明采用如下技術方案:
[0009]基于聲控式人機交互技術的互聯網電視系統,包括互聯網電視節目服務平臺、互聯網電視集成平臺、互聯網傳輸系統、EPG系統以及互聯網電視終端;
[0010]所述互聯網電視節目服務平臺用于提供各類型的節目內容資源和服務信息;
[0011]所述互聯網電視集成平臺用于提供運營和業務支撐功能;
[0012]所述互聯網傳輸系統用于實現傳輸分發、網絡傳輸、載入網絡功能;
[0013]所述EPG系統,用于提供豐富的節目預告信息和靈活便利的檢索引擎,并實現組塊化、聲控式的智能化人機交互操作,幫助用戶快速定位節目,瀏覽和查詢節目信息;
[0014]所述EPG系統包括接收模塊、控制轉換模塊、指令存儲模塊和聲控式人機交互操作模塊。
[0015]所述接收模塊用于接收互聯網傳輸系統傳輸過來的信號,進行相應的解調和解碼,得到TS碼流,并將TS碼流中的SI信息或數據轉盤中的相應信息提取出來,生成基本節目信息,然后將生成的基本節目信息傳輸給控制轉換模塊。
[0016]所述控制轉換模塊用于將生成的節目內容索引以及相關聯的擴展信息轉換為組塊化結構形式,并將轉換后的數據傳輸給指令存儲模塊;
[0017]所述指令存儲模塊,用于存儲控制轉換模塊轉換后的組塊化結構的節目菜單信息,并存儲與界面組塊指令相匹配的聲控組塊指令特征值,該特征值通過采集得到的語音經系統學習并特征提取后獲得,存儲模塊還存儲組塊指令特征值和表征指令功能的操作信息之間的映射關系庫,映射關系以關鍵字對應關鍵值的形式存在。所述映射關系庫中組塊指令特征值作為關鍵字存在,用于匹配用戶交互操作后觸發的指令信息,表征指令功能的操作信息作為關鍵值存在,關鍵字與關鍵值的映射為一對一或多對一的關系。
[0018]所述聲控式人機交互操作模塊用于實現組塊化的人機交互操作,包括預處理模塊,特征提取模塊,匹配模塊,執行模塊,自適應識別模塊。
[0019]所述預處理模塊用于對收集到的語音進行預濾波、量化去除冗余信息以及降噪處理的操作,并對語音信號進行加窗處理截取一定長度的語音信號,然后將語音信號傳輸給特征提取模塊。
[0020]所述特征提取模塊,對進行錄入的語音進行特征提取,得到特征向量,并根據特征向量描述建立語音庫的關鍵詞詞典,存儲到指令存儲模塊。
[0021]所述匹配模塊用于判斷用戶在使用過程中的輸入指令在經過預處理模塊和特征提取模塊后,提取得到的特征向量是否屬于關鍵詞詞典中的某一個關鍵詞,并匹配與該關鍵詞對應的操作指令,通過執行模塊識別并響應并執行該操作指令,最后將操作結果反饋給互聯網電視終端。
[0022]所述自適應識別模塊,能夠對用戶的語音進行自學習,即允許用戶定義不同的聲音指令來作為系統中功能的操作指令,采集到聲音指令后,通過特征提取模塊獲得自定義聲音的特征,通過自適應模塊與存儲模塊中的關鍵詞進行比較,選擇最相似的類別加入進去,并建立聲音指令和操作指令一一對應的映射關系,同時對前期采樣得到的聲音模型進行必要的校正,以進一步提高識別的準確率。
[0023]所述互聯網電視終端作為互聯網電視系統的硬件載體,用于提供輸入、顯示設備來與用戶進行交互,包括顯示裝置和輸入裝置。
[0024]所述顯示裝置用于對接收到的EPG信息進行解析并以組塊化形式的界面進行顯示;
[0025]所述輸入裝置用于識別用戶的原始輸入信息,允許是實現聲音錄入功能的麥克風。
[0026]基于聲控式人機交互技術的互聯網電視系統所采用的交互方法,主要包括如下步驟:
[0027]步驟(I):開始,互聯網電視節目服務平臺提供各類型的節目內容資源和服務信息,通過互聯網傳輸層的傳輸分發給EPG系統,互聯網電視集成平臺提供運營和業務支撐
信息;
[0028]步驟(2):EPG系統通過接收模塊接收互聯網電視節目服務平臺的節目內容和節目內容索引信息以及相關聯的擴展內容,所述擴展內容允許是節目的內容介紹、演員、導演及節目時長;
[0029]步驟(3):控制轉換模塊將接收到的節目內容索引以及相關聯的擴展信息轉換為組塊結構形式,并在指令存儲模塊中存儲轉換后的組塊結構的節目菜單信息;然后將節目菜單信息傳輸給互聯網電視終端的顯示裝置,進行界面的呈現;
[0030]步驟(4):用戶的交互過程通過互聯網電視終端的聲控輸入裝置進行原始操作指令的錄入;
[0031]步驟(5):通過人機交互操作模塊,進行輸入指令的識別和檢測,判斷用戶輸入指令是否能和映射關系庫中的關鍵字匹配,如果是就進入步驟(6);如果否就進入步驟(7);
[0032]步驟(6):系統執行相應關鍵字的操作指令的功能事件,并通過終端顯示裝置呈現操作對應的結果界面;結束;
[0033]步驟(7):顯示錯誤提示信息,結束。
[0034]所述步驟(6)的操作對應的結果界面通過建立數學邏輯模型并應用算法自動生成,所述數學邏輯模型是指用樹結構來表示組塊界面的呈現結構,組塊界面作為樹狀圖的根結點,有兩種類別的結點,分別為主區結點和輔區結點,其中主區結點為必須存在的結點,輔區結點允許根據需要作為對象容器的區存在,樹結構的每一層的深度代表其所表示的結點的類型。
[0035]所述步驟(5)的聲控式人機交互操作模塊的具體工作方法如下:
[0036]步驟(5-1):進行語音信息的采集,由于組塊界面的語音操作指令與遙控式操作的指令一一對應,因此語音信息的采集只需要對特定的遙控式操作對應的語音指令進行采集,定義了三類指令:宏觀指令,組塊指令以及功能指令。組塊指令集的劃分以及配置指令與組塊操作指令的映射關系請參見專利《采用聲控式的人機交互設備》(申請號201310119989.3)。
[0037]步驟(5-2):采集后的語音指令形成語音庫,對于語音庫中的每個語音信號波形圖,提取其每段間隔幀的值得到一個η維的特征向量f,從而得到特征向量集合F ;
[0038]步驟(5-3):對特征集合F應用K-means聚類的方法生成檢索關鍵詞詞典集合D,容量為d,每個類對應的關鍵詞g由該類內所有特征向量f取平均值得到,每一個關鍵詞g對應一個組塊的執行指令,其與組塊操作指令關鍵值的映射關系,存儲到存儲模塊中;[0039]步驟(5-4):對于輸入的待識別的聲音指令,同樣按照步驟(5-1)和步驟(5-2)的方法得到一個η維的特征向量m ;
[0040]步驟(5-5):在關鍵詞詞典集合D中,尋找與特征向量m之間Manhattan距離最小的關鍵詞g,如果該距離小于指定的閾值,則f為匹配的向量,其對應的指令為要執行的指令,并將m歸屬到該關鍵詞對應的類中,將該類的特征描述更新為g= (D*g+m)/(d+l)。
[0041 ] 本發明的有益效果:
[0042]I提供一種智能化、開放的、支持多業務的、具有規范布局格式的EPG系統的寬帶多媒體業務平臺,解決業務索引和導航缺乏統一格式的問題;
[0043]2應用此方法實現的互聯網電視系統通過EPG系統向用戶提供高質量的用戶體驗服務,此方法構建一種新型組塊式的EPG系統的界面布局形式以及交互方式,通過一一對應的界面組件和響應事件,實現所見即所得的交互效果,適合各種業務信息以及應用資源的交互,讓用戶感受到智能化、人性化的娛樂享受;并給用戶提供簡便的操作方式,適合各類人群進行操作;
[0044]3該方法定義一種基于組塊的UI呈現界面,將應用資源內容以組件的形式進行封裝,通過建立數學邏輯模型,實現了一種新型的應用呈現布局和交互方式。在互聯網電視的終端界面實現交互操作指令與界面組件一一對應的事件綁定,完成所見即所得的應用選擇功能,交互過程可以減少不必要的重復交互,提高了響應的效率,實現靈活可控的交互效果;
[0045]4由于組塊界面的布局的優勢,聲控指令不需要繁瑣而龐大的指令庫,只通過與界面組塊對應的屈指可數的指令即可實現交互操作,因此在特征提取時也可以通過更簡捷的方式獲得特征向量,縮短了匹配時間,保證了匹配效率。
[0046]5組塊界面的組塊排列采用最多不大于9的組合形式,因此聲控指令最多只需要匹配I?9的9個語音,令提取出的聲音指令庫容量大大減少,通過定義關鍵詞字典,對于用戶輸入的聲音指令,使特征提取得到的關鍵詞更加接近于匹配結果,并且匹配聲音指令的工作效率也明顯提高。
[0047]6提供一種互聯網電視系統的交互特性及方法,并能夠支持新型組塊化的交互操作,以及運用組塊交互技術原理實現的聲控式交互的互聯網電視設備,能支持單點和多點的聲控操作,并進行高精度的動作識別,快速響應各類聲控操作,令互聯網電視具有較強的產品易用性,簡化了用戶選擇時的操作過程,使互聯網電視具有良好的用戶體驗。
【專利附圖】
【附圖說明】
[0048]圖1是互聯網電視呈現界面的數學模型示意圖;
[0049]圖2是互聯網電視系統結構圖;
[0050]圖3是互聯網電視系統的聲音匹配和識別的方法步驟;
[0051]圖4是互聯網電視系統的聲控式交互方法流程圖。
【具體實施方式】
[0052]如圖1所示,本發明實現的互聯網電視系統針對傳統互聯網電視的呈現和交互涉及存在的問題,提出了一種基于組塊交互技術的互聯網電視業務實現方法,此實現方法首先對互聯網電視終端的呈現界面進行改進,定義一種基于組塊的Π呈現界面,將應用資源內容以組件的形式進行封裝,實現了一種新型的應用呈現布局。
[0053]所述的組塊形式的界面布局內容包括:主顯示區塊,用以顯示第一承載組塊;輔顯示區塊,用以顯示第二承載組塊;所述輔顯示區塊位于所述主顯示區塊的上側、下側、左偵U、右側、或懸浮在上方。有多個懸浮狀態的區塊時,采用層次遞進的形態顯示,即最新彈出的懸浮狀態區塊總是位于界面的最前端突出顯示,其他層次的界面區塊通過設置層次透明度顯不。
[0054]所述的系統包括初始界面和多個過程界面,初始界面和過程界面的呈現形式相同,主顯示區塊有九個第一承載組塊,排列呈宮格形;輔顯示區有九個第二承載組塊,橫向或縱向依次排列,每個區塊內顯示九個承載組塊,若區塊內組塊超過九個時,需將第十個及以上的承載組塊分頁顯示。
[0055]與現有公開專利中涉及到的組塊界面相比,本發明中為界面定義了數學模型,并可以通過算法自動的生成初始界面和過程界面,表示方法如下:
[0056]用樹結構來表示組塊的界面呈現結構,組塊界面作為樹狀圖的根結點,有兩種類別的五個子結點,分別為主區結點(E區結點)和輔區結點(輔區1、輔區2...輔區M),其中主區結點為必須存在的結點,輔區結點可以根據需要作為對象容器的區存在,樹結構的每一層的深度代表其所表示的結點的類型。如圖1所示,每一個界面(包括初始界面和過程界面)作為根結點,其層次深度為1,區結點的層次深度為2,區內組塊結點的層次深度為3。
[0057]組塊模型,以集合Q= {q Iq=(主區(組塊E1,組塊E2…組塊En),輔區I (組塊Al,組塊A2…組塊A η),輔區2 (組塊BI,組塊Β2…組塊Bn)…輔區M (組塊Μ1,組塊M2…組塊Mn)),其中主區古#,η< 9}表示,即組塊界面的主區不能為空,并且每個區內還有的組塊數不能超過9。另外,初始界面和過程界面得到的樹結構,可以根據呈現內容自動生成,得到分配樹結構的子結點。
[0058]如圖2所示,基于聲控式人機交互技術的互聯網電視系統,包括互聯網電視節目服務平臺、互聯網電視集成平臺、互聯網傳輸系統、EPG系統以及互聯網電視終端;
[0059]所述互聯網電視節目服務平臺用于提供各類型的節目內容資源和服務信息;
[0060]所述互聯網電視集成平臺用于提供運營和業務支撐功能;
[0061]所述互聯網傳輸系統用于實現傳輸分發、網絡傳輸、載入網絡功能;
[0062]所述EPG系統,用于提供豐富的節目預告信息和靈活便利的檢索引擎,并實現組塊化、聲控式的智能化人機交互操作,幫助用戶快速定位節目,瀏覽和查詢節目信息;
[0063]所述EPG系統包括接收模塊、控制轉換模塊、指令存儲模塊和聲控式人機交互操作模塊。
[0064]所述接收模塊用于接收互聯網傳輸系統傳輸過來的信號,進行相應的解調和解碼,得到TS碼流,并將TS碼流中的SI信息或數據轉盤中的相應信息提取出來,生成基本節目信息,然后將生成的基本節目信息傳輸給控制轉換模塊。
[0065]所述控制轉換模塊用于將生成的的節目內容索引以及相關聯的擴展信息轉換為組塊化結構形式,并將轉換后的數據傳輸給指令存儲模塊;
[0066]所述指令存儲模塊,用于存儲控制轉換模塊轉換后的組塊化結構的節目菜單信息,并存儲與界面組塊指令相匹配的聲控組塊指令特征值,該特征值通過采集得到的語音經系統學習并特征提取后獲得,存儲模塊還存儲組塊指令特征值和表征指令功能的操作信息之間的映射關系庫,映射關系以關鍵字對應關鍵值的形式存在。所述映射關系庫中組塊指令特征值作為關鍵字存在,用于匹配用戶交互操作后觸發的指令信息,表征指令功能的操作信息作為關鍵值存在,關鍵字與關鍵值的映射為一對一或多對一的關系。
[0067]所述聲控式人機交互操作模塊用于實現組塊化的人機交互操作,包括預處理模塊,特征提取模塊,匹配模塊,執行模塊,自適應識別模塊。其中預處理模塊用于對收集到的語音進行預濾波、量化等去除冗余信息以及降噪處理的操作,并對語音信號進行加窗處理截取一定長度的語音信號。特征提取模塊,對進行錄入的語音進行特征提取,得到特征向量,并根據特征向量描述建立語音庫的關鍵詞詞典,存儲到指令存儲模塊。匹配模塊用于判斷用戶輸入指令提取得到的特征向量是否屬于某一個關鍵詞,并匹配與該關鍵詞對應的操作指令,通過執行模塊識別并響應并執行該操作指令,最后將操作結果反饋給互聯網電視終端。另外,人機交互操作模塊還包括自適應識別模塊,能夠對用戶的語音進行自學習,即允許用戶定義不同的聲音指令來作為系統中功能的操作指令,采集到聲音指令后,通過特征提取模塊獲得自定義聲音的特征,通過自適應模塊與存儲模塊中的關鍵詞進行比較,選擇最相似的類別加入進去,并建立聲音指令和操作指令一一對應的映射關系,同時對前期采樣得到的聲音模型進行必要的校正,以進一步提高識別的準確率。
[0068]所述互聯網電視終端作為互聯網電視系統的硬件載體,用于提供輸入、顯示等設備來與用戶進行交互,包括顯示裝置和輸入裝置。
[0069]所述顯示裝置用于對接收到的EPG信息進行解析并以組塊化形式的界面進行顯示;
[0070]所述輸入裝置用于識別用戶的原始輸入信息,本發明特指實現聲音錄入功能的麥克風。
[0071]如圖4所示,基于聲控式人機交互技術的互聯網電視系統所采用的交互方法,主要包括如下步驟:
[0072]步驟(I):開始,互聯網電視節目服務平臺提供各類型的節目內容資源和服務信息,通過互聯網傳輸層的傳輸分發給EPG系統,互聯網電視集成平臺提供運營和業務支撐
信息;
[0073]步驟(2):EPG系統通過接收模塊接收互聯網電視節目服務平臺的節目內容和節目內容索引信息以及相關聯的擴展內容,所述擴展內容允許是節目的內容介紹、演員、導演及節目時長;
[0074]步驟(3):控制轉換模塊將接收到的節目內容索引以及相關聯的擴展信息轉換為組塊結構形式,并在指令存儲模塊中存儲轉換后的組塊結構的節目菜單信息;然后將節目菜單信息傳輸給互聯網電視終端的顯示裝置,進行界面的呈現;
[0075]步驟(4):用戶的交互過程通過互聯網電視終端的聲控輸入裝置進行原始操作指令的錄入;
[0076]步驟(5):通過人機交互操作模塊,進行輸入指令的識別和檢測,判斷用戶輸入指令是否能和映射關系庫中的關鍵字匹配,如果是就進入步驟(6);如果否就進入步驟(7);
[0077]步驟(6):系統執行相應關鍵字的操作指令的功能事件,并通過終端顯示裝置呈現操作對應的結果界面;結束;[0078]步驟(7):顯示錯誤提示信息,結束。
[0079]所述步驟(6)的操作對應的結果界面通過建立數學邏輯模型并應用算法自動生成,所述數學邏輯模型是指用樹結構來表示組塊界面的呈現結構,組塊界面作為樹狀圖的根結點,有兩種類別的結點,分別為主區結點和輔區結點,其中主區結點為必須存在的結點,輔區結點允許根據需要作為對象容器的區存在,樹結構的每一層的深度代表其所表示的結點的類型。
[0080]如圖3所示,所述步驟(5)的聲控式人機交互操作模塊的具體工作方法如下:
[0081]步驟(5-1):進行語音信息的采集,由于組塊界面的語音操作指令與遙控式操作的指令一一對應,因此語音信息的采集只需要對特定的遙控式操作對應的語音指令進行采集,定義了三類指令:宏觀指令,組塊指令以及功能指令。組塊指令集的劃分以及配置指令與組塊操作指令的映射關系請參見專利《采用聲控式的人機交互設備》(申請號201310119989.3)。
[0082]步驟(5-2):采集后的語音指令形成語音庫,對于語音庫中的每個語音信號波形圖,提取其每段間隔幀的值得到一個η維的特征向量f,從而得到特征向量集合F ;
[0083]步驟(5-3):對特征集合F應用K-means聚類的方法生成檢索關鍵詞詞典集合D,容量為d,每個類對應的關鍵詞g由該類內所有特征向量f取平均值得到,每一個關鍵詞g對應一個組塊的執行指令,其與組塊操作指令關鍵值的映射關系,存儲到存儲模塊中;
[0084]步驟(5-4):對于輸入的待識別的聲音指令,同樣按照步驟(5-1)和步驟(5-2)的方法得到一個η維的特征向量m ;
[0085]步驟(5-5):在關鍵詞詞典集合D中,尋找與特征向量m之間Manhattan距離最小的關鍵詞g,如果該距離小于指定的閾值,則f為匹配的向量,其對應的指令為要執行的指令,并將m歸屬到該關鍵詞對應的類中,將該類的特征描述更新為g= (D*g+m)/(d+l)。
[0086]上述雖然結合附圖對本發明的【具體實施方式】進行了描述,但并非對本發明保護范圍的限制,所屬領域技術人員應該明白,在本發明的技術方案的基礎上,本領域技術人員不需要付出創造性勞動即可做出的各種修改或變形仍在本發明的保護范圍以內。
【權利要求】
1.基于聲控式人機交互技術的互聯網電視系統,其特征是,包括互聯網電視節目服務平臺、互聯網電視集成平臺、互聯網傳輸系統、EPG系統以及互聯網電視終端; 所述互聯網電視節目服務平臺用于提供各類型的節目內容資源和服務信息; 所述互聯網電視集成平臺用于提供運營和業務支撐功能; 所述互聯網傳輸系統用于實現傳輸分發、網絡傳輸、載入網絡功能; 所述EPG系統,用于提供豐富的節目預告信息和靈活便利的檢索引擎,并實現組塊化、聲控式的智能化人 機交互操作,幫助用戶快速定位節目,瀏覽和查詢節目信息; 所述EPG系統包括接收模塊、控制轉換模塊、指令存儲模塊和聲控式人機交互操作模塊; 所述聲控式人機交互操作模塊用于實現組塊化的人機交互操作,檢測并識別用戶的輸入操作指令,響應并執行該操作指令,并將操作結果反饋給互聯網電視終端;所述人機交互操作能夠通過用戶的聲控的信息采集進行自由定義,即允許用戶定義不同的聲控指令來表不系統中的?呆作功能。
2.如權利要求1所述的基于聲控式人機交互技術的互聯網電視系統,其特征是, 所述接收模塊用于接收互聯網傳輸系統傳輸過來的信號,進行相應的解調和解碼,得到TS碼流,并將TS碼流中的SI信息或數據轉盤中的相應信息提取出來,生成基本節目信息,然后將生成的基本節目信息傳輸給控制轉換模塊; 所述控制轉換模塊用于將生成的的節目內容索引以及相關聯的擴展信息轉換為組塊化結構形式,并將轉換后的數據傳輸給指令存儲模塊。
3.如權利要求1所述的基于聲控式人機交互技術的互聯網電視系統,其特征是, 所述指令存儲模塊,用于存儲控制轉換模塊轉換后的組塊化結構的節目菜單信息,并定義組塊指令集,存儲人機交互操作模塊獲取的用戶輸入的原始信息和表征指令功能的操作信息之間的映射關系庫,映射關系以關鍵字對應關鍵值的形式存在;所述映射關系庫中輸入指令集作為關鍵字存在,用于匹配用戶交互操作后觸發的指令信息,表征指令功能的操作信息作為關鍵值存在,關鍵字與關鍵值的映射為一對一或多對一的關系。
4.如權利要求1所述的基于聲控式人機交互技術的互聯網電視系統,其特征是, 所述聲控式人機交互操作模塊用于實現組塊化的人機交互操作,包括預處理模塊,特征提取模塊,匹配模塊,執行模塊,自適應識別模塊; 所述預處理模塊用于對收集到的語音進行預濾波、量化去除冗余信息以及降噪處理的操作,并對語音信號進行加窗處理截取一定長度的語音信號,并將語音信號傳輸給特征提取豐吳塊; 所述特征提取模塊,對進行錄入的語音進行特征提取,得到特征向量,并根據特征向量描述建立語音庫的關鍵詞詞典,存儲到指令存儲模塊; 所述匹配模塊用于判斷用戶在使用過程中的輸入指令在經過預處理模塊和特征提取模塊后,提取得到的特征向量是否屬于關鍵詞詞典中的某一個關鍵詞,并匹配與該關鍵詞對應的操作指令,通過執行模塊識別并響應并執行該操作指令,最后將操作結果反饋給互聯網電視終端; 另外,人機交互操作模塊還包括自適應識別模塊,能夠對用戶的語音進行自學習,即允許用戶定義不同的聲音指令來作為系統中功能的操作指令,采集到聲音指令后,通過特征提取模塊獲得自定義聲音的特征,通過自適應模塊與存儲模塊中的關鍵詞進行比較,選擇最相似的類別加入進去,并建立聲音指令和操作指令一一對應的映射關系,同時對前期采樣得到的聲音模型進行必要的校正,以進一步提高識別的準確率。
5.如權利要求1所述的基于聲控式人機交互技術的互聯網電視系統,其特征是, 所述互聯網電視終端作為互聯網電視系統的硬件載體,用于提供輸入、顯示設備來與用戶進行交互,包括顯示裝置和輸入裝置。
6.如權利要求5所述的基于聲控式人機交互技術的互聯網電視系統,其特征是, 所述顯示裝置用于對接收到的EPG信息進行解析并以組塊化形式的界面進行顯示; 所述輸入裝置用于識別用戶的原始輸入信息,本發明特指實現聲音錄入功能的麥克風。
7.如上述任一權利要求所述的基于聲控式人機交互技術的互聯網電視系統所采用的交互方法,其特征是,主要包括如下步驟: 步驟(1):開始,互聯網電視節目服務平臺提供各類型的節目內容資源和服務信息,通過互聯網傳輸層的傳輸分發給EPG系統,互聯網電視集成平臺提供運營和業務支撐信息;步驟(2 ):EPG系統通過接收模塊接收互聯網電視節目服務平臺的節目內容和節目內容索引信息以及相關聯的擴展內容; 步驟(3):控制轉換模塊將接收到的節目內容索引以及相關聯的擴展信息轉換為組塊結構形式,并在指令存儲模塊中存儲轉換后的組塊結構的節目菜單信息;然后將節目菜單信息傳輸給互聯網電視終端的顯示裝置,進行界面的呈現; 步驟(4):用戶的交互過程通過互聯網電視終端的聲控輸入裝置進行原始操作指令的錄入; 步驟(5):通過人機交互操作模塊,進行輸入指令的識別和檢測,判斷用戶輸入指令是否能和映射關系庫中的關鍵字匹配,如果是就進入步驟(6);如果否就進入步驟(7); 步驟(6):系統執行相應關鍵字的操作指令的功能事件,并通過終端顯示裝置呈現操作對應的結果界面;結束; 步驟(7):顯示錯誤提示信息,結束。
8.如權利要求7所述的方法,其特征是,所述步驟(6)的操作對應的結果界面通過建立數學邏輯模型并應用算法自動生成,所述數學邏輯模型是指用樹結構來表示組塊界面的呈現結構,組塊界面作為樹狀圖的根結點,有兩種類別的結點,分別為主區結點和輔區結點,其中主區結點為必須存在的結點,輔區結點允許根據需要作為對象容器的區存在,樹結構的每一層的深度代表其所表示的結點的類型。
9.如權利要求7所述的方法,其特征是,所述步驟(5)的聲控式人機交互操作模塊的具體工作方法如下: 步驟(5-1):進行語音信息的采集,由于組塊界面的語音操作指令與遙控式操作的指令一一對應,因此語音信息的采集只需要對特定的遙控式操作對應的語音指令進行采集,定義了三類指令:宏觀指令,組塊指令以及功能指令; 步驟(5-2):采集后的語音指令形成語音庫,對于語音庫中的每個語音信號波形圖,提取其每段間隔幀的值得到一個η維的特征向量f,從而得到特征向量集合F ; 步驟(5-3):對特征集合F應用K-means聚類的方法生成檢索關鍵詞詞典集合D,容量為d,每個類對應的關鍵詞g由該類內所有特征向量f取平均值得到; 步驟(5-4):對于輸入的待識別的聲音指令,同樣按照步驟(5-1)和步驟(5-2)的方法得到一個η維的特征向量m ; 步驟 (5-5):在關鍵詞詞典集合D中,尋找與特征向量m之間Manhattan距離最小的關鍵詞g,如果該距離小于指定的閾值,則f為匹配的向量,其對應的指令為要執行的指令,并將m歸屬到該關鍵詞對應的類中,將該類的特征描述更新為g= (D*g+m)/(d+l)。
【文檔編號】H04N21/422GK103533415SQ201310475355
【公開日】2014年1月22日 申請日期:2013年10月12日 優先權日:2013年10月12日
【發明者】郗登振, 王淑榮, 紀燕杰 申請人:青島旲天下智能科技有限公司