一種網絡視頻終端聚合方法及系統的制作方法
【專利摘要】本發明公開了一種網絡視頻終端聚合方法及系統,尤其適合在智能電視終端應用,包括:訂閱模塊,用于指定網絡視頻聚合的源;爬蟲模塊,用于從訂閱網站提取網絡視頻元數據;本地數據庫模塊,用于存儲本地播放記錄和本地視頻信息;預處理模塊,用于對本地數據庫數據進行預處理,以適應興趣挖掘需要;興趣挖掘模塊,用于根據本地數據庫,挖掘用戶多維興趣主題;匹配過濾模塊,用于根據網絡視頻與用戶感興趣的匹配程度對網絡視頻進行過濾排序;UI顯示模塊,用于顯示經過濾、排序而得的網絡視頻列表。該方法利用終端豐富的用戶播放記錄,挖掘用戶多維興趣主題,并利用訂閱和興趣等限制條件從海量的網絡視頻資源中聚合符合用戶興趣的網絡視頻到終端。
【專利說明】一種網絡視頻終端聚合方法及系統
【技術領域】
[0001] 本發明涉及數據挖掘領域,信息聚合領域,實現利用終端用戶信息對用戶興趣的 挖掘,提取多維興趣主題,并以此為據,將用戶訂閱的視頻網站中,用戶感興趣的視頻聚合 到用戶終端。
【背景技術】
[0002] 傳統的終端媒體信息管理局限于本地媒體信息數據庫的管理和更新,以供用戶查 閱,以及在用戶操作時向交互系統提供必要的信息支持。在三網融合背景下,作為網絡終端 的電視機智能終端操作系統,不再滿足于對本地存儲信息的查閱,而需要根據用戶的需要 提供更豐富的網絡視頻信息。把互聯網視頻網站中用戶感興趣的視頻像本地視頻一樣呈現 給用戶點擊播放,已經成為趨勢。
[0003] 目前用戶獲取網絡視頻的手段包括視頻網站瀏覽,搜索,推薦,以及少量的c/s聚 合系統。網頁瀏覽和搜索在pc終端上應用廣泛,但對于電視機、手機等并不擅長鍵鼠操作 的智能終端來講,明顯增加了用戶負擔,降低了用戶體驗。現有的聚合系統都采用服務器/ 終端模式,使用戶面臨著必須注冊、反饋,并且被迫接受服務端廣告等冗余信息困境。
[0004] 另一方面,網絡信息資源的海量增長和用戶貢獻內容的不斷擴充,給用戶帶來資 源選擇多樣化和自主化的同時,也帶來選擇迷航的問題,而當互聯網的信息量越來越大,搜 索引擎這種基于內容本身呈現信息的方式再怎么改良,也無法避免冗余的信息。大量冗余 信息的存在也會成為用戶和終端的負擔。
【發明內容】
[0005] 本發明的目的在于,提供一種終端主動聚合網絡視頻的方法,能夠有效擴展視頻 來源,充分享受海量增長的網絡視頻源給用戶帶來資源選擇多樣化和自主化的同時,避免 其帶來的選擇迷航問題。同時還要避免目前主要方案中需要注冊、提交用戶信息、顯式獲取 興趣等智能終端用戶,尤其是電視機用戶通常不愿意做的事情。
[0006] 為實現上述目的,本發明提供了 一種網絡視頻終端聚合方法,所述方法包含:
[0007] 步驟101)通過訂閱指定網絡視頻聚合的源;
[0008] 步驟102)利用爬蟲從訂閱網站提取網絡視頻元數據;
[0009] 步驟103)將本地播放記錄和本地視頻信息存儲在本地數據庫;
[0010] 步驟104)對本地數據庫數據進行預處理,以適應興趣挖掘需要,其中,所述預處理 是對數據庫中存儲的視頻信息逐條過濾,剔除無效信息記錄,選取符合條件的數據用于興 趣挖掘;
[0011] 步驟105)根據本地數據庫,挖掘用戶多維興趣主題,所述本地數據庫以一定的數 據結構存儲若干條視頻元數據描述,這些視頻對象包括本地存儲的視頻文件,以及用戶播 放記錄中的視頻;
[0012] 步驟106)根據網絡視頻與用戶興趣的匹配程度對網絡視頻進行過濾排序,所述匹 配過濾依次將每一條網絡視頻描述信息與興趣主題匹配,過濾并保留匹配程度高于閾值的 結果,并排序;
[0013] 步驟107)顯示經過濾、排序而得的網絡視頻列表。
[0014] 上述網絡視頻元數據包括:視頻名、視頻源地址、年份、導演、演員或類型,將所有 元數據形成網絡視頻的多維描述信息。
[0015] 上述指定視頻聚合源的網站是一個或多個視頻網站的首頁網址。
[0016] 上述爬蟲模塊以訂閱模塊指定的一個或多個網頁為初始頁面,提取視頻元數據, 為每一個視頻生成一條元數據描述,并嵌套地對其包含的二級頁面逐一遍歷,以獲取符合 條件的視頻元數;同時,獲取元數據的方式還可選地包括直接收割網站按一定規范發布的 視頻息。
[0017] 多維興趣主題即為在兩個或兩個以上維度進行描述的興趣主題,其基礎為,每一 條視頻信息都由多個維度的描述信息組成。
[0018] 多維興趣主題的提取分為以下步驟:
[0019] a、一維興趣提取:對每一個擬挖掘的維度采取獨立的興趣挖掘策略和標準,得到 該維度上的若干興趣主題,成為一個集合;
[0020] b、二維興趣提取:在不同維度間,若兩個興趣主題同時出現在一條多維信息中,則 這兩個興趣主題有關聯;同時出現越多,關聯越大;把關聯度大過閾值的組合在一起,成為 一個二維興趣主題,采用同樣的方法找出所有的二維興趣主題;
[0021] c、多維興趣提取:若某維度上的主題出現在兩個多維主題中,檢查是否這兩個多 維主題中每個一維主題間都存在超過閾值的關聯程度,若是,則合并這兩個多維主題,成為 更高維度的興趣主題;
[0022] d、記錄所有不能進一步合并的多維興趣主題。
[0023] 為了實現上述目的,本發明還提供了一種網絡視頻終端聚合系統,所述系統包 含:
[0024] 訂閱模塊,用于指定網絡視頻聚合的源;
[0025] 爬蟲模塊,用于從訂閱模塊獲得的網絡視頻聚合源的網站提取網絡視頻元數據;
[0026] 本地數據庫模塊,用于存儲本地播放記錄和本地視頻信息;
[0027] 預處理模塊,用于對本地數據庫數據進行預處理,以適應興趣挖掘需要;
[0028] 興趣挖掘模塊,用于根據本地數據庫依據如下原則進行一維至多維的興趣提取:
[0029] 一維興趣提取:對每一個擬挖掘的維度采取獨立的興趣挖掘策略和標準,得到該 維度上的若干興趣主題,成為一個集合;
[0030] 二維興趣提取:在不同維度間,若兩個興趣主題同時出現在一條多維信息中,則這 兩個興趣主題有關聯;同時出現越多,關聯越大;把關聯度大過閾值的鏈接在一起,成為一 個二維興趣主題,依據此策略找到所有二維興趣主題;
[0031] 多維興趣提取:若某維度上的主題出現在兩個多維主題中,檢查是否這兩個多維 主題中每個一維主題間都存在超過閾值的關聯程度,若是,則合并這兩個多維主題,成為更 高維度的興趣主題;記錄所有不能進一步合并的多維興趣主題,完成興趣挖掘;
[0032] 匹配過濾模塊,用于根據網絡視頻與用戶興趣的匹配程度對網絡視頻進行過濾排 序;
[0033] 顯示模塊,用于顯示經過濾、排序而得的網絡視頻列表。
[0034] 上述訂閱模塊允許用戶指定一個或多個視頻網站網址作為視頻信息聚合的源,被 指定網址的頁面及其引用的二級頁面包含的視頻都包含在后續聚合范圍內,并且能夠指定 視頻網站的首頁。
[0035] 上述爬蟲模塊在訂閱范圍內的頁面上提取視頻元數據,或者直接收割網站按一定 規范發布的視頻信息,并將同屬于一個視頻的元數據按照數據結構整理為一條描述網絡視 頻的信息,且該模塊對每個頁面的二級頁面嵌套地抓取元數據。
[0036] 與現有技術相比,本發明的技術優勢在于:
[0037] 本發明提供一種終端主動聚合網絡視頻的方法,能夠有效擴展網絡視頻來源,有 效兼顧用戶選擇多樣化自主化與有效去除冗余信息,避免選擇迷航。本方法基于終端對視 頻元數據的主動拉取,為用戶帶來便利高效體驗的同時,充分利用終端豐富的用戶信息來 隱式地獲取興趣主題,避免了注冊、評分等終端用戶通常不愿意也不方便參與的環節。總 之,本發明改變了現有的聚合都是基于c/s模式的限制,由服務器端完成聚合后推送給終 端,即本發明的技術方案由終端主動抓取,因此無需提交用戶個人信息,也不必接受服務端 強行推送的廣告燈內容;此外,本發明將興趣挖掘引入信息聚合的過濾過程中,結合聚合源 的訂制,有效提高了聚合結果的準確度,減少了冗余信息。
【專利附圖】
【附圖說明】
[0038] 圖1本發明主要功能組成描述圖;
[0039] 圖2本發明提供的網絡視頻終端聚合方法流程示意圖。
【具體實施方式】
[0040] 下面結合附圖及具體實施例對本發明作進一步的描述。
[0041] 如圖1所示,本文所述的方法,主要包含三個主要功能部分,即興趣挖掘部分,信 息聚合部分,過濾顯示部分。興趣挖掘部分通過對用戶信息的挖掘輸出多維興趣主題,信息 聚合部分從訂閱網址獲取視頻元數據,并整理輸出網絡視頻的多維描述。
[0042] 如圖2所示,信息聚合部分主要包括訂閱模塊和爬蟲模塊以及提供網絡視頻的互 聯網。用戶通過訂閱模塊在整個互聯網范圍內指定符合要求的網址,該網頁及其引用的二 級頁面會被爬蟲模塊嵌套地遍歷提取有用信息,即視頻元數據,爬蟲模塊獲取元數據方法 包括直接從指定地址獲取按照一定規范發布的網絡視頻元數據。爬蟲模塊拿到元數據之后 會重新按照系統規定的格式,將元數據整合成為規范的網絡視頻多維元數據描述,每一個 描述代表一條網絡視頻。
[0043] 如圖2所示,興趣挖掘部分主要包括本地數據庫模塊、數據預處理模塊和興趣挖 掘模塊。本地數據庫模塊存儲若干條視頻多維元數據描述,所描述的視頻包括本地存儲的 視頻對象,以及視頻播放記錄等體現用戶興趣的視頻對象。考慮到用戶并不一定對記錄中 每一條視頻都有興趣,例如觀看時長過短的視頻,我們認為是不能體現用戶興趣的視頻記 錄,數據預處理模塊負責從數據庫中剔除不體現用戶興趣的數據,留下體現用戶興趣的數 據,并提供給興趣挖掘模塊用于提取多維興趣主題。
[0044] 興趣挖掘模塊按照以下步驟提取二維興趣并逐漸形成更高維度的興趣主題:
[0045] a、一維興趣提取:對每一個擬挖掘的維度采取獨立的興趣挖掘策略和標準,得到 該維度上的若干興趣主題,成為一個集合。例如,對于導演這個維度,只需要統計不同名字 出現的頻率,頻率高于閾值的作為一個興趣主題。閾值的挑選十分關鍵,閾值過低,提取的 結果不能代表用戶興趣,閾值過高,則可能漏過一些興趣。對于視頻的實際地址這一元數 據,則需要采用更為復雜的感興趣路徑挖掘方法,且在一個元數據是否符合某興趣主題定 義也會相應地變為,該元數據是否屬于該主題的興趣路徑之下。因此,在每個維度上既要采 取獨立的興趣挖掘策略方法,也要定義不同的衡量興趣標準。此外,考慮成本效益,不一定 需要將所有維度都納入興趣挖掘的范圍。
[0046] b、二維興趣提取:在不同維度間,若兩個興趣主題同時出現在一條多維信息中,認 為這兩個興趣主題有關聯;同時出現越多,關聯越大;把關聯度大過閾值的鏈接在一起,成 為一個二維興趣主題。同樣的方法可以找出所有的二維興趣主題。關聯度的衡量可以采 用同時出現的相對比例,也可以采用同時出現的絕對次數。如表1所示,橫軸表示維度A, 縱軸表不維度B,各個維度有興趣主題若干,各形成一個集合(al, a2, a3, a4, a5, a6, a7), (bl,b2, b3, b4, b5)。假設此例采用同時出現在同一視頻描述中的絕對次數作為關聯度,則 以上興趣主題的關聯度如矩陣中數值所示。假設確定兩個不同維度上興趣主題具有關聯 性的閾值為10,則可以確定該矩陣中可以提取二維興趣主題(al,bl),(a2,b2),(a3,b3), (a3, b4),(a4, b2),(a5, b5),(a7, bl)。
[0047] 表1,不同維度興趣主題關聯度矩陣
[0048]
【權利要求】
1. 一種網絡視頻終端聚合方法,所述方法包含: 步驟101)通過訂閱指定網絡視頻聚合的源; 步驟102)利用爬蟲從訂閱網站提取網絡視頻元數據; 步驟103)將本地播放記錄和本地視頻信息存儲在本地數據庫; 步驟104)對本地數據庫數據進行預處理,以適應興趣挖掘需要,其中,所述預處理是對 數據庫中存儲的視頻信息逐條過濾,剔除無效信息記錄,選取符合條件的數據用于興趣挖 掘; 步驟105)根據本地數據庫,挖掘用戶多維興趣主題,所述本地數據庫以一定的數據結 構存儲若干條視頻元數據描述,這些視頻對象包括本地存儲的視頻文件,以及用戶播放記 錄中的視頻; 步驟106)根據網絡視頻與用戶興趣的匹配程度對網絡視頻進行過濾排序,所述匹配 過濾依次將每一條網絡視頻描述信息與興趣主題匹配,過濾并保留匹配程度高于閾值的結 果,并排序; 步驟107)顯示經過濾、排序而得的網絡視頻列表。
2. 根據權利要求1所述的網絡視頻終端聚合方法,其特征在于,所述網絡視頻元數據 包括:視頻名、視頻源地址、年份、導演、演員或類型,將所有元數據形成網絡視頻的多維描 述信息。
3. 根據權利要求1所述的網絡視頻終端聚合方法,其特征在于,所述指定視頻聚合源 的網站是一個或多個視頻網站的首頁網址。
4. 根據權利要求1所述的網絡視頻終端聚合方法,其特征在于,所述爬蟲模塊以訂閱 模塊指定的一個或多個網頁為初始頁面,提取視頻元數據,為每一個視頻生成一條元數據 描述,并嵌套地對其包含的二級頁面逐一遍歷,以獲取符合條件的視頻元數;同時,獲取元 數據的方式還可選地包括直接收割網站按一定規范發布的視頻信息。
5. 根據權利要求7所述的網絡視頻終端聚合方法,其特征在于,所述多維興趣主題即 為在兩個或兩個以上維度進行描述的興趣主題,其基礎為,每一條視頻信息都由多個維度 的描述信息組成。
6. 根據權利要求7所述的網絡視頻終端聚合方法,其特征在于,所述多維興趣主題的 提取分為以下步驟: a、 一維興趣提取:對每一個擬挖掘的維度采取獨立的興趣挖掘策略和標準,得到該維 度上的若干興趣主題,成為一個集合; b、 二維興趣提取:在不同維度間,若兩個興趣主題同時出現在一條多維信息中,則這兩 個興趣主題有關聯;同時出現越多,關聯越大;把關聯度大過閾值的組合在一起,成為一個 二維興趣主題,采用同樣的方法找出所有的二維興趣主題; c、 多維興趣提取:若某維度上的主題出現在兩個多維主題中,檢查是否這兩個多維主 題中每個一維主題間都存在超過閾值的關聯程度,若是,則合并這兩個多維主題,成為更高 維度的興趣主題; d、 記錄所有不能進一步合并的多維興趣主題。
7. -種網絡視頻終端聚合系統,其特征在于,所述系統包含: 訂閱模塊,用于指定網絡視頻聚合的源; 爬蟲模塊,用于從訂閱模塊獲得的網絡視頻聚合源的網站提取網絡視頻元數據; 本地數據庫模塊,用于存儲本地播放記錄和本地視頻信息; 預處理模塊,用于對本地數據庫數據進行預處理,以適應興趣挖掘需要; 興趣挖掘模塊,用于根據本地數據庫依據如下原則進行一維至多維的興趣提取: 一維興趣提取:對每一個擬挖掘的維度采取獨立的興趣挖掘策略和標準,得到該維度 上的若干興趣主題,成為一個集合; 二維興趣提取:在不同維度間,若兩個興趣主題同時出現在一條多維信息中,則這兩個 興趣主題有關聯;同時出現越多,關聯越大;把關聯度大過閾值的鏈接在一起,成為一個二 維興趣主題,依據此策略找到所有二維興趣主題; 多維興趣提取:若某維度上的主題出現在兩個多維主題中,檢查是否這兩個多維主題 中每個一維主題間都存在超過閾值的關聯程度,若是,則合并這兩個多維主題,成為更高維 度的興趣主題;記錄所有不能進一步合并的多維興趣主題,完成興趣挖掘; 匹配過濾模塊,用于根據網絡視頻與用戶興趣的匹配程度對網絡視頻進行過濾排序; 顯示模塊,用于顯示經過濾、排序而得的網絡視頻列表。
8. 根據權利要求7所述的網絡視頻終端聚合系統,其特征在于,所述訂閱模塊允許用 戶指定一個或多個視頻網站網址作為視頻信息聚合的源,被指定網址的頁面及其引用的二 級頁面包含的視頻都包含在后續聚合范圍內,并且能夠指定視頻網站的首頁。
9. 根據權利要求7所述的網絡視頻終端聚合系統,其特征在于,所述爬蟲模塊在訂閱 范圍內的頁面上提取視頻元數據,或者直接收割網站按一定規范發布的視頻信息,并將同 屬于一個視頻的元數據按照數據結構整理為一條描述網絡視頻的信息,且該模塊對每個頁 面的二級頁面嵌套地抓取元數據。
【文檔編號】G06F17/30GK104144181SQ201310166163
【公開日】2014年11月12日 申請日期:2013年5月8日 優先權日:2013年5月8日
【發明者】張輝, 李長路, 孫鵬, 潘梁 申請人:中國科學院聲學研究所, 北京海力匯通數字系統技術有限公司