本文涉及但不限于數據處理技術,尤指一種實現收視信息處理的方法及裝置。
背景技術:
隨著支持雙向通信的智能電視技術的發展,對智能電視數據的采集和分析的需求變得越來越多。一般來說,智能電視的數據采集系統只能獲取如機頂盒標識、智能電視標識等代表以戶為單位的家庭屬性信息,具體收視行為涉及到的具體收視人員無法直接通過電視機或機頂盒獲取。當在進行收視率分析、受眾屬性分析、節目推薦等需求分析時,往往需要具體的收視人員及其人口屬性、興趣愛好等信息。
目前,對每一戶家庭具體收視人員的信息分析主要可以分為以下幾種:
(1)通過帶有用戶識別按鈕的特殊遙控器或特定智能終端來識別唯一收視人員。每個家庭的收視人員在觀看電視時,通過按下特殊遙控器或特定智能終端上的特定按鈕表明身份才可以使用電視,由此記錄此次收視行為對應的收視人員。這種方法大大影響了用戶觀看電視的體驗,且調研成本很昂貴、無法獲得大量的樣本;而樣本量少時,不僅在數據分析時容易出現較大的方差,也更容易被污染。另外,收視人員在觀看電視時也可能存在忘記操作或誤操作特定按鈕等情況,影響獲取的信息的準確性。
(2)通過在電視機或機頂盒上安裝特殊的識別設備,如攝像頭、紅外模塊等,對觀看電視的收視人員進行識別。這種方法成本較高,并且涉及收視人員的用戶隱私,因此還沒有完善的應用方案。
(3)對一部分樣本戶進行調研,將歷史數據中每個家庭的收視人員的收視習慣作為其在未來的收視行為的參照。例如某樣本戶在調研中回答該戶在晚上觀看體育節目的人員為父親和兒子,母親不觀看。那么之后該戶每次在晚上發生體育節目的收視行為時,都認為對應的收看人員為父親和兒子。這種方法沒有考慮到每個家庭成員每天的具體收視行為的變化,因此跟真實情況具有不可避免的偏差。
(4)直接對當前用戶行為數據進行分析,例如申請號為CN201510890345中公開了基于影片主題判斷收視人員的方法。但專利中僅僅給出了根據影片主題來確定特定收視人群的舉例,即“古裝戰爭劇是年輕男性觀看,當紅明星古裝劇是年輕女性觀看”,沒有給出完整的從主題推導收視人群的方法。該方法中也未考慮同一節目被不同收視人群觀看的客觀情況,因此跟實際情況很可能具有較大的出入。
綜上,上述對收視人員的信息分析方法存在成本、誤差、隱私等問題,無法對收視成員的信息進行有效分析。
技術實現要素:
以下是對本文詳細描述的主題的概述。本概述并非是為了限制權利要求的保護范圍。
本發明實施例提供一種實現收視信息處理的方法及裝置,能夠對收視人員的信息進行有效分析。
本發明實施例提供了一種實現收視信息處理的方法,包括:
以戶為單位統計預設數值戶家庭的收視樣本信息;
根據統計的所述收視樣本信息統計每一個收視成員的收視情況;
根據統計獲得的收視情況擬合獲得具有相同人口屬性的收視成員的收視習慣概率信息;
采集需要進行收視分析的每一戶家庭的收視源信息;
根據統計的收視成員的收視情況及收視習慣概率信息對采集每一戶家庭的收視源信息進行分析,獲得每一戶家庭的收視源信息對應的收視成員構成和每一個收視成員的收視情況;
其中,所述收視樣本信息包括:第一預設時長內每一戶家庭中的每一個收視成員的人口屬性,及按照預設時段統計的每一個收視成員的收視信息。
可選的,所述預設時段包括:工作日中以第一預設時長劃分的第一時段和節假日時以第二預設時長劃分的第二時段,所述收視信息包括:
每一個第一時段中每一個收視成員的收視節目類別;
每一個第二時段中每一個收視成員的收視節目類別。
可選的,所述統計收視樣本信息中的每一個收視成員的收視情況包括:
按照預設時段統計所述收視樣本信息中的每一個收視成員收看每一種收視節目類別的收視頻次,并根據統計的收視頻次計算每一個收視人員在每一個預設時段收視每一收視節目類別的概率;
其中,在第i個所述預設時段里觀看收視節目類別為第j類節目的頻次記為count(時段=i,類型=j);
收視成員在時段下i觀看每一種收視節目類別的節目的概率為:
其中,T是收視節目類別的個數。
可選的,所述擬合獲得具有相同人口屬性的收視成員的收視習慣概率信息包括:
根據統計獲得的所述收視情況匯聚具有相同人口屬性的收視成員,在相同的預設時段收看所有收視節目類別的概率后,使用最大似然估計法擬合出對應的超分布參數;
其中,所述超分布參數包括狄利克雷Dirichlet分布,超參數分布的計算公式為:
其中,為計算獲得的所有收視成員收視各個收視節目類別的節目的平均概率;N為收視樣本信息中滿足一種人口屬性的收視成員總數,pk(類型=j,時段=i)為第k個收視成員在第i個預設時段收看收視節目類別為j的概率,T是收視節目類別的個數;
根據擬合出的超分布參數獲得具有相同人口屬性的收視成員的收視習慣概率信息;其中,收視習慣概率信息的計算公式包括:
其中,為Beta函數,pl表示收視成員在第i個預設時段觀看收視節目類別l的概率,l=1、2、3……T。
可選的,所述收視源信息包括以下任意組合:收視設備身份標識號ID、收視行為時間、收看的節目、收視節目類別。
可選的,所述根據統計的收視成員的收視情況及收視習慣概率信息對采集每一戶家庭的收視源信息進行分析包括:
對第二預設時長內采集的每一戶家庭的所述收視源信息,按照預設時段和收視節目類別統計每一戶家庭的待分析特征向量;其中,待分析特征向量V={v1×1,v1×2,…,vM×N},M表示預設時段的個數,N是收視節目類別的個數,該收視設備在第i個預設時段觀看第j個收視節目類別的頻次為向量V的第k維vk,k=(i-1)×N+j;
從收視樣本信息截取第二預設時長的收視信息,獲得所述收視樣本信息中每一戶家庭的樣本特征向量;其中,基于收視樣本信息計算的樣本特征向量可以記為V1、V2、……Vi……、VL;其中,L是收視樣本集合里的家庭總戶數;
對統計的每一戶家庭的待分析特征向量,分別與所述收視樣本信息中每一戶家庭的樣本特征向量進行相似度計算,將相似度最高的樣本特征向量對應的家庭的收視成員數作為該待分析特征向量對應的家庭的收視成員數;其中,進行相似度計算的計算公式為:
根據確定的所述收視成員數、及根據所述收視樣本信息統計的每一個收視成員的所述收視情況及所述收視習慣概率信息,對采集每一戶家庭的收視源信息進行分析,獲得每一戶家庭的收視源信息對應的收視成員構成和每一個收視成員的收視情況。
可選的,獲得每一戶家庭的收視源信息對應的收視成員構成和每一個收視成員的收視情況后,所述方法還包括:
對各收視源信息對應的家庭中收視在相同預設時段同時收視相同電視節目的用戶進行統計。
另一方面,本發明實施例還提供一種實現收視信息處理的裝置,包括:統計樣本單元、統計收視情況單元、擬合單元、采集單元、分析單元;其中,
統計樣本單元用于,以戶為單位統計預設數值戶家庭的收視樣本信息;
統計收視情況單元用于,根據統計的所述收視樣本信息統計每一個收視成員的收視情況;
擬合單元用于,根據統計獲得的收視情況擬合獲得具有相同人口屬性的收視成員的收視習慣概率信息;
采集單元用于,采集需要進行收視分析的每一戶家庭的收視源信息;
分析單元用于,根據統計的收視成員的收視情況及收視習慣概率信息對采集每一戶家庭的收視源信息進行分析,獲得每一戶家庭的收視源信息對應的收視成員構成和每一個收視成員的收視情況;
其中,所述收視樣本信息包括:第一預設時長內每一戶家庭中的每一個收視成員的人口屬性,及按照預設時段統計的每一個收視成員的收視信息。
可選的,所述預設時段包括:工作日中以第一預設時長劃分的第一時段和節假日時以第二預設時長劃分的第二時段,所述收視信息包括:
每一個第一時段中每一個收視成員的收視節目類別;
每一個第二時段中每一個收視成員的收視節目類別。
可選的,所述統計收視情況單元具體用于:
按照所述預設時段統計所述收視樣本信息中的每一個收視成員收看每一種收視節目類別的收視頻次,并根據統計的收視頻次計算每一個收視人員在每一個預設時段收視每一收視節目類別的概率;
其中,在第i個所述預設時段里觀看收視節目類別為第j類節目的頻次記為count(時段=i,類型=j);
收視成員在時段下i觀看每一種收視節目類別的節目的概率為:
其中,T是收視節目類別的個數。
可選的,所述擬合單元擬合獲得具有相同人口屬性的收視成員的收視習慣概率信息包括:
根據統計獲得的所述收視情況匯聚具有相同人口屬性的收視成員,在相同的預設時段收看所有收視節目類別的概率后,使用最大似然估計法擬合出對應的超分布參數;
其中,所述超分布參數包括狄利克雷Dirichlet分布,超參數分布的計算公式為:
其中,為計算獲得的所有收視成員收視各個收視節目類別的節目的平均概率;N為收視樣本信息中滿足一種人口屬性的收視成員總數,pk(類型=j,時段=i)為第k個收視成員在第i個預設時段收看收視節目類別為j的概率,T是收視節目類別的個數;
根據擬合出的超分布參數獲得具有相同人口屬性的收視成員的收視習慣概率信息;其中,收視習慣概率信息的計算公式包括:
其中,為Beta函數,pl表示收視成員在第i個預設時段觀看收視節目類別l的概率,l=1、2、3……T。
可選的,所述收視源信息包括以下任意組合:收視設備身份標識號ID、收視行為時間、收看的節目、收視節目類別。
可選的,所述分析單元具體用于,
對第二預設時長內采集的每一戶家庭的所述收視源信息,按照預設時段和收視節目類別統計每一戶家庭的待分析特征向量;其中,待分析特征向量V={v1×1,v1×2,…,vM×N},M表示預設時段的個數,N是收視節目類別的個數,該收視設備在第i個預設時段觀看第j個收視節目類別的頻次為向量V的第k維vk,k=(i-1)×N+j;
從收視樣本信息截取第二預設時長的收視信息,獲得所述收視樣本信息中每一戶家庭的樣本特征向量;其中,基于收視樣本信息計算的樣本特征向量可以記為V1、V2、……Vi……、VL;其中,L是收視樣本集合里的家庭總戶數;對統計的每一戶家庭的待分析特征向量,分別與所述收視樣本信息中每一戶家庭的樣本特征向量進行相似度計算,將相似度最高的樣本特征向量對應的家庭的收視成員數作為該待分析特征向量對應的家庭的收視成員數;其中,進行相似度計算的計算公式為:
根據確定的所述收視成員數、及根據所述收視樣本信息統計的每一個收視成員的所述收視情況及所述收視習慣概率信息,對采集每一戶家庭的收視源信息進行分析,獲得每一戶家庭的收視源信息對應的收視成員構成和每一個收視成員的收視情況。
可選的,所述分析單元還用于,獲得每一戶家庭的收視源信息對應的收視成員構成和每一個收視成員的收視情況后,對各收視源信息對應的家庭中收視在相同預設時段同時收視相同電視節目的用戶進行統計。
與相關技術相比,本申請技術方案包括:包括:以戶為單位統計預設數值戶家庭的收視樣本信息;根據統計的所述收視樣本信息統計每一個收視成員的收視情況;根據統計獲得的收視情況擬合獲得具有相同人口屬性的收視成員的收視習慣概率信息;采集需要進行收視分析的每一戶家庭的收視源信息;根據統計的收視成員的收視情況及收視習慣概率信息對采集每一戶家庭的收視源信息進行分析,獲得每一戶家庭的收視源信息對應的收視成員構成和每一個收視成員的收視情況。本發明實施例在克服成本、隱私等問題的前提下,實現了對收視成員的信息進行有效分析。
在閱讀并理解了附圖和詳細描述后,可以明白其他方面。
附圖說明
圖1為本發明實施例實現收視信息處理的方法的流程圖;
圖2為本發明實施例實現收視信息處理的裝置的結構框圖。
具體實施方式
為使本發明的目的、技術方案和優點更加清楚明白,下文中將結合附圖對本發明的實施例進行詳細說明。需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互任意組合。
圖1為本發明實施例實現收視信息處理的方法的流程圖,如圖1所示,包括:
步驟100、以戶為單位統計預設數值戶家庭的收視樣本信息;
本發明實施例,收視樣本信息可以包括:第一預設時長內每一戶家庭中的每一個收視成員的人口屬性,及按照預設時段統計的每一個收視成員的收視信息;這里,人口屬性可以包括性別、年齡、收入等、其中,年齡可以根據年齡區間進行區分,例如、每5歲設置一個區間,收入可以按照區間值進行設定,例如、參考納稅的分段標準設置區分不同的收入人群。
需要說明的是,本發明預設數值可以根據收視信息處理的精度要求及統計收視樣本信息的成本進行設置,精度要求越高,成本也就越高;因此根據精度及成本,本領域技術人員可以確定預設數值的取值大小。
可選的,本發明實施例預設時段包括:工作日中以第一預設時長劃分的第一時段和節假日時以第二預設時長劃分的第二時段,收視信息包括:
每一個第一時段中每一個收視成員的收視節目類別;
每一個第二時段中每一個收視成員的收視節目類別。
需要說明的是,本發明實施例第一預設時長一般可以設置為1個小時,也可以根據收看節目的時長進行設定;例如、45分鐘,或90分鐘;第二預設時長可以和第一預設時長相同,也可以根據第一預設時長進行設置,例如、設置第二預設時長大于第一預設時長。本發明實施例還可以根據收視信息處理的精度要求,可以對預設時段進行調整,例如、為了獲得更高的精度,可以將節假日區分為一般節假日和較長節假日,每一個工作日可以區分為活動時間和休息時間,每一個節假日可以區分為室外活動時間和室內活動時間;活動時間的第一預設時長可以根據收看節目的時長進行設定,休息時間可以長于第一預設時長。基于上述定義,收視信息可以是形如“工作日時,一戶家庭中的一個收視成員A在晚上7點-8點會觀看新聞類節目”的信息;如果將工作日和節假日均按照1小時作為預設時段,則本發明實施例可以劃分出包括工作日24個時段和節假日24個時段在內的48個預設時段。
另外,本發明實施例收視節目類別包括體育、軍事、女性、新聞等;收視節目類別可以根據實際分類設置進行調整。對于每一戶家庭里的每一個收視成員,將其在第i個預設時段里觀看收視節目類別為第j類節目的頻次記為count(時段=i,類型=j)。本發明實施例還可以將未觀看節目的收視情況記錄為:count(時段=i,類型=0),記錄類型=0也可以通過其他種類的信息進行表示,例如、類型=X、或類型=未觀看。
步驟101、根據統計的收視樣本信息統計每一個收視成員的收視情況;
可選的,本發明實施例統計收視樣本信息中的每一個收視成員的收視情況包括:
按照預設時段統計收視樣本信息中的每一個收視成員收看每一種收視節目類別的收視頻次,并根據統計的收視頻次計算每一個收視人員在每一個預設時段收視每一收視節目類別的概率。
根據調研數據,本發明實施例可以計算出收視成員在時段下i觀看各種類節目的概率:
其中,計算公式中:類型為收視節目類別的縮寫,時段為預設時段的縮寫,T是收視節目類別的個數,所有收視節目類別的概率組成了該收視成員在一個預設時段的偏好收視節目類別的多項式分布。
步驟102、根據統計獲得的收視情況擬合獲得具有相同人口屬性的收視成員的收視習慣概率信息;
可選的,本發明實施例,擬合獲得具有相同人口屬性的收視成員的收視習慣概率信息包括:
根據統計獲得的收視情況匯聚具有相同人口屬性的收視成員,在相同的預設時段收看所有收視節目類別的概率后,使用最大似然估計法擬合出對應的超分布參數;
可選的,本發明實施例超分布參數為狄利克雷(Dirichlet)分布,在最大似然估計方法可求出該Dirichlet分布對應第j個類型的參數αj。超參數分布的計算公式為:
其中,為計算獲得的所有收視成員收視各個收視節目類別的節目的平均概率;N為收視樣本信息中滿足一種人口屬性的收視成員總數,pk(類型=j,時段=i)為第k個收視成員在第i個預設時段收看收視節目類別為j的概率,T是收視節目類別的個數;
a為配置參數,默認a=1。
需要說明的是,對于一個收視成員在一個預設時段的偏好收視節目類別的多項式分布應該服從Dirichlet分布;
根據擬合出的超分布參數獲得具有相同人口屬性的收視成員的收視習慣概率信息。
需要說明的是,對于每一種人口屬性的收視用戶,在時段i偏好收視節目類別的多項式分布應該服從Dirichlet分布。記收視成員在第i個預設時段觀看各收視節目類別的概率的分布為pl,則一個分布(p1,p2,…,pT)出現的概率等于其在Dirichlet分布上的密度,即收視習慣概率信息的計算公式包括:
其中,為Beta函數,pl表示收視成員在第i個預設時段觀看收視節目類別l的概率,l=1、2、3……T。
步驟103、采集需要進行收視分析的每一戶家庭的收視源信息;
可選的,本發明實施例,收視源信息包括以下任意組合:收視設備身份標識號(ID)、收視行為時間、收看的節目、收視節目類別。
需要說明的是,采集收視源信息的方法可以是本領域技術人員的慣用技術手段,例如、在每一戶家庭的收視設備上設置采集裝置,通過采集裝置獲得收視源信息,由于收視設備(包括機頂盒和智能電視)具備雙向交互功能,因此在對用戶進行操作時,可以對收視源信息包含的內容進行解析和收集;采集的收視源信息可以以日志的方式進行存儲。另外,收視設備ID可以包括:機頂盒設備ID、網絡電視賬戶ID、物理地址(MAC)地址等,這里信息可以區分不同的家庭;收看的節目、收視節目類別包括收看的節目的具體名稱和節目所屬類型。收視行為時間可以包括收看每一個節目的時間。
步驟104、根據統計的收視成員的收視情況及收視習慣概率信息對采集每一戶家庭的收視源信息進行分析,獲得每一戶家庭的收視源信息對應的收視成員構成和每一個收視成員的收視情況;
可選的,本發明實施例根據統計的收視成員的收視情況及收視習慣概率信息對采集每一戶家庭的收視源信息進行分析包括:
對第二預設時長內采集的每一戶家庭的收視源信息,按照預設時段和收視節目類別統計每一戶家庭的待分析特征向量;
這里,以第二預設時長(例如一個月)采集的每一戶家庭的收視源信息,按照預設時段和收視節目類別統計,得到收視源信息對應的收視設備(通過收視設備ID區分)在每一個預設時段觀看各收視節目類別節目的頻次,組成表示該戶家庭的待分析特征向量,待分析特征向量可以通過V={v1×1,v1×2,…,vM×N}。其中,M表示預設時段的個數,N是收視節目類別的個數,該收視設備在第i個預設時段觀看第j個收視節目類別的行為頻次即為向量V的第k維vk,這里k=(i-1)×N+j。
從收視樣本信息截取第二預設時長的收視信息,獲得收視樣本信息中每一戶家庭的樣本特征向量;這里,基于收視樣本信息計算的樣本特征向量可以記為V1、V2、……Vi……、VL;其中,L是收視樣本集合里的家庭總戶數;
對統計的每一戶家庭的待分析特征向量,分別與收視樣本信息中每一戶家庭的樣本特征向量進行相似度計算,將相似度最高的樣本特征向量對應的家庭的收視成員數作為該待分析特征向量對應的家庭的收視成員數;
可選的,本發明實施例可以通過下式進行相似度計算:
這里,Vi表示基于收視樣本信息計算的樣本特征向量。
需要說明的是,本發明實施例還可以通過預先存儲的調研數據直接獲得收視成員數。例如、在按照機頂盒或智能電視時,直接統計獲得,由于每一戶家庭的收視成員數一般比較穩定,無需通過統計更新,維護成本低。
根據確定的收視成員數、及根據收視樣本信息統計的每一個收視成員的收視情況及收視習慣概率信息,對采集每一戶家庭的收視源信息進行分析,獲得每一戶家庭的收視源信息對應的收視成員構成和每一個收視成員的收視情況。
對于一個已獲知收視成員數的收視設備(與一戶家庭的收視源信息對應),通過根據收視樣本信息統計的每一個收視成員的收視情況及收視習慣概率信息可以實現該戶家庭收視成員的人口屬性,及在收視源信息對應的時間段內各個收視成員的收視情況;
如果其中一戶家庭的收視源信息的一個收視成員符合人口屬性A,例如人口屬性A為:女性25到29歲、收入3000-5000,那么該收視成員的行為模式同時滿足:
(1)在收視樣本信息統計獲得的屬性A的收視習慣概率信息;
(2)可以解釋該收視源信息中記錄的收視行為。
具體地,對于收視成員數為Q的收視設備ID(記為F),記收視成員分別為P1、P2、…、PQ,對應的人口屬性為A1、A2、…、AQ。根據收視樣本信息分析,可以得到P1在一個預設時段ti觀看不同類型的節目的多項式分布(記為D(P1,ti))應服從人口屬性A1在預設時段ti對應的Dirichlet分布(記為Dirichlet(A1,ti))。對于收視源信息F的發生在預設時段ti的觀看類型j的收視行為a,P1的收視習慣概率為該收視成員的收視節目類別分布在人口屬性對應的Dirichlet分布下的收視習慣概率乘以該收視行為被這個收視節目類別分布產生的概率,即P(a|P1)=P(D(P1,ti)|Dirichlet(A1,ti))*P(j|D(P1,ti));將一個收視源信息對應的所有收視成員的收視習慣概率匯總,那么這一次收視行為a被Q個收視成員里的至少一個產生的概率等于1-Q個收視成員都不產生的概率,即
將D(P1,ti)作為模型中待估計的參數,通過概率統計學里的最大似然法即可計算出:滿足情況下的D(P1,ti),這個參數表示的分布即為該設備ID下每個具體用戶在不同時段觀看不同收視節目類別的多項式分布。
通過遍歷不同人口屬性組成的所有組合,可以得到各個人口屬性組合下使得的的D(P1,ti),即:在不同人口屬性的組合下,每個人口屬性組合產生收視設備ID的日志的概率。而使得這個概率最大化的人口屬性組合就是該收視設備ID對應的最可能的人口屬性組合。而這個組合下的每個具體收視成員在不同預設時段觀看不同收視節目類別的節目的多項式分布,就可以作為各個收視成員的具體收視習慣概率。
獲得每一戶家庭的收視源信息對應的收視成員構成和每一個收視成員的收視情況后,本發明實施例方法還包括:
對各收視源信息對應的家庭中收視在相同預設時段同時收視相同電視節目的用戶進行統計。
對于一個待分析戶的收視設備ID在時段i觀看收視節目類別j的行為,此概率可以基于收視樣本信息的統計分析,例如:
節目的總觀看人次等于其中,N是采集到的收視行為的日志個數,Li是第i次收視行為對應的收視設備ID的收視成員數,P(i,j)是其中第j個收視成員參與該次收視行為的概率。又例如:
節目的總女性觀看人次等于其中,指示函數在第j個用戶是女性時取值為1,否則取值為0。
本發明實施例在克服成本、隱私等問題的前提下,實現了對收視成員的信息進行有效分析。
圖2為本發明實施例實現收視信息處理的裝置的結構框圖,如圖2所示,包括:統計樣本單元、統計收視情況單元、擬合單元、采集單元、分析單元;其中,
統計樣本單元用于,以戶為單位統計預設數值戶家庭的收視樣本信息;
統計收視情況單元用于,根據統計的收視樣本信息統計每一個收視成員的收視情況;
擬合單元用于,根據統計獲得的收視情況擬合獲得具有相同人口屬性的收視成員的收視習慣概率信息;
采集單元用于,采集需要進行收視分析的每一戶家庭的收視源信息;
分析單元用于,根據統計的收視成員的收視情況及收視習慣概率信息對采集每一戶家庭的收視源信息進行分析,獲得每一戶家庭的收視源信息對應的收視成員構成和每一個收視成員的收視情況;
其中,收視樣本信息包括:第一預設時長內每一戶家庭中的每一個收視成員的人口屬性,及按照預設時段統計的每一個收視成員的收視信息。
可選的,本發明實施例預設時段包括:工作日中以第一預設時長劃分的第一時段和節假日時以第二預設時長劃分的第二時段,收視信息包括:
每一個第一時段中每一個收視成員的收視節目類別;
每一個第二時段中每一個收視成員的收視節目類別。
可選的,本發明實施例,統計收視情況單元具體用于:
按照預設時段統計收視樣本信息中的每一個收視成員收看每一種收視節目類別的收視頻次,并根據統計的收視頻次計算每一個收視人員在每一個預設時段收視每一收視節目類別的概率;
其中,在第i個預設時段里觀看收視節目類別為第j類節目的頻次記為count(時段=i,類型=j);
收視成員在時段下i觀看每一種收視節目類別的節目的概率為:
其中,T是收視節目類別的個數。
可選的,本發明實施例擬合單元擬合獲得具有相同人口屬性的收視成員的收視習慣概率信息包括:
根據統計獲得的收視情況匯聚具有相同人口屬性的收視成員,在相同的預設時段收看所有收視節目類別的概率后,使用最大似然估計法擬合出對應的超分布參數;
其中,所述超分布參數包括狄利克雷Dirichlet分布,超參數分布的計算公式為:
其中,為計算獲得的所有收視成員收視各個收視節目類別的節目的平均概率;N為收視樣本信息中滿足一種人口屬性的收視成員總數,pk(類型=j,時段=i)為第k個收視成員在第i個預設時段收看收視節目類別為j的概率,T是收視節目類別的個數;
根據擬合出的超分布參數獲得具有相同人口屬性的收視成員的收視習慣概率信息;其中,收視習慣概率信息的計算公式包括:
其中,為Beta函數,pl表示收視成員在第i個預設時段觀看收視節目類別l的概率,l=1、2、3……T。
可選的,本發明實施例收視源信息包括以下任意組合:收視設備身份標識號ID、收視行為時間、收看的節目、收視節目類別。
可選的,本發明實施例,分析單元具體用于,
對第二預設時長內采集的每一戶家庭的收視源信息,按照預設時段和收視節目類別統計每一戶家庭的待分析特征向量;其中,待分析特征向量V={v1×1,v1×2,…,vM×N},M表示預設時段的個數,N是收視節目類別的個數,該收視設備在第i個預設時段觀看第j個收視節目類別的頻次為向量V的第k維vk,k=(i-1)×N+j;
從收視樣本信息截取第二預設時長的收視信息,獲得收視樣本信息中每一戶家庭的樣本特征向量;其中,基于收視樣本信息計算的樣本特征向量可以記為V1、V2、……Vi……、VL;其中,L是收視樣本集合里的家庭總戶數;
對統計的每一戶家庭的待分析特征向量,分別與收視樣本信息中每一戶家庭的樣本特征向量進行相似度計算,將相似度最高的樣本特征向量對應的家庭的收視成員數作為該待分析特征向量對應的家庭的收視成員數;其中,進行相似度計算的計算公式為:
根據確定的收視成員數、及根據收視樣本信息統計的每一個收視成員的收視情況及收視習慣概率信息,對采集每一戶家庭的收視源信息進行分析,獲得每一戶家庭的收視源信息對應的收視成員構成和每一個收視成員的收視情況。
可選的,本發明實施例分析單元還用于,獲得每一戶家庭的收視源信息對應的收視成員構成和每一個收視成員的收視情況后,對各收視源信息對應的家庭中收視在相同預設時段同時收視相同電視節目的用戶進行統計。
以下通過具體應用示例對本發明進行清楚詳細的說明,應用示例僅用于陳述本發明,并不用于限定本發明的保護范圍。
應用示例
本應用示例按照收視信息處理過程對收視分析進行整理,包括:
(1)收視樣本信息
通過對選擇的家庭進行調研獲得包括收視成員組成、人口屬性和收視信息的收視樣本信息,表1為收視樣本信息的示例:
從表中可以得到對應戶1收視成員1,其人口屬性是:男性30到34歲,在工作日晚上8-9點,他收看體育類節目,因此平時晚上8點的他的收視行為分布是{體育類:1},類似的可以得到:
戶1人員1在工作日晚上9-10點收看行為分布是{金融:1};
戶1人員2在工作日晚上8-9點收看行為分布是{古裝劇:0.5,情感劇:0.5};
戶2人員1在工作日晚上8-9點收看行為分布是{體育:0.5,實事:0.5};
戶2人員1在工作日晚上9-10點收看行為分布是{不看;1};
戶2人員1在工作日晚上10-11點收看行為分布是{古裝劇:1};
表1
進一步的,將所有相同人口屬性的收視成員在同一個預設時段的收視行為分布進行整合。在上例中,男性30-34歲對應有兩個收視成員:戶1收視成員1和戶2收視成員1。那么,男性30-34歲在工作日晚上8-9點的Dirichlet分布的參數為這兩個收視成員的收視習慣概率平均后加1,即體育類為:(0.5+1)/2+1=1.75,實事類為:(0.5+0)/2=1.25。類似的,還可以得到:
男性30-34歲在工作日晚上9-10點的Dirichlet分布的參數為{金融:1.5,不看:1.5};
男性30-34歲在工作日晚上10-11點的Dirichlet分布的參數為{古裝劇:1.5,不看:1.5};
實際中需要使用男性30-34歲的所有樣本來得到更合理的分布,而這些分布就代表著這個人口屬性的收視成員的一個平均收視習慣。
(2)采集收視源信息;
本發明實施例收視源信息的采集可以理解為日志采集,以一個家庭的收視源信息為例,表2為某一個收視設備ID的日志:
表2
(3)收視源信息對應的家庭的收視習慣分析
通過調研或相似度計算來得到每個收視設備ID的收視成員數。這里,假設已經得到收視設備ID1的的收視成員總數為2。且收視成員1的人口屬性為男性30-34歲,收視成員2的人口屬性為女性25-29歲。那么這兩個收視成員在不同預設時段的各個收視節目類別的收視習慣概率即為需要估計的參數。
將第一個收視成員信息在平時晚上8-9點的收看各個收視節目類別的概率記為p(類別),本例中男性30-34在工作日晚上8-9點的Dirichlet分布為{體育類:0.75,實事類:0.25},所以第一個收視成員的特定分布的概率為:
例如,如果第一個收視成員的多項式分布為{體育類:0.5,實事類:0.25,不看0.25},那對應的多項式分布的概率是:
另一方面,第一條日志的收視源信息為工作日晚上8-9點觀看體育類節目,那么他被第一個收視成員(男性30-34歲)生成多項式分布的概率為0.5。因此,在這種情況下第一個收視成員能產生這條日志的概率為:
同樣的,可得到日志1被第二個收視成員生成的概率,從而得到日志1至少一個收視成員生成的概率p(日志1)。然后,將所有日志的概率相乘得到,即最后的總概率Πp(日志1)。然后,通過概率統計中的最大似然法和梯度下降法,找出使得這個總概率最大的分布。進行運算后,可以得到的第一個收視成員在工作日晚上8點的p(體育)=0.7,p(實事)=0.25,p(情感劇)=0.05。
然后遍歷人口屬性,這里,如果第一個收視成員的人口屬性為男性30-34歲,第二個收視成員的人口屬性為女性30-34歲,計算得到一個最大的總概率,本發明實施例假設計算出來為0.331;如果第一個收視成員的人口屬性為男性25-29歲,第二個收視成員的人口屬性為女性25-29歲,計算得到一個最大的總概率,這里設計算出來為0.115;如果第一個收視成員的人口屬性為男性25-29歲,第二個人的人口屬性為女性30-34歲,計算得到一個最大的總概率,這里設計算出來為0.023;……
從這些人口屬性組合里面,取出總概率最大的那個組合,作為實際的家庭組合。在上面設的結果中,應該選擇男性30-34歲和女性25-29歲這個組合。得到這個組合后,這個組合中的概率就被認為是每個收視成員在每個預設時段的看每個收視節目類別的概率,例如、第一個收視成員在工作日晚上8-9點觀看體育類節目的概率=0.7。
(4)實時日志分析
在上一步中得到了家庭組成中第一個收視成員的人口屬性為男性30-34,第二個收視成員的人口屬性為女性25-29。設計算出來的概率為:第一個收視成員在工作日晚上8點的分布為p(體育)=0.7,p(實事)=0.2,p(情感劇)=0.1,第二個人在平時晚上8點的分布為p(實事)=0.2,p(古裝劇)=0.3,p(情感劇)=0.5。
那么對于上例中的日志1,即平時8-9點的體育觀看行為,這次觀看行為的4種可能為1和2都觀看、只有1觀看、只有2觀看、1和2都不觀看。注意實際中第4種情況不會發生,因為這次收視行為已經發生了,所以一定有人觀看。計算可得前三種情況的概率分別為0.7×0=0,0.7×(1-0)=0.7,(1-0.7)×0=0,因此本次節目一定是第一個收視成員自己觀看。
對于上例中的日志4,即平時8-9點的情感劇觀看行為,4種情況的概率計算為0.1*0.5,0.1*(1-0.5),(1-0.1)*0.5,(1-0.1)*(1-0.5),去掉最后一種情況后,得到3種情況的概率分別是0.05,0.05,0.45,因此可認為該次觀看有3種可能;其中,
兩個收視成員一起觀看的概率為
第一個收視成員自己觀看的概率為
第二個收視成員自己觀看的概率為
根據這個結果,即可以得到每個只有收視設備ID的日志中不同收視成員的收視情況,從而實現從收視戶到收視人的轉化,并進行各種后續的數據統計。
本領域普通技術人員可以理解上述方法中的全部或部分步驟可通過程序來指令相關硬件(例如處理器)完成,所述程序可以存儲于計算機可讀存儲介質中,如只讀存儲器、磁盤或光盤等。可選地,上述實施例的全部或部分步驟也可以使用一個或多個集成電路來實現。相應地,上述實施例中的每個模塊/單元可以采用硬件的形式實現,例如通過集成電路來實現其相應功能,也可以采用軟件功能模塊的形式實現,例如通過處理器執行存儲于存儲器中的程序/指令來實現其相應功能。本發明不限制于任何特定形式的硬件和軟件的結合。
雖然本發明所揭露的實施方式如上,但所述的內容僅為便于理解本發明而采用的實施方式,并非用以限定本發明。任何本發明所屬領域內的技術人員,在不脫離本發明所揭露的精神和范圍的前提下,可以在實施的形式及細節上進行任何的修改與變化,但本發明的專利保護范圍,仍須以所附的權利要求書所界定的范圍為準。