基于譜聚類集成的廣播電視用戶分群系統及方法
【技術領域】
[0001] 本發明涉及廣播電視領域,更為具體地,涉及一種基于譜聚類集成的廣播電視用 戶分群系統及方法。
【背景技術】
[0002] 隨著廣播電視行業的發展以及電視資源的不斷豐富,用戶在收視過程中形成了不 同的節目類型偏好。通過對用戶收視行為進行分析,對用戶進行分群,找到具有不同收視習 慣的用戶群體,進行個性節目推薦,成為了廣電行業研究焦點。
[0003] 聚類分析,就是把對象按照性質上的親疏程度分成多個類或簇,使得類或簇內的 數據具有較高相似度,類或簇間的數據具有較高的相異程度,目前聚類分析已成功應用到 信息檢索、數據挖掘等多個領域。聚類集成利用集成學習技術,通過學習合并數據集的多個 聚類結果,得到一個新的聚類結果。與單一聚類算法相比,聚類集成通過處理分布式數據 源,不僅可以提高聚類結果的準確性和魯棒性,而且還可以檢測和處理孤立點以及噪音情 況。
[0004] 在聚類集成算法中,傳統一致性函數是通過將聚類集體中的多個聚類結果進行結 合(或稱為集成),以生成一個統一的聚類結果。傳統聚類集成算法主要采用基于互聯合矩 陣、基于圖形劃分或基于最大似然估計的一致性函數對聚類成員進行匹配,具有很大的局 限性。采用基于傳統一致性函數的聚類集成方法對用戶進行分群,并不能得到很好的效果。
【發明內容】
[0005] 鑒于上述問題,本發明的目的是提供一種能夠對廣播電視用戶進行準確分群的基 于譜聚類集成的廣播電視用戶分群方法及系統。
[0006] 根據本發明的一個方面,提供一種基于譜聚類的集成廣播電視用戶分群系統,包 括:輸入單元,用于輸入確定廣播電視用戶收視偏好所需的參數,其中,所述參數至少包括: 節目類型、屬性特征指標、空間區域、時間區域、簇個數和組個數,其中,所述屬性特征指標 是與收視時長成正比的一個或多個廣播電視參數;節目數據庫,用于將各節目類型的節目 播放信息存儲為數據源或者從網站上采集各節目的節目標簽,將各節目的節目標簽與各節 目的播放信息存儲為數據源,其中,節目標簽是對電視節目內容的多角度概括;收視數據 庫,通過用戶機頂盒的收視信號采集用戶對各節目類型的節目的收看信息,并存儲為數據 源;收視偏好空間構建單元,根據輸入單元輸入的屬性特征指標,從節目數據庫和收視數據 庫調取計算節目類型或節目標簽的屬性特征指標所需的數據源,并進行計算得到各用戶對 各節目類型或各節目標簽的屬性特征指標數據,構成收視偏好矩陣,即,收視偏好空間;第 一分群單元,基于收視偏好空間對廣播電視用戶進行多次分群,包括第一相似度空間構建 單元,利用高斯函數構建基于收視偏好矩陣的相似度矩陣,即相似度空間;第一特征向量空 間構建單元,構建相似度矩陣的對角矩陣,將對角矩陣進行拉普拉斯變換,得到前k個最大 的特征值對應的特征向量構成特征向量空間,其中,k為簇個數,為自然數,同時也是特征向 量空間的列數;第一譜聚類分群單元,將特征向量空間中每一行作為一個數據點,每一次采 用k個數據點作為k個簇的初始聚類中心對廣播電視用戶進行分群,直到特征向量空間中 每一個數據點均作為初始聚類中心進行分群,多次分群結束,多次分群結果構成分群集合, 其中,每一次分群結果稱為一個譜聚類成員,每一次分群結果形成k個簇;匹配單元,采用 基于譜聚類的一致性函數對第一分群單元形成的分群集合中的簇進行共識匹配,找到不同 簇之間的對應關系,構建簇關系圖;第二分群單元,將匹配單元形成的簇關系圖轉換為簇關 系度矩陣,其作為相似度矩陣,采用譜聚類方法對簇進行分組;集成單元,集成第一分群單 元和第二分群單元的分群結果,將數據點在不同簇中出現次數最多的簇所在的組作為該數 據點最終所在組,從而確定每一組用戶的收視偏好。
[0007] 根據本發明的另一個方面,提供一種基于譜聚類集成的廣播電視用戶分群方法, 包括:通過輸入單元輸入確定廣播電視用戶收視偏好所需的參數,其中,所述參數至少包 括:節目類型、屬性特征指標、空間區域、時間區域、簇個數和組個數;構建收視偏好空間, 具體地,根據輸入單元輸入的屬性特征指標,分別從節目數據庫和收視數據庫調取上述時 間區域和空間區域范圍內計算各用戶對節目類型的屬性特征指標數據所需的數據源,并計 算得到各用戶對各節目類型或各節目標簽的屬性特征指標數據,組合形成收視偏好矩陣; 基于收視偏好空間對廣播電視用戶進行多次分群,具體地,采用高斯函數構建基于收視偏 好矩陣的相似度矩陣,構建相似度矩陣的對角矩陣,將對角矩陣進行拉普拉斯變換,得到前 k個最大的特征值對應的特征向量構成特征向量空間,其中,k為簇個數,為自然數,也是特 征向量空間中的列數,將特征向量空間中每一行作為一個數據點,每一行的元素作為數據 點,每一次采用k個數據點作為k個簇的初始聚類中心對廣播電視用戶進行分群,直到特征 向量空間中每一個數據點均作為初始聚類中心進行分群,多次分群結束,多次分群結果組 成分群集合,其中,每一次分群結果稱為一個譜聚類成員,每一次分群結果形成k個簇;構 建簇關系圖,具體地,采用基于譜聚類的一致性函數對上述分群集合中的簇進行共識匹配, 找到不同簇之間的對應關系,構建簇關系圖;基于簇關系圖采用譜聚類算法對不同分群結 果中的簇進行分組,具體地,將簇關系圖轉換為簇關系度矩陣,其作為相似度矩陣,采用譜 聚類方法對簇進行分組;集成基于收視偏好空間對廣播電視用戶進行多次分群和基于簇關 系圖對簇進行分組的分群結果,將數據點在不同簇中出現次數最多的簇所在的組作為該數 據點最終所在組,從而確定每一組用戶的收視偏好。
[0008] 本發明所述基于譜聚類集成的廣播電視用戶分群系統及方法通過構建節目類型 或節目標簽的收視偏好空間,基于所述收視偏好空間采用譜聚類方法將廣播電視用戶分成 多個簇,根據多個簇之間的關系構建簇關系圖,基于簇關系圖采用譜聚類方法再對簇進行 分組,最后集成用戶在不同簇中出現的次數作為其所屬組,對廣播電視用戶進行了多次分 群,提高了分群的準確性,并且將基于譜聚類的一致性函數應用到廣播電視領域,提高了分 群的集成性,可以產生更加準確的聚類集成效果。
【附圖說明】
[0009] 通過參考以下結合附圖的說明及權利要求書的內容,并且隨著對本發明的更全面 理解,本發明的其它目的及結果將更加明白及易于理解。在附圖中:
[0010] 圖1是本發明基于譜聚類集成的廣播電視用戶分群系統;
[0011] 圖2是現有技術電視節目分類體系的示意圖;
[0012] 圖3是本發明節目標簽的示意圖;
[0013] 圖4是本發明基于譜聚類集成的廣播電視用戶分群方法的流程圖;
[0014] 圖5是本發明構建收視偏好空間一個實施例的流程圖;
[0015] 圖6是本發明構建收視偏好空間另一個實施例的流程圖;
[0016] 圖7是本發明基于收視偏好空間對廣播電視用戶進行多次分群的一個實施例的 流程圖;
[0017] 圖8是本發明基于收視偏好空間對廣播電視用戶進行多次分群的另一個實施例 的流程圖;
[0018] 圖9是本發明采用k-means算法基于特征向量歸一化矩陣對廣播電視用戶進行多 次分群的一個實施例的流程圖;
[0019] 圖10是本發明采用k-means算法基于特征向量歸一化矩陣對廣播電視用戶進行 多次分群的另一個實施例的流程圖;
[0020] 圖11是本發明對基于收視偏好空間對廣播電視用戶分群形成分群集合構建簇關 系圖的流程圖;
[0021] 圖12是本發明族關系圖的不意圖;
[0022] 圖13是本發明基于簇關系圖采用譜聚類算法對不同分群結果中的簇進行分組的 流程圖;
[0023] 圖14是本發明采用k-means算法基于特征向量歸一化矩陣對簇進行分組的流程 圖;
[0024] 圖15是本發明采用聚類方法對簇進行分組的示意圖。
[0025] 在所有附圖中相同的標號指示相似或相應的特征或功能。
【具體實施方式】
[0026] 在下面的描述中,出于說明的目的,為了提供對一個或多個實施例的全面理解,闡 述了許多具體細節。然而,很明顯,也可以在沒有這些具體細節的情況下實現這些實施例。 以下將結合附圖對本發明的具體實施例進行詳細描述。
[0027] 以下將結合附圖對本發明的具體實施例進行詳細描述。
[0028] 圖1是本發明基于譜聚類集成的廣播電視用戶分群系統,如圖1所示,所述廣播電 視用戶分群系統,包括:
[0029] 輸入單元110,用于輸入確定廣播電視用戶收視偏好所需的各種參數,其中,所述 參數至少包括:節目類型、屬性特征指標、空間區域、時間區域、簇個數和組個數,其中,所述 屬性特征指標是與收視時長成正比的一個或多個廣播電視參數,輸入單元110可以是觸摸 屏、鍵盤、手寫板、鼠標等,其中,所述節目類型包括節目分類體系(圖2示出)中的一種或 者多種類型,例如,可以為電視劇、電影、新聞、綜藝、廣告中的一種或多種;所述屬性特征指 標是與收視時長成正比的一個或多個廣播電視參數,例如,收視時長、收視占比、忠誠指數 等,其中,收視占比是指某類節目單位播出時間內,用戶的收視時長,反映了用戶對節目類 型的偏愛程度,忠誠指數是指用戶對某類節目單位視頻次內的收視時長,反映了用戶對該 節目的忠誠程度;所述空間區域可以是省、市、區等,例如北京市;所述時間區域為選定各 節目類型的計算時間段,例如,時間區域為2003年1月1日至2014年1月1日;
[0030] 節目數據庫120,用于將各節目類型的節目播放信息存儲為數據源或者從網站上 采集各節目的節目標簽,將各節目的節目標簽與各節目的播放信息存儲為數據源,其中,節 目標簽是對電視節目內容的多角度概括,每一個節目標簽體現電視節目一個方面的特性, 如圖3所示,節目標簽包括節目類型標簽、年代標簽、參加人員標簽等,其中節目類型標簽 可以是新聞類、電視劇類、動漫類等;年代標簽可以是古代、現代、抗日年代等;參加人員標 簽可以是演員、導演、編劇等;
[0031] 收視數據庫130,通過用戶機頂盒的收視信號采集用戶對各節目類型的節目的收 看信息,并存儲為數據源;
[0032] 收視偏好空間構建單元140,根據輸入單元110輸入的屬性特征指標,從節目數據 庫120和收視數據庫130調取計算節目類型或節目標簽的屬性特征指標所需的數據源,并 進行計算得到各用戶對各節目類型或各節目標簽的屬性特征指標數據,組合形成收視偏好 矩陣,即,收視偏好空間,具體地,將在圖5至6中進行詳細描述;
[0033] 第一分群單元150,基于收視偏好空間構建單元140構建的收視偏好空間對廣播 電視用戶進行多次分群,包括:
[0034] 第一相似度空間構建單元151,利用高斯函數構建基于收視偏好矩陣的相似度矩 陣,即相似度空間;
[0035] 第一特征向量空間構建單元152,構建相似度矩陣的對角矩陣,將對角矩陣進行拉 普拉斯變換,得到前K個最大的特征值對應的特征向量構成特征向量空間,其中,k為簇個 數,為自然數,同時也是特征向量空間的列數;
[0036] 第一譜聚類單元153,將特征向量空間中每一行作為一個數據點,每一次采用k個 數據點作為k個簇的初始聚類中心對