一種基于共現的廣告標簽聚類的方法及系統的制作方法
【專利摘要】本發明公開一種基于共現的廣告標簽聚類的方法及系統,該方法包括:獲取用戶標簽信息及廣告的標簽信息;根據所述用戶標簽信息及廣告的標簽信息計算出對應的用戶標簽信息與廣告標簽信息的相似度;根據所述相似度獲取所述用戶與所述廣告的標簽詞共現語料,并將所獲取的各個標簽詞共現語料構建成標簽詞共現語料對;根據標簽詞在語料中出現的次數計算出各個共現語料對中標簽詞的置信度;判斷到所述置信度滿足預先設定閾值時,結合已有標簽詞簇信息將所述標簽詞共現語料對中的標簽詞進行標簽詞簇的聚類。本發明節約了廣告標簽聚類的數據計算、處理過程中的計算資源。
【專利說明】
一種基于共現的廣告標簽聚類的方法及系統
技術領域
[0001]本發明涉及廣告數據處理的技術領域,涉及一種基于共現的廣告標簽聚類的方法及系統。
【背景技術】
[0002]隨著互聯網及大數據處理技術的不斷發展,商品的廣告從原始的在商品包裝、廣告牌等實體的廣告形式慢慢發展為媒體等虛擬的廣告形式。而現今,在網絡媒體上發布廣告進行產品的展現已經成為商家的常用手段,通過網絡媒體展示產品的方式能取得比較好的產品營銷效果。再者,現在各種技術都追求智能化及自動化功能,更能滿足用戶在實際生活中的需求,提高了用戶在實際中的實際體驗。
[0003]現在的廣告投放又提出基于用戶興趣進行推送投放的形式,根據用戶的歷史觀看或點擊數據,總結出用戶的興趣愛好或關注的領域,再向用戶進行相關或相近內容的廣告推薦,如此能夠增加投放廣告的用戶點擊率,從而增強商業宣傳的營銷效果,對于廣告投放平臺來講也會增加廣告投放的收益,這種廣告的投放形式被稱為廣告的個性化投放。在廣告的個性化投放過程中,使用廣告標簽給所投放的廣告進行記錄或者標記是識別廣告屬性,并按此獲取相應的廣告進行投放的重要步驟。而在此過程中,按照廣告的內容將廣告進行聚類處理,將內容相關聯或相近的廣告歸為同一簇方便體現出各個廣告之間的相似性,也就方便了后續對用戶進行興趣廣告推送投放。
[0004]由此可見,計算廣告的相關性已成為基于用戶興趣進行推送投放的重要內容。對廣告相關性的計算不光是看用戶的點擊觀看行為,還需要結合廣告本身內容,而廣告標簽作為反應廣告本身內容的重要信息也逐漸成為了熱門的研究課題。因為現在很多廣告的標簽都是由用戶標注上的,不同的用戶對同一個信息的描述不盡相同,但是會是相似的,在計算相關性時就需要將這些相似且描述同一信息的廣告標簽歸為一簇,例如,標注“阿迪達斯,,、“阿迪”、“adidas”、“adi”、“體育”、”球鞋”、“男士香水”等標簽的廣告,而這些與阿迪相關的幾個標簽其實描述的是同一個信息。
[0005]現有技術中,通常利用k-means算法(硬聚類算法)將廣告標簽歸簇,k-means算法,是將數據點到原型的某種距離作為優化的目標函數,利用函數求極值的方法得到迭代運算的調整規則,K-means算法以歐式距離作為相似度測度,它是求對應某一初始聚類中心向量最優分類,使得評價指標最小。算法過程如下:(I)從N個文檔隨機選取K個文檔作為質心;
(2)對剩余的每個文檔測量其到每個質心的距離,并把它歸到最近的質心的類;(3)重新計算已經得到的各個類的質心;(4)迭代2?3步直至新的質心與原質心相等或小于指定閾值,算法結束。k-means算法具有:算法快速、簡單;對大數據集有較高的效率并且是可伸縮性的;時間復雜度近于線性,而且適合挖掘大規模數據集的特點。
[0006]但是對于k-means算法,不僅需要提前指定聚類的個數,也就是K值;還需要反復迭代計算標簽中每個詞到K個中心點的距離,計算復雜度高,在廣告標簽數據較多時要耗費大量的計算資源。
[0007]因此,提供一種能準確、高效、簡單的廣告標簽聚類的方法是本領域亟待解決的問題。
【發明內容】
[0008]有鑒于此,本發明提供了一種基于共現的廣告標簽聚類的方法及系統,解決了現有技術中對廣告標簽聚類時需要指定聚類數以及需要復雜的計算程序的問題。
[0009]為了解決上述技術問題,本發明提出一種基于共現的廣告標簽聚類的方法,該方法包括:
[0010]獲取用戶標簽信息及廣告的標簽信息;
[0011]根據所述用戶標簽信息及廣告的標簽信息計算出對應的用戶標簽信息與廣告標簽信息的相似度;
[0012]根據所述相似度獲取所述用戶與所述廣告的標簽詞共現語料,并將所獲取的各個標簽詞共現語料構建成標簽詞共現語料對;
[0013]根據標簽詞在語料中出現的次數計算出各個共現語料對中標簽詞的置信度;
[0014]判斷到所述置信度滿足預先設定閾值時,結合已有標簽詞簇信息將所述標簽詞共現語料對中的標簽詞進行標簽詞簇的聚類。
[0015]在一可選實施例中,所述獲取用戶標簽信息及廣告的標簽信息,包括:
[0016]所述用戶標簽信息包括:所述用戶的興趣標簽詞及其各個標簽詞得分;
[0017]所述廣告的標簽信息包括:所述廣告的標簽詞及其各個標簽詞得分。
[0018]在一可選實施例中,該方法包括:利用公式score (user,ad) = Σ user_tag_score*ad_tag_s cor e計算出對應的用戶標簽信息與廣告標簽信息的相似度;
[0019]其中,score(user,ad)表示用戶與廣告的相似度;user_tag_score表示各個用戶興趣標簽詞的得分;ad_tag_SCOre表示各個廣告的標簽詞得分。
[0020]在一可選實施例中,所述根據標簽詞在語料中出現的次數計算出各個共現語料對中標簽詞的置信度,包括:
[0021]將各個標簽詞在所述共現語料中出現的次數與同時出現該標簽詞與另一標簽詞次數的比值作為這個共現語料對中標簽詞的置信度。
[0022]在一可選實施例中,所述判斷到所述置信度滿足預先設定閾值時,結合已有標簽詞簇信息將所述標簽詞共現語料對中的標簽詞聚類到所述已有標簽詞簇中,包括:
[0023]判斷到所述置信度滿足預先設定閾值、所述標簽詞共現語料對中的一個標簽詞位于所述已有標簽詞簇中且所述已有標簽詞簇的數量未達到上限時,則將所述標簽詞共現語料對中的另一個標簽詞添加到所述已有標簽詞簇中。
[0024]在一可選實施例中,該方法進一步包括:
[0025]判斷到所述置信度滿足預先設定閾值、所述已有標簽詞簇的數量達到上限、和/或所述標簽詞共現語料對中標簽詞均未在所述已有標簽詞簇中時,根據所述標簽詞共現語料對新建一個標簽詞簇。
[0026]另一方面,為實現上述基于共現的廣告標簽聚類的方法,本發明還提出了一種基于共現的廣告標簽聚類的系統,包括:獲取模塊、第一計算模塊、構建模塊、第二計算模塊及處理模塊,其中,
[0027]所述獲取模塊,用于獲取用戶標簽信息及廣告的標簽信息;
[0028]所述第一計算模塊,用于根據所述用戶標簽信息及廣告的標簽信息計算出對應的用戶標簽信息與廣告標簽信息的相似度;
[0029]所述構建模塊,用于根據所述相似度獲取所述用戶與所述廣告的標簽詞共現語料,并將所獲取的各個標簽詞共現語料構建成標簽詞共現語料對;
[0030]所述第二計算模塊,用于根據標簽詞在語料中出現的次數計算出各個共現語料對中標簽詞的置信度;
[0031 ]所述處理模塊,用于判斷到所述置信度滿足預先設定閾值時,結合已有標簽詞簇信息將所述標簽詞共現語料對中的標簽詞進行標簽詞簇的聚類。
[0032]在一可選實施例中,所述獲取模塊,包括:第一獲取單元及第二獲取單元,其中,
[0033]所述第一獲取單元,用于獲取所述用戶標簽信息中的興趣標簽詞及其各個標簽詞得分;
[0034]所述第二獲取單元,用于獲取所述所述廣告標簽信息中的標簽詞及其各個標簽詞得分。
[0035]在一可選實施例中,所述第一計算模塊,用于:
[0036]利用公式score(user,ad) = 2user_tag_score*ad_tag_score計算出對應的用戶標簽信息與廣告標簽信息的相似度;
[0037]其中,score(user,ad)表示用戶與廣告的相似度;user_tag_score表示各個用戶興趣標簽詞的得分;ad_tag_SCOre表示各個廣告的標簽詞得分。
[0038]在一可選實施例中,所述第二計算模塊,用于:
[0039]將各個標簽詞在所述共現語料中出現的次數與同時出現該標簽詞與另一標簽詞次數的比值作為這個共現語料對中標簽詞的置信度。
[0040]在一可選實施例中,所述處理模塊,包括:添加單元,其中,
[0041]所述添加單元,用于判斷到所述置信度滿足預先設定閾值、所述標簽詞共現語料對中的一個標簽詞位于所述已有標簽詞簇中且所述已有標簽詞簇的數量未達到上限時,將所述標簽詞共現語料對中的另一個標簽詞添加到所述已有標簽詞簇中。
[0042]在一可選實施例中,所述處理模塊,還包括:新建單元,其中,
[0043]所述新建單元,用于判斷到所述置信度滿足預先設定閾值、所述已有標簽詞簇的數量達到上限、和/或所述標簽詞共現語料對中標簽詞均未在所述已有標簽詞簇中時,根據所述標簽詞共現語料對新建一個標簽詞簇。
[0044]與現有技術相比,本發明所述的基于共現的廣告標簽聚類的方法及系統,實現了如下的有益效果:
[0045](I)本發明所述的基于共現的廣告標簽聚類的方法及系統,不需要預先指定聚類的個數,利用用戶和廣告的標簽信息基于共現的方法為各個標簽詞進行聚類并添加到相對應的各個標簽詞簇中,打破了現有k-means算法進行聚類的局限性,更有利于準確地進行標簽數據的處理。
[0046](2)本發明所述的基于共現的廣告標簽聚類的方法及系統,不需要反復迭代計算標簽中每個詞到K個中心點的距離,計算簡潔,節約了廣告標簽數據計算、處理過程中的資源。
[0047](3)本發明所述的基于共現的廣告標簽聚類的方法及系統,基于用戶和廣告的標簽信息,根據各個標簽詞之間的相關性將標簽詞進行對應地聚類,還可以根據聚類的結果相對應地進行標簽詞簇的新建,操作起來更靈活,且更易于實現和控制。
[0048]當然,實施本發明的任一產品必不一定需要同時達到以上所述的所有技術效果。
【附圖說明】
[0049]此處所說明的附圖用來提供對本發明的進一步理解,構成本發明的一部分,本發明的示意性實施例及其說明用于解釋本發明,并不構成對本發明的不當限定。在附圖中:
[0050]圖1為本發明所述基于共現的廣告標簽聚類的方法的流程示意圖;
[0051]圖2為本發明基于共現的廣告標簽聚類的方法一個可選實施例的流程示意圖示意圖;
[0052]圖3為本發明的基于共現的廣告標簽聚類的系統的一個可選實施例的流程示意圖。
【具體實施方式】
[0053]如在說明書及權利要求當中使用了某些詞匯來指稱特定組件。本領域技術人員應可理解,硬件制造商可能會用不同名詞來稱呼同一個組件。本說明書及權利要求并不以名稱的差異來作為區分組件的方式,而是以組件在功能上的差異來作為區分的準則。如在通篇說明書及權利要求當中所提及的“包含”為一開放式用語,故應解釋成“包含但不限定于”。“大致”是指在可接收的誤差范圍內,本領域技術人員能夠在一定誤差范圍內解決所述技術問題,基本達到所述技術效果。說明書后續描述為實施本發明的較佳實施方式,然所述描述乃以說明本發明的一般原則為目的,并非用以限定本發明的范圍。本發明的保護范圍當視所附權利要求所界定者為準。
[0054]實施例1
[0055]如圖1所示,為本發明的基于共現的廣告標簽聚類的方法的一個實施例的流程示意圖。在本實施例中,通過用戶興趣標簽及廣告標簽的相關性將兩者的標簽詞分別構建成標簽詞共現語料對,再根據各個共現語料對中標簽詞的置信度將標簽詞聚類到所述標簽詞簇中。本實施例中基于共現的廣告標簽聚類的方法包括以下步驟:
[0056]步驟101、獲取用戶標簽信息及廣告的標簽信息。
[0057]在本實施例中,是基于共現的方法對標簽進行自動化聚類,因此第一步就是要生成統計標簽共現的語料,而生成標簽共現的語料的語料都是來自用戶的標簽信息以及廣告的標簽信息,故本步驟其實是為標簽共現的語料準備語料。
[0058]步驟102、根據所述用戶標簽信息及廣告的標簽信息計算出對應的用戶標簽信息與廣告標簽信息的相似度。
[0059]通過用戶標簽信息與廣告標簽信息的相似度計算,能夠反應出用戶標簽信息與廣告標簽信息的相關性,據此能將用戶的興趣與現有廣告聯系起來,同時也作為提取標簽詞共現詞語料對的基礎,且為后續的標簽詞聚類到標簽詞簇中提供依據。
[0060]步驟103、根據所述相似度獲取所述用戶與所述廣告的標簽詞共現語料,并將所獲取的各個標簽詞共現語料構建成標簽詞共現語料對。
[0061]可選的,在本步驟中,首先將上述步驟中得到的相似度與預先設定好的閾值進行比較,滿足該閾值說明該用戶標簽信息與廣告標簽信息之間的相關性較好,而在用戶標簽信息及廣告標簽信息中均包含了各自的標簽詞及各個標簽詞所對應的信息。根據該方法獲取到的標簽共現語料對也就具有很好的相關性,通過這樣的標簽詞語料才能進行準確地聚類。
[0062]步驟104、根據標簽詞在語料中出現的次數計算出各個共現語料對中標簽詞的置信度。
[0063]經過上述步驟獲得的標簽詞共現語料對需要經過本步驟的置信度檢驗,從而保證各個標簽詞能夠準確無誤地聚類到相應地關聯標簽詞簇中,如此才能更好地體現出標簽詞聚類的意義。
[0064]步驟105、判斷到所述置信度滿足預先設定閾值時,結合已有標簽詞簇信息將所述標簽詞共現語料對中的標簽詞進行標簽詞簇的聚類。
[0065]通過本步驟,能夠將上述步驟中獲得的相關性準確的標簽聚類到相關的標簽詞簇中,如此獲得的標簽詞簇可以為廣告的個性化推薦投放提供依據,還可以大大增加用戶推薦廣告結果的多樣性,因為可以按照聚類的結果給每個用戶的興趣標簽分成幾個簇,那樣用戶興趣標簽的強弱在處理后所得到的結果中就更容易進行體現。
[0066]在本實施例中,不需要預先指定聚類的個數,利用用戶和廣告的標簽信息基于共現的方法為各個標簽詞進行聚類并添加到相對應的各個標簽詞簇中,打破了現有k-means算法進行聚類的局限性,更有利于準確地進行標簽數據的處理。
[0067]實施例2
[0068]如圖2所示,為本發明實施例所述基于共現的廣告標簽聚類的方法的一個可選實施例。本實施例相對于實施例1所示實施例中的流程,可選地描述了構建成標簽詞共現語料對以及進行標簽詞聚類的過程。本實施例中所述方法包括以下步驟:
[0069]步驟201、獲取用戶標簽信息中的興趣標簽詞及其各個標簽詞得分,以及廣告的標簽信息的標簽詞及其各個標簽詞得分。
[0070]其中,在廣告系統中預先就存儲有用戶標簽信息中的興趣標簽詞及其各個標簽詞得分以及廣告的標簽信息的標簽詞及其各個標簽詞得分信息。可選地,標簽詞的得分是根據用戶的點擊廣告觀看行為以及廣告標簽詞的內容信息而獲得的綜合得分,在現有的實際廣告數據處理中往往會預先進行存儲的。
[0071]步驟202、根據所述用戶標簽信息及廣告的標簽信息計算出對應的用戶標簽信息與廣告標簽信息的相似度。
[0072]在本步驟中,可選地,利用公式score(user,ad)= Σuser_tag_score*ad_tag_score計算出各個用戶標簽信息與廣告標簽信息的相似度;
[0073]其中,score(user,ad)表示用戶標簽信息與廣告標簽信息的相似度;user_tag_score表示各個用戶興趣標簽詞的得分;ad_tag_score表示各個廣告的標簽詞得分。
[0074]步驟203、根據所述相似度獲取所述用戶與所述廣告的標簽詞共現語料,并將所獲取的各個標簽詞共現語料構建成標簽詞共現語料對。
[0075]在本步驟中,所得相似度滿足閾值的用戶標簽詞及廣告標簽詞即可組成一組共現語料,各個用戶標簽信息與各個廣告標簽分別進行相似度判斷以及共現語料組的構建,再將挑選出滿足閾值的各個共現語料組內的各個標簽詞構建成標簽詞語料對,進一步細化地描述出了各個標簽詞之間的相關性。
[0076]步驟204、根據標簽詞在語料中出現的次數計算出各個共現語料對中標簽詞的置信度。
[0077]可選地,在本步驟中,將各個標簽詞在所述共現語料中出現的次數與同時出現該標簽詞與另一標簽詞次數的比值作為這個共現語料對中標簽詞的置信度。例如,對于標簽詞對<t2,t3>來說,t2和t3均表示標簽詞,語料中一共出現t2的次數為6,出現t2同時出現t3的次數為6次,出現t3的次數為9次,出現t3的同時出現t2的次數為6次,則該標簽對的兩個置信度得分分別為6/6 = I和6/9 = 0.67。
[0078]可選地,在本步驟之前,還計算出每個標簽共現語料對在所有標簽共現語料對中出現的次數,也就是支持度。并將每個標簽共現語料對的支持度與預先設定的支持度閾值比較,對滿足該閾值的標簽共現語料對進行后續的操作。
[0079]步驟205、判斷到所述置信度滿足預先設定閾值時,結合已有標簽詞簇信息將所述標簽詞共現語料對中的標簽詞進行標簽詞簇的聚類:
[0080]判斷到所述置信度滿足預先設定閾值、所述標簽詞共現語料對中的一個標簽詞位于所述已有標簽詞簇中且所述已有標簽詞簇的數量未達到上限時,則將所述標簽詞共現語料對中的另一個標簽詞添加到所述已有標簽詞簇中。
[0081]步驟206、判斷到所述置信度滿足預先設定閾值、所述已有標簽詞簇的數量達到上限、和/或所述標簽詞共現語料對中標簽詞均未在所述已有標簽詞簇中時,根據所述標簽詞共現語料對新建一個標簽詞簇。
[0082]可選地,在本步驟中,判斷到所述置信度滿足預先設定閾值、所述已有標簽詞簇的數量達到上限,且所述標簽詞共現語料對中標簽詞至少有一個在所述已有標簽詞簇中時,則跳過步驟。重復上述的步驟直至所有的數據都被處理。
[0083]在本實施例中,不需要像k-means算法一樣反復迭代計算標簽中每個詞到K個中心點的距離,計算簡潔,節約了廣告標簽數據計算、處理過程中的資源。
[0084]實施例3
[0085]本實施中以一個具體實例說明本發明的基于共現的廣告標簽聚類的方法。在本實施例中,系統中一共有3個用戶,分別記為ul,u2,u3,三個用戶的標簽詞及得分分別為:ul:tl,0.9|t2,0.6|t3,0.2;u2:t2,0.8|t3,0.6|t4,0.4;u3:t4,0.7|tl,0.5|t3,0.3|t5,0.2o
[0086]系統一共有3支廣告,分別記為&(11,&(12,&(13,三支廣告的標簽詞分別為:&(11:七1,0.8 113,0.6 112,0.4;ad2:t2,0.9114,0.7113,0.5;ad3:t3,0.8|t4,0.6|tl,0.4|t2,0.2t5,0.1o
[0087]分別計算這3個用戶和三支廣告的相關性,同時我們記下各自的共現語料。
[0088]Score (ul,adl) = 0.9*0.8+0.6*0.4+0.2*0.6 = 1.08,語料為:11,t2,t3;
[0089]Score (ul,ad2) = 0.6*0.9+0.2*0.5 = 0.64,語料為:t2,t3;
[0090]Score (ul,ad3) = 0.9*0.4+0.6*0.2+0.2*0.8 = 0.64,語料為:11,t2,t3;
[0091 ] Score (u2,adl) = 0.8*0.4+0.6*0.6 = 0.68,語料為:t2,t3;
[0092]Score (u2,ad2) = 0.8*0.9+0.6*0.5+0.4*0.7 = I.3,語料為:t2,t3,t4;
[0093]Score (u2,ad3) = 0.8*0.2+0.6*0.8+0.4*0.6 = 0.88,語料為:t2,t3,t4;
[0094]Score(u3,adl) = 0.5*0.8+0.3*0.6 = 0.58,語料為:11,t3;
[0095]Score (u3,ad2) = 0.7*0.7+0.3*0.5 = 0.64,語料為:t3,t4;
[0096]Score(u3,ad3) =0.7*0.6+0.5*0.4+0.3*0.8+0.2*0.1 = 0.88,語料為:tl,t3, t4,
t5;
[0097]然后根據共現語料計算標簽的共現對,分別如下:
[0098]tl,t2, t3 得到的共現對為<tl,t2Xt2,t3Xtl,t3> ;
[0099]t2,t3得到的共現對為<t2,t3> ;
[0100]tl,t2,t3得到的共現對為<tl,t2Xt2,t3Xtl,t3> ;
[0101]t2,t3得到的共現對為<t2,t3> ;
[0102]t2,t3,t4 得到的共現對為<t2,t3Xt3,t4Xt2,t4> ;
[0103]t2,t3,t4 得到的共現對為<t2,t3Xt3,t4Xt2,t4> ;
[0104]tl, t3得到的共現對為〈tl,t3> ;
[0105]t3,t4得到的共現對為<t3,t4> ;
[0106]tl,t3,t4,t5得到的共現對為
[0107]〈tl, t3Xtl, t4Xt3, t4Xt4, t5Xtl, t5Xt3, t5> ;
[0108]累計所有的標簽詞共現對,得到標簽詞共現對的支持度,并按照大小序排列,得到如下結果:
[0109]<t2,t3,6>
[0110]<tl,t3,4>
[0111]<t3,t4,4>
[0112]<tl,t2,2>
[0113]<t2,t4,2>
[0114]<tl,t4,l>
[0115]<tl,t5,l>
[0116]<t3,t5,l>
[0117]<t4,t5,l>
[0118]然后計算每個標簽詞共現對的置信度,對于<t2,t3>來說,語料中一共出現t2的次數為6,出現t2同時出現t3的次數為6次,出現t3的次數為9次,出現t3的同時出現t2的次數為6次,則該標簽對的兩個置信度分別為I和0.67,對于其它的標簽詞共現對,進行相同的處理,最后結果如下:
[0119]<t2,t3,6,l,0.67>
[0120]<tl,t3,4,l,0.44>
[0121]<t3,t4,4,0.44,l>
[0122]<tl,t2,2,0.5,0.33>
[0123]<t2,t4,2,0.33,0.4>
[0124]<tl,t4,l,0.25,0.25>
[0125]<tl,t5,l,0.25,l>
[0126]<t3,t5,l,0.11,l>
[0127]<t4,t5,l,0.25,l>
[0128]上面的所有支持度置信度都滿足預先設定的閾值,而每個簇最大的標簽個數上限為3,然后從上至下鏈式遍歷,遇到<t2,t3>時,因為滿足閾值,并入當前的簇{t2,t3},遇到〈tl,t3>時,因為t3在當前簇中,且滿足閾值,因此將tl并入當前簇中{t2,t3,tl};當前簇滿足閾值,則輸出當前簇<t2,t3,tl>,繼續遍歷<t3,t4>,因為t3已經歸并到上一個簇中,因此跳過當前的共現對,繼續遍歷〈tl,t2Xt2,t4Xtl,t4Xtl,t5Xt3,t5>同樣做跳過處理,遍歷到〈丨4,丨5>時,將丨4 35歸入當前簇{^4 35},遍歷完畢,最后產生兩個簇{^2 33 31}和{t4,t5}ο
[0129]實施例4
[0130]如圖3所示,示出了發明中基于共現的廣告標簽聚類的系統的一個可選實施例,用于實現上述實施例中所述的方法,其技術方案本質上與上述實施例一致。上述附圖所示實施例中相應的描述,同樣適用于本實施例當中。
[0131]本實施例中,所述廣告素材質量衡量的系統包括:獲取模塊301、第一計算模塊302、構建模塊303、第二計算模塊304及處理模塊305,其中,
[0132]所述獲取模塊301用于獲取用戶標簽信息及廣告的標簽信息;
[0133]所述第一計算模塊302用于根據所述用戶標簽信息及廣告的標簽信息計算出對應的用戶標簽信息與廣告標簽信息的相似度;
[0134]所述構建模塊303用于根據所述相似度獲取所述用戶與所述廣告標簽詞共現語料,并將所獲取的各個標簽詞共現語料構建成標簽詞共現語料對;
[0135]所述第二計算模塊304用于根據標簽詞在語料中出現的次數計算出各個共現語料對中標簽詞的置信度;
[0136]所述處理模塊305用于判斷到所述置信度滿足預先設定閾值時,結合已有標簽詞簇信息將所述標簽詞共現語料對中的標簽詞進行標簽詞簇的聚類。
[0137]作為一種可選的實施方式,所述獲取模塊301包括:第一獲取單元311及第二獲取單元312,其中,
[0138]所述第一獲取單元311用于獲取所述用戶標簽信息中的興趣標簽詞及其各個標簽詞得分;
[0139]所述第二獲取單元312用于獲取所述所述廣告標簽信息中的標簽詞及其各個標簽詞得分。
[0140]作為一種可選的實施方式,第一計算模塊302用于:
[0141 ]利用公式 score(user,ad) = 2user_tag_score*ad_tag_score 計算出對應的用戶標簽信息與廣告標簽信息的相似度;
[0142]其中,score(user,ad)表示用戶與廣告的相似度;user_tag_score表示各個用戶興趣標簽詞的得分;ad_tag_SCOre表示各個廣告的標簽詞得分。
[0143]作為一種可選的實施方式,所述第二計算模塊304用于將各個標簽詞在所述共現語料中出現的次數與同時出現該標簽詞與另一標簽詞次數的比值作為這個共現語料對中標簽詞的置信度。
[0144]作為一種可選的實施方式,所述處理模塊305包括:添加單元351,所述添加單元351用于判斷到所述置信度滿足預先設定閾值、所述標簽詞共現語料對中的一個標簽詞位于所述已有標簽詞簇中且所述已有標簽詞簇的數量未達到上限時,將所述標簽詞共現語料對中的另一個標簽詞添加到所述已有標簽詞簇中。
[0145]作為一種可選的實施方式,所述處理模塊305還包括:新建單元352,該新建單元352用于判斷到所述置信度滿足預先設定閾值、所述已有標簽詞簇的數量達到上限、和/或所述標簽詞共現語料對中標簽詞均未在所述已有標簽詞簇中時,根據所述標簽詞共現語料對新建一個標簽詞簇。
[0146]在本實施例中,該基于共現的廣告標簽聚類的系統基于用戶和廣告的標簽信息,根據各個標簽詞之間的相關性將標簽詞進行對應地聚類,根據聚類的結果相對應地進行標簽詞簇的新建,操作起來更靈活,且更易于實現和控制。
[0147]通過以上各個實施例可知,本發明所述的基于共現的廣告標簽聚類的方法及系統存在的有益效果是:
[0148](I)本發明所述的基于共現的廣告標簽聚類的方法及系統,不需要預先指定聚類的個數,利用用戶和廣告的標簽信息基于共現的方法為各個標簽詞進行聚類并添加到相對應的各個標簽詞簇中,打破了現有k-means算法進行聚類的局限性,更有利于準確地進行標簽數據的處理。
[0149](2)本發明所述的基于共現的廣告標簽聚類的方法及系統,不需要反復迭代計算標簽中每個詞到K個中心點的距離,計算簡潔,節約了廣告標簽數據計算、處理過程中的資源。
[0150](3)本發明所述的基于共現的廣告標簽聚類的方法及系統,基于用戶和廣告的標簽信息,根據各個標簽詞之間的相關性將標簽詞進行對應地聚類,還可以根據聚類的結果相對應地進行標簽詞簇的新建,操作起來更靈活,且更易于實現和控制。
[0151]本領域內的技術人員應明白,本發明的實施例可提供為方法、裝置、或計算機程序產品。因此,本發明可采用完全硬件實施例、完全軟件實施例、或結合軟件和硬件方面的實施例的形式。而且,本發明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限于磁盤存儲器、CD-ROM、光學存儲器等)上實施的計算機程序產品的形式。
[0152]上述說明示出并描述了本發明的若干可選實施例,但如前所述,應當理解本發明并非局限于本文所披露的形式,不應看作是對其他實施例的排除,而可用于各種其他組合、修改和環境,并能夠在本文所述發明構想范圍內,通過上述教導或相關領域的技術或知識進行改動。而本領域人員所進行的改動和變化不脫離本發明的精神和范圍,則都應在本發明所附權利要求的保護范圍內。
【主權項】
1.一種基于共現的廣告標簽聚類的方法,其特征在于,包括: 獲取用戶標簽信息及廣告的標簽信息; 根據所述用戶標簽信息及廣告的標簽信息計算出對應的用戶標簽信息與廣告標簽信息的相似度; 根據所述相似度獲取所述用戶與所述廣告的標簽詞共現語料,并將所獲取的各個標簽詞共現語料構建成標簽詞共現語料對; 根據標簽詞在語料中出現的次數計算出各個共現語料對中標簽詞的置信度; 判斷到所述置信度滿足預先設定閾值時,結合已有標簽詞簇信息將所述標簽詞共現語料對中的標簽詞進行標簽詞簇的聚類。2.根據權利要求1所述的基于共現的廣告標簽聚類的方法,其特征在于,所述獲取用戶標簽信息及廣告的標簽信息,包括: 所述用戶標簽信息包括:所述用戶的興趣標簽詞及其各個標簽詞得分; 所述廣告的標簽信息包括:所述廣告的標簽詞及其各個標簽詞得分。3.根據權利要求2所述的基于共現的廣告標簽聚類的方法,其特征在于,利用公式score (user,ad) = 2user_tag_score*ad_tag_score計算出對應的用戶標簽信息與廣告標簽信息的相似度; 其中,score(user,ad)表示用戶標簽信息與廣告標簽信息的相似度;user_tag_score表示各個用戶興趣標簽詞的得分;ad_tag_SCOre表示各個廣告的標簽詞得分。4.根據權利要求1所述的基于共現的廣告標簽聚類的方法,其特征在于,所述根據標簽詞在語料中出現的次數計算出各個共現語料對中標簽詞的置信度,包括: 將各個標簽詞在所述共現語料中出現的次數與同時出現該標簽詞與另一標簽詞次數的比值作為這個共現語料對中標簽詞的置信度。5.根據權利要求1-4任意一項所述的基于共現的廣告標簽聚類的方法,其特征在于,所述判斷到所述置信度滿足預先設定閾值時,結合已有標簽詞簇信息將所述標簽詞共現語料對中的標簽詞聚類到所述已有標簽詞簇中,包括: 判斷到所述置信度滿足預先設定閾值、所述標簽詞共現語料對中的一個標簽詞位于所述已有標簽詞簇中且所述已有標簽詞簇的數量未達到上限時,則將所述標簽詞共現語料對中的另一個標簽詞添加到所述已有標簽詞簇中。6.根據權利要求1-4任意一項所述的基于共現的廣告標簽聚類的方法,其特征在于,進一步包括: 判斷到所述置信度滿足預先設定閾值、所述已有標簽詞簇的數量達到上限、和/或所述標簽詞共現語料對中標簽詞均未在所述已有標簽詞簇中時,根據所述標簽詞共現語料對新建一個標簽詞簇。7.—種基于共現的廣告標簽聚類的系統,其特征在于,包括:獲取模塊、第一計算模塊、構建模塊、第二計算模塊及處理模塊,其中, 所述獲取模塊,用于獲取用戶標簽信息及廣告的標簽信息; 所述第一計算模塊,用于根據所述用戶標簽信息及廣告的標簽信息計算出對應的用戶標簽信息與廣告標簽信息的相似度; 所述構建模塊,用于根據所述相似度獲取所述用戶與所述廣告標簽詞共現語料,并將所獲取的各個標簽詞共現語料構建成標簽詞共現語料對; 所述第二計算模塊,用于根據標簽詞在語料中出現的次數計算出各個共現語料對中標簽詞的置信度; 所述處理模塊,用于判斷到所述置信度滿足預先設定閾值時,結合已有標簽詞簇信息將所述標簽詞共現語料對中的標簽詞進行標簽詞簇的聚類。8.根據權利要求7所述的基于共現的廣告標簽聚類的系統,其特征在于,所述獲取模塊,包括:第一獲取單元及第二獲取單元,其中, 所述第一獲取單元,用于獲取所述用戶標簽信息中的興趣標簽詞及其各個標簽詞得分; 所述第二獲取單元,用于獲取所述所述廣告標簽信息中的標簽詞及其各個標簽詞得分。9.根據權利要求8所述的基于共現的廣告標簽聚類的系統,其特征在于,所述第一計算模塊,用于: 利用公式 score (user ,ad) = Σ user_tag_score*ad_tag_score 計算出對應的用戶標簽信息與廣告標簽信息的相似度; 其中,score(user,ad)表示用戶與廣告的相似度;user_tag_score表示各個用戶興趣標簽詞的得分;ad_tag_SCOre表示各個廣告的標簽詞得分。10.根據權利要求7所述的基于共現的廣告標簽聚類的系統,其特征在于,所述第二計算模塊,用于: 將各個標簽詞在所述共現語料中出現的次數與同時出現該標簽詞與另一標簽詞次數的比值作為這個共現語料對中標簽詞的置信度。11.根據權利要求7-10任意一項所述的基于共現的廣告標簽聚類的系統,其特征在于,所述處理模塊,包括:添加單元,其中, 所述添加單元,用于判斷到所述置信度滿足預先設定閾值、所述標簽詞共現語料對中的一個標簽詞位于所述已有標簽詞簇中且所述已有標簽詞簇的數量未達到上限時,將所述標簽詞共現語料對中的另一個標簽詞添加到所述已有標簽詞簇中。12.根據權利要求7-10任意一項所述的基于共現的廣告標簽聚類的系統,其特征在于,所述處理模塊,還包括:新建單元,其中, 所述新建單元,用于判斷到所述置信度滿足預先設定閾值、所述已有標簽詞簇的數量達到上限、和/或所述標簽詞共現語料對中標簽詞均未在所述已有標簽詞簇中時,根據所述標簽詞共現語料對新建一個標簽詞簇。
【文檔編號】G06Q30/02GK105825396SQ201610139776
【公開日】2016年8月3日
【申請日】2016年3月11日
【發明人】袁樹侖, 章岑, 楊田, 周盛, 潘柏宇, 王冀
【申請人】合網絡技術(北京)有限公司, 合一網絡技術(北京)有限公司