本發明涉及互聯網資源分配技術領域,具體而言,本發明涉及一種預測飽和拐點的方法及裝置。
背景技術:
隨著互聯網的發展,各個網絡運營平臺的主要工作是爭取更多的用戶量,并對用戶“流量”資源進行有效的調配分流。從資源的調配實踐中發現,很多關鍵的運營指標(如人均價值)會隨著推廣資源的增加出現飽和。對飽和拐點的預測具有很高的業務價值,譬如能指導業務決策人員制定對應的運營策略。另一方面,由于用戶的規模和特性隨時間發生變化,各個運營指標都存在不同程度的波動,甚至局部出現抖動。如何從波動的數據中預測飽和拐點是行業的技術難題。據所知的文獻,業界一般依靠人工觀察或者經驗定義規則的方法來判斷拐點。面對繁多的運營指標和推廣候選,人工觀察的方法難以奏效。經驗的主觀性導致結果的不穩定,難以沉淀于后期應用,而且性能和效果一般都不高。
技術實現要素:
本發明的首要目的旨在至少能解決上述的技術缺陷之一,特別是人工觀察法的經驗主觀性導致結果不穩定的技術缺陷,而提供一種預測飽和拐點的方法及其相應的裝置。
基于上述目的,本發明采取如下技術方案:
本發明提供一種預測飽和拐點的方法,包括如下步驟:
導入與預設的運營維度相關的歷史運營數據信息流;
根據所述歷史運營數據信息流利用邏輯回歸訓練序列分類模型,從中得到飽和拐點出現時刻的特征信息;
將當前時刻的運營數據作為測試樣本輸入到所述序列分類模型,并根據與所述飽和拐點出現時刻的特征信息進行的比較,判斷所述當前時刻的運營數據是否到達飽和拐點。
在其中一個實施例中,所述根據所述歷史運營數據信息流利用邏輯回歸訓練序列分類模型,從中得到飽和拐點出現時刻的特征信息之前還包括:
采集所述歷史運營數據信息流中各個時期的特征數據;
基于目標運營維度的歷史數值序列,找出所述序列中的最大值作為拐點;
將所述歷史數值序列以及是否處于拐點的信息組合生成至少一個訓練樣本。
在其中一個實施例中,所述訓練樣本是由狀態值和特征值組成的向量,通過狀態值表示所述訓練樣本是否處于拐點,當處于拐點時,通過相應的訓練樣本的特征值得到所述飽和拐點出現時刻的特征信息。
在其中一個實施例中,通過記憶門控記錄所有預測信號的數據及其先后順序,將所述數據的特征信息以波形模式輸出,當測試樣本與這些模式的波形相似度達到設定閾值時,則認為所述樣本處于飽和拐點狀態。
在其中一個實施例中,所述將當前時刻的運營數據作為測試樣本輸入到所述序列分類模型包括將測試樣本轉化為向量表示形式并輸入序列記憶單元做數值變換,通過均值匯集策略生成基于序列的預測信號。
本發明還提供一種預測飽和拐點的裝置,包括:
導入模塊,導入與預設的運營維度相關的歷史運營數據信息流;
訓練模塊,根據所述歷史運營數據信息流利用邏輯回歸訓練序列分類模型,從中得到飽和拐點出現時刻的特征信息;
判斷模塊,將當前時刻的運營數據作為測試樣本輸入到所述序列分類模型,并根據與所述飽和拐點出現時刻的特征信息進行的比較,判斷所述當前時刻的運營數據是否到達飽和拐點。
在其中一個實施例中,所述根據所述歷史運營數據信息流利用邏輯回歸訓練序列分類模型,從中得到飽和拐點出現時刻的特征信息之前還包括:
采集模塊,采集所述歷史運營數據信息流中各個時期的特征數據;
確定模塊,基于目標運營維度的歷史數值序列,找出所述序列中的最大值作為拐點;
生成模塊,將所述歷史數值序列以及是否處于拐點的信息組合生成至少一個訓練樣本。
在其中一個實施例中,所述訓練樣本是由狀態值和特征值組成的向量,通過狀態值表示所述訓練樣本是否處于拐點,當處于拐點時,通過相應的訓練樣本的特征值得到所述飽和拐點出現時刻的特征信息。
在其中一個實施例中,通過記憶門控記錄所有預測信號的數據及其先后順序,將所述數據的特征信息以波形模式輸出,當測試樣本與這些模式的波形相似度達到設定閾值時,則認為所述樣本處于飽和拐點狀態。
在其中一個實施例中,所述將當前時刻的運營數據作為測試樣本輸入到所述序列分類模型包括將測試樣本轉化為向量表示形式并輸入序列記憶單元做數值變換,通過均值匯集策略生成基于序列的預測信號。
上述的預測飽和拐點的方法及其相應的裝置,導入與預設的運營維度相關的歷史運營數據信息流;根據所述歷史運營數據信息流利用邏輯回歸訓練序列分類模型,從中得到飽和拐點出現時刻的特征信息;將當前時刻的運營數據作為測試樣本輸入到所述序列分類模型,并根據與所述飽和拐點出現時刻的特征信息進行的比較,判斷所述當前時刻的運營數據是否到達飽和拐點。本發明通過訓練序列分類模型,從海量的運營數據中獲取特征信息,預測飽和拐點出現的時機,從根本上解決了現有技術中主觀性太強導致的結果不穩定的問題,并把飽和拐點的識別結果應用于推廣精準導量項目,指導產品運營方做決策,通過更加高效地調配推廣資源可以顯著提升運營效率。
本發明附加的方面和優點將在下面的描述中部分給出,這些將從下面的描述中變得明顯,或通過本發明的實踐了解到。
附圖說明
本發明上述的和/或附加的方面和優點從下面結合附圖對實施例的描述中將變得明顯和容易理解,其中:
圖1為本發明實施例的預測飽和拐點的方法流程圖;
圖2為本發明實施例的預測飽和拐點的裝置模塊圖;
圖3為本發明實施例的序列記憶單元示意圖;
圖4為本發明實施例的序列分類模型示意圖。
具體實施方式
下面詳細描述本發明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發明,而不能解釋為對本發明的限制。
本技術領域技術人員可以理解,除非特意聲明,這里使用的單數形式“一”、“一個”、“所述”和“該”也可包括復數形式。應該進一步理解的是,本發明的說明書中使用的措辭“包括”是指存在所述特征、整數、步驟、操作、元件和/或組件,但是并不排除存在或添加一個或多個其他特征、整數、步驟、操作、元件、組件和/或它們的組。應該理解,當我們稱元件被“連接”或“耦接”到另一元件時,它可以直接連接或耦接到其他元件,或者也可以存在中間元件。此外,這里使用的“連接”或“耦接”可以包括無線連接或無線耦接。這里使用的措辭“和/或”包括一個或更多個相關聯的列出項的全部或任一單元和全部組合。
本技術領域技術人員可以理解,除非另外定義,這里使用的所有術語(包括技術術語和科學術語),具有與本發明所屬領域中的普通技術人員的一般理解相同的意義。還應該理解的是,諸如通用字典中定義的那些術語,應該被理解為具有與現有技術的上下文中的意義一致的意義,并且除非像這里一樣被特定定義,否則不會用理想化或過于正式的含義來解釋。
圖1為本發明實施例的預測飽和拐點的方法流程圖。
本發明提供一種預測飽和拐點的方法,包括如下步驟:
步驟s101:導入與預設的運營維度相關的歷史運營數據信息流。
導入運營數據之前,首先要確定要預測的運營維度,運營維度是指衡量或顯示飽和點的指標,以直播領域為例,預設飽和拐點對應的指標維度即運營維度為各個主播每周的人均價值,接下來導入拐點出現前各個時期的運營數據信息流,包括主播在各個時間段的營收、登錄、播放、互動等維度信息。
步驟s102:根據所述歷史運營數據信息流利用邏輯回歸訓練序列分類模型,從中得到飽和拐點出現時刻的特征信息。
基于導入的運營數據信息流生成訓練數據,首先采集該歷史運營數據信息流中各個時期的特征數據,基于所采集的目標運營維度的歷史數值序列,從中找出最大值標注為拐點,最后將該歷史數值序列以及是否處于拐點的信息組合生成至少一個訓練樣本。該訓練樣本是由狀態值和特征值組成的向量,通過狀態值表示所述訓練樣本是否處于拐點,如果狀態值為1,代表當前的維度數據正處于拐點,下一個時期將出現下滑;如果狀態值為0則代表當前的維度數據不在拐點。當處于拐點時,可通過相應的訓練樣本的特征值得到所述飽和拐點出現時刻的特征信息。每個主播在每個時期,根據是否處于飽和拐點和對應的特征,都可以生成一個樣本向量,這些向量的集合組成預測模型的訓練數據。
基于以上數據可訓練一個序列分類模型,首先輸入訓練樣本向量,利用序列記憶元把該次序信息記錄下來,通過記憶門控可記錄所有預測信號的數據及其先后順序,將所述數據利用可視化技術把顯著性的特征信息以波形模式輸出,當測試樣本與這些模式的波形相似度達到設定閾值時,則認為所述樣本處于飽和拐點狀態。參考圖3,序列記憶單元通過以下三部分的變化把序列的次序信息記錄下來:
1、輸入變換,對輸入特征xt做如下變化,
c_int=tanh(wxcxt+whcht-1+bc_in)
其中wxc和whc為權重矩陣,bc_in為偏置向量,tanh(.)為雙曲函數變換,c_int為t時刻針對輸入特征信號xt候選轉換信號,ht-1為對t-1時刻序列元組xt-1的輸出預測信號;即當前的預測信號跟當前輸入的特征信號以及前一個序列元組的輸出預測信號有關。
2、記憶門控可以在工作時保持一段時間的信息,并在訓練時保持內部梯度不受不利變化的干擾,具體的,通過以下變化用于記憶序列次序信息:
it=g(wxixt+whiht-1+bi)
ft=g(wxfxt+whfht-1+bf)
ot=g(wxoxt+whoht-1+bo)
其中wxi、whi、wxf、whf、wxo和who為權重矩陣,bi,bf和bo為偏置向量,g(.)為激活函數,在該實施例中使用tanh(.)作為激活函數。
3、經過輸入變換到記憶門控后,對結果做輸出變換,獲得對t時刻輸入特征xt的預測信號ht。
ct=ft·ct-1+it·c_int
ht=ot·tanh(ct)
經過訓練后,利用可視化技術把特征信息以波形形式表示出來,當測試樣本與這些模式的波形相似時,則認為該樣本很可能被預測為處于飽和拐點狀態。
參考圖4,將記錄的所有序列記憶元通過均值匯集策略,生成基于序列的預測信號,該預測信號與樣本的實際結果值之間的差異就是該序列分類模型的損失,該損失會反饋給序列記憶元單元,用于調整記憶元的參數,讓其輸出更新后的預測信號。模型訓練就是利用反饋調節參數矩陣讓該模型的損失最小,讓預測值無限接近真實值的過程。
步驟s103:將當前時刻的運營數據作為測試樣本輸入到所述序列分類模型,并根據與所述飽和拐點出現時刻的特征信息進行的比較,判斷所述當前時刻的運營數據是否到達飽和拐點。
基于歷史訓練數據獲得的模型,給定測試樣本,先把樣本轉化成向量表示形式,把該向量輸入序列的記憶單元做數值變換,其中記憶單元的參數由以上訓練模塊獲得,經過數值變換后輸出預測信號,把該預測信號輸入由邏輯回歸訓練模型生成的分類模型中,由該模型輸出預測結果。將該模型輸出的預測結果與飽和拐點出現時刻的特征信息進行比較,判斷當前時刻的運營數據是否到達飽和拐點。
具體地,該訓練模型的判定公式如下,針對輸入信號h,通過計算qq(h),當該值超過0.5則z=1;否則z=0。其中q為邏輯回歸訓練獲得的模型參數。
qθ(h)=g(θth)
上述預測飽和拐點的方法通過訓練序列分類模型,從海量的運營數據中獲取特征信息,預測飽和拐點出現的時機,從根本上解決了現有技術中主觀性太強導致的結果不穩定的問題,并把飽和拐點的識別結果應用于推廣精準導量項目,指導產品運營方做決策,通過更加高效地調配推廣資源可以顯著提升運營效率。
圖2為本發明實施例的預測飽和拐點的處理裝置模塊圖。
基于上述的預測飽和拐點的方法,本發明還提供一種預測飽和拐點的裝置,其包括:導入模塊201、訓練模塊202和判斷模塊203。
導入模塊201用于導入與預設的運營維度相關的歷史運營數據信息流;訓練模塊202用于根據所述歷史運營數據信息流利用邏輯回歸訓練序列分類模型,從中得到飽和拐點出現時刻的特征信息同步模塊;判斷模塊203用于將當前時刻的運營數據作為測試樣本輸入到所述序列分類模型,并根據與所述飽和拐點出現時刻的特征信息進行的比較,判斷所述當前時刻的運營數據是否到達飽和拐點。
導入模塊201用于導入與預設的運營維度相關的歷史運營數據信息流。
導入模塊201導入運營數據之前,首先要確定要預測的運營維度,運營維度是指衡量或顯示飽和點的指標,以直播領域為例,預設飽和拐點對應的指標維度即運營維度為各個主播每周的人均價值,接下來導入模塊201導入拐點出現前各個時期的運營數據信息流,包括主播在各個時間段的營收、登錄、播放、互動等維度信息。
訓練模塊202用于根據所述歷史運營數據信息流利用邏輯回歸訓練序列分類模型,從中得到飽和拐點出現時刻的特征信息同步模塊。
基于導入模塊201導入的運營數據信息流生成訓練數據,首先采集模塊采集該歷史運營數據信息流中各個時期的特征數據,基于所采集的目標運營維度的歷史數值序列,確定模塊從中找出最大值標注為拐點,最后生成模塊將該歷史數值序列以及是否處于拐點的信息組合生成至少一個訓練樣本。該訓練樣本是由狀態值和特征值組成的向量,通過狀態值表示所述訓練樣本是否處于拐點,如果狀態值為1,代表當前的維度數據正處于拐點,下一個時期將出現下滑;如果狀態值為0則代表當前的維度數據不在拐點。當處于拐點時,可通過相應的訓練樣本的特征值得到所述飽和拐點出現時刻的特征信息。每個主播在每個時期,根據是否處于飽和拐點和對應的特征,都可以生成一個樣本向量,這些向量的集合組成預測模型的訓練數據。
訓練模塊202基于以上數據可訓練一個序列分類模型,首先輸入訓練樣本向量,利用序列記憶元把該次序信息記錄下來,通過記憶門控可記錄所有預測信號的數據及其先后順序,訓練模塊202將所述數據利用可視化技術把顯著性的特征信息以波形模式輸出,當測試樣本與這些模式的波形相似度達到設定閾值時,則認為所述樣本處于飽和拐點狀態。參考圖3,序列記憶單元通過以下三部分的變化把序列的次序信息記錄下來:
1、輸入變換,對輸入特征xt做如下變化,
c_int=tanh(wxcxt+whcht-1+bc_in)
其中wxc和whc為權重矩陣,bc_in為偏置向量,tanh(.)為雙曲函數變換,c_int為t時刻針對輸入特征信號xt候選轉換信號,ht-1為對t-1時刻序列元組xt-1的輸出預測信號;即當前的預測信號跟當前輸入的特征信號以及前一個序列元組的輸出預測信號有關。
2、記憶門控可以在工作時保持一段時間的信息,并在訓練時保持內部梯度不受不利變化的干擾,具體的,通過以下變化用于記憶序列次序信息:
it=g(wxixt+whiht-1+bi)
ft=g(wxfxt+whfht-1+bf)
ot=g(wxoxt+whoht-1+bo)
其中wxi、whi、wxf、whf、wxo和who為權重矩陣,bi,bf和bo為偏置向量,g(.)為激活函數,在該實施例中使用tanh(.)作為激活函數。
3、經過輸入變換到記憶門控后,對結果做輸出變換,獲得對t時刻輸入特征xt的預測信號ht。
ct=ft·ct-1+it·c_int
ht=ot·tanh(ct)
訓練模塊202經過訓練后,利用可視化技術把特征信息以波形形式表示出來,當測試樣本與這些模式的波形相似時,則認為該樣本很可能被預測為處于飽和拐點狀態。
參考圖4,訓練模塊202將記錄的所有序列記憶元通過均值匯集策略,生成基于序列的預測信號,該預測信號與樣本的實際結果值之間的差異就是該序列分類模型的損失,該損失會反饋給序列記憶元單元,用于調整記憶元的參數,讓其輸出更新后的預測信號。訓練模塊202模型訓練就是利用反饋調節參數矩陣讓該模型的損失最小,讓預測值無限接近真實值的過程。
判斷模塊203用于將當前時刻的運營數據作為測試樣本輸入到所述序列分類模型,并根據與所述飽和拐點出現時刻的特征信息進行的比較,判斷所述當前時刻的運營數據是否到達飽和拐點。
判斷模塊203基于歷史訓練數據獲得的模型,給定測試樣本,先把樣本轉化成向量表示形式,把該向量輸入序列的記憶單元做數值變換,其中記憶單元的參數由以上訓練模塊獲得,經過數值變換后輸出預測信號,判斷模塊203把該預測信號輸入由邏輯回歸訓練模型生成的分類模型中,由該模型輸出預測結果。將該模型輸出的預測結果與飽和拐點出現時刻的特征信息進行比較,判斷模塊203判斷當前時刻的運營數據是否到達飽和拐點。
具體地,該訓練模型的判定公式如下,針對輸入信號h,通過計算qq(h),當該值超過0.5則z=1;否則z=0。其中q為邏輯回歸訓練獲得的模型參數。
qθ(h)=g(θth)
上述預測飽和拐點的裝置通過訓練序列分類模型,從海量的運營數據中獲取特征信息,預測飽和拐點出現的時機,從根本上解決了現有技術中主觀性太強導致的結果不穩定的問題,并把飽和拐點的識別結果應用于推廣精準導量項目,指導產品運營方做決策,通過更加高效地調配推廣資源可以顯著提升運營效率。
應該理解的是,雖然圖1的流程圖中的各個步驟按照箭頭的指示依次顯示,但是這些步驟并不是必然按照箭頭指示的順序依次執行。除非本文中有明確的說明,這些步驟的執行并沒有嚴格的順序限制,其可以以其他的順序執行。而且,圖1中的至少一部分步驟可以包括多個子步驟或者多個階段,這些子步驟或者階段并不必然是在同一時刻執行完成,而是可以在不同的時刻執行,其執行順序也不必然是依次進行,而是可以與其他步驟或者其他步驟的子步驟或者階段的至少一部分輪流或者交替地執行。
以上所述僅是本發明的部分實施方式,應當指出,對于本技術領域的普通技術人員來說,在不脫離本發明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應視為本發明的保護范圍。