專利名稱:基于數據集市挖掘的相關詞提取方法及系統的制作方法
技術領域:
本發明涉及一種基于數據集市挖掘的相關詞提取方法及系統。
背景技術:
電子商務發展至今,已經積累了海量的信息,以及大量用戶,包括訪問者、交易者、信息提供者等。各類用戶根據需要,圍繞著電子商務平臺來進行獲取服務和提供服務。信息提供者在電子商務平臺上提供各類產品信息時,不僅會給產品賦予一個合適、貼切的產品名稱,而且會給產品屬性賦予多個相關聯的關鍵詞,有利于產品更準確、多角度展現。由此可見,關鍵詞的選擇是至關重要的,它不僅能使訪問者快速、準確找到自己需要的信息,而且能給產品信息提供者帶來更多的客戶訪問和流量,為他們的產品獲得更多的展現機會。用戶在電子商務平臺上搜索信息,越來越依靠基于關鍵詞的搜索工具去搜索。通常,用戶將需要查找信息的關鍵詞輸入搜索工具,搜索工具在已有索引數據庫中進行搜索并返回搜索結果。搜索工具在返回搜索結果的同時,一般能夠提供與輸入關鍵詞相關的一個或多個相關詞,這些相關詞與輸入關鍵詞都存在有不同程度的相關匹配。如某搜索用戶在搜索框中鍵入shoe,他還會點擊、比較、關注呈現出來的一系列跟shoe有關的相關詞從而訪問對應的信息,或者在此過程中他感覺鍵入cloth、hose等關鍵詞也能獲得需要的信息,從而進行相應的搜索、訪問等系列行為。這就說明在其他相關產品的信息中包含與輸入的關鍵詞有相關關系的關鍵詞,從而在兩者之間廣生了相關的匹配關系。
因此,產品信息提供者為其產品設置關鍵詞以及一批優質的相關詞,對產品特性的準確、全面反映有很大幫助。而訪問者在進行搜索時,能夠獲得一批與輸入關鍵詞具有相關關系的詞,對訪問者快速方便、準確地獲取所需要的信息也具有重要的意義。目前已經存在一些方法,主要針對關鍵詞,從網站日志的訪問/搜索信息中,通過不斷優化算法,最后獲取匹配的相關詞。但這些方法涉及的數據面相對較窄,來源單一,而且很大程度上會受到用戶長期習慣的局限,而錯失一些相關程度高的相關詞。在申請號為200680047190.6的專利中,提出利用種子關鍵詞來提供擴展關鍵詞,使用反向查找技術來確定哪些關鍵詞與廣告客戶相關聯,采用過濾法來去除對廣告客戶不適當的關鍵詞。但此專利提出的方法主要是根據用戶搜索行為將優質匹配的相關詞搶先銷售給供銷商,這種方法數據來源單一,易失去一些相關程度高的關鍵詞。在授權公告號為CN101276361B的專利中,提出接收用戶輸入的主關鍵詞,觸發本地程序或者搜索頁面的腳本程序發出提取對應所述主關鍵詞的相關關鍵詞的請求;針對所述主關鍵詞記錄所屬請求的次數,從對應所述主關鍵詞的相關關鍵詞分組表中獲取候選相關關鍵詞分組表。此專利提出了一種方法能夠顯不與輸入關鍵詞有相關關系的相關詞,這種方法是基于已經具備了一個相關詞庫,但是對于這個詞庫是如何建成的,在上述專利中沒有提及。從上述情況看,還沒有一種方法能夠提供令人滿意的相關詞。而準確的、全面的相關詞對于信息的提供者和訪問者來說是至關重要,因此找到一種準確的、全面的提取相關詞的方法是很有必要的。
發明內容
針對現有的關鍵詞優化及其應用存在的不足之處,本發明提供一種基于數據集市挖掘的相關詞提取方法及系統。本發明結合電子商務平臺中訪問者的行為以及產品信息關鍵詞的設置,通過對數據集市中關鍵詞庫、相關詞庫的補充和完善,利用關鍵詞搜索信息、關鍵詞行業信息,從多角度統計挖掘出優質的關鍵詞及相關詞序列,提高訪問質量。本發明提供一種基于數據集市挖掘的相關詞提取方法,包括以下步驟:( 1)根據預置規則篩選數據源,將篩選出的數據存入數據集市,所述數據集市包括搜索詞庫、產品詞庫、中間數據庫、產品相關詞庫、包含相關詞庫、行為相關詞庫、相關詞庫以及綜合相關詞庫;(2)基于所述產品詞庫和所述中間數據庫中的產品信息,對同一產品信息的關鍵詞進行兩兩配對,獲得產品關鍵詞及產品相關詞序列,對所述產品關鍵詞及產品相關詞序列的使用次數進行統計,將所述產品關鍵詞及產品相關詞序列、所述使用次數保存到所述產品相關詞庫;(3)基于所述搜索詞庫和所述中間數據庫中的搜索信息,按照預置規則分離出具有包含關系的搜索關鍵詞及包含相關詞序列,根據一定規則對所述搜索關鍵詞及包含相關詞序列進行相似程度計算以獲取相似程度值,將所述搜索關鍵詞及包含相關詞序列、所述相似程度值保存到所述包含相關詞庫;其中,包含關系是指在一對所述搜索關鍵詞及包含相關詞序列中,其中一個詞完全被另一個詞包含;(4)基于所述搜索詞庫和所述中間數據庫中的搜索信息,按照預置規則分離出具有行為相關關系的搜索關鍵詞及行為相關詞序列,對所述搜索關鍵詞及行為相關詞序列的相關搜索次數進行統計,將所述搜索關鍵詞及行為相關詞序列、所述相關搜索次數保存到所述行為相關詞庫;其中,行為相關關系是指搜索關鍵詞被搜索后,在一定時間內,行為相關詞被同一個IP地址的客戶端進行了搜索;(5)根據所述產品關鍵詞及產品相關詞序列、所述搜索關鍵詞及包含相關詞序列、所述搜索關鍵詞及行為相關詞序列在產品相關詞庫、包含相關詞庫、行為相關詞庫中的存在關系,對所述產品關鍵詞及產品相關詞序列、所述搜索關鍵詞及包含相關詞序列、所述搜索關鍵詞及行為相關詞序列進行權重設置;(6)根據預置規則,結合所述產品關鍵詞及產品相關詞序列的使用次數、所述搜索關鍵詞及包含相關詞序列的相似程度值、所述搜索關鍵詞及行為相關詞序列的相關搜索次數,計算所述產品關鍵詞及產品相關詞序列、所述搜索關鍵詞及包含相關詞序列、所述搜索關鍵詞及行為相關詞序列各自的相關性提取得分,并將所述產品關鍵詞及產品相關詞序列、所述搜索關鍵詞及包含相關詞序列、所述搜索關鍵詞及行為相關詞序列,以及各自的相關性提取得分保存到相關詞庫中;(7)根據預置規則,在相關詞庫中(在相關詞庫中只存在關鍵詞及相關詞序列,不再分成3種序列類型),獲取關鍵詞及相關詞序列中關鍵詞及相關詞所屬的行業并進行行業相關計算,對關鍵詞及相關詞序列中相關詞搜索量進行頻度比率計算,得出所述關鍵詞及相關詞序列的提取綜合得分,并保存到所述綜合相關詞庫。 進一步地,所述步驟(I)具體為:對所述數據源進行ETL處理,將數據源中的數據抽取到臨時中間層后進行清洗、轉換、集成,最后加載到數據倉庫中;對所述數據倉庫中的產品信息、搜索信息進行過濾,并保存至所述數據集市,形成搜索詞庫、產品詞庫、中間數據庫;其中,所述搜索詞庫存儲的關鍵詞的搜索量大于I且長度大于等于3,產品詞庫存儲的關鍵詞的使用次數大于等于10。進一步地,所述步驟(2)還包括:在對同一產品信息的關鍵詞進行兩兩配對以獲得產品關鍵詞及產品相關詞序列之前,將產品詞庫中沒有的關鍵詞從中間數據庫刪除;優先根據所述使用次數進行排序,根據排序結果將所述產品關鍵詞及產品相關詞序列、所述使用次數保存到所述產品相關詞庫。進一步地,所述步驟(2)進一步包括:定期對所述產品相關詞庫進行更新;對于新增加的廣品,形成廣品關鍵詞及廣品相關詞序列,并將該廣品關鍵詞及廣品相關詞序列與產品相關詞庫中已有的產品關鍵詞及產品相關詞序列進行比較,如果產品相關詞庫中已存在該產品關鍵詞及產品相關詞序列,則將其使用次數加1,如果不存在該產品關鍵詞及產品相關詞序列,則將其添加入產品相關詞庫,并將其使用次數置為I ;對于更改產品信息的產品,形成產品關鍵詞及產品相關詞序列,如果產品相關詞庫中已存在該產品關鍵詞及產品相關詞序列,則將其忽略不計,如果不存在該產品關鍵詞及產品相關詞序列,則將其添加入產品相關詞庫,并將其使用次數置為I。進一步地,所述步驟(3)具體為:從搜索詞庫中,依次選擇關鍵詞,與所述搜索詞庫中的其他關鍵詞進行比對,找到與其有包含關系的關鍵詞,形成搜索關鍵詞及包含相關詞序列;依次進行, 直到把搜索詞庫中所有關鍵詞之間都進行了比對,把具有包含關系的所有搜索關鍵詞及包含相關詞序列保存至所述中間數據庫;對中間數據庫中的搜索關鍵詞及包含相關詞序列進行統計過濾,去掉重復的搜索關鍵詞及包含相關詞序列;對于每對所述搜索關鍵詞及包含相關詞序列,計算其中被包含詞的字或字母的個數,以及其中包含詞的字或字母的個數,計算出該搜索關鍵詞及包含相關詞序列的相似程
度值α,α =會X 100%其中:β I為被包含詞的字或字母的個數,β 2為包含詞的字或字
母的個數;把每對所述搜索關鍵詞及包含相關詞序列,及其相似程度值,保存至所述包含相關詞庫。進一步地所述步驟(3)進一步包括:定期對所述包含相關詞庫進行更新;從一定時間周期內的搜索信息中提取搜索關鍵詞,與搜索詞庫中已有的搜索關鍵詞進行比較,找出搜索詞庫中沒有的關鍵詞,將新的關鍵詞與搜索詞庫中已有的關鍵詞進行兩兩配對,分離出的具有包含關系的搜索關鍵詞及包含相關詞序列,對該搜索關鍵詞及包含相關詞序列進行相似程度計算,把該搜索關鍵詞及包含相關詞序列、以及其相似程度值保存到所述包含相關詞庫中。進一步地,所述步驟(4)具體為:將搜索詞庫中沒有的關鍵詞從中間數據庫刪除,并剔除同一客戶端一定時間周期內搜索量大于30或等于I的搜索關鍵詞;依次選擇中間數據庫中的搜索關鍵詞,查找在搜索該搜索關鍵詞后,一定時間周期內同一客戶端搜索的其他搜索關鍵詞,作為與該搜索關鍵詞具有行為相關關系的相關詞,形成搜索關鍵詞及行為相關詞序列;依次進行,直至中間數據庫中每個搜索關鍵詞都進行了其行為相關詞的查找,把生成的所有搜索關鍵詞及行為相關詞序列保存在中間數據庫;對中間數據庫中所有的搜索關鍵詞及行為相關詞序列進行統計,計算每對搜索關鍵詞及行為相關詞序列的相關搜索次數;按相關搜索次數排序,將每對搜索關鍵詞及行為相關詞序列,及其相關搜索次數,保存在行為相關詞庫中。進一步地,所述步驟(4)進一步包括:定期對所述行為相關詞庫進行更新;從一定時間周期內的搜索信息中提取搜索關鍵詞,從中分離出的具有行為相關關系的搜索關鍵詞及行為相關詞序列,并把該搜索關鍵詞及行為相關詞序列與行為相關詞庫中的所有搜索關鍵詞及行為相關詞序列進行比較,如果行為相關詞庫存在該搜索關鍵詞及行為相關詞序列,則將該搜索關鍵詞及行為相關詞序列的相關搜索次數加1,如果不存在該搜索關鍵詞及行為相關詞序列,則將其加入所述行為相關詞庫,并將其相關搜索次數置為I。進一步地,所述步驟(5)中的權重的設置具體為:包含相關詞庫中的搜索關鍵詞及包含相關詞序列的權重為YpKY1CB;行為相關詞庫中的搜索關鍵詞及行為相關詞序列的權重為Y 2,0.8〈 Y 2〈1.5;廣品相關詞庫中的廣品關鍵詞及廣品相關詞序列的權重為+ , 0.5< Y 3<1 ;那么,權重設置基本規則為:
權利要求
1.一種基于數據集市挖掘的相關詞提取方法,其特征在于,包括以下步驟: 步驟一、根據預置規則篩選數據源,將篩選出的數據存入數據集市,所述數據集市包括搜索詞庫、產品詞庫、中間數據庫、產品相關詞庫、包含相關詞庫、行為相關詞庫、相關詞庫以及綜合相關詞庫; 步驟二、基于所述產品詞庫和所述中間數據庫中的產品信息,對同一產品信息的關鍵詞進行兩兩配對,獲得產品關鍵詞及產品相關詞序列,對所述產品關鍵詞及產品相關詞序列的使用次數進行統計,將所述產品關鍵詞及產品相關詞序列、所述使用次數保存到所述產品相關詞庫; 步驟三、基于所述搜索詞庫和所述中間數據庫中的搜索信息,按照預置規則分離出具有包含關系的搜索關鍵詞及包含相關詞序列,根據一定規則對所述搜索關鍵詞及包含相關詞序列進行相似程度計算以獲取相似程度值,將所述搜索關鍵詞及包含相關詞序列、所述相似程度值保存到所述包含相關詞庫;其中,包含關系是指在一對所述搜索關鍵詞及包含相關詞序列中,其中一個詞完全被另一個詞包含; 步驟四、基于所述搜索詞庫和所述中間數據庫中的搜索信息,按照預置規則分離出具有行為相關關系的搜索關鍵詞及行為相關詞序列,對所述搜索關鍵詞及行為相關詞序列的相關搜索次數進行統計,將所述搜索關鍵詞及行為相關詞序列、所述相關搜索次數保存到所述行為相關詞庫;其中,行為相關關系是指搜索關鍵詞被搜索后,在一定時間內,行為相關詞被同一個IP地址的客戶端進行了搜索; 步驟五、根據所述產品關鍵詞及產品相關詞序列、所述搜索關鍵詞及包含相關詞序列、所述搜索關鍵詞及行為相關 詞序列在產品相關詞庫、包含相關詞庫、行為相關詞庫中的存在關系,對所述產品關鍵詞及產品相關詞序列、所述搜索關鍵詞及包含相關詞序列、所述搜索關鍵詞及行為相關詞序列進行權重設置; 步驟六、根據預置規則,結合所述產品關鍵詞及產品相關詞序列的使用次數、所述搜索關鍵詞及包含相關詞序列的相似程度值、所述搜索關鍵詞及行為相關詞序列的相關搜索次數,計算所述產品關鍵詞及產品相關詞序列、所述搜索關鍵詞及包含相關詞序列、所述搜索關鍵詞及行為相關詞序列各自的相關性提取得分,并將所述產品關鍵詞及產品相關詞序列、所述搜索關鍵詞及包含相關詞序列、所述搜索關鍵詞及行為相關詞序列,以及各自的相關性提取得分保存到相關詞庫中; 步驟七、根據預置規則,在相關詞庫中(在相關詞庫中只存在關鍵詞及相關詞序列,不再分成3種序列類型),獲取關鍵詞及相關詞序列中關鍵詞及相關詞所屬的行業并進行行業相關計算,對關鍵詞及相關詞序列中相關詞搜索量進行頻度比率計算,得出所述關鍵詞及相關詞序列的提取綜合得分,并保存到所述綜合相關詞庫。
2.如權利要求1所述的基于數據集市挖掘的相關詞提取方法,其特征在于,所述步驟一具體為: 對所述數據源進行ETL處理,將數據源中的數據抽取到臨時中間層后進行清洗、轉換、集成,最后加載到數據倉庫中;對所述數據倉庫中的產品信息、搜索信息進行過濾,并保存至所述數據集市,形成搜索詞庫、產品詞庫、中間數據庫;其中,所述搜索詞庫存儲的關鍵詞的搜索量大于I且長度大于等于3,產品詞庫存儲的關鍵詞的使用次數大于等于10。
3.如權利要求1所述的基于數據集市挖掘的相關詞提取方法,其特征在于:所述步驟二還包括: 在對同一產品信息的關鍵詞進行兩兩配對以獲得產品關鍵詞及產品相關詞序列之前,將產品詞庫中沒有的關鍵詞從中間數據庫刪除;優先根據所述使用次數進行排序,根據排序結果將所述產品關鍵詞及產品相關詞序列、所述使用次數保存到所述產品相關詞庫。
4.如權利要求3所述的基于數據集市挖掘的相關詞提取方法,其特征在于,所述步驟二進一步包括: 定期對所述產品相關詞庫進行更新;對于新增加的產品,形成產品關鍵詞及產品相關詞序列,并將該產品關鍵詞及產品相關詞序列與產品相關詞庫中已有的產品關鍵詞及產品相關詞序列進行比較,如果產品相關詞庫中已存在該產品關鍵詞及產品相關詞序列,則將其使用次數加1,如果不存在該產品關鍵詞及產品相關詞序列,則將其添加入產品相關詞庫,并將其使用次數置為I ;對于更改產品信息的產品,形成產品關鍵詞及產品相關詞序列,如果產品相關詞庫中已存在該產品關鍵詞及產品相關詞序列,則將其忽略不計,如果不存在該產品關鍵詞及產品相關詞序列,則將其添加入產品相關詞庫,并將其使用次數置為1
5.如權利要求1所述的基于數據集市挖掘的相關詞提取方法,其特征在于,所述步驟三具體為: 步驟三-1從搜索詞庫中,依次選擇關鍵詞,與所述搜索詞庫中的其他關鍵詞進行比對,找到與其有包含關系的關鍵詞,形成搜索關鍵詞及包含相關詞序列; 步驟三-2依次進行,直到把搜索詞庫中所有關鍵詞之間都進行了比對,把具有包含關系的所有搜索關鍵詞及包含相關詞序列保存至所述中間數據庫; 步驟三-3對中間數據庫中的搜索關鍵詞及包含相關詞序列進行統計過濾,去掉重復的搜索關鍵詞及包含相關詞序列; 步驟三-4對于每對所述搜索關鍵詞及包含相關詞序列,計算其中被包含詞的字或字母的個數,以及其中包含詞的字或字母的個數,計算出該搜索關鍵詞及包含相關詞序列的相似程度值α, ft CT = ^X 100% P2 其中:β !為被包含詞的字或字母的個數,β 2為包含詞的字或字母的個數; 步驟三-5把每對所述搜索關鍵詞及包含相關詞序列,及其相似程度值,保存至所述包含相關詞庫。
6.如權利要求5所述的基于數據集市挖掘的相關詞提取方法,其特征在于,所述步驟三進一步包括: 定期對所述包含相關詞庫進行更新;從一定時間周期內的搜索信息中提取搜索關鍵詞,與搜索詞庫中已有的搜索關鍵詞進行比較,找出搜索詞庫中沒有的關鍵詞,將新的關鍵詞與搜索詞庫中已有的關鍵詞進行兩兩配對,分離出的具有包含關系的搜索關鍵詞及包含相關詞序列,對該搜索關鍵詞及包含相關詞序列進行相似程度計算,把該搜索關鍵詞及包含相關詞序列、以及其相似程度值保存到所述包含相關詞庫中。
7.如權利要求1所述的基于數據集市挖掘的相關詞提取方法,其特征在于,所述步驟四具體為:步驟四-1將搜索詞庫中沒有的關鍵詞從中間數據庫刪除,并剔除同一客戶端一定時間周期內搜索量大于30或等于I的搜索關鍵詞; 步驟四-2依次選擇中間數據庫中的搜索關鍵詞,查找在搜索該搜索關鍵詞后,一定時間周期內同一客戶端搜索的其他搜索關鍵詞,作為與該搜索關鍵詞具有行為相關關系的相關詞,形成搜索關鍵詞及行為相關詞序列; 步驟四-3依次進行,直至中間數據庫中每個搜索關鍵詞都進行了其行為相關詞的查找,把生成的所有搜索關鍵詞及行為相關詞序列保存在中間數據庫; 步驟四-4對中間數據庫中所有的搜索關鍵詞及行為相關詞序列進行統計,計算每對搜索關鍵詞及行為相關詞序列的相關搜索次數; 步驟四-5按相關搜索次數排序,將每對搜索關鍵詞及行為相關詞序列,及其相關搜索次數,保存在行為相關詞庫中。
8.如權利要求7所述的基于數據集市挖掘的相關詞提取方法,其特征在于,所述步驟四進一步包括: 定期對所述行為相關詞庫進行更新;從一定時間周期內的搜索信息中提取搜索關鍵詞,從中分離出的具有行為相關關系的搜索關鍵詞及行為相關詞序列,并把該搜索關鍵詞及行為相關詞序列與行為相關詞庫中的所有搜索關鍵詞及行為相關詞序列進行比較,如果行為相關詞庫存在該搜索關鍵詞及行為相關詞序列,則將該搜索關鍵詞及行為相關詞序列的相關搜索次數加1,如果不存在該搜索關鍵詞及行為相關詞序列,則將其加入所述行為相關詞庫,并將其相關搜索次數置為I。
9.如權利要求1所述的基于數據集市挖掘的相關詞提取方法,其特征在于,所述步驟五中的權重的設置具體為: 包含相關詞庫中的搜索關鍵詞及包含相關詞序列的權重為Y1;l< h<3; 行為相關詞庫中的搜索關鍵詞及行為相關詞序列的權重為: ,0.8 < Y 2 < 1.5; 產品相關詞庫中的產品關鍵詞及產品相關詞序列的權重為?^,0.5 < Y 3 < I ; 那么,權重設置基本規則為:
10.如權利要求9所述的基于數據集市挖掘的相關詞提取方法,其特征在于,所述步驟六中獲取所述相關性提取得分的方法為: 步驟六-1搜索關鍵詞及行為相關詞序列在最近I個月內的相關搜索次數的排序函數為II1 (Wi),產品關鍵詞及產品相關詞序列在最近3個月內的使用次數的排序函數為n2 (Wi),搜索關鍵詞及包含相關詞序列在最近6個月內相似程度的排序函數為Ii3(Wi),其中,Ii1 (Wi),H2(Wi)1H3(Wi)為單列矩陣函數,產品關鍵詞及產品相關詞序列、搜索關鍵詞及包含相關詞序列、搜索關鍵詞及行為相關詞序列的權重的小數位的有效長度為Hii(Wi),其中i=l,2,…10 ; 步驟六-2權重為W2,W9的搜索關鍵詞及行為相關詞序列的相關性提取得分為
11.如權利要求1所述的基于數據集市挖掘的相關詞提取方法及系統,其特征在于,所述步驟七具體為: 步驟七-1在相關詞庫中(在相關詞庫中只存在關鍵詞及相關詞序列,不再分成3種序列類型),根據關鍵詞及相關詞序列中的相關詞在一定時間段內的搜索量,得出搜索系數si,
12.一種基于數據集市挖掘的相關詞提取系統,其特征在于,包括:用于保存根據預置規則篩選出的數據的數據存儲模塊,以及與所述數據存儲模塊連接的統計挖掘模塊;所述數據存儲模塊由順次連接的數據倉庫單元、清洗過濾器、數據集市單元組成;所述數據倉庫單元用于保存經處理后的數據;所述清洗過濾器用于對從所述數據倉庫單元中選擇的數據進行清洗、過濾操作,并加載到所述數據集市單元;所述數據集市單元用于保存經所述清洗過濾器處理的數據,作為所述統計挖掘模塊的輸入數據,包括中間數據庫、搜索詞庫及產品詞庫;所述數據集市單元還保存經過所述統計挖掘模塊處理后的數據,包括產品相關詞庫、包含相關詞庫、行為相關詞庫、相關詞庫及綜合相關詞庫;所述統計挖掘模塊用于對所述數據集市中的產品信息及搜索信息數據進行相關分離,形成產品關鍵詞及產品相關詞序列、搜索關鍵詞及包含相關詞序列、搜索關鍵詞及行為相關詞序列,并分別存儲至產品相關詞庫、包含相關詞庫以及行為相關詞庫,并對產品關鍵詞及產品相關詞序列、搜索關鍵詞及包含相關詞序列、搜索關鍵詞及行為相關詞序列進行統計挖掘,通過權重處理及綜合計算得出提取綜合得分,并保存到所述綜合相關詞庫。
13.如權利要求12所述的基于數據集市挖掘的相關詞提取系統,其特征在于,還包括用于保存基礎數據的數據源模塊、ETL處理器,所述數據源模塊、所述ETL模塊與所述數據存儲模塊順次連接;所述數據源模塊包括網站日志單元和產品信息單元;所述網站日志單元用于保存網站日志信息,包括客戶端訪問記錄及搜索記錄;所述產品信息單元用于保存產品信息;所述ETL處理器用于對所述數據模塊的數據進行數據映射、敏感詞過濾、數據清洗,并加載到所述數據倉庫單元。
14.如權利要求12或13所述的基于數據集市挖掘的相關詞提取系統,其特征在于,還包括可視化處理模塊,所述可視化處理模塊用于對所述綜合相關詞庫中的內容進行展示處理。
15.如權利要求12所述的基于數據集市挖掘的相關詞提取系統,其特征在于,所述統計挖掘模塊由產品相關分離器、包含相關分離器、行為相關分離器、權重及提取得分處理器、綜合提取得分處理器組成;其中,所述產品相關分離器與所述數據集市單元中的產品詞庫和中間數據庫相連,所述包含相關分離器與所述數據集市單元中的搜索詞庫和中間數據庫相連,所述行為相關分離器與所述數據集市單元中的搜索詞庫和中間數據庫相連,所述權重及提取得分處理器與所述數據集市單元中的產品相關詞庫、包含相關詞庫、行為相關詞庫、相關詞庫相連,所述綜合提取得分處理器與所述數據集市單元中的中間數據庫、相關詞庫、綜合相關詞庫相連; 所述產品相關分離器,用于對數據集市中的產品詞庫以及中間數據庫中的信息進行處理,形成產品關鍵詞及產品相關詞序列,并統計排序,保存到數據集市的產品相關詞庫中;所述產品相關分離器由產品相關詞序列生成器和產品相關處理器組成;所述產品相關詞序列生成器,用于對數據集市中的產品詞庫以及中間數據庫中的產品信息進行處理,形成產品關鍵詞及產品相關詞序列,并將其保存到數據集市的中間數據庫中;所述產品相關處理器,用于對中間數據庫中保存的產品關鍵詞及產品相關詞序列進行使用次數的統計,按使用次數排序后,把產品關鍵詞及產品相關詞序列、及其使用次數保存到數據集市的產品相關詞庫中; 所述包含相關分離器,用于對數據集市中的搜索詞庫以及中間數據庫中的信息進行處理,形成搜索關鍵詞及包含相關詞序列,并進行相似程度計算,保存到數據集市的包含相關詞庫中;所述包含相關分離器由包含相關詞序列生成器和相似程度計算器組成;所述包含相關詞序列生成器,用于對數據集市中的搜索詞庫以及中間數據庫中的搜索相關信息進行處理,形成搜索關鍵詞及包含相關詞序列,并將其保存到數據集市的中間數據庫中;所述相似程度計算器,用于對中間數據庫中保存的搜索關鍵詞及包含相關詞序列進行相似程度計算,把搜索關鍵詞及包含相關詞序列、及其相似程度值保存到數據集市的包含相關詞庫中; 所述行為相關分離器,用于對數據集市中的搜索詞庫以及中間數據庫中的信息進行處理,形成搜索關鍵詞及行為相關詞序列,并統計排序,保存到數據集市的行為相關詞庫中;所述行為相關分離器由行為 相關詞序列生成器和行為相關處理器組成;所述行為相關詞序列生成器,用于對數據集市中的搜索詞庫以及中間數據庫中的搜索相關信息進行處理,形成搜索關鍵詞及行為相關詞序列,并將其保存到數據集市的中間數據庫中;所述行為相關處理器,用于對中間數據庫中保存的搜索關鍵詞及行為相關詞序列進行相關搜索次數的統計,按相關搜索次數進行排序,把搜索關鍵詞及行為相關詞序列、及其相關搜索次數保存到數據集市的行為相關詞庫中; 所述權重及提取得分處理器,用于對數據集市的產品相關詞庫、包含相關詞庫以及行為相關詞庫中的廣品關鍵詞及廣品相關詞序列、搜索關鍵詞及包含相關詞序列、搜索關鍵詞及行為相關詞序列設置權重,并計算相關性提取得分,按相關性提取得分排序,保存到數據集市的相關詞庫中; 所述綜合提取得分處理器,用于從數據集市的相關詞庫(在相關詞庫中只存在關鍵詞及相關詞序列,不再分成3種序列類型)中讀取每個關鍵詞及相關詞序列,以及相應的相關性提取得分,并同時從數據集市的中間數據庫中獲取關鍵詞及相關詞序列中關鍵詞、相關詞行業信息及搜索量信息,進行優化計算,得到關鍵詞及相關詞提取綜合得分,按照提取綜合得分排序后,把關鍵詞及相關詞序列及提取綜合得分保存到綜合相關詞庫中。
全文摘要
本發明提供一種基于數據集市挖掘的相關詞提取方法,包括從數據源篩選出符合要求的數據并存入數據集市;基于產品詞庫、搜索詞庫和中間數據庫,獲得產品關鍵詞及產品相關詞序列和使用次數、搜索關鍵詞及包含相關詞序列和相似程度值、搜索關鍵詞及行為相關詞序列和相關搜索次數,并分別存入產品相關詞庫、包含相關詞庫及行為相關詞庫;對產品關鍵詞及產品相關詞序列、搜索關鍵詞及包含相關詞序列、搜索關鍵詞及行為相關詞序列進行權重設置,獲取相應的相關性提取得分并存入相關詞庫;獲取關鍵詞及相關詞的行業并進行行業相關計算,獲得提取綜合得分并保存到綜合相關詞庫。本發明從多個角度完善相關詞的提取,使提取結果更準確反映用戶隱性需求。
文檔編號G06Q30/02GK103226618SQ20131018980
公開日2013年7月31日 申請日期2013年5月21日 優先權日2013年5月21日
發明者徐麗萍, 姚瑞波, 王婷, 何昌桃 申請人:焦點科技股份有限公司