一種針對海量數(shù)據(jù)中查詢詞的搜索維度挖掘方法
【技術(shù)領(lǐng)域】
[0001 ]本發(fā)明設(shè)及一種針對海量數(shù)據(jù)中查詢詞的捜索維度挖掘方法。
【背景技術(shù)】
[0002] 目前,在我們之前的研究工作中,針對海量數(shù)據(jù)中查詢詞的捜索維度挖掘方法主 要有W下四個步驟:(1)在網(wǎng)頁上根據(jù)文本、HTML標(biāo)簽、重復(fù)區(qū)域等模式,抽取詞項列表 化ist); (2)對詞項列表進行打分,評估詞項列表的重要性;(3)將相似的詞項列表進行合并 形成一個查詢維度;(4)計算不同的查詢分面、詞項列表的重要性;上述方案主要存在如下 問題:沒有重復(fù)區(qū)域W及HTML標(biāo)簽的網(wǎng)頁有很多(新聞數(shù)據(jù)、微博博文等),現(xiàn)有方法對于運 些數(shù)據(jù)并不適用,尤其是新聞數(shù)據(jù),抽取到的詞項列表會很少,或抽不到。
[0003] 因此,如何解決上述問題成為本領(lǐng)域技術(shù)人員亟需解決的技術(shù)問題。
【發(fā)明內(nèi)容】
[0004] 針對【背景技術(shù)】中存在的問題,本發(fā)明的目的在于提供一種針對海量數(shù)據(jù)中查詢詞 的捜索維度挖掘方法,該方法可W獲得更多有效的詞項列表,在得到補充后的詞項列表之 后,對新的詞項列表進行打分,將相似的詞項列表進行合并分類,計算不同的查詢分面、詞 項列表的重要性,最終使得挖掘出的查詢維度更加完善,使得用戶可W獲得更為完整的信 息。
[0005] 本發(fā)明的目的是通過W下技術(shù)方案來實現(xiàn)的:
[0006] -種針對海量數(shù)據(jù)中查詢詞的捜索維度挖掘方法,所述方法包括如下步驟:
[0007] 1)詞項列表抽取:基于文本、HTML標(biāo)簽或重復(fù)區(qū)域模式,從抓取到的數(shù)據(jù)集中的每 一個網(wǎng)頁中抽取Lists;
[000引2)增加抽取機制,W實現(xiàn)對步驟1)中抽取到的Lists進行有效性擴充;
[0009] 3)詞項列表打分:評估抽取出來的每一個List的重要性;
[0010] 4)詞項列表聚類:將相似的詞項列表進行合并形成一個查詢維度;
[0011] 5)查詢維度及詞項列表的排序:計算不同的查詢分面、詞項的重要性。
[0012] 進一步,所述步驟2)具體為:
[0013] (1)對于每個新聞捜索詞,在捜索引擎中爬取相關(guān)的新聞數(shù)據(jù)K條作為數(shù)據(jù)集;
[0014] (2)對爬取到的每個文檔抽取出其中的文本;
[0015] (3)對每個文檔的數(shù)據(jù)進行處理,抽取出同一句話、同一個段落或同一個章節(jié)中的 人名抽取出來作為一個List、地名抽取出來作為一個List、機構(gòu)名抽取出來作為一個List;
[0016] (4)對步驟(3)中抽取出的List進行過濾。
[0017] 進一步,所述步驟(3)中對于中文的人名、地名、機構(gòu)名的抽取,首先使用工具 nlpir漢語分詞系統(tǒng)對中文文本進行分詞,分詞后便可W得到人名、地名和機構(gòu)名;對于英 文的人名、地名、機構(gòu)名的抽取,使用斯坦福大學(xué)的命名實體識別器識別人名,地名,機構(gòu) 名。
[0018] 進一步,所述步驟(4)具體為:
[0019] a)爬取步驟(3)抽出的List中每個詞項在Wikipedia中的網(wǎng)頁,并獲得該List中每 個詞項的"分類"屬性集;
[0020] b)將List中每個詞項的"分類"屬性集求并集,得到一個大的分類屬性集C;
[0021] C)遍歷C中的每個分類,對于每個分類,將該List中包含該分類的詞項放一起,如 果該分類中的詞項超過=個,則組成一個新的List,將詞項不足=個的List舍棄;
[0022] d)步驟C)循環(huán)結(jié)束之后可W得到一系列Lists,并且每個List都是根據(jù)一個分類 屬性得到的;
[0023] e)對于L i S t S中的每個新的L i S t,利用i壯信息對抽出的L i S t進行評分;
[0024] f)選擇一個評分最高的List作為最終的List。
[0025] 進一步,所述步驟e)中的i壯計算公式為:i壯=(N-n+0.5)/(n+0.5);其中,其中N 是Wikipedia中包含的總共的item數(shù)目,n表示Li St所根據(jù)的分類屬性在Wikipedia中包含 的詞條總數(shù)。
[0026] 進一步,所述步驟e)中利用idf信息對抽出的LiSt進行評分的計算公式為:Score = length*i壯,其中l(wèi)ength表示List的長度。
[0027] 進一步,所述步驟2)具體為:將同一句話、同一段落或同一篇新聞中的實體詞抽取 出來作為一個List;然后對抽取到的List利用Wikipedia進行過濾處理。
[0028] 本發(fā)明具有W下積極的技術(shù)效果:
[0029] 本發(fā)明的方法可W獲得更多有效的詞項列表,在得到補充后的詞項列表之后,對 新的詞項列表進行打分,將相似的詞項列表進行合并分類,計算不同的查詢分面、詞項列表 的重要性,最終使得挖掘出的查詢維度更加完善,使得用戶可W獲得更為完整的信息。
【附圖說明】
[0030] 圖1是本發(fā)明的實施例中使用的新聞數(shù)據(jù)示例;
[0031 ]圖2a是"北京"詞項在Wikipedia中的分類屬性信息;
[0032] 圖化是"上海"詞項在Wikipedia中的分類屬性信息;
[0033] 圖2c是"中國"詞項在Wikipedia中的分類屬性信息;
[0034] 圖3是捜索詞"成龍"在Wikipedia中分類屬性信息。
【具體實施方式】
[0035] 下面結(jié)合附圖對本申請作進一步的說明。
[0036] 隨著互聯(lián)網(wǎng)的快速發(fā)展,互聯(lián)網(wǎng)的信息量越來越大,用戶面對五花八口的信息,用 戶往往很難快速地得到想要的信息。為了方便用戶快速得到想要的信息,我們對大量的檢 索信息進行處理,根據(jù)信息的查詢維度進行分類,再呈現(xiàn)給用戶,查詢維度是用來描述一個 查詢詞某一個重要的方面的一系列詞語,運一系列詞語是一組語義相關(guān)的并列詞項,在本 發(fā)明中被稱為詞項列表化1st)。例如手表,可W將檢索到的大量信息按照品牌,特征,性能, 型號等查詢維度進行分類,一部電視劇"Lost"可W按照每個季中的劇集,演員,劇中的角 色,劇情等維度進行分類,查詢詞"花",則可W有花的用處,種類,顏色等維度進行分類,表 一是一些查詢詞的查詢維度的示例。如果能將互聯(lián)網(wǎng)上與查詢詞相關(guān)的信息按照維度分 類,那么用戶可W很方便的在互聯(lián)網(wǎng)上根據(jù)查詢詞的維度快速地找到相應(yīng)的信息。而本文 的工作就是挖掘出查詢詞的查詢維度。
[0037] 在將檢索到的信息按照維度分類的過程中,目前主要是針對網(wǎng)絡(luò)上的查詢詞,得 至幢詢維度,有W下四個處理過程(1)在網(wǎng)頁上根據(jù)文本、HTML標(biāo)簽、重復(fù)區(qū)域等模式,抽取 詞項列表化ist); (2)對詞項列表進行打分,評估詞項列表的重要性;(3)將相似的詞項列表 進行合并形成一個查詢維度;(4)計算不同的查詢分面、詞項列表的重要性。在第一步抽取 詞項列表的過程中,原有的方法是根據(jù)文本、HTML標(biāo)簽、重復(fù)區(qū)域等模式抽取網(wǎng)頁數(shù)據(jù)中的 List的,然而沒有重復(fù)區(qū)域W及HTML標(biāo)簽的網(wǎng)頁有很多(新聞數(shù)據(jù)、微博博文等),原來的方 法對于運些數(shù)據(jù)并不適用,尤其是新聞數(shù)據(jù)。本文W新聞數(shù)據(jù)為例,新聞數(shù)據(jù)中大部分是 純文本信息,原來的抽取方法在運里很難抽取到合適的詞項列表,而本文更有針對性地考 慮新聞數(shù)據(jù)的特征,在原有的抽取詞項列表的方法的基礎(chǔ)上加 W改進,針對新聞數(shù)據(jù)增加 一些抽取機制,對原有方法的抽取到的詞項列表進行有效地擴充。
[0038] 本發(fā)明主要考慮了新聞數(shù)據(jù)的特征,主要做了 W下=個方面的改進:(1)人名、地 名、機構(gòu)名:新聞數(shù)據(jù)中人物、地點之類的名詞頻繁出現(xiàn),而且運類名詞在新聞數(shù)據(jù)中很重 要,并且同一句話、同一個段落或同一篇新聞中出現(xiàn)的人名、地名、機構(gòu)名很可能相關(guān),可W 作為詞項列表化ists)對原有的Lists進行擴充;(2)wikipedia過濾:對于問題(1)中的人 名、地名、機構(gòu)名利用Wikipedia進行過濾處理,將同一個段落中的描述查詢維度更加合適 的詞項作為新的List,將不合適的詞語從List中刪除;(3)entity linking:考慮新聞數(shù)據(jù) 中,同一個段落中的實體詞(實體詞,運里指的是在Wikipedia中可W捜到的詞項)意義很可 能相關(guān),很可能可W用來描述同一個查詢維度,考慮將同一個段落中的實體詞作為一個 List,然后利用Wikipedia過濾處理后得到的新Lists。本發(fā)明主要通過考慮W上S個方面 的問題,一次做實驗,抽取到新的Lists之后,用原來的打分方法對新得到的Lists進行打 分,再將相似的Lists合并到一起形成一個查詢維度,最后再計算不同的查詢分面、詞項的 重要性。
[0039] 在新聞數(shù)據(jù)中,結(jié)構(gòu)化的語句W及含有重復(fù)區(qū)域模式的很少,如果按照結(jié)構(gòu)化的 語句抽取的話,只能抽取到很少或抽取不到東西,比如,根據(jù)圖1中的資料,按照原來的抽取 方式,就抽取不到List。但是考慮到在新聞數(shù)據(jù)中,人物、地點是新聞中很重要的信息,而且 頻繁出現(xiàn),本實施例將新聞數(shù)據(jù)中的人名抽取出來作為一個List、地名抽取出來作為一個 Li St、機構(gòu)名抽取出來作為一個Li St,對原有方法的抽取詞項列表進行擴充。
[0040] 本發(fā)明主要考慮W下=種方案:
[0041] 方案一、將同一句話中的人名抽取出來作為一個List、地名抽取出來作為一個 List、機構(gòu)名抽取出來作為一個List。
[0042] 方案二、將同一段落中的人名抽取出來作為一個List、地名抽取出來作為一個 List、機構(gòu)名抽取出來作為一個List。
[0043] 方案=、將同一篇新聞中的人名抽取出來作為一個List、地名抽取出來作為一個 List、機構(gòu)名抽取出來作為一個List。
[0044]本實施例主要介紹方案二的處理方法,對于方案一和方案立,與方案二類似。
[0045]對于方案二,出現(xiàn)在同一個段落中的人名、地名、機構(gòu)名等信息很可能有很大的關(guān) 聯(lián)。W圖一為例,第一段中,"張外龍,鄭又榮,米洛維奇"同時出現(xiàn)在同一段落,第二段中"馬 下內(nèi)斯,部林"同時出現(xiàn)在同一段落,他們都是足球運動員,他們是一些語義相關(guān)的并列詞 項,很適合放到查詢維度中,所W我們可W將運些很相關(guān)的信息抽取出來作為List。本發(fā)明 中,我們考慮將同一段落的人名、地名、機構(gòu)名放一起作為分別一個List,表一是加入抽取 人名、地名、機構(gòu)名之后根據(jù)運段文字抽取到的Lists,但是只有List長度超過3才會保留, 所W最終抽取到的List是前兩個。
[0046] 具體的抽取方法如下:
[0047] (1)對于每個新聞捜索詞,在捜索引擎中爬取相關(guān)的新聞數(shù)據(jù)K條作為數(shù)據(jù)集。
[0048] (2)對爬取到的每個文檔抽取出其中的文本。
[0049] (3)對每個文檔中的每個段落進行處理,抽取出每個段落中的人名作為一個List、 地名抽取出來作為一個List、機構(gòu)名抽取出