一種實現段落維度化描述方法及系統的制作方法
【專利摘要】本發明公開了一種實現段落維度化描述方法及系統,該方法包括:調用已經定義過的語義維度及其特征描述,或調用客戶在特定分析目標下關注的語義維度及其特征描述,進行段落-維度結構化關聯;將所述語義維度及特征描述與語義空間中的段落特征進行匹配與計算,得出各個語義維度在特定段落上的強度值;段落-維度強弱描述,對段落的各個維度計算結果,聯系上下文關系和段落詞匯頻率,對段落內多次或者重復的維度合并和矯正,得出段落的整體上對每個語義維度的強弱描述值;將所有的維度值綜合起來,在維度空間中表達該段落,實現段落維度化描述。本發明提高段落的維度匹配、標注、權重計算等工作的效率。
【專利說明】 一種實現段落維度化描述方法及系統
【技術領域】
[0001]本發明涉及數據網絡【技術領域】,尤其涉及一種實現段落維度化描述方法及系統。
【背景技術】
[0002]隨著信息技術的飛速發展和因特網的出現,為了適應全球經濟一體化、科技競爭日益激烈的趨勢,國外迅速發展起來了一種針對競爭環境和競爭對手的信息收集和分析活動——競爭情報,并很快在歐美和日本等西方發達國家的企業中廣泛應用。據了解,大多數大型企業都設立了專門機構從事競爭情報管理與利用工作,對企業發展與技術創新中的競爭環境、競爭對手和競爭策略,以及保護知識產權和商業秘密等方面的信息進行長期搜集、跟蹤和深入分析研究,在提高企業的市場競爭力和信息快速反應能力等方面取得了顯著的效果。目前競爭情報研究活動已由企業拓展到國家、區域和產業的國際競爭力分析和制定實施競爭政策法律的過程中,成為國家、地區和企業增強競爭優勢,提高創新能力的重要手段之一。
[0003]目前,隨著互聯網的發展,個人和企業獲得的信息越來越多,但面對如此紛繁復雜的信息,用戶往往無法從中提取出真正有效的信息。
【發明內容】
[0004]為了解決【背景技術】中存在的技術問題,本發明提出了一種實現段落維度化描述方法及系統,提高段落的維度匹配、標注、權重計算等工作的效率。
[0005]本發明提出的一種實現段落維度化描述方法,包括以下步驟:
[0006]調用已經定義過的語義維度及其特征描述,或調用客戶在特定分析目標下關注的語義維度及其特征描述,進行段落-維度結構化關聯;
[0007]將所述語義維度及特征描述與語義空間中的段落特征進行匹配與計算,得出各個語義維度在特定段落上的強度值;
[0008]段落-維度強弱描述,對段落的各個維度計算結果,聯系上下文關系和段落詞匯頻率,對段落內多次或者重復的維度合并和矯正,得出段落的整體上對每個語義維度的強弱描述值;
[0009]將所有的維度值綜合起來,在維度空間中表達該段落,實現段落維度化描述。
[0010]優選地,從系統內置維度特征描述庫調用已經定義過的語義維度及其特征描述,從自定義維度特征描述庫調用客戶在特定分析目標下關注的語義維度及其特征描述。
[0011]優選地,所述段落特征進行匹配具體為:WEB頁面解析和語義摘要提取;通過分析標簽,解析HTML頁面,并提取出正文內容。
[0012]優選地,所述段落特征進行匹配具體為:利用HTML規范和基于視覺頁面分塊技術,提取頁面的元信息和正文文本。
[0013]優選地,頁面的元信息包括標題、關鍵字。
[0014]優選地,所述實現段落維度化描述具體為:利用語義分析技術,對篇章每句話作語義分析,標注動詞性語義點、名詞性語義點和語義傾向性,然后匯總成段落和整個篇章的語義側重點,最后利用語義側重點,結合篇章特點,以字數為約束條件,來挑選盡可能涵蓋全文語義的若干個“句組”組成全文摘要。
[0015]本發明提出的一種實現段落維度化描述系統,包括:
[0016]關聯模塊,用于調用已經定義過的語義維度及其特征描述,或調用客戶在特定分析目標下關注的語義維度及其特征描述,進行段落-維度結構化關聯;
[0017]匹配模塊,與所述關聯模塊連接,用于將所述語義維度及特征描述與語義空間中的段落特征進行匹配與計算,得出各個語義維度在特定段落上的強度值;
[0018]描述模塊,與所述匹配模塊連接,用于對段落的各個維度計算結果,聯系上下文關系和段落詞匯頻率,對段落內多次或者重復的維度合并和矯正,得出段落的整體上對每個語義維度的強弱描述值;
[0019]綜合模塊,與所述描述模塊連接,用于將所有的維度值綜合起來,在維度空間中表達該段落,實現段落維度化描述。
[0020]優選地,還包括:
[0021]內置維度特征描述庫,與所述關聯模塊連接,用于存儲已經定義過的語義維度及其特征描述;
[0022]自定義維度特征描述庫,與所述關聯模塊連接,用于調用客戶在特定分析目標下關注的語義維度及其特征描述。
[0023]優選地,還包括:
[0024]上下文關系庫和段落詞匯頻率庫,與所述描述模塊連接,用于向描述模塊提供上下文關系及段落詞匯頻率;
[0025]語義化詞匯描述模塊,分別與上下文關系庫和段落詞匯頻率庫、所述描述模塊連接,用于將上下文關系庫和段落詞匯頻率庫中的信息轉換為語義化詞匯,并提供給描述模塊。
[0026]本發明中,將用戶高頻度搜索詞與最近搜索詞進行排序,并驗證最近采集到的數據與之匹配程度,來估算用戶對其感興趣的程度,作為推薦情報和瀏覽排序的重要參考依據。
【專利附圖】
【附圖說明】
[0027]圖1為本發明實施例提出的一種實現段落維度化描述方法;
[0028]圖2為本發明實施例提出的一種實現段落維度化描述的系統。
【具體實施方式】
[0029]如圖1所示,本發明實施例提出了一種實現段落維度化描述方法,包括以下步驟:
[0030]步驟101,從系統內置維度特征描述庫調用已經定義過的語義維度及其特征描述,從自定義維度特征描述庫調用客戶在特定分析目標下關注的語義維度及其特征描述,進行段落-維度結構化關聯。
[0031]步驟102,將所述語義維度及特征描述與語義空間中的段落特征進行匹配與計算,得出各個語義維度在特定段落上的強度值。其中匹配計算例如,WEB頁面解析和語義摘要提取,Web頁面解析即通過分析標簽,解析HTML頁面,并提取出正文內容;或利用HTML規范和基于視覺頁面分塊技術,提取頁面的元信息(如標題、關鍵字等)和正文文本,有效避免無關信息的干擾。語義摘要一方面是為了便于客戶瀏覽信息而做的全文摘要;另一種是搜索結果的信息摘要;第一類是以盡量涵蓋文檔主要信息為出發點,第二類在第一點的前提下還要考慮用戶搜索詞的密度等問題。
[0032]步驟103,段落-維度強弱描述,對段落的各個維度計算結果,聯系上下文關系和段落詞匯頻率,對段落內多次或者重復(去重復)的維度合并和矯正,得出段落的整體上對每個語義維度的強弱描述值。
[0033]步驟104,將所有的維度值綜合起來,在維度空間中表達該段落,實現段落維度化描述。例如,利用語義分析技術,對篇章每句話作語義分析,標注動詞性語義點、名詞性語義點和語義傾向性,然后匯總成段落和整個篇章的語義側重點,最后利用語義側重點,結合篇章特點,以字數(如400字)為約束條件,來挑選盡可能涵蓋全文語義的若干個“句組”組成全文摘要。搜索結果的文檔摘要實現上不同之處在于增加搜索詞(包括概念接近詞)的密度這個約束條件。
[0034]如果在一句話或一段話中,同一個意思前后重復提及,就會使語言重復,影響表達的效果。有時,疑問代詞或問句本身就有某種意思了,但句子中又敘述這一層意思,致使語義重復。例如“會活動的”和“站起來”意思重復;“當你把書打開的時候”一句可以用較少的字“把書打開”表達;“躍然紙上,栩栩如生”,當然“很吸引人”,所以與“很吸引人”重復。修改后詞語減少了,但意思并沒有變,文字卻簡潔了很多。又例如“什么”已包含疑問的意思,和“不知”語義重復。語義矯正的任務是對結構上正確的源程序進行上下文有關性質的審查,進行類型審查。
[0035]如圖2所示,本發明實施例提供了一種實現段落維度化描述系統,包括:關聯模塊10,用于調用已經定義過的語義維度及其特征描述,或調用客戶在特定分析目標下關注的語義維度及其特征描述,進行段落-維度結構化關聯;匹配模塊20,與所述關聯模塊10連接,用于將所述語義維度及特征描述與語義空間中的段落特征進行匹配與計算,得出各個語義維度在特定段落上的強度值;描述模塊30,與所述匹配模塊20連接,用于對段落的各個維度計算結果,聯系上下文關系和段落詞匯頻率,對段落內多次或者重復的維度合并和矯正,得出段落的整體上對每個語義維度的強弱描述值;綜合模塊40,與所述描述模塊30連接,用于將所有的維度值綜合起來,在維度空間中表達該段落,實現段落維度化描述。
[0036]進一步還包括:內置維度特征描述庫11,與所述關聯模塊10連接,用于存儲已經定義過的語義維度及其特征描述;自定義維度特征描述庫12,與所述關聯模塊10連接,用于調用客戶在特定分析目標下關注的語義維度及其特征描述。
[0037]進一步還包括:上下文關系庫和段落詞匯頻率庫31,與所述描述模塊30連接,用于向描述模塊提供上下文關系及段落詞匯頻率;語義化詞匯描述模塊32,分別與上下文關系庫和段落詞匯頻率庫31、所述描述模塊30連接,用于將上下文關系庫和段落詞匯頻率庫中的信息轉換為語義化詞匯,并提供給描述模塊。
[0038]以上所述,僅為本發明較佳的【具體實施方式】,但本發明的保護范圍并不局限于此,任何熟悉本【技術領域】的技術人員在本發明揭露的技術范圍內,根據本發明的技術方案及其發明構思加以等同替換或改變,都應涵蓋在本發明的保護范圍之內。
【權利要求】
1.一種實現段落維度化描述方法,其特征在于,包括以下步驟: 調用已經定義過的語義維度及其特征描述,或調用客戶在特定分析目標下關注的語義維度及其特征描述,進行段落-維度結構化關聯; 將所述語義維度及特征描述與語義空間中的段落特征進行匹配與計算,得出各個語義維度在特定段落上的強度值; 段落-維度強弱描述,對段落的各個維度計算結果,聯系上下文關系和段落詞匯頻率,對段落內多次或者重復的維度合并和矯正,得出段落的整體上對每個語義維度的強弱描述值; 將所有的維度值綜合起來,在維度空間中表達該段落,實現段落維度化描述。
2.根據權利要求1所述的實現段落維度化描述方法,其特征在于,從系統內置維度特征描述庫調用已經定義過的語義維度及其特征描述,從自定義維度特征描述庫調用客戶在特定分析目標下關注的語義維度及其特征描述。
3.根據權利要求1所述的實現段落維度化描述方法,其特征在于,所述段落特征進行匹配具體為:WEB頁面解析和語義摘要提取;通過分析標簽,解析HTML頁面,并提取出正文內容。
4.根據權利要求1所述的實現段落維度化描述方法,其特征在于,所述段落特征進行匹配具體為:利用HTML規范和基于視覺頁面分塊技術,提取頁面的元信息和正文文本。
5.根據權利要求4所述的實現段落維度化描述方法,其特征在于,頁面的元信息包括標題、關鍵字。
6.根據權利要求2所述的實現段落維度化描述方法,其特征在于,所述實現段落維度化描述具體為:利用語義分析技術,對篇章每句話作語義分析,標注動詞性語義點、名詞性語義點和語義傾向性,然后匯總成段落和整個篇章的語義側重點,最后利用語義側重點,結合篇章特點,以字數為約束條件,來挑選盡可能涵蓋全文語義的若干個“句組”組成全文摘要。
7.一種實現段落維度化描述系統,其特征在于,包括: 關聯模塊,用于調用已經定義過的語義維度及其特征描述,或調用客戶在特定分析目標下關注的語義維度及其特征描述,進行段落-維度結構化關聯; 匹配模塊,與所述關聯模塊連接,用于將所述語義維度及特征描述與語義空間中的段落特征進行匹配與計算,得出各個語義維度在特定段落上的強度值; 描述模塊,與所述匹配模塊連接,用于對段落的各個維度計算結果,聯系上下文關系和段落詞匯頻率,對段落內多次或者重復的維度合并和矯正,得出段落的整體上對每個語義維度的強弱描述值; 綜合模塊,與所述描述模塊連接,用于將所有的維度值綜合起來,在維度空間中表達該段落,實現段落維度化描述。
8.根據權利要求7所述的實現段落維度化描述系統,其特征在于,還包括: 內置維度特征描述庫,與所述關聯模塊連接,用于存儲已經定義過的語義維度及其特征描述; 自定義維度特征描述庫,與所述關聯模塊連接,用于調用客戶在特定分析目標下關注的語義維度及其特征描述。
9.根據權利要求7所述的實現段落維度化描述系統,其特征在于,還包括: 上下文關系庫和段落詞匯頻率庫,與所述描述模塊連接,用于向描述模塊提供上下文關系及段落詞匯頻率; 語義化詞匯描述模塊,分別與上下文關系庫和段落詞匯頻率庫、所述描述模塊連接,用于將上下文關系庫和段落詞匯頻率庫中的信息轉換為語義化詞匯,并提供給描述模塊。
【文檔編號】G06F17/27GK104281692SQ201410537866
【公開日】2015年1月14日 申請日期:2014年10月13日 優先權日:2014年10月13日
【發明者】賈巖 申請人:安徽華貞信息科技有限公司