一種獲取領域重要知識點的方法和系統的制作方法
【技術領域】
[0001] 本發明涉及一種數字資源處理領域,具體地說是一種獲取領域重要知識點的方法 和系統。
【背景技術】
[0002] 數字出版資源已成為信息提供的主要方式之一。人們已從紙質閱讀大量地轉向電 子閱讀。數字出版資源包含電子圖書、數字百科全書、數字期刊、數字報刊等。數字出版資 源提供的信息通常比互聯網更加權威和正確。因此,如何根據數字出版資源的特點提高人 們學習或閱讀體驗變得尤為重要。
[0003] 百科全書(Encyclopedia)是介紹人類的全部知識或某一類知識的工具書。往往 按照辭典形式編排(以條目為基本單元),收集各知識領域的名詞、熟語、地名、事件、人物、 著作等。百科全書可以是綜合性的,包含所有領域的相關內容(例如,《大不列顛百科全書》 就是一部著名的綜合性百科全書)。也可以是專業性的百科全書,如某一個領域的百科全 書,像歷史百科全書、軍事百科全書等,這種某一個領域的百科全書稱為領域百科全書。百 科全書被視為是一個國家和一個時代科學文化發展的標志。
[0004] 領域百科全書將海量的信息分類,為用戶提供更有針對性的資源。領域百科全書 也是一種重要的數字出版資源。領域百科全書通常以詞條的方式組織領域信息。領域百科 全書需要包含領域內的重要詞條。然而,建設領域百科全書需要大量人力投入。由于領域 詞條數目較多,因此通過人工的方式尋找重要的領域詞條不僅耗時,而且容易遺漏一些很 相關的領域詞條。獲取領域內重要的詞條是很重要的工作,但是實現起來需要花費大量的 人力和時間。
[0005] Distributed words representations (分布式詞語表不)在 Rumelhar,D. E., Hinton, G. E. , Williams, R. J. :Learning Represenations by Back-propagating Errors. Nature 323(6088) :pp533-536(1986)中首次提出,該思想將詞語表示成連續向 量(continuous vectors),且在向量空間中,相似詞語的距離更近。Feedforward neural network(前饋神經網絡)是用于學習詞向量和語言模型的方法(見Bengio,Y.,Ducharme, R. , Vincent, P. :A Neural Probabilistic Language Model. Journal of Machine Learning Research 3, ppl 137-1155 (2003))。近來,Mikolov提出 了使用 skip-gram或 CB0W 模型,通過在大量文本上訓練簡單的神經網絡在短時間內得到詞語向量。雖然關于語義向 量在理論上已經有一些研究,但是仍然缺少該技術的應用推廣。
【發明內容】
[0006] 為此,本發明所要解決的技術問題在于現有技術中需要人工確定領域內的重要詞 條、花費較多的人力物力、標準不容易、客觀性差的問題,從而提出一種標準統一、無需人工 處理的自動的獲取領域重要知識點的方法。
[0007] 為解決上述技術問題,本發明的提供一種獲取領域重要知識點的方法。
[0008] -種獲取領域重要知識點的方法,包括:
[0009] 對領域文本進行分詞,得到分詞結果;
[0010] 根據分詞結果和常用詞,確定候選知識點;
[0011] 確定每個候選知識點的語義向量;
[0012] 計算候選知識點之間的語義相似度,得到相似度矩陣;
[0013] 利用所述相似度矩陣進行迭代,確定每個候選知識點的重要度信息;
[0014] 根據所述重要度信息確定重要知識點。
[0015] -種獲取領域重要知識點的系統,包括:
[0016] 分詞單元:對領域文本進行分詞,得到分詞結果;
[0017] 候選知識點確定單元:根據分詞結果和常用詞,確定候選知識點;
[0018] 語義向量確定單元:確定每個候選知識點的語義向量;
[0019] 相似度矩陣建立單元:計算候選知識點之間的語義相似度,得到相似度矩陣;
[0020] 重要度確定單元:利用所述相似度矩陣進行迭代,確定每個候選知識點的重要度 信息;
[0021] 重要知識點確定單元:根據所述重要度信息確定重要知識點。
[0022] 本發明的上述技術方案相比現有技術具有以下優點,
[0023] (1)本發明提供一種獲取領域重要知識點的方法,首先確定領域內的候選知識點, 然后計算這些候選知識點的語義向量,根據每個知識點的語義向量計算得到語義相似度矩 陣,根據該語義相似度矩陣來計算候選知識點中的重要知識點,這些知識點便是該領域內 的重要知識點。當建設或檢查領域百科全書時,可以根據這些重要知識點來建立詞條,或者 檢查詞條是否完善,將還沒有收錄的重要知識點增加在需要建設的詞條中,通過這種方式 來完成領域百科全書的詞條的檢查和建設。大大降低了人工的工作量,節約了時間成本和 人工成本,且避免了人工檢查的主觀性和標準不統一帶來的不準確性,大大提高了效率和 準確度。
[0024] (2)本發明所述的獲取領域重要知識點的方法,獲取相似度矩陣時,采用計算候選 知識點語義向量的方法,將知識點的語義信息進行量化,通過數字化的方式來體現其語義 特征,這樣,在后續對知識點進行分析時,可以更加方便,為知識點搜索、推薦、信息過濾等 應用提供基礎。
[0025] (3)本發明所述的獲取領域重要知識點的方法,確定每個候選知識點的重要度信 息時,設置導航度的初始值;將所述關聯度信息與所述導航度的值進行迭代,確定權威度信 息和所述導航度的最終值;根據所述權威度信息和所述導航度的最終值,確定所述候選中 每個知識點的重要度信息。該方案中,通過權威度信息和導航度值進行迭代,來逐次逼近, 不僅計算簡單方便,而且充分考慮了該候選知識點與其他候選知識點的關系,客觀的表征 了該知識點在該領域內的重要程度。
[0026] (4)本發明還提供一種獲取領域重要知識點的系統,包括分詞單元、候選知識點確 定單元、語義向量確定單元、相似度矩陣建立單元、重要度確定單元以及重要知識點確定單 元,根據該語義相似度矩陣來計算候選知識點中的重要知識點,這些知識點便是該領域內 的重要知識點。當建設或檢查領域百科全書時,可以根據這些重要知識點來建立詞條,或者 檢查詞條是否完善,將還沒有收錄的重要知識點增加在需要建設的詞條中,通過這種方式 來完成領域百科全書的詞條的檢查和建設,大大降低了人工的工作量。
【附圖說明】
[0027] 為了使本發明的內容更容易被清楚的理解,下面根據本發明的具體實施例并結合 附圖,對本發明作進一步詳細的說明,其中
[0028] 圖1是本發明的實施例中獲取領域重要知識點的方法的流程圖;
[0029] 圖2是本發明實施例中skip-gram模型的示意圖;
[0030] 圖3是本發明的實施例中CB0W模型的示意圖;
[0031] 圖4是本發明的實施例中獲取領域重要知識點的系統的流程圖。
【具體實施方式】
[0032] 實施例1:
[0033] 本實施例中提供一種獲取領域重要知識點的方法,流程圖如圖1所示。領域內的 知識點是指領域內的詞語或者詞條,反應該領域內的知識。獲取領域重要知識點的方法包 括如下過程:
[0034] S1 :對文本進行分詞,得到分詞結果。
[0035] 此處的文本選擇領域內的一些數字資源,為了使得其涵蓋的知識點足夠廣泛,一 般會多選擇一些本領域內的電子數字資源。如對于歷史領域,可以選擇上下五千年、歷代朝 代史等相關的本領域內的電子書。選定領域數字資源后,從中抽取文本,然后分詞,通過分 詞后,得到大量的詞語,這些詞語既包括本領域中的一些知識點,也包括一些常用的詞語, 如你們、他們、吃飯等等。將分詞后的文件,作為候選文件。
[0036] S2 :根據分詞結果和常用詞,確定候選知識點。
[0037] 由于常用詞是經常使用的一系列的詞語,通過在上述分詞結果中,把這部分詞語 去除,就獲得了和領域相關的詞語,將這些詞語作為候選知識點。此處的常用詞是現有技術 中已經確定好的常用詞。在其他的實施方式中,還可以通過如下方法來確定常用詞:選擇常 用文本的數字資源,如生活報紙、生活雜志等數字資源,對其進行分詞(采用停用詞表去除 停用詞,例如采用哈工大停用詞表),將在較多文本中出現的詞語確定為常用詞。在候選文 件中去