提取文檔關鍵句的方法及裝置的制造方法
【技術領域】
[0001] 本發明實施例涉及信息技術領域,尤其涉及一種提取文檔關鍵句的方法及裝置。
【背景技術】
[0002] 在互聯網快速發展的今天,信息獲取已不再是一個難題,而如何從成千上萬的信 息中快速篩選出有效信息才是我們面臨的挑戰。而文檔關鍵句可以簡明扼要地歸納文檔信 息,不僅可以使用戶快速獲取文檔的主要信息,而且顯著降低了用戶獲取信息的時間成本。 然而,如何從包含大量信息的文檔中自動提取出關鍵句仍然存在巨大的挑戰。
[0003]目前,文檔關鍵句抽取的方法,主要是利用了詞頻、位置和關鍵詞等統計信息對文 檔信息進行抽取,得到關鍵句。主要包括以下步驟:A、統計文檔中出現的高頻詞匯;B、定位 高頻詞匯所在的句子;C、根據句子在文檔中的出現位置及句子中包含的關鍵詞,對每個句 子進行評分;D、將評分最高的句子作為文檔的關鍵句。
[0004] 但是,上述關鍵詞提取方法只利用到了詞頻和位置等信息,忽略了語義上的信息, 生成的關鍵句并不能精確反應文檔的信息。
【發明內容】
[0005] 本發明實施例提供一種提取文檔關鍵句的方法及裝置,能夠精確提取出表達文 檔信息的關鍵句。
[0006] 第一方面,本發明實施例提供了一種提取文檔關鍵句的方法,包括:
[0007] 根據層級語義向量模型訓練得到與文檔相關的句子向量和文檔向量,所述層級語 義向量模型包含預先根據文檔訓練資料庫訓練得到的句子向量更新公式和文檔向量更新 公式;
[0008] 計算所述句子向量和所述文檔向量之間的相關性;
[0009] 選取所述相關性滿足預設條件的句子向量對應的句子作為所述文檔的第一關鍵 句。
[0010] 第二方面,本發明實施例還提供一種提取文檔關鍵句的裝置,包括:
[0011] 向量訓練模塊,用于根據層級語義向量模型訓練得到與文檔相關的句子向量和文 檔向量,所述層級語義向量模型包含預先根據文檔訓練資料庫訓練得到的句子向量更新公 式和文檔向量更新公式;
[0012] 相關性計算模塊,用于計算所述句子向量和所述文檔向量之間的相關性;
[0013]關鍵句選取模塊,用于選取所述相關性滿足預設條件的句子向量對應的句子作為 所述文檔的第一關鍵句。
[0014]本發明實施例通過根據層級語義向量模型訓練得到與文檔相關的句子向量和文 檔向量,所述層級語義向量模型包含預先根據文檔訓練資料庫訓練得到的句子向量更新公 式和文檔向量更新公式;計算所述句子向量和所述文檔向量之間的相關性;選取所述相關 性滿足預設條件的句子向量對應的句子作為所述文檔的第一關鍵句。本發明實施例能夠提 取出的精確表達文檔信息的關鍵詞信息。
【附圖說明】
[0015] 圖1為本發明實施例一提供的提取文檔關鍵句的方法的流程示意圖;
[0016] 圖2為本發明實施例二提供的提取文檔關鍵句的裝置的結構示意圖。
【具體實施方式】
[0017] 下面結合附圖和實施例對本發明作進一步的詳細說明。可以理解的是,此處所描 述的具體實施例僅僅用于解釋本發明,而非對本發明的限定。另外還需要說明的是,為了便 于描述,附圖中僅示出了與本發明相關的部分而非全部結構。
[0018] 本發明實施例提供的提取文檔關鍵句的方法的執行主體,可為本發明實施例提供 的提取文檔關鍵句的裝置,或者集成了提取文檔關鍵句的裝置的終端設備(例如,智能手 機、平板電腦等),該提取文檔關鍵句的裝置可以采用硬件或軟件實現。
[0019] 實施例一
[0020] 圖1為本發明實施例一提供的提取文檔關鍵句的方法的流程示意圖,如圖1所示, 具體包括:
[0021] S11、根據層級語義向量模型訓練得到與文檔相關的句子向量和文檔向量,所述層 級語義向量模型包含預先根據文檔訓練資料庫訓練得到的句子向量更新公式和文檔向量 更新公式;
[0022] 其中,句子向量和文檔向量的維數可自定義設置。
[0023] 具體的,根據文檔中的詞、句子信息采用所述層級語義向量模型中包含的句子向 量更新公式訓練得到句子向量,進一步根據句子向量采用所述層級語義向量模型中包含 的文檔向量更新公式訓練得到文檔向量。
[0024] S12、計算所述句子向量和所述文檔向量之間的相關性;
[0025] 其中,相關性表述了所述句子向量和所述文檔向量之間關聯,當相關性越高時,則 表明所述句子向量能夠準確的表示所述文檔的重要內容。
[0026] S13、選取所述相關性滿足預設條件的句子向量對應的句子作為所述文檔的第一 關鍵句。
[0027] 其中,預設條件可設為獲取的關鍵句的數量上限,或者相關性下限。所述相關性 可采用計算所述句子向量與所述文檔向量之間的余弦距離、歐式距離或正選距離來進行衡 量。
[0028] 具體的,當所述預設條件為獲取的關鍵句的數量上限時,則將計算得到的各句子 向量與文檔向量的相關性按照由高到低的順序進行排序,按照相關性從高到低選取滿足數 量的關鍵句作為第一關鍵句。當所述預設條件為相關性下限時,則將計算得到的各句子向 量與文檔向量的相關性按照由高到低的順序進行排序,按照相關性從高到低選取相關性超 過下限的關鍵句作為第一關鍵句。
[0029] 本實施例通過根據層級語義向量模型訓練得到與文檔相關的句子向量和文檔向 量,所述層級語義向量模型包含預先根據文檔訓練資料庫訓練得到的句子向量更新公式和 文檔向量更新公式;計算所述句子向量和所述文檔向量之間的相關性;選取所述相關性滿 足預設條件的句子向量對應的句子作為所述文檔的第一關鍵句。本實施例能夠提取出的精 確表達文檔信息的關鍵詞信息。
[0030] 示例性的,在上述實施例的基礎上,本發明實施例還提供了層級語義向量模型的 建立過程,具體的主要包括:
[0031] 根據所述文檔訓練資料庫,為所述訓練資料庫中的每個文檔分別構建初始詞向 量、初始句子向量和初始文檔向量;
[0032] 根據所述文檔訓練資料庫的初始詞向量、初始句子向量和初始文檔向量建立所述 文檔訓練資料庫中所有文檔的聯合似然函數;
[0033] 對所述聯合似然函數進行參數估計得到所述詞向量更新公式、句子向量更新公式 和文檔向量更新公式。
[0034] 具體的,將文檔訓練資料庫中的文檔作為輸入語料,并為所述訓練資料庫中的每 個文檔分別構建初始詞向量、初始句子向量和初始文檔向量,建立所述初始詞向量、初始句 子向量和初始文檔向量建立所述文檔訓練資料庫中所有文檔的聯合似然函數。其中,所述 聯合似然函數如下述公式一所示:
的輔助向量,V為當前詞W所在句子S的句子向量,V為文檔向量,為損失函數。
[0037] 通過對上述聯合似然函數進行參數估計,可得到所述詞向量更新公式、句子向量 更新公式和文檔向量更新公式。
[0038] 其中,所述詞向量更新公式如下述公式二所示:
[0040] 具體的,為了驗證本發明實施例提供的采用層級語義向量模型訓練得到的詞相關 的有效性,分別在不同規模的實驗數據集上進行了多組詞相關性的對比實驗,實驗效果均 超過了傳統基于主題模型的方法的最佳結果:
[0041] 實驗目的:人工標注的具有相似性的詞在詞向量空間同樣具有相似性。
[0042] 訓練數據:從網頁中抓取的1G文檔
[0043] 測試數據:word240和word279,分別包含240對、279對詞,每組詞包含一個人工 對其相似性的打分。
[0044] 評估方法:分別使用層