一種基于潛在語義分析的申請單智能解析方法
【技術領域】
[0001] 本發明涉及一種申請單輸入方法,特別是一種基于潛在語義分析的申請單智能解 析方法。
【背景技術】
[0002] 當前配電網中的申請單在進行輸入時,基本都是采用手工輸入的方式,輸入時 隨意性較大,而在一些智能應用中,必須對申請單進行智能解析,讓計算機準確的理解申 請單中的操作目的和內容。目前,配電網中申請單文字的智能解析大多采用向量空間模 型的精確詞匹配方法,即精確匹配用戶輸入的詞與向量空間中存在的詞。由于一詞多義 (polysemy)和一義多詞(synonymy)的存在,使得該模型無法提供給用戶語義層面的檢索。
【發明內容】
[0003] 本發明的目的在于克服現有技術的不足之處,而提供一種改變傳統的精確匹配模 式,能提高解析的成功率,為更高層的應用打下技術基礎的一種基于潛在語義分析的申請 單智能解析方法。
[0004] -種基于潛在語義分析的申請單智能解析方法,(1)建立申請單內容的基礎模型: 從歷史數據中采集申請單的樣本,通過對樣本進行人工分析,生成申請單內容的詞語特征 集合和語義模型集合;(2)、創建矩陣,奇異值分解:在計算機中自動生成詞語特征集合和 語義模型集合的關系矩陣,其中每一行表示詞語在語句模型中出現的次數,每一列表示語 句模型中有哪些詞語:然后對該矩陣進行奇異值分解,左矩陣X中的每一行表示詞語的特 性,右矩陣Y中的每一列表不語句模型的特性,中間的奇異值矩陣表不左奇異向量的一行 與右奇異向量的一列的重要程度,數值越大越重要,X中的行與Y中的列表示詞語與語句模 型的潛在相關性,數值越接近表示越相關;(3)對給定的申請單內容先用分詞算法進行分 詞并提取詞語特征,用詞語特征到矩陣模型中根據相關性獲取最優的語句模型,然后用語 句模型對申請單內容進行精確的語義識別。
[0005] 綜上所述的,本發明相比現有技術如下優點: 目前針對配電網申請單的語義解析基本都采用精確詞句的匹配方式進行解析,解析的 成功率較低,而本發明采用潛在語義分析方法后,一方面濾除了申請單中不相關的詞,降低 了分析空間的大小,在濾除的過程中與電力系統本身沒有關系,純粹是對自然語言的分析。 在被縮小的分析空間的基礎上進行配電網專業詞庫的最大化模糊匹配,從而形成了申請單 的智能解析。它擺脫了傳統的精確匹配的模式,提高解析的成功率,為更高層的應用打下了 技術基礎
【附圖說明】 圖1是本發明的語義模型集合圖。
【具體實施方式】
[0006] 下面結合實施例對本發明進行更詳細的描述。
[0007] 實施例1
[0008] -種基于潛在語義分析的申請單智能解析方法,(1)建立申請單內容的基礎模型: 從歷史數據中采集申請單的樣本,通過對樣本進行人工分析,生成申請單內容的詞語特征 集合和語義模型集合;(2)、創建矩陣,奇異值分解:在計算機中自動生成詞語特征集合和 語義模型集合的關系矩陣,其中每一行表示詞語在語句模型中出現的次數,每一列表示語 句模型中有哪些詞語:然后對該矩陣進行奇異值分解,左矩陣X中的每一行表示詞語的特 性,右矩陣Y中的每一列表不語句模型的特性,中間的奇異值矩陣表不左奇異向量的一行 與右奇異向量的一列的重要程度,數值越大越重要,X中的行與Y中的列表示詞語與語句模 型的潛在相關性,數值越接近表示越相關;(3)對給定的申請單內容先用分詞算法進行分 詞并提取詞語特征,用詞語特征到矩陣模型中根據相關性獲取最優的語句模型,然后用語 句模型對申請單內容進行精確的語義識別。
[0009] 應用步驟如下:
[0010] 魯從GPMS的歷史數據中獲取申請單的歷史數據,形成申請單中的安全措施的描 述樣本
[0011]魯人工對申請單的安全措施樣本進行分析,進行人工的斷句分析,將其中的詞進 行特征抽象,形成詞語特征集合,將詞語集合與實際的語句進行匹配,形成相應的語句模型
[0012] 魯在計算機中自動生成詞語特征集合和語義模型集合的關系矩陣U,其中每一行 表示詞語在語句模型中出現的次數,每一列表示語句模型中的詞語:
[0013]
[0014] ?對關系矩陣U進行奇異值分解,可得出ΧΣΥ,其中X和Y互為正交矩陣,Σ為 對角矩陣,左矩陣X中的每一行表示詞語的特性,右矩陣Y中的每一列表示語句模型的特 性,中間的對角矩陣表示左奇異向量的一行與右奇異向量的一列的重要程度,數值越大越 重要,X中的行與Y中的列表示詞語與語句模型的潛在相關性,數值越接近表示越相關。
[0015] ?用詞語特征到矩陣模型中根據相關性獲取最優的語句模型,然后用語句模型對 申請單內容進行精確的語義識別。
[0016] 以下舉例說明:
[0017] 1.建立申請單內容的基礎模型
[0018] 從歷史數據中采集申請單內容的樣本:
[0019] 10kV向圣淘沙31#站側611開關轉檢修
[0020] 10kV向4#變側612線路由運行轉檢修
[0021] 2#變由運行轉冷備用
[0022] 10kVI段母線PT轉檢修
[0023] lOkVII段母線轉檢修
[0024] 10kV母聯600開關轉冷備用
[0025] 10kV向上雁村5. 131. 67側602線路轉檢修
[0026] 10kV向浦上變673側602線路轉檢修
[0027] 斷開向聚龍路6#環網604側用戶內部10kV電源進線開關及刀閘
[0028] 通過對樣本進行人工分析,生成申請單內容的詞語特征集合和語義模型集合。
[0029] 詞語特征集合:
[0030]
[0031] 語義模型集合見附圖1 :
[0032]
[0033] 2.創建矩陣,奇異值分解
[0034] 在計算機中自動生成詞語特征集合和語義模型集合的關系矩陣,其中每一行表示 詞語在語句模型中出現的次數,每一列表示語句模型中有哪些詞語:
[0035]
[0037] 然后對該矩陣進行奇異值分解,左矩陣X中的每一行表示詞語的特性,右矩陣Y中 的每一列表不語句模型的特性,中間的奇異值矩陣表不左奇異向量的一行與右奇異向量的 一列的重要程度,數值越大越重要,X中的行與Y中的列表示詞語與語句模型的潛在相關 性,數值越接近表示越相關。
[0038]
[0039] 3.精確解析
[0040] 對給定的申請單內容先用分詞算法進行分詞并提取詞語特征,用詞語特征到矩陣 模型中根據相關性獲取最優的語句模型,然后用語句模型對申請單內容進行精確的語義識 別。
[0041] 本發明的只要形成相應的插件,直接應用到主系統中,即可完成申請單的智能解 析功能。
[0042] 本實施例未述部分與現有技術相同。
【主權項】
1. 一種基于潛在語義分析的申請單智能解析方法,其特征在于,具體方法為:(1)建立 申請單內容的基礎模型:從歷史數據中采集申請單的樣本,通過對樣本進行人工分析,生成 申請單內容的詞語特征集合和語義模型集合;(2)、創建矩陣,奇異值分解:在計算機中自 動生成詞語特征集合和語義模型集合的關系矩陣,其中每一行表示詞語在語句模型中出現 的次數,每一列表示語句模型中有哪些詞語:然后對該矩陣進行奇異值分解,左矩陣X中的 每一行表示詞語的特性,右矩陣Y中的每一列表示語句模型的特性,中間的奇異值矩陣表 示左奇異向量的一行與右奇異向量的一列的重要程度,數值越大越重要,X中的行與Y中的 列表示詞語與語句模型的潛在相關性,數值越接近表示越相關;(3)對給定的申請單內容 先用分詞算法進行分詞并提取詞語特征,用詞語特征到矩陣模型中根據相關性獲取最優的 語句模型,然后用語句模型對申請單內容進行精確的語義識別。
【專利摘要】本發明公開了一種基于潛在語義分析的申請單智能解析方法,本發明采用潛在語義分析方法,一方面濾除了申請單中不相關的詞,降低了分析空間的大小,在濾除的過程中與電力系統本身沒有關系,純粹是對自然語言的分析。在被縮小的分析空間的基礎上進行配電網專業詞庫的最大化模糊匹配,從而形成了申請單的智能解析。它擺脫了傳統的精確匹配的模式,提高解析的成功率,為更高層的應用打下了技術基礎。
【IPC分類】G06F17/27
【公開號】CN105389306
【申請號】CN201510730573
【發明人】夏圣峰, 詹仁俊, 陳宇星, 葛清, 田學剛
【申請人】國網福建省電力有限公司, 國家電網公司, 國網福建省電力有限公司福州供電公司, 濟南真正科技有限公司
【公開日】2016年3月9日
【申請日】2015年11月2日