一種專利文獻聚類方法
【技術領域】
[0001] 本發明設及一種專利文獻語料的聚類方法,尤其是一種專利文獻聚類方法。
【背景技術】
[0002] 當下經濟環境中,專利對于提升企業價值的作用愈來愈重要。通過申請專利可W 保護企業的知識產權,進而保護企業的核屯、競爭力。目前學者們已經進行針對專利文獻進 行了很多研究,如對專利摘要的標注,對專利關鍵技術的抽取,對專利進行聚類分析等。
[0003] 近年來,在數據挖掘領域中,對文本聚類的研究取得了很多成果。其中很多方法均 W將文檔表示成向量形式為基礎,利用聚類算法對文檔進行聚類分析。專利文獻中包含大 量非結構的信息形式,因此可W將聚類應用于專利分析。目前,已經有很多關于專利聚類分 析的研究,如基于詞向量的專利聚類分析,基于技術功效矩陣的聚類分析等。目前,基于詞 向量的專利聚類研究,主要是將關鍵詞的文檔和詞頻信息加入到文檔向量表示中。該種特 征表示形式容易造成維災難,應用與降維的方法有設置闊值和矩陣分解,常用的矩陣分解 方法有奇異值分解和非負矩陣分解。該些方法雖然可W達到降維的目的,卻還是沒有將特 征詞上下文信息加入。深度學習可W被應用到文本的向量表示,該方法在降維的同時將文 本上下文信息加入到文檔向量中,可W很好地提升文檔向量包含的信息。
[0004]目前對專利文本聚類的研究中,大部分是對專利摘要的文本進行研究,該些研究 都取得了不錯的效果。選擇一種聚類因素進行專利聚類分析,可能對專利分析不夠全面。另 一方面,僅使用同一種形式的語料進行聚類融合,可能會遺漏很多隱含信息。
【發明內容】
[0005] 本發明的目的是提供一種充分挖掘專利文本摘要中隱含的語義信息、充分利用大 規模語料中隱藏信息的專利文獻聚類方法。
[0006] 本發明解決現有技術問題所采用的技術方案:一種專利文獻聚類方法,包括W下 步驟:
[0007]S1、語料集采集及預處理:
[0008]al、語料集采集;選定預定領域,從專利文獻數據庫中按照專利IPC分類號在每個 類別中采集專利文獻信息組成語料集,所述專利文獻信息包括專利文獻的專利標題、IPC分 類號和專利摘要;從所述語料集中提取所有專利文獻的專利摘要并存儲為詞向量訓練語 料集;從語料集中提取部分專利文獻的專利摘要并存儲為屬性和屬性值模型訓練語料集; 從語料集中提取部分專利文獻的專利標題、專利摘要和IPC分類號并存儲為聚類分析語料 集;從聚類分析語料集中抽取所有專利摘要并將其分成兩個部分,一部分作為聚類分析摘 要集,另一部分作為聚類分析屬性和屬性值抽取集;從聚類分析語料集中抽取所有專利標 題并存儲為聚類分析標題集;
[0009]a2、分詞處理及標注;采用分詞模型對詞向量訓練語料集、聚類分析標題集、聚類 分析摘要集、屬性和屬性值模型訓練語料集、聚類分析屬性和屬性值抽取集進行分詞處理 分別得到相對應的詞向量訓練詞語集、聚類分析標題詞語集、聚類分析摘要詞語集、屬性和 屬性值模型訓練詞語集、聚類分析屬性和屬性值抽取詞語集,同時對屬性和屬性值模型訓 練詞語集和屬性值抽取詞語集進行詞性標注及屬性標注;所述屬性標注W屬性和屬性值組 成的數據組的形式進行標注;
[0010] S2、聚類分析語料的特征詞提取;對步驟S1中得到的與聚類分析摘要集相對應的 聚類分析摘要詞語集,統計聚類分析摘要詞語集中每個詞語在聚類分析摘要集的每篇摘要 中出現的頻率和聚類分析摘要集中包含該詞語的專利摘要的數量,計算每個詞語的TFIDF 值:
[0011]
[0012] 其中,N為聚類分析語料集的語料總數,為第k個詞語在聚類分析摘要集中的 第i篇專利摘要中出現的次數,nk,d為聚類分析摘要集中包含第k個詞語的專利摘要的數 量;預設闊值,對于與聚類分析摘要集的每條摘要所對應的聚類分析摘要詞語集中的詞語 將TFIDF值大于闊值的詞語作為與該專利摘要的特征詞,每條專利摘要的特征詞組成聚類 分析摘要特征詞集合;遍歷步驟S1得到的聚類分析標題詞語集,對于每一條專利標題,將 屬于對應聚類分析摘要特征詞集合中的詞語提取并保存為聚類分析專利標題特征詞集;
[0013] S3、基于詞向量的聚類分析數據專利向量表示:
[0014] 包括如下步驟:
[0015] bl、獲取詞向量;利用詞向量技術,得到所述詞向量訓練詞語集中每個詞語的詞向 量;
[0016] b2、屬性和屬性值抽取;將屬性和屬性值作為命名實體,利用序列標注技術,通過 步驟a2得到的經過屬性標注后的屬性和屬性值模型訓練詞語集所對應的屬性和屬性值模 型訓練語料集訓練得到的條件隨機場模型,并將訓練得到的條件隨機場模型應用于聚類分 析屬性和屬性值抽取集,完成對聚類分析屬性和屬性值抽取集中的每個專利摘要的標簽預 巧U;對于經過標簽預測的聚類分析屬性和屬性值抽取集,提取聚類分析屬性和屬性值抽取 集中的每一篇專利摘要中被賦予標簽的詞語,并將上述詞語保存為聚類分析摘要屬性和屬 性值集;
[0017] b3、專利摘要屬性和屬性值的向量表示:利用詞向量技術將步驟b2得到的聚類分 析摘要屬性和屬性值集中詞語表示為詞向量形式,將每篇專利摘要所對應的聚類分析摘要 屬性和屬性值集中的詞向量進行線性加和作為該專利摘要屬性和屬性值的向量表示;
[0018] b4、專利標題的向量表示:利用步驟bl,將聚類分析標題集中包含的專利標題特 征詞替換成對應的詞向量;將聚類分析標題集中每一調專利標題所對應的所有專利標題特 征詞的詞向量進行線性相加,得到該條專利標題的向量表示;
[0019] b5、專利摘要文本的向量表示;利用步驟b4的方法得到專利摘要文本的向量表 示;
[0020] b6、加權融合;將步驟b3-b5得到專利摘要屬性和屬性值的向量表示、專利標題的 向量表示和專利摘要文本的向量表示進行加權線性求和,求和之后得到的和向量即為聚類 分析數據專利向量表示;
[0021]S4、聚類;針對步驟S3得到的聚類分析數據專利向量,利用聚類分析法通過計算 聚類分析數據專利向量之間的相似度完成初次聚類;再結合具體的闊值,對初始聚類結果 進行不斷調整,最后得到聚類分析數據中專利的聚類結果;
[0022] S5、聚類結果評價:根據預設的評價指標對聚類結果進行評價。
[0023] 步驟S1中抽取屬性和屬性值模型訓練語料集和聚類分析語料集的方法為;按照 專利IPC分類號在語料集中在每個類別中分別抽取相同數量的專利摘要組成屬性和屬性 值模型訓練語料集;按照專利IPC分類號在語料集中在每個類別中分別抽取相同數量的專 利標題、專利摘要和IPC分類號組成聚類分析語料集。
[0024] 所述詞向量訓練語料集、屬性和屬性值模型訓練語料集和聚類分析語料集中的專 利文獻信息W分行形式進行存儲,其中每行專利文獻信息對應一篇專利文獻。
[00巧]所述屬性標注的具體方法為:對于完成詞性標注后的屬性和屬性值模型訓練詞語 集,對于標注標簽集合{屬性的開始部分,屬性的中間部分,屬性的結束部分,屬性值的開 始部分,屬性值的中間部分,屬性值的結束部分,其他},判斷完成詞性標注后的屬性和屬 性值模型訓練詞語集中每個詞對應于標注標簽集合中的對應屬性標簽,并標記為相應的標 簽,而將無法在標注標簽中對應的詞標