專利名稱:一種專利熱點發現與趨勢分析方法
技術領域:
本發明涉及一種專利熱點發現與趨勢分析方法,尤其是涉及一種從專利集合中發現熱點技術并對熱點技術進行趨勢分析的方法。
背景技術:
專利文獻涉及所有技術領域最新、最活躍的創新技術信息。專利文獻的報導比其他文獻早I一3年,而且一項新技術的誕生到推廣應用有個過程,存在一個“時間差”,少則幾個月,多則幾十年。因此從專利文獻中可以了解科技發展的最新動態。研究顯示:利用專利文獻指導技術創新,可以有效節約40%的研究經費和60%的研究時間。歐洲專利局的一項研究結果表明,在十幾個歐洲專利條約成員國中,在應用技術的研究開發中,由于利用了專利文獻指導技術創新,每年可節約300億馬克的研究開發經費。迄今,全球已有超過8500萬件專利,且全世界現每年新增100多萬件專利文獻。面對如此海量珍貴的專利數據,如何從中挖掘出有效的信息情報是目前工業界關注的熱點。對于專利審查員來說,他可能需要了解:競爭對手的研究重點和技術優勢是什么;哪些技術現在被廣泛研究;如果要做某個主題的研究,需要重點掌握哪些技術,應當遵循怎樣的技術路線;某項技術的研究價值是高還是低。目前對市場的需求分析和技術預測主要依靠專家智慧,如采用專家調查法、德爾菲法等。采用這樣的方法能集合行業/領域專家的智慧,具有較強的實用性、科學性,但同時它也不可避免地存在一些缺陷:( I)定性分析為主,定量分析較少;(2)缺少對于技術本身發展和創新的考慮;(3)該過程耗時、耗力、成本高昂。目前被廣泛使用的專利數據服務平臺,如Soopat、51Patent、CNIPR等,它們所提供的服務限于基于專利外部特征項的一些分類、檢索、統計等功能,而對于專利的熱點發現研究,目前還處于起步階段。
發明內容
本發明基于以上的技術背景,提出了一種專利熱點發現和趨勢分析方法,能夠從一堆專利文檔集合中挖掘出研究主題和各個主題下所重點關注的技術,并能對每項技術的發展趨勢做出有效的預測。本發明的技術方案包含如下步驟:一種專利熱點發現與趨勢分析方法,其特征在于,包括以下步驟:步驟1:專利文檔采集,構建專利文檔集合;步驟2:將所述的專利文檔向量化;步驟3:根據所述專利文檔的空間向量表示,計算所述的專利文檔中兩兩專利文檔之間的相似度;步驟4:根據所述的專利文檔之間的相似度對所述的專利文檔集合進行聚類分析,形成專利文檔簇;步驟5:對所述的每個專利文檔簇進行主題命名;步驟6:通過熱點計算方法對所述的每個主題進行技術研究熱點分析;步驟7:對所述的每個技術研究熱點進行趨勢分析,分析所述的技術所處的生命周期階段,并對所述的技術的發展趨勢做出預測。作為優選,所述的步驟2中將所述的專利文檔向量化,具體實現方法為:定義所述的專利文檔的集合為D= (C^d2,…,dn},對于所述的專利文檔集合D= Wpd2,…,dn}中的任意一條專利屯,利用一組關鍵詞的空間向量來表示。其過程為,首先采用現有的分詞系統對所述的所有專利文檔進行中文分詞,得到詞項;然后根據自定義或公用的停用詞詞庫去除所述的專利文檔中的停用詞詞項,其中停用詞詞項為沒有實際含義的功能詞詞項;接著對于移除停用詞詞項后的詞項,計算每個詞項在所述的專利文檔中的權重,其計算公式為:
權利要求
1.一種專利熱點發現與趨勢分析方法,其特征在于,包括以下步驟: 步驟1:專利文檔采集,構建專利文檔集合; 步驟2:將所述的專利文檔向量化; 步驟3:根據所述專利文檔的空間向量表示,計算所述的專利文檔中兩兩專利文檔之間的相似度; 步驟4:根據所述的專利文檔之間的相似度對所述的專利文檔集合進行聚類分析,形成專利文檔簇; 步驟5:對所述的每個專利文檔簇進行主題命名; 步驟6:通過熱點計算方法對所述的每個主題進行技術研究熱點分析; 步驟7:對所述的每個技術研究熱點進行趨勢分析,分析所述的技術所處的生命周期階段,并對所述的技術的發展趨勢做出預測。
2.根據權利要求1所述的專利熱點發現與趨勢分析方法,其特征在于:所述的步驟2中將所述的專利文檔向量化,具體實現方法為: 定義所述的專利文檔的集合為D= W1, d2,…,dn},對于所述的專利文檔集合D= W1, d2,…,dn}中的任意一條專利φ,利用一組關鍵詞的空間向量來表示。其過程為,首先采用現有的分詞系統對所述的所有專利文檔進行中文分詞,得到詞項;然后根據自定義或公用的停用詞詞庫去除所述的專利文檔 中的停用詞詞項,其中停用詞詞項為沒有實際含義的功能詞詞項;接著對于移除停用詞詞項后的詞項,計算每個詞項在所述的專利文檔中的權重,其計算公式為:
3.根據權利要求1所述的專利熱點發現與趨勢分析方法,其特征在于:所述的步驟3中計算所述的專利文檔中兩兩專利文檔之間的相似度,包括以下步驟: 步驟3.1:對所述的任意兩條專利文檔屯和4,使用其對應的向量之間的夾角余弦來度量兩者的相似度,其公式為:
4.根據權利要求1所述的專利熱點發現與趨勢分析方法,其特征在于:所述的步驟4中根據所述的專利文檔之間的相似度對所述的專利文檔集合進行聚類分析,形成專利文檔簇,具體實現方法為: 根據所述的專利文檔之間的相似度,使用K-means聚類算法進行所述的專利文檔聚類。聚類后,得到的是一個一個的簇,每個簇由若干相似度較大的專利文檔組成,同時每個簇由所述的專利文檔所包含的一組關鍵詞短語來表示,定義簇C= IT1, T2,…,TJ,其中Ti為簇C中包含的第i個短語,且I < i < m。
5.根據權利要求1所述的專利熱點發現與趨勢分析方法,其特征在于:步驟5中所述的對所述的每個專利文檔簇進行主題命名,包括以下步驟: 步驟5.1:尋找候選短語集合,具體實現方法如下: 對于簇Ci中所包含的短語集合M= IT1, T2,…,TJ,如果frq (Tj, Ci) /does (Ci) > ξ,那么將短語L作為候選短語; 其中I彡j彡n,frq (Tj, Ci)為短語Tj在簇Ci中出現的頻率,docs (Ci)為簇Ci中包含的專利文檔總數,ξ為定義的閥值; 步驟5.2:同類短語合并,具體實現方法如下:如果 Ti η T2 η...n Tn=Ts,那么(T1, τ2,..., τη) — Ts ; 即如果短語T1, T2,…,Tn中都出現了 Ts這個子短語,則將T1, T2,…,Tn這η個短語合并為一個短語Ts; 步驟5.3:尋找最小覆蓋集,具體實現方法如下:
6.根據權利要求1所述的專利熱點發現與趨勢分析方法,其特征在于:步驟6中通過熱點計算方法對所述的每個主題進行技術研究熱點分析,具體實現方法為:通過對專利技術熱點的特征分析和量化,對所述的專利技術熱點進行判斷,其熱度衡量公式為:
7.根據權利要求1所述的專利熱點發現與趨勢分析方法,其特征在于:步驟7中對所述的每個技術研究熱點進行趨勢分析,分析所述的技術所處的生命周期階段,并對所述的技術的發展趨勢做出預測,包括以下步驟: 步驟7.1:根據所述的每個技術研究熱點中的某個熱點技術短語所出現的情況,得到該項技術申請在不同年份的申請數量; Ti — (y” Ii1), (y2, n2), (y3, n3),......, (yk, nk) 其中,Cyi, Iii)表示在第年申請的專利數量為Iii條; 步驟7.2:根據歷史數據進行Logistic曲線擬合,找到一條滿項該項技術申請分布情況的Logistic曲線; Logistic 曲線為:
全文摘要
本發明公開了一種專利熱點發現與趨勢分析方法。在專利熱點發現過程中,首先,進行分詞,并計算專利文檔之間的相似度,根據相似度進行聚類。然后,對每個簇中的短語進行合并,使結果更加簡潔、直觀。接著,通過熱點計算方法發現熱點技術,并分析每項熱點技術的熱點程度。最后,根據歷史數據進行曲線擬合,借助Logistic回歸曲線判斷某項技術當前所處的技術生命周期,從而分析該技術的發展狀況及潛在的研究價值。同時,對熱點技術進行有效的趨勢分析,給出這項技術未來的發展趨勢。本方法能從大量珍貴的專利數據中挖掘出有效的信息情報,具有廣泛的實用性和較高的市場價值。
文檔編號G06F17/30GK103164540SQ201310129380
公開日2013年6月19日 申請日期2013年4月15日 優先權日2013年4月15日
發明者彭智勇, 陳旭, 萬鵬 申請人:武漢大學