一種姓名統計方法及裝置的制造方法
【專利摘要】本發明公開了一種姓名統計方法及裝置。所述方法包括:通過自然語言技術從當前文件中提取姓名信息;根據所述當前文件的類別屬性,將提取出的姓名信息添加到所述類別屬性對應的姓名列表中。如此方案,便可實現姓名的自動化統計分析,簡化了現有統計流程,提高了統計效率。
【專利說明】
一種姓名統計方法及裝置
技術領域
[0001]本發明涉及數據處理領域,具體地,涉及一種姓名統計方法及裝置。
【背景技術】
[0002]隨著互聯網技術的不斷發展,海量互聯網數據的統計分析成為一項重要技術發展方向。人群的劃分、人物間的關系等是社會關系的必要因素,想要做好社會關系分析必然需要去歸納整理姓名數據。
[0003]目前,現有的姓名統計方案,大多通過人工方式進行姓名統計。例如,在統計明星列表時,如果臨時創建明星列表,或者創建明星列表后未進行逐步維護,這一姓名統計過程很難由幾個人在短時間內完成。另外,逐步維護這樣的一個列表,不僅需要繁瑣的搜集與統計,還需要大量的人力成本,統計開銷比較大,統計效率低。
【發明內容】
[0004]本發明的目的是提供一種姓名統計方法及裝置,用以實現姓名的自動化統計分析,簡化現有統計流程,提高統計效率。
[0005]本發明實施例提供了一種姓名統計方法,所述方法包括:通過自然語言技術從當前文件中提取姓名信息;根據所述當前文件的類別屬性,將提取出的姓名信息添加到所述類別屬性對應的姓名列表中。
[0006]可選地,確定所述當前文件的類別屬性的方式為:將所述當前文件與預設類別屬性模型相比對,獲得所述當前文件與各預設類別屬性模型之間的相似度;根據所述相似度確定所述當前文件的類別屬性。
[0007]可選地,預先建立干擾姓名列表,所述將提取出的姓名信息添加到所述類別屬性對應的姓名列表中,包括:判斷所述提取出的姓名信息是否包含于所述干擾姓名列表;如果未包含于所述干擾姓名列表,則將所述提取出的姓名信息添加到所述類別屬性對應的姓名列表中。
[0008]可選地,所述當前文件為文本文件、語音文件、視頻文件中的至少一個。
[0009]可選地,所述方法還包括:在所述姓名列表中記錄每個姓名信息的添加次數;根據所述添加次數,對所述姓名列表中的姓名信息進行排序。
[0010]可選地,所述方法還包括:在所述姓名列表中記錄每個姓名信息的關聯信息。
[0011]可選地,所述關聯信息包括關聯姓名和/或關聯位置。
[0012]可選地,所述關聯信息還包括關聯次數和/或關聯時間。
[0013]本發明實施例提供了一種姓名統計裝置,所述裝置包括:
[0014]姓名信息提取單元,用于通過自然語言技術從當前文件中提取姓名信息;
[0015]姓名信息添加單元,用于根據所述當前文件的類別屬性,將提取出的姓名信息添加到所述類別屬性對應的姓名列表中。
[0016]可選地,所述裝置包括:相似度獲得單元,用于將所述當前文件與預設類別屬性模型相比對,獲得所述當前文件與各預設類別屬性模型之間的相似度;類別屬性確定單元,用于根據所述相似度確定所述當前文件的類別屬性。
[0017]可選地,預先建立干擾姓名列表;姓名信息添加單元,具體用于判斷所述提取出的姓名信息是否包含于所述干擾姓名列表;如果未包含于所述干擾姓名列表,則將所述提取出的姓名信息添加到所述類別屬性對應的姓名列表中。
[0018]可選地,所述當前文件為文本文件、語音文件、視頻文件中的至少一個。
[0019]可選地,所述裝置還包括:排序單元,用于在所述姓名列表中記錄每個姓名信息的添加次數;根據所述添加次數,對所述姓名列表中的姓名信息進行排序。
[0020]可選地,所述裝置還包括:記錄單元,用于在所述姓名列表中記錄每個姓名信息的關聯信息。
[0021 ]可選地,所述關聯信息包括關聯姓名和/或關聯位置。
[0022]可選地,所述關聯信息還包括關聯次數和/或關聯時間。
[0023]本發明技術方案中,在進行姓名統計時,可以自動地從當前文件中提取出姓名信息;然后,根據當前文件的類別屬性,自動地確定出姓名信息的分類;最后,將姓名信息自動地添加到與之分類相匹配的姓名列表中。相對現有技術,本發明方案簡化了統計流程,提高了統計效率。
[0024]本發明的其他特征和優點將在隨后的【具體實施方式】部分予以詳細說明。
【附圖說明】
[0025]附圖是用來提供對本發明的進一步理解,并且構成說明書的一部分,與下面的【具體實施方式】一起用于解釋本發明,但并不構成對本發明的限制。在附圖中:
[0026]圖1是本發明姓名統計方法實施例1的流程圖;
[0027]圖2是本發明姓名統計方法實施例2的流程圖;
[0028]圖3是本發明姓名統計裝置的結構示意圖。
【具體實施方式】
[0029]以下結合附圖對本發明的【具體實施方式】進行詳細說明。應當理解的是,此處所描述的【具體實施方式】僅用于說明和解釋本發明,并不用于限制本發明。
[0030]參見圖1,示出了本發明姓名統計方法實施例1的流程圖,可以包括:
[0031]S1I,通過自然語言技術從當前文件中提取姓名信息。
[0032]本發明的姓名統計方法,可以自動從當前文件中提取姓名信息,并自動識別該姓名信息的分類,進而將提取出的姓名信息自動歸類到合適的姓名列表中。相對現有技術,本發明方案簡化了統計流程,提高了統計效率。
[0033]作為本發明姓名統計方案的技術基礎,在獲得當前文件后,可以從當前文件中自動提取姓名信息。
[0034]作為一種示例,可以通過自然語言技術從當前文件中提取姓名信息。具體地,可以利用分詞器對當前文件中的文字,進行詞語分割以及詞語識別,實現姓名信息的自動提取。例如,在一句話中“小明和小王一起到了公司”,通過分詞器可以提取出“小明”和“小王”兩個姓名信息。
[0035]在一種可能的實施方式中,利用分詞器提取姓名信息時,還可以建立并維護姓名詞庫。對于一個首次識別出的姓名信息來說,可以直接加入詞庫;或者,可以詢問操作人員,經操作人員確認后再加入詞庫;或者,還可以先將首次識別出的姓名信息加入詞庫,并在后續通過大量的學習機制驗證該姓名信息的正確性,如果正確,則保留在詞庫中;如果不正確,則從詞庫中剔除。可以理解地,本發明所說驗證不正確指的是,首次識別出的姓名信息并非真實的姓名,屬于誤識別。
[0036]S102,根據所述當前文件的類別屬性,將提取出的姓名信息添加到所述類別屬性對應的姓名列表中。
[0037]在SlOl從當前文件中提取出姓名信息后,可以根據當前文件的類別屬性,確定所提取姓名信息的分類,進而將其添加到對應的姓名列表中。本發明方案中,當前文件可以為客戶端本地保存的文件,或者,也可以為通過互聯網在線訪問的文件;當前文件的類別屬性可以為娛樂類、財經類、體育類、政治類、經濟類等等,這主要由統計分析針對的人群而定。例如,利用本發明方案統計明星列表時,當前文件的類別屬性可以為娛樂類。本發明對當前文件的來源以及類別屬性可不做具體限定。
[0038]作為一種示例,當前文件的類別屬性可以由操作人員設置歸類。
[0039]作為一種示例,當前文件可以是用戶通過互聯網訪問到的新聞,本發明可以利用新聞分類技術確定當前文件的類別屬性。
[0040]作為一種示例,本發明中確定當前文件的類別屬性的方式可以為:將所述當前文件與預設類別屬性模型相比對,獲得所述當前文件與各預設類別屬性模型之間的相似度;根據所述相似度確定所述當前文件的類別屬性。其中,預設類別屬性模型可以表示某一類文件具有的特點。具體地,可以先劃分文件類別,例如將文件劃分為13個類別;其次,對應于每個類別,分別確定出預設數目的樣本,例如針對體育類可以確定出2萬篇新聞作為樣本;最后,對樣本進行統計分析,得到各個類別的預設類別屬性模型。
[0041]在實際應用中,獲得當前文件后,可以分別將其與每個預設類別屬性模型進行比對,確定出二者之間的相似度。作為一種示例,可以將最高相似度對應的預設類別屬性模型所表示的類別,確定為當前文件的類別,也就是說,當前文件只對應有一種類別屬性;或者,可以將超過預設值的相似度對應的預設類別屬性模型所表示的類別,確定為當前文件的類另IJ,也就是說,當前文件可能不只對應有一種類別屬性,本發明對此可不做具體限定。另外,上文提及的預設值,可以結合實際應用情況而定,本發明對此亦可不做具體限定。
[0042]可以理解的,本發明中的當前文件可以體現為文本文件、語音文件、視頻文件中的至少一個。作為一種示例,如果當前文件為文本文件,可以直接從中抓取姓名信息;如果當前文件為語音文件,可以先將語音文件轉換為文本文件后再抓取姓名信息;如果當前文件為視頻文件,對于視頻文件中的語音,同樣可以轉換為文本文件后再抓取姓名信息,對于視頻文件的每幀圖像中包含的文字,則可進行圖像識別并從中抓取姓名信息,本發明對從不同類型的文件中抓取姓名信息的方式可不做具體限定。
[0043]可選地,上述方案中提取到的姓名信息可能是統計分析針對的對象,也可能是一些干擾姓名,為了保證本發明姓名統計過程的準確性,還可以創建干擾姓名列表,并結合干擾姓名列表進行姓名統計。
[0044]參見圖2,示出了本發明姓名統計方法實施例2的流程圖,可以包括:
[0045]S201,通過自然語言技術從當前文件中提取姓名信息。
[0046]具體實現過程可參見上文圖1中SlOl處所作介紹,此處不再贅述。
[0047]S202,判斷所述提取出的姓名信息是否包含于所述干擾姓名列表。
[0048]S203,如果未包含于所述干擾姓名列表,則根據所述當前文件的類別屬性,將提取出的姓名信息添加到所述類別屬性對應的姓名列表中。
[0049]S203中根據類別屬性將姓名信息添加到姓名列表的過程,可參見圖1中S102處所作介紹,此處不再贅述。
[0050]需要說明的是,一個干擾姓名列表可能針對于所有姓名列表,或者,一個干擾姓名列表也可能針對于部分姓名列表,本發明對此可不做具體限定。舉例來說,針對明星列表來說,提取到的記者、編輯等姓名都屬于干擾姓名,可以加入針對于明顯列表的干擾姓名列表中;但是,在需要統計分析記者列表時,提取到的記者姓名則屬于統計分析針對的對象,不再為干擾姓名。
[0051]可選地,將提取出的姓名信息添加到姓名列表時,還可以在姓名列表中記錄該姓名信息的添加次數。如此,便可結合每個姓名信息的添加次數,對姓名列表中的姓名信息進行排序。作為一種示例,可以按照添加次數由多到少對姓名信息進行排序,如此,便可根據排序結果確定出熱門人物。或者,還可以每隔預設周期,便按照添加次數由多到少對姓名信息進行一次排序,統計分析相鄰兩次排序結果中,人物排序的變化情況。本發明對排序結果的應用場景、排序方式、預設周期等可不做具體限定,作為一種示例,預設周期可以為一天。
[0052]可選地,將提取出的姓名信息添加到姓名列表時,還可以在姓名列表中記錄該姓名信息的關聯信息。舉例來說,關聯信息可以為關聯姓名和/或關聯位置。
[0053](I)關聯信息為關聯姓名。
[0054]例如,在一句話中“小明和小王在三月份一起到北京出差”,利用本發明方案可以自動提取出“小明”和“小王”兩個姓名信息。作為一種示例,若以“小明”為統計分析的對象,“小王”就屬于關聯姓名;若以“小王”為統計分析的對象,“小明”就屬于關聯姓名。如此,在對“小明”和“小王”各自的關聯姓名統計完畢后,便可基于二者間的關系繪制出一副關聯關系網。
[0055]可以理解地,除了可以在一句話中統計姓名信息和關聯姓名之外,還可以在一段話中統計,或者在一篇文章中統計,本發明對此可不做具體限定。舉例來說,利用本發明方案對多篇文章進行統計分析,得到的結果為:小王(同句中出現小明15次,同段落中出現小明40次)。
[0056]需要說明的是,如果姓名列表中還記錄有關聯次數,即姓名信息與關聯姓名同時出現的次數。作為一種示例,還可以根據關聯次數,分析關聯關系網中各人物之間的緊密程度。
[0057]需要說明的是,如果姓名列表中還記錄有關聯時間,即姓名信息與關聯姓名同時出現的時間。作為一種示例,還可以根據關聯時間,確定關聯關系網的可參考性。通常,距離當前時間越近,參考性越強;距離當前時間越遠,參考性越弱。
[0058]需要說明的是,姓名列表中還可以記錄關聯次數和關聯時間,本發明對此可不做具體限定。
[0059](2)關聯信息為關聯位置。
[0060]例如,在一句話中“小明和小王在三月份一起到北京出差”,利用本發明方案可以自動提取出姓名信息“小明”以及關聯位置“北京”。如此,便可繪制出小明所有可能的活動地點。
[0061 ]可以理解地,除了可以在一句話中統計姓名信息和關聯位置之外,還可以在一段話中統計,或者在一篇文章中統計,本發明對此可不做具體限定。
[0062]需要說明的是,如果姓名列表中還記錄有關聯次數,即姓名信息與關聯位置同時出現的次數。作為一種示例,還可以根據關聯次數,分析人物的常規活動地點。例如,小明(出現在北京15次)。
[0063]需要說明的是,如果姓名列表中還記錄有關聯時間,即姓名信息與關聯位置同時出現的時間。作為一種示例,還可以根據關聯時間,分析人物的活動地點與時間之間的關系。例如,小明(三月份出現在北京11次),小明(十月份出現在北京4次),如此可以分析:小明經常在上半年出現在北京。
[0064]需要說明的是,姓名列表中還可以記錄關聯次數和關聯時間,本發明對此可不做具體限定。
[0065](3)關聯信息為關聯姓名和關聯位置。
[0066]例如,在一句話中“小明和小王在三月份一起到北京出差”,利用本發明方案可以自動提取出姓名信息“小明”、關聯姓名“小王”以及關聯位置“北京”。
[0067]同樣地,姓名列表中還可以記錄關聯次數,即姓名信息、關聯姓名與關聯位置三者同時出現的次數;和/或,姓名列表中還可以記錄關聯時間,本發明對此可不做具體限定。
[0068]需要說明的是,本發明中的關聯時間,可以直接從當前文件中提取,如上文所舉示例中關聯時間為三月份;或者,當前文件為網頁新聞,還可以從網頁上提取關聯時間,等等,本發明對提取關聯時間的方式可不做具體限定。
[0069]作為本發明方案的一種應用,可以按照預定周期從指定網站上,對某種類型的人群進行自動搜尋與匯總。例如,預定周期為每天,指定網站為門戶網站。通常,門戶網站會將新聞劃分到特定分類中,如娛樂類新聞、體育類新聞、財經類新聞。以統計更新明星列表為例,可以通過互聯網訪問門戶網站,將網站上的娛樂類新聞作為當前文件,從中爬取姓名信息,進而將姓名信息更新至娛樂類新聞對應的明星列表中。
[0070]與圖1所示方法相對應,本發明實施例還提供一種姓名統計裝置300,參見圖3所示示意圖,所述裝置可以包括:
[0071]姓名信息提取單元301,用于通過自然語言技術從當前文件中提取姓名信息;
[0072]姓名信息添加單元302,用于根據所述當前文件的類別屬性,將提取出的姓名信息添加到所述類別屬性對應的姓名列表中。
[0073]可選地,所述裝置包括:
[0074]相似度獲得單元,用于將所述當前文件與預設類別屬性模型相比對,獲得所述當前文件與各預設類別屬性模型之間的相似度;
[0075]類別屬性確定單元,用于根據所述相似度確定所述當前文件的類別屬性。
[0076]可選地,預先建立干擾姓名列表;則
[0077]姓名信息添加單元,具體用于判斷所述提取出的姓名信息是否包含于所述干擾姓名列表;如果未包含于所述干擾姓名列表,則將所述提取出的姓名信息添加到所述類別屬性對應的姓名列表中。
[0078]可選地,所述裝置還包括:
[0079]排序單元,用于在所述姓名列表中記錄每個姓名信息的添加次數;根據所述添加次數,對所述姓名列表中的姓名信息進行排序。
[0080]可選地,所述裝置還包括:
[0081 ]記錄單元,用于在所述姓名列表中記錄每個姓名信息的關聯信息。
[0082]以上結合附圖詳細描述了本發明的優選實施方式,但是,本發明并不限于上述實施方式中的具體細節,在本發明的技術構思范圍內,可以對本發明的技術方案進行多種簡單變型,這些簡單變型均屬于本發明的保護范圍。
[0083]另外需要說明的是,在上述【具體實施方式】中所描述的各個具體技術特征,在不矛盾的情況下,可以通過任何合適的方式進行組合,為了避免不必要的重復,本發明對各種可能的組合方式不再另行說明。
[0084]此外,本發明的各種不同的實施方式之間也可以進行任意組合,只要其不違背本發明的思想,其同樣應當視為本發明所公開的內容。
【主權項】
1.一種姓名統計方法,其特征在于,所述方法包括: 通過自然語言技術從當前文件中提取姓名信息; 根據所述當前文件的類別屬性,將提取出的姓名信息添加到所述類別屬性對應的姓名列表中。2.根據權利要求1所述的方法,其特征在于,確定所述當前文件的類別屬性的方式為: 將所述當前文件與預設類別屬性模型相比對,獲得所述當前文件與各預設類別屬性模型之間的相似度; 根據所述相似度確定所述當前文件的類別屬性。3.根據權利要求1所述的方法,其特征在于,預先建立干擾姓名列表,所述將提取出的姓名信息添加到所述類別屬性對應的姓名列表中,包括: 判斷所述提取出的姓名信息是否包含于所述干擾姓名列表; 如果未包含于所述干擾姓名列表,則將所述提取出的姓名信息添加到所述類別屬性對應的姓名列表中。4.根據權利要求1至3任一項所述的方法,其特征在于,所述方法還包括: 在所述姓名列表中記錄每個姓名信息的添加次數; 根據所述添加次數,對所述姓名列表中的姓名信息進行排序。5.根據權利要求1至3任一項所述的方法,其特征在于,所述方法還包括: 在所述姓名列表中記錄每個姓名信息的關聯信息,所述關聯信息包括關聯姓名和/或關聯位置。6.一種姓名統計裝置,其特征在于,所述裝置包括: 姓名信息提取單元,用于通過自然語言技術從當前文件中提取姓名信息; 姓名信息添加單元,用于根據所述當前文件的類別屬性,將提取出的姓名信息添加到所述類別屬性對應的姓名列表中。7.根據權利要求6所述的裝置,其特征在于,所述裝置包括: 相似度獲得單元,用于將所述當前文件與預設類別屬性模型相比對,獲得所述當前文件與各預設類別屬性模型之間的相似度; 類別屬性確定單元,用于根據所述相似度確定所述當前文件的類別屬性。8.根據權利要求6所述的裝置,其特征在于,預先建立干擾姓名列表; 姓名信息添加單元,具體用于判斷所述提取出的姓名信息是否包含于所述干擾姓名列表;如果未包含于所述干擾姓名列表,則將所述提取出的姓名信息添加到所述類別屬性對應的姓名列表中。9.根據權利要求6至8任一項所述的裝置,其特征在于,所述裝置還包括: 排序單元,用于在所述姓名列表中記錄每個姓名信息的添加次數;根據所述添加次數,對所述姓名列表中的姓名信息進行排序。10.根據權利要求6至8任一項所述的裝置,其特征在于,所述裝置還包括: 記錄單元,用于在所述姓名列表中記錄每個姓名信息的關聯信息,所述關聯信息包括關聯姓名和/或關聯位置。
【文檔編號】G06F17/30GK105868271SQ201610156681
【公開日】2016年8月17日
【申請日】2016年3月16日
【發明人】麥濤, 張旭, 張明亮, 朱志華, 齊勇
【申請人】東軟集團股份有限公司