專利名稱:一種基于非結構化文本生成結構化信息實體的方法與設備的制作方法
技術領域:
本發明涉及計算機網絡技術領域,尤其涉及一種基于非結構化文本生成結構化信息實體的方法與設備。
背景技術:
在現有技術中,諸如維基百科、互動百科、搜搜百科等網絡百科的詞條主要基于非結構化的文本進行描述,其中,所述“非結構化文本”意指不方便用數據庫二維邏輯表來表現的文本數據,由此導致百科詞條所包含的大量文本內容難于被分析與維護,而結構化文本則可通過數據庫的二維表結構來邏輯表達,因而便于文本內容的維護及基于該結構化文本進行數據挖掘。因此,需要提供一種能夠基于非結構化文本自動生成結構化信息實體的方法。
發明內容
本發明的目的是提供一種基于非結構化文本生成結構化信息實體的方法與設備。根據本發明的一個方面,提供一種基于非結構化文本生成結構化信息實體的方法,其中,該方法包括以下步驟a獲取與中心詞相關的非結構化文本;b基于預定分類模型,對所述非結構化文本進行分類分析,以獲取所述中心詞的分類;c根據所述分類,生成所述中心詞的結構化信息實體。根據本發明的一個方面,提供一種基于非結構化文本生成結構化信息實體的設備,其中,該設備包括文本獲取裝置,用于獲取與中心詞相關的非結構化文本;分類獲取裝置,用于基于預定分類模型,對所述非結構化文本進行分類分析,以獲取所述中心詞的分類;生成裝置,用于根據所述分類,生成所述中心詞的結構化信息實體。與現有技術相比,本發明根據中心詞的非結構化文本,生成該中心詞對應的結構化信息實體,由此便于對該中心詞所包含的內容進行數據挖掘,并降低中心詞內容維護的成本。
通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發明的其它特征、目的和優點將會變得更明顯圖1示出根據本發明一個方面基于非結構化文本生成結構化信息實體的設備示意圖;圖2示出根據本發明另一個方面基于非結構化文本生成結構化信息實體的方法流程圖。附圖中相同或相似的附圖標記代表相同或相似的部件。
具體實施例方式下面結合附圖對本發明作進一步詳細描述。圖1示出根據本發明一個方面基于非結構化文本生成結構化信息實體的設備示意圖。信息實體生成設備1包括文本獲取裝置11、分類獲取裝置12和生成裝置13。在此, 信息實體生成設備1包括但不限于計算機、網絡主機、單個網絡服務器、多個網絡服務器集或多個服務器構成的云。在此,云由基于云計算(Cloud Computing)的大量計算機或網絡服務器構成,其中,云計算是分布式計算的一種,由一群松散耦合的計算機集組成的一個超級虛擬計算機。具體地,文本獲取裝置11獲取與中心詞相關的非結構化文本。更具體地,文本獲取裝置11定期或應事件觸發實時地獲取與中心詞相關的非結構化文本,例如根據中心詞, 在中心詞數據庫中進行匹配查詢,以獲得與該中心詞的非結構化文本,或者定期地通過約定的通信方式直接從第三方設備讀取該中心詞的非結構化文本。在此,所述“中心詞”意指該非結構化文本緊緊圍繞進行闡述的詞語。例如,假設信息實體生成設備1為網絡百科服務器,文本獲取裝置11根據預置的中心詞列表中的中心詞“周杰倫”在中心詞數據庫中進行匹配查詢,獲得該中心詞的非結構化文本內容為“周杰倫是中國臺灣華語流行歌手,發行諸多音樂專輯。近年涉足電影行業,出演電影不能說的秘密”。再如,文本獲取裝置11按一定周期,將預置的中心詞作為輸入參數定期地通過調用設定的應用編程接口(API)向第三方設備發送獲取該中心詞的非結構化文本的請求,并接收該第三方設備基于該請求返回的非結構化文本。在此,上述中心詞數據庫用于存儲已存在的所有中心詞的相關信息,該中心詞數據庫包括但不限于關系數據庫,內存存儲器,硬盤存儲器等。本領域技術人員應能理解上述獲取中心詞的非結構化文本的方式僅為舉例,其他現有的或今后可能出現的獲取中心詞的非結構化文本的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。隨后,分類獲取裝置12基于預定分類模型,對所述非結構化文本進行分類分析, 以獲取所述中心詞的分類。具體地,分類獲取裝置12例如基于利用諸如決策樹、支持向量機(SVM)等機器學習方法而獲得的用于對語料所屬分類進行分類預測的預定分類模型,對文本獲取裝置11所提供的中心詞的非結構化文本進行分類分析,獲得該非結構化文本所屬不同分類的概率,并據此獲取該中心詞的分類,或者將文本獲取裝置11所提供的中心詞的非結構化文本在如分類數據庫的簡單分類模型中進行匹配查詢,以獲得該中心詞的分類。例如,分類獲取裝置12根據文本獲取裝置11獲取的中心詞“周杰倫”的非結構化文本“周杰倫是中國臺灣華語流行歌手,發行諸多音樂專輯。近年涉足電影行業,出演電影不能說的秘密”,在由第三方設備提供的分類模型中進行分類分析,獲得該中心詞屬于“歌手/ 歌唱家”分類的概率為0. 9,屬于“演員”分類的概率為0. 7,屬于其他分類的概率小于0. 1, 據此將所屬概率最大的“歌手/歌唱家”作為“周杰倫”的分類。再如,分類獲取裝置12對文本獲取裝置11獲取的中心詞“周杰倫”的非結構化文本“周杰倫是中國臺灣華語流行歌手,發行諸多音樂專輯。近年涉足電影行業。”利用正向最大匹配分詞算法對該非結構化文本進行分詞處理,獲得的分詞包括“中國”,“臺灣”,“流行歌手”,“音樂專輯”,“電影”等,將該些分詞作為分類關鍵詞在分類數據庫中進行匹配查詢,以獲得各分類關鍵詞所對應的分類,并將其作為中心詞所屬的分類如“歌手/歌唱家”,“演員”和“導演”。在此,上述分類數據庫中已預置分類關鍵詞與分類的映射關系,例如關鍵詞“歌手”與分類“歌手/歌唱家”相對應,關鍵詞“電影”與分類“演員,,相對應,關鍵詞“電影”還可與“導演”相對應。本領域技術人員應能理解上述獲取中心詞的分類的方式僅為舉例,其他現有的或今后可能出現的獲取中心詞的分類的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。接著,生成裝置13根據所述分類,生成所述中心詞的結構化信息實體。具體地,生成裝置13根據分類獲取裝置12獲得的中心詞的分類,獲得與該分類相對應的預定義信息實體數據結構,并據此生成該中心詞的結構化信息實體。在此,所述“信息實體”意指具有結構化特征的數據,包括但不限于網絡百科中的詞條,電子商務網站中的商品信息,電子圖書館中的圖書條目,電子期刊網站中的期刊、論文信息等。例如,假設分類獲取裝置12獲得的中心詞“七里香”的分類為“音樂專輯”,生成裝置13根據該分類獲得預置的與“音樂專輯” 分類相對應的信息實體數據結構,其中包括屬性“專輯名稱”,“表演者”,“發行時間”,“發行公司”,“專輯曲目”等,并基于該數據結構生成“七里香”的信息實體。再如,假設分類獲取裝置12獲得的中心詞“周杰倫”的分類為“歌手/歌唱家”,生成裝置13根據該分類,在屬性模板庫中進行匹配查詢以獲得該分類所對應的一個或多個屬性模板,如“發行音樂專輯”、 “所獲音樂獎項”,“舉辦演唱會”等,然后生成包含該(等)屬性模板的中心詞“周杰倫”的信息實體。在此,所述“屬性模板”包括與該分類相對應的一個或多個特定屬性,用以描述屬于該分類的信息實體的某一個方面的相關信息。在此,所述“屬性”意指用于描述信息實體信息項的最小單位,例如,屬性模板“發行音樂專輯”用于描述分類為“歌手/歌唱家”的信息實體“周杰倫”發行的所有音樂專輯信息,其包括屬性“發行專輯名稱”、“發行時間”、“曲目名稱”等。在此,上述屬性模板庫用于存儲分類與該分類相對應的已有屬性模板的映射信息,該屬性模板庫包括但不限于關系數據庫,內存存儲器,硬盤存儲器等。本領域技術人員應能理解上述生成結構化信息實體的方式僅為舉例,其他現有的或今后可能出現的生成結構化信息實體的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。在此,需要說明的是,舉例中的各項數值作為說明作用的示例,僅供理解本發明, 不作為實際應用時的真實數據。如無特別說明,本文中其他地方出現的數值的功用與此處相同,為簡明起見,不再贅述。優選地,文本獲取裝置11和分類獲取裝置12和生成裝置13之間是持續不斷地工作。具體地,文本獲取裝置11獲取與中心詞相關的非結構化文本;隨后,分類獲取裝置12 基于預定分類模型,對所述非結構化文本進行分類分析,以獲取所述中心詞的分類;接著, 生成裝置13根據所述分類,生成所述中心詞的結構化信息實體;在此,本領域技術人員應理解“持續”是指各裝置分別按照設定的或實時調整的工作模式要求進行與中心詞相關的非結構化信息實體的獲取、中心詞分類的獲取、及結構化信息實體的生成,直至文本獲取裝置11在較長時間內停止對與中心詞相關的非結構化文本的獲取。優選地,分類獲取裝置12還包括分詞獲取單元(未示出)和第一獲取單元(未示出),其中,分詞獲取單元對所述非結構文本進行分詞處理,獲得多個分詞;接著,第一獲取單元基于所述預定分類模型,對所述多個分詞進行分類分析,以獲取所述中心詞的分類。具體地,分詞獲取單元例如通過諸如正向最大匹配等分詞算法對文本獲取裝置11獲取的與中心詞相關的非結構化文本進行分詞處理,獲得該非結構文本的多個分詞;然后,第一獲取單元基于該預定分類模型,例如對分詞獲取單元獲得的該些分詞進行特征提取,獲得多條特征信息,然后對該多條特征進行權重計算,并基于加權的該多條特征對各分詞進行分類預測,據此獲得該中心詞的分類。例如,分詞獲取單元對文本獲取裝置11獲取的中心詞“周杰倫”的非結構化文本“周杰倫是中國臺灣的流行歌手...”利用正向最大匹配分詞算法對該非結構化文本進行分詞處理,獲得的分詞結果為“周杰倫/是/中國/臺灣/的/流行 /歌手...”;接著,第一獲取單元根據該預定分類模型,對該分詞結果中的每個分詞進行詞性標注、詞頻(TF)及反文檔頻率(IDF)獲取等操作以獲得該非結構化文本的特征信息,例如,該非結構化文本中名詞的比例為0. 3,據此獲得特征“名詞比例0. 3” ;再如該非結構化文本的分詞結果中分詞的總數為100個,而分詞“歌曲”出現20次,由此獲得“歌曲”的詞頻為0.2( = 20/100),并據此獲得特征“歌曲TF :0. 2”,然后,第一獲取單元根據預定規則對該各特征信息進行加權,例如,若分詞的詞頻(TF)較高則該分詞的詞頻特征的權重較大,反之,則權重較小,接著,第一獲取單元利用在該預定分類模型中實現的基于支持向量機(SVM)的文本分類方法對每個分詞進行分類預測,例如,在該100個分詞中,80個分詞的分類預測結果為“歌手/歌唱家”,10個分詞的分類預測結果為“演員”,10個分詞的分類預測結果為“導演”,據此獲得中心詞“周杰倫”的分類為“歌手/歌唱家”。在此,所述實施例中的分詞算法包括但不限于正向最大匹配,反向最大匹配,雙向最大匹配,語言模型方法, 最短路徑算法等等。在此,所述實施例中的文本分類方法包括但不限于Rocchio法,K臨近法,決策樹,樸素貝葉斯,支持向量機(SVM)等等。本領域技術人員還應能理解上述對非結構化文本進行分詞及獲取中心詞的方式僅為舉例,其他現有的或今后可能出現的對非結構化文本進行分詞及獲取中心詞的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。 更優選地,第一獲取單元還包括概率獲取單元(未示出)和分類獲取單元(未示出),其中,概率獲取單元基于所述預定分類模型,對所述多個分詞進行分類分析,以獲取所述中心詞所屬各候選分類的概率;接著,分類獲取單元根據所述概率,從所述各候選分類中確定所述中心詞的分類。具體地,概率獲取單元基于所述預定分類模型,對分詞獲取單元獲取的分詞結果進行分類分析,以獲取中心詞屬于各候選分類的概率;接著,分類獲取單元根據概率獲取單元獲得的該中心詞屬于各候選分類的概率,例如將各候選分類中該中心詞所屬概率最大的分類作為該中心詞的分類,或者將各候選分類中概率大于預設概率閾值的一個或多個分類均作為該中心詞的分類。例如,概率獲取單元基于該預定分類模型,對分詞獲取單元獲得的與中心詞“周杰倫”相關的非結構化文本的分詞結果進行分類分析,并據此獲得該中心詞屬于分類“歌手/歌唱家”的概率為0. 92,屬于分類“演員”的概率為0. 78,而屬于分類“導演”的概率為0. 5 ;接著,分類獲取單元根據概率獲取單元獲得的該中心詞屬于各候選分類的概率,按照中心詞所屬分類的概率需大于概率閾值0.7的規則,確定中心詞 “周杰倫”的分類為“歌手/歌唱家”和“演員”。本領域技術人員還應能理解上述獲取分類概率及確定中心詞分類的方式僅為舉例,其他現有的或今后可能出現的獲取分類概率及確定中心詞分類的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。在另一個優選實施例中(參照圖1),信息實體生成設備1還包括模型獲取裝置 (未示出),該模型獲取裝置基于預置語料及其對應分類信息的語料庫,對該語料庫進行機器學習,以獲得用于對語料所屬分類進行概率性分析的所述預定分類模型。以下參照圖1 對該另一優選實施例進行詳細描述,其中,文本獲取裝置11獲取與中心詞相關的非結構化文本;隨后,分類獲取裝置12基于預定分類模型,對所述非結構化文本進行分類分析,以獲取所述中心詞的分類;接著,生成裝置13根據所述分類,生成所述中心詞的結構化信息實體;其具體過程與前述參照圖1所描述的實施例中文本獲取裝置11、分類獲取裝置12和生成裝置13所執行的過程相同,為簡明起見,以引用方式包含于此,而不做贅述。具體地,例如在語料庫中預先放置一定數量的語料及對該些語料人為賦予的預定義分類信息,如,“七里香歌曲”、“不能說的秘密電影”、“劉翔運動員”,模型獲取裝置基于該語料庫通過諸如決策樹分析、支持向量機(SVM)等機器學習方法進行機器學習,并據此獲得用于對語料所屬分類進行概率性分析的所述預定分類模型。在此,所述上述“語料庫”意指承載在語言的實際使用中真實出現過的語言材料,及對其中的語言材料進行加工 (分析和處理)而獲得的相應分類信息,其可保存存儲在各種類型的數據庫、文本文件等中,以供查詢之用。。本領域技術人員還應能理解上述獲取分類模型的方式僅為舉例,其他現有的或今后可能出現的獲取分類模型的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。在又一個優選實施例中(參照圖1),信息實體生成設備1還包括模板獲取裝置 (未示出),該模板獲取裝置根據所述分類,獲取與所述分類相對應的屬性模板;其中,生成裝置13根據所述分類及其對應的該屬性模板,生成包含所述屬性模板的所述信息實體。以下參照圖1對該又一優選實施例進行詳細描述,其中,文本獲取裝置11獲取與中心詞相關的非結構化文本;隨后,分類獲取裝置12基于預定分類模型,對所述非結構化文本進行分類分析,以獲取所述中心詞的分類;其具體過程與前述參照圖1所描述的實施例中文本獲取裝置11和分類獲取裝置12所執行的過程相同,為簡明起見,以引用方式包含于此,而不做贅述。具體地,模板獲取裝置根據分類獲取裝置12所提供的中心詞的分類,例如通過在屬性模板庫中進行匹配查詢,以獲取與該分類相對應的一個或多個預定義屬性模板,將該分類的缺省屬性模板作為將包含在該中心詞的信息實體中的屬性模板,或者將滿足預定規則的該分類的屬性模板作為將包含在該中心詞的信息實體中的屬性模板;接著,生成裝置 13根據分類獲取裝置12獲取的中心詞的分類和模板獲取裝置獲取的將包含于該中心詞的信息實體中的屬性模板,生成包含該(些)屬性模板的該中心詞的結構化信息實體。在此, 所述“屬性模板”包括與該分類相對應的一個或多個特定屬性,用以描述屬于該分類的信息實體的某一個方面的相關信息。在此,所述“屬性”意指用于描述該信息實體的信息項最小單位。在此,屬性模板庫用于存儲分類與該分類相對應的已有屬性模板的映射信息,該屬性模板庫包括但不限于關系數據庫,內存存儲器,硬盤存儲器等。例如,假設分類獲取裝置12 獲得的中心詞“周杰倫”的分類為“歌手/歌唱家”和“演員”,模板獲取裝置根據該2個分類,在屬性模板庫中進行匹配查詢,獲得分類“歌手/歌唱家”的屬性模板包括“發行音樂專輯”、“所獲音樂獎項”、“舉辦演唱會”、“簽約經紀公司”,分類“演員,,的屬性模板包括“出演電影”、“出演電視劇”、“所獲影視獎項”;假設將包含在中心詞“周杰倫”的信息實體中的屬性模板需要滿足的預定規則為超過80%的具有相同分類的其他信息實體包含該屬性模板, 模板獲取裝置根據分類“歌手/歌唱家”,在信息實體數據庫中進行匹配查詢,以獲得具有該分類的所有其他信息實體,然后,在該所有其他信息實體中依次遍歷其包含的屬性模板, 并獲得包含“發行音樂專輯”、“所獲音樂獎項”、“舉辦演唱會”、“簽約經紀公司”的其他信息實體在該所有其他信息實體中所占的比例依次為100^^85^^70^^75%,據此確定將包含于中心詞“周杰倫”的信息實體中的屬性模板為“發行音樂專輯”和“所獲音樂獎項”,執行同樣的操作確定分類“演員”的屬性模板“出演電影”將包含于該中心詞的信息實體中; 接著,生成裝置13根據模板獲取裝置獲取的將包含于該中心詞的信息實體中屬性模板“發行音樂專輯”、“所獲音樂獎項”和“出演電影”,為該中心詞生成包含該些屬性模板的結構化信息實體,使該信息實體具有該些屬性模板所包括的屬性,如屬性模板“發行音樂專輯”包括屬性“專輯名稱”、“發行時間”、“曲目名稱”,屬性模板“所獲音樂獎項”包括屬性“獎項名稱”、“獲獎時間”,屬性模板“出演電影”包括屬性“電影名稱”、“飾演角色”。本領域技術人員還應能理解上述獲取屬性模板及生成信息實體的方式僅為舉例,其他現有的或今后可能出現的獲取屬性模板及生成信息實體的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。優選地,信息實體生成設備1還包括模板更新裝置(未示出),該模板更新裝置根據所述信息實體的歷史訪問信息,更新所述信息實體中的所述屬性模板。具體地,模板更新裝置根據生成裝置13生成的結構化信息實體的歷史訪問信息,例如添加新的屬性模板到該信息實體中,或者從該信息實體中的刪除其包含的某(些)屬性模板。例如,假設信息實體的歷史訪問信息為該信息實體的屬性模板中各屬性的屬性內容的累計瀏覽次數,模板更新裝置根據生成裝置13生成的中心詞“周杰倫”的信息實體,基于該信息實體的歷史訪問日志進行統計分析,獲得與該信息實體包含的每個屬性模板中各屬性的屬性內容相對應的網頁頁面的累計瀏覽次數,其中屬性模板“發行音樂專輯”中各屬性的屬性內容的累計瀏覽次數為20000次,屬性模板“所獲音樂獎項”中各屬性的屬性內容的累計瀏覽次數為20 次,據此,獲得屬性模板“所獲音樂獎項”所對應的累計瀏覽次數小于累計瀏覽次數閾值100 次,則將該屬性模板從該信息實體中刪除。再如,假設信息實體的歷史訪問信息為所述信息實體的用戶歷史行為記錄,模板更新裝置根據生成裝置13生成的中心詞“周杰倫”的信息實體,基于信息實體的用戶歷史行為記錄進行統計分析獲得在用戶的10000條“周杰倫”信息實體點擊記錄中有9000條的該點擊記錄后緊隨“蘭亭序”信息實體和“可愛女人”信息實體的點擊記錄,而在用戶的8000條“王力宏”信息實體點擊記錄中有7000條的該點擊記錄后緊隨“唯一”信息實體和“龍的傳人”信息實體的點擊記錄,通過對該統計分析結果進行聚類,獲得“周杰倫”、“王力宏”與“蘭亭序”、“可愛女人”、“唯一”、“龍的傳人”之間存在“歌手-歌曲”的關系,則據此為“周杰倫”信息實體添加“表演歌曲”屬性模板,該屬性模板包括屬性“歌曲名稱”。本領域技術人員應能理解上述更新信息實體屬性模板的方式僅為舉例, 其他現有的或今后可能出現的更新信息實體屬性模板的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。更優選地,所述歷史訪問信息包括但不限于以下至少任一項
-所述信息實體的所述屬性模板中各屬性的屬性內容的累計瀏覽次數;-所述信息實體的所述屬性模板中各屬性的屬性內容的瀏覽頻次;-所述信息實體的所述屬性模板中各屬性的屬性內容的累計編輯次數;-所述信息實體的所述屬性模板中各屬性的屬性內容的編輯頻次;-所述信息實體的用戶歷史行為記錄。具體地,若歷史訪問信息包括所述信息實體的所述屬性模板中各屬性的屬性內容的累計瀏覽次數,則模板更新裝置在該累計瀏覽次數低于預設的累計瀏覽次數閾值時,將該屬性模板從該信息實體中刪除。若歷史訪問信息包括所述信息實體的所述屬性模板中各屬性的屬性內容的瀏覽頻次,則模板更新裝置在該瀏覽頻次低于預設的瀏覽頻次閾值時, 將該屬性模板從該信息實體中刪除。若歷史訪問信息包括所述信息實體的所述屬性模板中各屬性的屬性內容的累計編輯次數,則模板更新裝置在該累計編輯次數低于預設的累計編輯閾值時,將該屬性模板從該信息實體中刪除。若歷史訪問信息包括所述信息實體的所述屬性模板中各屬性的屬性內容的編輯頻次,則模板更新裝置在該編輯頻次低于預設的編輯頻次閾值時,將該屬性模板從該信息實體中刪除。在此,上述累計瀏覽次數,瀏覽頻次,累計編輯次數,編輯頻次可通過對信息實體的歷史訪問日志進行統計分析獲得,也可通過預定的通信方式第三方設備讀取。本領域技術人員應能理解上述每項歷史訪問信息不僅可以單獨用于更新信息實體的屬性模板,還可以相互結合后用以加權更新信息實體的屬性模板。 本領域技術人員應能理解上述歷史訪問信息僅為舉例,其他現有的或今后可能出現的歷史訪問信息如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。更優選地,信息實體生成設備1還包括中心詞獲取裝置(未示出)、屬性獲取裝置 (未示出)和添加裝置(未示出),其中,中心詞獲取裝置根據所述非結構化文本,在中心詞數據庫中進行匹配查詢,以獲取所述非結構化文本中的中心詞文本及其分類;隨后,屬性獲取裝置從所述信息實體的屬性模板中獲取與所述中心詞文本具有相同分類的屬性;接著, 添加裝置將所述中心詞文本作為所述屬性的屬性內容添加到所述信息實體中。具體地,中心詞獲取裝置例如對文本獲取裝置11獲取的非結構化文本通過諸如正向最大匹配等分詞算法進行分詞處理,然后將獲得的每個分詞在中心詞數據庫中進行匹配查詢,以獲取該非結構化文本中包含的中心詞文本及該(些)中心詞文本對應的分類;隨后,屬性獲取裝置對生成裝置13生成的信息實體中包含的各屬性模板中的屬性進行遍歷,直到獲得某個屬性的預置分類與該中心詞文本所對應的分類相同;接著,添加裝置將中心詞獲取裝置獲取的中心詞文本作為在屬性獲取裝置獲取的與該中心詞文本對應的所述屬性的屬性內容添加到所述信息實體中。例如,假設文本獲取裝置11獲取的中心詞“周杰倫”非結構化文本“周杰倫是中國臺灣著名流行歌手,代表音樂專輯作品包括“跨時代”等,并曾出演電影“不能說的秘密”,中心詞獲取裝置對該非結構化文本利用正向最大匹配算法進行分詞處理,獲取的分詞包括“中國”,“跨時代” “不能說的秘密”等等,將該些分詞依次在中心詞數據庫中進行匹配查詢,獲得在中心詞數據庫中未查詢到名稱為“中國”的中心詞,但查詢到名稱為“跨時代”和“不能說的秘密”的中心詞及其與該中心詞對應的分類,據此,將分詞“跨時代”和“不能說的秘密”作為該非結構化文本的中心詞文本,并將在中心詞數據庫中查詢到的與名稱為“跨時代”和“不能說的秘密”中心詞對應的分類作為相應的中心詞文本的分類,如“跨時代”的分類為“音樂專輯”,“不能說的秘密”的分類為“電影”;隨后,屬性獲取裝置對生成裝置13生成的中心詞“周杰倫”的信息實體中包含的各屬性模板中的屬性進行遍歷,獲得屬性模板“發行音樂專輯”中的屬性“專輯名稱”的預置分類與中心詞文本“跨時代”的分類相同,執行上述同樣的操作,獲得屬性模板“出演電影”中的屬性“電影名稱”的預置分類與中心詞文本“不能說的秘密”的分類相同;接著,添加裝置將中心詞文本“跨時代”作為屬性模板“發行音樂專輯”中的屬性“專輯名稱”的屬性內容添加到“周杰倫”信息實體,同樣,將中心詞文本“不能說的秘密”作為屬性模板“出演電影”中的屬性“電影名稱”的屬性內容添加到“周杰倫”信息實體。在此,上述中心詞數據庫用于存儲已存在的所有中心詞的相關信息, 該中心詞數據庫包括但不限于關系數據庫,內存存儲器,硬盤存儲器等。本領域技術人員應能理解上述獲取中心詞文本,獲取屬性模板中的屬性及添加屬性內容的方式僅為舉例,其他現有的或今后可能出現的獲取中心詞文本,獲取屬性模板中的屬性及添加屬性內容的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。更優選地,信息實體生成設備1還包括數據庫更新裝置(未示出),該數據庫更新裝置根據所述中心詞的分類,建立或更新所述中心詞數據庫。具體地,數據庫更新裝置將中心詞及分類獲取裝置12獲得的該中心詞的分類寫入到中心詞數據庫中,以更新該中心詞數據庫;若檢測到該中心詞數據庫未建立,則先行初始化該中心詞數據庫,然后將所述中心詞及其分類寫入到該中心詞數據庫中。例如,數據庫更新裝置將中心詞“周杰倫”及分類獲取裝置12獲得的該中心詞的分類“歌手/歌唱家”,插入到該中心詞數據庫中,以更新該中心詞數據庫。本領域技術人員應能理解上述建立或更新中心詞數據庫的方式僅為舉例,其他現有的或今后可能出現的建立或更新中心詞數據庫的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。圖2示出根據本發明一個方面基于非結構化文本生成結構化信息實體的方法流程圖。在此,信息實體生成設備1包括但不限于計算機、網絡主機、單個網絡服務器、多個網絡服務器集或多個服務器構成的云。在此,云由基于云計算(Cloud Computing)的大量計算機或網絡服務器構成,其中,云計算是分布式計算的一種,由一群松散耦合的計算機集組成的一個超級虛擬計算機。具體地,在步驟Sl中,信息實體生成設備1獲取與中心詞相關的非結構化文本。更具體地,在步驟Sl中,信息實體生成設備1定期或應事件觸發實時地獲取與中心詞相關的非結構化文本,例如在步驟Sl中,根據中心詞在中心詞數據庫中進行匹配查詢,以獲得與該中心詞的非結構化文本,或者定期地通過約定的通信方式直接從第三方設備讀取該中心詞的非結構化文本。在此,所述“中心詞”意指該非結構化文本緊緊圍繞進行闡述的詞語。 例如,假設信息實體生成設備1為網絡百科服務器,在步驟Si中,信息實體生成設備1根據預置的中心詞列表中的中心詞“周杰倫”在中心詞數據庫中進行匹配查詢,獲得該中心詞的非結構化文本內容為“周杰倫是中國臺灣華語流行歌手,發行諸多音樂專輯。近年涉足電影行業,出演電影不能說的秘密”。再如,在步驟Sl中,信息實體生成設備1按一定周期,將預置的中心詞作為輸入參數定期地通過調用設定的應用編程接口(API)向第三方設備發送獲取該中心詞的非結構化文本的請求,并接收該第三方設備基于該請求返回的非結構化文本。在此,上述中心詞數據庫用于存儲已存在的所有中心詞的相關信息,該中心詞數據庫包括但不限于關系數據庫,內存存儲器,硬盤存儲器等。本領域技術人員應能理解上述獲取中心詞的非結構化文本的方式僅為舉例,其他現有的或今后可能出現的獲取中心詞的非結構化文本的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。隨后,在步驟S2中,信息實體生成設備1基于預定分類模型,對所述非結構化文本進行分類分析,以獲取所述中心詞的分類。具體地,在步驟S2中,信息實體生成設備1例如基于利用諸如決策樹、支持向量機(SVM)等機器學習方法而獲得的用于對語料所屬分類進行分類預測的預定分類模型,對信息實體生成設備1在步驟Sl中所提供的中心詞的非結構化文本進行分類分析,獲得該非結構化文本所屬不同分類的概率,并據此獲取該中心詞的分類,或者將信息實體生成設備1在步驟Sl中所提供的中心詞的非結構化文本在如分類數據庫的簡單分類模型中進行匹配查詢,以獲得該中心詞的分類。例如,在步驟S2中,信息實體生成設備1根據其在步驟Sl中獲取的中心詞“周杰倫”的非結構化文本“周杰倫是中國臺灣華語流行歌手,發行諸多音樂專輯。近年涉足電影行業,出演電影不能說的秘密”,在由第三方設備提供的分類模型中進行分類分析,獲得該中心詞屬于“歌手/歌唱家”分類的概率為0. 9,屬于“演員,,分類的概率為0. 7,屬于其他分類的概率小于0. 1,據此將所屬概率最大的“歌手/歌唱家”作為“周杰倫”的分類。再如,在步驟S2中,信息實體生成設備1 對其在步驟Sl中獲取的中心詞“周杰倫”的非結構化文本“周杰倫是中國臺灣華語流行歌手,發行諸多音樂專輯。近年涉足電影行業。”利用正向最大匹配分詞算法對該非結構化文本進行分詞處理,獲得的分詞包括“中國”,“臺灣”,“流行歌手”,“音樂專輯”,“電影”等,將該些分詞作為分類關鍵詞在分類數據庫中進行匹配查詢,以獲得各分類關鍵詞所對應的分類,并將其作為中心詞所屬的分類如“歌手/歌唱家”,“演員”和“導演”。在此,上述分類數據庫中已預置分類關鍵詞與分類的映射關系,例如關鍵詞“歌手”與分類“歌手/歌唱家”相對應,關鍵詞“電影”與分類“演員,,相對應,關鍵詞“電影”還可與“導演”相對應。本領域技術人員應能理解上述獲取中心詞的分類的方式僅為舉例,其他現有的或今后可能出現的獲取中心詞的分類的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。接著,在步驟S3中,信息實體生成設備1根據所述分類,生成所述中心詞的結構化信息實體。具體地,在步驟S3中,信息實體生成設備1根據其在步驟S2中獲得的中心詞的分類,獲得與該分類相對應的預定義信息實體數據結構,并據此生成該中心詞的結構化信息實體。在此,所述“信息實體”意指具有結構化特征的數據,包括但不限于網絡百科中的詞條,電子商務網站中的商品信息,電子圖書館中的圖書條目,電子期刊網站中的期刊、論文信息等。例如,假設在步驟S2中,信息實體生成設備1獲得的中心詞“七里香”的分類為“音樂專輯”,在步驟S3中,信息實體生成設備1根據該分類獲得預置的與“音樂專輯”分類相對應的信息實體數據結構,其中包括屬性“專輯名稱”,“表演者”,“發行時間”,“發行公司”, “專輯曲目”等,并基于該數據結構生成“七里香”的信息實體。再如,假設在步驟S2中,信息實體生成設備1獲得的中心詞“周杰倫”的分類為“歌手/歌唱家”,在步驟S3中,信息實體生成設備1根據該分類,在屬性模板庫中進行匹配查詢以獲得該分類所對應的一個或多個屬性模板,如“發行音樂專輯”、“所獲音樂獎項”,“舉辦演唱會”等,然后生成包含該(等) 屬性模板的中心詞“周杰倫”的信息實體。在此,所述“屬性模板”包括與該分類相對應的一個或多個特定屬性,用以描述屬于該分類的信息實體的某一個方面的相關信息。在此,所述“屬性”意指用于描述信息實體信息項的最小單位,例如,屬性模板“發行音樂專輯”用于描述分類為“歌手/歌唱家”的信息實體“周杰倫”發行的所有音樂專輯信息,其包括屬性“發行專輯名稱”、“發行時間”、“曲目名稱”等。在此,上述屬性模板庫用于存儲分類與該分類相對應的已有屬性模板的映射信息,該屬性模板庫包括但不限于關系數據庫,內存存儲器,硬盤存儲器等。本領域技術人員應能理解上述生成結構化信息實體的方式僅為舉例,其他現有的或今后可能出現的生成結構化信息實體的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。在此,需要說明的是,舉例中的各項數值作為說明作用的示例,僅供理解本發明, 不作為實際應用時的真實數據。如無特別說明,本文中其他地方出現的數值的功用與此處相同,為簡明起見,不再贅述。優選地,信息實體生成設備1在步驟Si、步驟S2和步驟S3中是持續不斷地工作。 具體地,在步驟Sl中,信息實體生成設備1獲取與中心詞相關的非結構化文本;隨后,在步驟S2中,信息實體生成設備1基于預定分類模型,對所述非結構化文本進行分類分析,以獲取所述中心詞的分類;接著,在步驟S3中,信息實體生成設備1根據所述分類,生成所述中心詞的結構化信息實體;在此,本領域技術人員應理解“持續”是指各步驟分別按照設定的或實時調整的工作模式要求進行與中心詞相關的非結構化信息實體的獲取、中心詞分類的獲取、及結構化信息實體的生成,直至信息實體生成設備1在較長時間內停止對與中心詞相關的非結構化文本的獲取。優選地,在步驟S2中,該過程還包括步驟S21 (未示出)和步驟S22(未示出),其中,在步驟S21中,信息實體生成設備1對所述非結構文本進行分詞處理,獲得多個分詞;接著,在步驟S22中,信息實體生成設備1基于所述預定分類模型,對所述多個分詞進行分類分析,以獲取所述中心詞的分類。具體地,在步驟S21中,信息實體生成設備1例如通過諸如正向最大匹配等分詞算法對信息實體生成設備1在步驟Sl中獲取的與中心詞相關的非結構化文本進行分詞處理,獲得該非結構文本的多個分詞;然后,在步驟S22中,信息實體生成設備1基于該預定分類模型,例如對其在步驟S21中獲得的該些分詞進行特征提取,獲得多條特征信息,然后對該多條特征進行權重計算,并基于加權的該多條特征對各分詞進行分類預測,據此獲得該中心詞的分類。例如,在步驟S21中,信息實體生成設備1對其在步驟Sl中獲取的中心詞“周杰倫”的非結構化文本“周杰倫是中國臺灣的流行歌手...”利用正向最大匹配分詞算法對該非結構化文本進行分詞處理,獲得的分詞結果為“周杰倫/是/ 中國/臺灣/的/流行/歌手...”;接著,在步驟S22中,信息實體生成設備1根據該預定分類模型,對該分詞結果中的每個分詞進行詞性標注、詞頻(TF)及反文檔頻率(IDF)獲取等操作以獲得該非結構化文本的特征信息,例如,該非結構化文本中名詞的比例為0. 3,據此獲得特征“名詞比例0. 3”;再如該非結構化文本的分詞結果中分詞的總數為100個,而分詞“歌曲”出現20次,由此獲得“歌曲”的詞頻為0. 2( = 20/100),并據此獲得特征“歌曲TF :0. 2”,然后,信息實體生成設備1根據預定規則對該各特征信息進行加權,例如,若分詞的詞頻(TF)較高則該分詞的詞頻特征的權重較大,反之,則權重較小,接著,信息實體生成設備1利用在該預定分類模型中實現的基于支持向量機(SVM)的文本分類方法對每個分詞進行分類預測,例如,在該100個分詞中,80個分詞的分類預測結果為“歌手/歌唱家”, 10個分詞的分類預測結果為“演員”,10個分詞的分類預測結果為“導演”,據此獲得中心詞“周杰倫”的分類為“歌手/歌唱家”。在此,所述實施例中的分詞算法包括但不限于正向最大匹配,反向最大匹配,雙向最大匹配,語言模型方法,最短路徑算法等等。在此,所述實施例中的文本分類方法包括但不限于Rocchio法,K臨近法,決策樹,樸素貝葉斯,支持向量機 (SVM)等等。本領域技術人員還應能理解上述對非結構化文本進行分詞及獲取中心詞的方式僅為舉例,其他現有的或今后可能出現的對非結構化文本進行分詞及獲取中心詞的的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。更優選地,在步驟S22中,該過程還包括步驟S221(未示出)和步驟S222(未示出),其中,在步驟S221中,信息實體生成設備1基于所述預定分類模型,對所述多個分詞進行分類分析,以獲取所述中心詞所屬各候選分類的概率;接著,在步驟S222中,信息實體生成設備1根據所述概率,從所述各候選分類中確定所述中心詞的分類。具體地,在步驟S221 中,信息實體生成設備1基于所述預定分類模型,對其在步驟S21中獲取的分詞結果進行分類分析,以獲取中心詞屬于各候選分類的概率;接著,在步驟S222中,信息實體生成設備 1根據其在步驟S221中獲得的該中心詞屬于各候選分類的概率,例如將各候選分類中該中心詞所屬概率最大的分類作為該中心詞的分類,或者將各候選分類中概率大于預設概率閾值的一個或多個分類均作為該中心詞的分類。例如,在步驟S221中,信息實體生成設備1 基于該預定分類模型,對其在步驟S21中獲得的與中心詞“周杰倫”相關的非結構化文本的分詞結果進行分類分析,并據此獲得該中心詞屬于分類“歌手/歌唱家”的概率為0. 92,屬于分類“演員,,的概率為0. 78,而屬于分類“導演”的概率為0. 5 ;接著,在步驟S222中,信息實體生成設備1根據其在步驟S221中獲得的該中心詞屬于各候選分類的概率,按照中心詞所屬分類的概率需大于概率閾值0. 7的規則,確定中心詞“周杰倫”的分類為“歌手/歌唱家”和“演員”。本領域技術人員還應能理解上述獲取分類概率及確定中心詞分類的方式僅為舉例,其他現有的或今后可能出現的獲取分類概率及確定中心詞分類的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。在另一個優選實施例中(參照圖2),該過程還包括步驟S4(未示出),在步驟S4 中,信息實體生成設備1基于預置語料及其對應分類信息的語料庫,對該語料庫進行機器學習,以獲得用于對語料所屬分類進行概率性分析的所述預定分類模型。以下參照圖2對該另一優選實施例進行詳細描述,其中,在步驟Sl中,信息實體生成設備1獲取與中心詞相關的非結構化文本;隨后,在步驟S2中,信息實體生成設備1基于預定分類模型,對所述非結構化文本進行分類分析,以獲取所述中心詞的分類;接著,在步驟S3中,信息實體生成設備1根據所述分類,生成所述中心詞的結構化信息實體;其具體過程與前述參照圖2所描述的實施例中信息實體生成設備1在步驟Si、步驟S2和步驟S3中所執行的過程相同,為簡明起見,以引用方式包含于此,而不做贅述。具體地,例如在語料庫中預先放置一定數量的語料及對該些語料人為賦予的預定義分類信息,如,“七里香歌曲”、“不能說的秘密電影”、“劉翔運動員”,在步驟S4中,信息實體生成設備1基于該語料庫通過諸如決策樹分析、支持向量機(SVM)等機器學習方法進行機器學習,并據此獲得用于對語料所屬分類進行概率性分析的所述預定分類模型。在此,所述“語料庫”意指承載在語言的實際使用中真實出現過的語言材料,及對其中的語言材料進行加工(分析和處理)而獲得的相應分類信息,其可存儲在各種類型的數據庫、文本文件等,以供查詢之用。本領域技術人員還應能理解上述獲取分類模型的方式僅為舉例,其他現有的或今后可能出現的獲取分類模型的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。在又一個優選實施例中(參照圖2),該過程還包括步驟S5(未示出),在步驟S5 中,信息實體生成設備1根據所述分類,獲取與所述分類相對應的屬性模板;其中,在步驟 S3中,信息實體生成設備1根據所述分類及其對應的該屬性模板,生成包含所述屬性模板的所述信息實體。以下參照圖2對該又一優選實施例進行詳細描述,其中,在步驟Sl中,信息實體生成設備1獲取與中心詞相關的非結構化文本;隨后,在步驟S2中,信息實體生成設備1基于預定分類模型,對所述非結構化文本進行分類分析,以獲取所述中心詞的分類;其具體過程與前述參照圖2所描述的實施例中信息實體生成設備1在步驟S 1、步驟S2中所執行的過程相同,為簡明起見,以引用方式包含于此,而不做贅述。具體地,在步驟S5中,信息實體生成設備1根據其在步驟S2中所提供的中心詞的分類,例如通過在屬性模板庫中進行匹配查詢,以獲取與該分類相對應的一個或多個預定義屬性模板,將該分類的缺省屬性模板作為將包含在該中心詞的信息實體中的屬性模板, 或者將滿足預定規則的該分類的屬性模板作為將包含在該中心詞的信息實體中的屬性模板;接著,在步驟S3中,信息實體生成設備1根據其在步驟S2中獲取的中心詞的分類和信息實體生成設備1在步驟S5中獲取的將包含于該中心詞的信息實體中的屬性模板,生成包含該(些)屬性模板的該中心詞的結構化信息實體。在此,所述上述“屬性模板”包括與該分類相對應的一個或多個特定屬性,用以描述屬于該分類的信息實體的某一個方面的相關信息。在此,所述“屬性”意指用于描述該信息實體的信息項最小單位。在此,屬性模板庫用于存儲分類與該分類相對應的已有屬性模板的映射信息,該屬性模板庫包括但不限于關系數據庫,內存存儲器,硬盤存儲器等。例如,假設在步驟S2中,信息實體生成設備1獲得的中心詞“周杰倫”的分類為“歌手/歌唱家”和“演員”,在步驟S5中,信息實體生成設備1 根據該2個分類,在屬性模板庫中進行匹配查詢,獲得分類“歌手/歌唱家”的屬性模板包括 “發行音樂專輯”、“所獲音樂獎項”、“舉辦演唱會”、“簽約經紀公司”,分類“演員”的屬性模板包括“出演電影”、“出演電視劇”、“所獲影視獎項”;假設將包含在中心詞“周杰倫”的信息實體中的屬性模板需要滿足的預定規則為超過80%的具有相同分類的其他信息實體包含該屬性模板,在步驟S5中,信息實體生成設備1根據分類“歌手/歌唱家”,在信息實體數據庫中進行匹配查詢,以獲得具有該分類的所有其他信息實體,然后,在該所有其他信息實體中依次遍歷其包含的屬性模板,并獲得包含“發行音樂專輯”、“所獲音樂獎項”、“舉辦演唱會”、“簽約經紀公司,,的其他信息實體在該所有其他信息實體中所占的比例依次為100 %、 85<%、70%、75%,據此確定將包含于中心詞“周杰倫”的信息實體中的屬性模板為“發行音樂專輯”和“所獲音樂獎項”,執行同樣的操作確定分類“演員”的屬性模板“出演電影”將包含于該中心詞的信息實體中;接著,在步驟S3中,信息實體生成設備1根據其在步驟S5中獲取的將包含于該中心詞的信息實體中屬性模板“發行音樂專輯”、“所獲音樂獎項”和“出演電影”,為該中心詞生成包含該些屬性模板的結構化信息實體,使該信息實體具有該些屬性模板所包括的屬性,如屬性模板“發行音樂專輯”包括屬性“專輯名稱”、“發行時間”、“曲目名稱”,屬性模板“所獲音樂獎項,,包括屬性“獎項名稱”、“獲獎時間”,屬性模板“出演電影”包括屬性“電影名稱”、“飾演角色”。本領域技術人員還應能理解上述獲取屬性模板及生成信息實體的方式僅為舉例,其他現有的或今后可能出現的獲取屬性模板及生成信息實體的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。優選地,該過程還包括步驟S6 (未示出),在步驟S6中,信息實體生成設備1根據所述信息實體的歷史訪問信息,更新所述信息實體中的所述屬性模板。具體地,在步驟S6 中,信息實體生成設備1根據其在步驟S3中生成的結構化信息實體的歷史訪問信息,例如添加新的屬性模板到該信息實體中,或者從該信息實體中的刪除其包含的某(些)屬性模板。例如,假設信息實體的歷史訪問信息為該信息實體的屬性模板中各屬性的屬性內容的累計瀏覽次數,在步驟S6中,信息實體生成設備1根據其在步驟S3中生成的中心詞“周杰倫”的信息實體,基于該信息實體的歷史訪問日志進行統計分析,獲得與該信息實體包含的每個屬性模板中各屬性的屬性內容相對應的網頁頁面的累計瀏覽次數,其中屬性模板“發行音樂專輯”中各屬性的屬性內容的累計瀏覽次數為20000次,屬性模板“所獲音樂獎項”中各屬性的屬性內容的累計瀏覽次數為20次,據此,獲得屬性模板“所獲音樂獎項”所對應的累計瀏覽次數小于累計瀏覽次數閾值100次,則將該屬性模板從該信息實體中刪除。再如, 假設信息實體的歷史訪問信息為所述信息實體的用戶歷史行為記錄,在步驟S6中,信息實體生成設備1根據其在步驟S3中生成的中心詞“周杰倫”的信息實體,基于信息實體的用戶歷史行為記錄進行統計分析獲得在用戶的10000條“周杰倫”信息實體點擊記錄中有9000 條的該點擊記錄后緊隨“蘭亭序”信息實體和“可愛女人”信息實體的點擊記錄,而在用戶的8000條“王力宏”信息實體點擊記錄中有7000條的該點擊記錄后緊隨“唯一”信息實體和“龍的傳人”信息實體的點擊記錄,通過對該統計分析結果進行聚類,獲得“周杰倫”、“王力宏”與“蘭亭序”、“可愛女人”、“唯一”、“龍的傳人”之間存在“歌手-歌曲”的關系,則據此為“周杰倫”信息實體添加“表演歌曲”屬性模板,該屬性模板包括屬性“歌曲名稱”。本領域技術人員應能理解上述更新信息實體屬性模板的方式僅為舉例,其他現有的或今后可能出現的更新信息實體屬性模板的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。更優選地,所述歷史訪問信息包括但不限于以下至少任一項-所述信息實體的所述屬性模板中各屬性的屬性內容的累計瀏覽次數;-所述信息實體的所述屬性模板中各屬性的屬性內容的瀏覽頻次;-所述信息實體的所述屬性模板中各屬性的屬性內容的累計編輯次數;-所述信息實體的所述屬性模板中各屬性的屬性內容的編輯頻次;-所述信息實體的用戶歷史行為記錄。具體地,若歷史訪問信息包括所述信息實體的所述屬性模板中各屬性的屬性內容的累計瀏覽次數,則在步驟S6中,信息實體生成設備1在該累計瀏覽次數低于預設的累計瀏覽次數閾值時,將該屬性模板從該信息實體中刪除。若歷史訪問信息包括所述信息實體的所述屬性模板中各屬性的屬性內容的瀏覽頻次,則在步驟S6中,信息實體生成設備1在該瀏覽頻次低于預設的瀏覽頻次閾值時,將該屬性模板從該信息實體中刪除。若歷史訪問信息包括所述信息實體的所述屬性模板中各屬性的屬性內容的累計編輯次數,則在步驟S6 中,信息實體生成設備1在該累計編輯次數低于預設的累計編輯閾值時,將該屬性模板從該信息實體中刪除。若歷史訪問信息包括所述信息實體的所述屬性模板中各屬性的屬性內容的編輯頻次,則在步驟S6中,信息實體生成設備1在該編輯頻次低于預設的編輯頻次閾值時,將該屬性模板從該信息實體中刪除。在此,上述累計瀏覽次數,瀏覽頻次,累計編輯次數,編輯頻次可通過對信息實體的歷史訪問日志進行統計分析獲得,也可通過預定的通信方式從第三方設備讀取。本領域技術人員應能理解上述每項歷史訪問信息不僅可以單獨用于更新信息實體的屬性模板,還可以相互結合后用以加權更新信息實體的屬性模板。本領域技術人員應能理解上述歷史訪問信息僅為舉例,其他現有的或今后可能出現的歷史訪問信息如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。
更優選地,該過程還包括步驟S7(未示出)、步驟S8(未示出)和步驟S9(未示出),其中,在步驟S7中,信息實體生成設備1根據所述非結構化文本,在中心詞數據庫中進行匹配查詢,以獲取所述非結構化文本中的中心詞文本及其分類;隨后,在步驟S8中,信息實體生成設備1從所述信息實體的屬性模板中獲取與所述中心詞文本具有相同分類的屬性;接著,在步驟S9中,信息實體生成設備1將所述中心詞文本作為所述屬性的屬性內容添加到所述信息實體中。具體地,在步驟S7中,信息實體生成設備1例如對其在步驟Sl 中獲取的非結構化文本通過諸如正向最大匹配等分詞算法進行分詞處理,然后將獲得的每個分詞在中心詞數據庫中進行匹配查詢,以獲取該非結構化文本中包含的中心詞文本及該 (些)中心詞文本對應的分類;隨后,在步驟S8中,信息實體生成設備1對其在步驟S3中生成的信息實體中包含的各屬性模板中的屬性進行遍歷,直到獲得某個屬性的預置分類與該中心詞文本所對應的分類相同;接著,在步驟S9中,信息實體生成設備1將其在步驟S7 中獲取的中心詞文本作為信息實體生成設備1在步驟S8中獲取的與該中心詞文本對應的所述屬性的屬性內容添加到所述信息實體中。例如,假設在步驟Sl中,信息實體生成設備1 獲取的中心詞“周杰倫”非結構化文本“周杰倫是中國臺灣著名流行歌手,代表音樂專輯作品包括“跨時代”等,并曾出演電影不能說的秘密”,在步驟S7中,信息實體生成設備1對該非結構化文本利用正向最大匹配算法進行分詞處理,獲取的分詞包括“中國”,“跨時代”“不能說的秘密”等等,將該些分詞依次在中心詞數據庫中進行匹配查詢,獲得在中心詞數據庫中未查詢到名稱為“中國”的中心詞,但查詢到名稱為“跨時代”和“不能說的秘密”的中心詞及其與該中心詞對應的分類,據此,將分詞“跨時代”和“不能說的秘密”作為該非結構化文本的中心詞文本,并將在中心詞數據庫中查詢到的與名稱為“跨時代”和“不能說的秘密” 中心詞對應的分類作為相應的中心詞文本的分類,如“跨時代”的分類為“音樂專輯”,“不能說的秘密”的分類為“電影”;隨后,在步驟S8中,信息實體生成設備1對其在步驟S3中生成的中心詞“周杰倫”的信息實體中包含的各屬性模板中的屬性進行遍歷,獲得屬性模板 “發行音樂專輯”中的屬性“專輯名稱”的預置分類與中心詞文本“跨時代”的分類相同,執行上述同樣的操作,獲得屬性模板“出演電影”中的屬性“電影名稱”的預置分類與中心詞文本“不能說的秘密”的分類相同;接著,在步驟S9中,信息實體生成設備1將中心詞文本 “跨時代”作為屬性模板“發行音樂專輯”中的屬性“專輯名稱”的屬性內容添加到“周杰倫” 信息實體,同樣,將中心詞文本“不能說的秘密”作為屬性模板“出演電影”中的屬性“電影名稱”的屬性內容添加到“周杰倫”信息實體。在此,上述中心詞數據庫用于存儲已存在的所有中心詞的相關信息,該中心詞數據庫包括但不限于關系數據庫,內存存儲器,硬盤存儲器等。本領域技術人員應能理解上述獲取中心詞文本,獲取屬性模板中的屬性及添加屬性內容的方式僅為舉例,其他現有的或今后可能出現的獲取中心詞文本,獲取屬性模板中的屬性及添加屬性內容的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。
更優選地,該過程還包括步驟SlO (未示出),在步驟SlO中,信息實體生成設備1 根據所述中心詞的分類,建立或更新所述中心詞數據庫。具體地,在步驟SlO中,信息實體生成設備1將中心詞及信息實體生成設備1在步驟S2中獲得的該中心詞的分類寫入到中心詞數據庫中,以更新該中心詞數據庫;若檢測到該中心詞數據庫未建立,則先行初始化該中心詞數據庫,然后將所述中心詞及其分類寫入到該中心詞數據庫中。例如,在步驟SlO 中,信息實體生成設備ι將中心詞“周杰倫”及信息實體生成設備1在步驟S2中獲得的該中心詞的分類“歌手/歌唱家”,插入到該中心詞數據庫中,以更新該中心詞數據庫。本領域技術人員應能理解上述建立或更新中心詞數據庫的方式僅為舉例,其他現有的或今后可能出現的建立或更新中心詞數據庫的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。對于本領域技術人員而言,顯然本發明不限于上述示范性實施例的細節,而且在不背離本發明的精神或基本特征的情況下,能夠以其他的具體形式實現本發明。因此,無論從哪一點來看,均應將實施例看作是示范性的,而且是非限制性的,本發明的范圍由所附權利要求而不是上述說明限定,因此旨在將落在權利要求的等同要件的含義和范圍內的所有變化囊括在本發明內。不應將權利要求中的任何附圖標記視為限制所涉及的權利要求。此外,顯然“包括” 一詞不排除其他單元或步驟,單數不排除復數。系統權利要求中陳述的多個單元或裝置也可以由一個單元或裝置通過軟件或者硬件來實現。第一,第二等詞語用來表示名稱,而并不表示任何特定的順序。
權利要求
1.一種計算機實現的基于非結構化文本生成結構化信息實體的方法,其中,該方法包括以下步驟a獲取與中心詞相關的非結構化文本;b基于預定分類模型,對所述非結構化文本進行分類分析,以獲取所述中心詞的分類; c根據所述分類,生成所述中心詞的結構化信息實體。
2.根據權利要求1所述的方法,其中,所述步驟b還包括 -對所述非結構文本進行分詞處理,獲得多個分詞;X基于所述預定分類模型,對所述多個分詞進行分類分析,以獲取所述中心詞的分類。
3.根據權利要求2所述的方法,其中,所述步驟X還包括-基于所述預定分類模型,對所述多個分詞進行分類分析,以獲取所述中心詞所屬各候選分類的概率;-根據所述概率,從所述各候選分類中確定所述中心詞的分類。
4.根據權利要求1至3中任一項所述的方法,其中,該方法還包括-基于預置語料及其對應分類信息的語料庫,對該語料庫進行機器學習,以獲得用于對語料所屬分類進行概率性分析的所述預定分類模型。
5.根據權利要求1至4中任一項所述的方法,其中,該方法還包括 -根據所述分類,獲取與所述分類相對應的屬性模板;其中,所述步驟c還包括-根據所述分類及其對應的該屬性模板,生成包含所述屬性模板的所述信息實體。
6.根據權利要求5所述的方法,其中,該方法還包括-根據所述信息實體的歷史訪問信息,更新所述信息實體中的所述屬性模板。
7.根據權利要求6所述的方法,其中,所述歷史訪問信息包括以下至少任一項 -所述信息實體的所述屬性模板中各屬性的屬性內容的累計瀏覽次數;-所述信息實體的所述屬性模板中各屬性的屬性內容的瀏覽頻次; -所述信息實體的所述屬性模板中各屬性的屬性內容的累計編輯次數; -所述信息實體的所述屬性模板中各屬性的屬性內容的編輯頻次; -所述信息實體的用戶歷史行為記錄。
8.根據權利要求5至7中任一項所述的方法,其中,該方法還包括-根據所述非結構化文本,在中心詞數據庫中進行匹配查詢,以獲取所述非結構化文本中的中心詞文本及其分類;-從所述信息實體的屬性模板中獲取與所述中心詞文本具有相同分類的屬性; -將所述中心詞文本作為所述屬性的屬性內容添加到所述信息實體中。
9.根據權利要求8所述的方法,其中,該方法還包括 -根據所述中心詞的分類,建立或更新所述中心詞數據庫。
10.一種基于非結構化文本生成結構化信息實體的設備,其中,該設備包括 文本獲取裝置,用于獲取與中心詞相關的非結構化文本;分類獲取裝置,用于基于預定分類模型,對所述非結構化文本進行分類分析,以獲取所述中心詞的分類;生成裝置,用于根據所述分類,生成所述中心詞的結構化信息實體。
11.根據權利要求10所述的設備,其中,所述分類獲取裝置包括 分詞獲取單元,用于對所述非結構文本進行分詞處理,獲得多個分詞;第一獲取單元,用于基于所述預定分類模型,對所述多個分詞進行分類分析,以獲取所述中心詞的分類。
12.根據權利要求11所述的設備,其中,所述第一獲取單元還包括概率獲取單元,用于基于所述預定分類模型,對所述多個分詞進行分類分析,以獲取所述中心詞所屬各候選分類的概率;分類獲取單元,用于根據所述概率,從所述各候選分類中確定所述中心詞的分類。
13.根據權利要求10至12中任一項所述的設備,其中,該設備還包括模型獲取裝置,用于基于預置語料及其對應分類信息的語料庫,對該語料庫進行機器學習,以獲得用于對語料所屬分類進行概率性分析的所述預定分類模型。
14.根據權利要求10至13中任一項所述的設備,其中,該設備還包括 模板獲取裝置,用于根據所述分類,獲取與所述分類相對應的屬性模板;其中,所述生成裝置還用于根據所述分類及其對應的該屬性模板,生成包含所述屬性模板的所述信息實體。
15.根據權利要求14所述的設備,其中,該設備還包括模板更新裝置,用于根據所述信息實體的歷史訪問信息,更新所述信息實體中的所述屬性模板。
16.根據權利要求15所述的設備,其中,所述歷史訪問信息包括以下至少任一項 -所述信息實體的所述屬性模板中各屬性的屬性內容的累計瀏覽次數;-所述信息實體的所述屬性模板中各屬性的屬性內容的瀏覽頻次; -所述信息實體的所述屬性模板中各屬性的屬性內容的累計編輯次數; -所述信息實體的所述屬性模板中各屬性的屬性內容的編輯頻次; -所述信息實體的用戶歷史行為記錄。
17.根據權利要求14至16中任一項所述的設備,其中,該設備還包括中心詞獲取裝置,用于根據所述非結構化文本,在中心詞數據庫中進行匹配查詢,以獲取所述非結構化文本中的中心詞文本及其分類;屬性獲取裝置,用于從所述信息實體的屬性模板中獲取與所述中心詞文本具有相同分類的屬性;添加裝置,用于將所述中心詞文本作為所述屬性的屬性內容添加到所述信息實體中。
18.根據權利要求17所述的設備,其中,該設備還包括數據庫更新裝置,用于根據所述中心詞的分類,建立或更新所述中心詞數據庫。
全文摘要
本發明的目的是提供一種基于非結構化文本生成結構化信息實體的方法與設備。其中,信息實體生成設備獲取與中心詞相關的非結構化文本;基于預定分類模型,對所述非結構化文本進行分類分析,以獲取所述中心詞的分類;根據所述分類,生成所述中心詞的結構化信息實體。與現有技術相比,本發明根據中心詞的非結構化文本,生成該中心詞對應的結構化信息實體,由此便于對該中心詞所包含的內容進行數據挖掘,并降低中心詞內容維護的成本。
文檔編號G06F17/30GK102214208SQ20111010722
公開日2011年10月12日 申請日期2011年4月27日 優先權日2011年4月27日
發明者嚴孫榮, 夏寅, 左莉, 張偉, 曹建棟, 李博, 李永強, 王麗寶, 王京津, 王坤, 耿磊, 肖琦, 蘇上海, 陸海霞 申請人:百度在線網絡技術(北京)有限公司