一種對醫院的在線評論進行歸納和分類的方法
【技術領域】
[0001]本發明涉及中文句法分析與詞性標注、情感詞分析、圖數據庫領域,具體涉及一種對醫院的在線評論進行歸納和分類的方法。
【背景技術】
[0002]越來越多的用戶會在網上對就診的醫院做出線上評價。用戶的評價可以作為衡量醫院服務的標桿,供其他用戶參閱。但是眾多的評論內容,不能夠讓用戶直觀快速地感受到用戶對該醫院的整體印象。鑒于上述情況,本專利專注于如何快速有效地對某個醫院的眾多的在線評論進行情感詞分析,合并具有相同感情傾向的內容,歸納出評論用戶對該醫院的整體印象,實現對評論內容的分類,方便用戶快速查閱和分類查閱。
【發明內容】
[0003]本發明的目的是基于情感詞的同(近)義詞詞典,利用句法分析和詞性標注工具,對用戶對醫院做出的評論內容進行歸納和分類,從而得到對醫院的整體印象。
[0004]本發明的目的是通過以下技術方案來實現的:
[0005]—種對醫院在線評論進行歸納和分類的方法,包括以下步驟:
[0006]I)從互聯網上抓取對目標醫院的評論內容,存儲到關系型數據庫中;
[0007]2)使用正則表達式對關系型數據庫中的每一條評論內容進行分句,得到若干條短句,把短句存儲到數據庫中,并建立起短句和評論之間的映射關系;
[0008]3)使用句法分析工具,對數據庫中的短句分別進行句法分析和詞性標注,將相鄰的名詞進行合并;
[0009]4)利用預先定義的同義詞詞典,對形容詞進行同義詞或近義詞替換,并且使用高頻的情感詞替換低頻的情感詞,以提高對評論內容的概括性;將替換后的名詞和情感詞存儲到數據庫中,并建立起和短句之間的映射。
[0010]5)根據目標醫院的名稱,從庫中選取出現頻率最高的若干個短語作為醫院的整體印象。
[0011]作為優選,步驟5)中所述的若干個短語形式為名詞+情感詞。
[0012]作為優選,所述的互聯網包括醫院官網或點評類網站。
[0013]作為優選,所述的評論內容結構化存儲到關系型數據庫中,包括評論的ID、醫院名稱、評價內容和評論日期。
[0014]作為優選,所述的預先定義的同義詞詞典為哈工大同義詞詞林和/或百度百科。
[0015]作為優選,所述的步驟4)中,對形容詞進行同義詞或近義詞替換前,首先基于哈工大同義詞詞林或其他詞庫,使用Neo4j圖數據庫,建立起同義詞或近義詞之間的關聯;對圖進行遍歷后,得到從目標詞開始所有能夠關聯的詞,作為同義詞或近義詞。
[0016]作為優選,所述的步驟4)中,對形容詞進行同義詞或近義詞替換后,如果否定副詞之后緊跟形容詞,則將二者合并作為一個形容詞。
[0017]本發明與現有技術相比具有的有益效果:
[0018]1.對評論的概括過程簡單高效,代價低,適合海量評論的處理;
[0019]2.所采用的方法具有一般性,可廣泛適用于其它對象的短文本評論的歸納和分類,比如電商中的商品評論。
[0020]3.基于圖數據庫,實現準確而且快速的同義詞推理和判斷。
【附圖說明】
[0021]圖1為一種對醫院的在線評論進行歸納和分類的方法的整體流程圖;
[0022]圖2為實施例中詞語“不錯”的同義詞示例
[0023]圖3為實施例中整體印象的效果示例。
【具體實施方式】
[0024]以下結合附圖和具體實施例對本發明作進一步詳細說明。
[0025]一種對醫院的在線評論進行歸納和分類的方法,包括以下步驟:
[0026](I)數據采集
[0027]使用爬蟲,從醫院官網、點評類網站上抓取用戶對醫院的評論文本,并進行結構化存儲到關系型數據庫中。
[0028](2)對評價進行分句
[0029]使用正則表達式,把庫中的每一條評論內容分成多個短句,并進行持久化存儲,建立起短句和原評論內容之間的映射關系。
[0030](3)詞性標注
[0031]使用自然語言處理工具,對數據庫中的各個短句進行分詞并作自動化詞性標注。由于用戶的評論偏重于口語,而且多是“主語+補語”形式,如“環境不錯”,所以,處理過程中,更關注名詞詞性、形容詞詞性以及否定副詞。詞性標注之后,把相鄰的名詞合并成一個名詞。
[0032](4)同義詞替換
[0033]為了能夠對評價內容準確概括,需要對評論中的具有語義傾向的情感詞(主要是形容詞)做同義詞替換,如“好”和“不錯”,表達的是同樣的感情色彩。
[0034]為了實現同義詞替換,需要預定義同義詞詞典,詞典中的同義詞來源于哈工大同義詞詞林和/或百度百科。同義詞詞典在實現時存在如下冋題:A和B是同義詞,13和0是同義詞,但結構化存儲還不能推出A和C是同義詞,還需要使用圖數據庫來實現同義詞詞典,同一個圖(Graph)中的詞匯被認為是同義詞。具體方法為:首先基于哈工大同義詞詞林或其他詞庫,使用Neo4j圖數據庫,建立起同義詞或近義詞之間的關聯;對圖進行遍歷后,得到從詞A開始所有能夠關聯的詞,作為同義詞或近義詞。
[0035]在進行同義詞替換時,使用高頻的情感詞替換低頻的情感詞,以提高對評論內容的概括性。
[0036]—些短句中會出現否定副詞,而這些否定副詞影響句子的語義傾向。進行同義詞替換之后,如果否定副詞之后緊跟形容詞,那么需要把二者合并,作為一個形容詞。
[0037]將替換后的詞對(合并后的名詞+高頻情感詞)保存到關系型數據庫中,并建立起和短句之間的映射。
[0038](5)印象概況
[0039]輸入醫院的名稱,從庫中選取若干個高頻短語(名詞+形容詞)作為患者對該醫院的整體印象,該做法可以減輕句法分析等文本處理過程中的錯誤對最終結果的影響。
[0040]實施例
[0041]如圖1所示,本發明一種對醫院的在線評論進行歸納和分類的方法,包括以下步驟:
[0042](I)基于哈工大同義詞詞林等詞庫,使用Neo4j圖數據庫,建立起同義詞或近義詞之間的關聯,比如:詞A和詞B是同(近)義詞,則在圖數據庫中,詞A和詞B之間有關聯;詞B和詞C是同(近)義詞,詞B和詞C之間也有關聯;那么,詞A和詞C也被認為是同(近)義詞。輸入詞A,對圖進行遍歷,則可以得到從詞A開始所有能夠關聯的詞,如圖2所示。
[0043](2)使用爬蟲,從互聯網上抓取患者對醫院的評價內容,進行結構化存儲到關系型數據庫中,包括評論的ID、醫院名稱、評價內容、評論日期等。
[0044](3)使用正則表達式(〃[??.。!!;;,,::?\\n]〃),對步驟(2)中得到的評論文本進行分句,得到若干短句。使用Ans j自然語言處理工具對每個短句進行句法分析和詞性標注,鑒于評論內容具有口語化且結構往往是“主語+補語”的特點,詞性標注后,只關注名詞和形容詞詞性。句法分析后,將相鄰的名詞進行合并得到一個名詞,使用步驟(I)中建立的同(近)義詞詞典對出現的形容詞進行替換,原則是:使用高頻的形容詞替換低頻的形容詞。這樣做是為了減少最終歸納概括出的印象的結果,實現對患者評論的高度概括。對形容詞替換之后,還需要對可能存在的否定副詞進行替換。如果否定副詞后面緊跟著形容詞,那么要把二者合并,作為一個形容詞。最后,將得到的短語(名詞+替換后的形容詞)存儲到關系型數據庫中。
[0045](4)輸入醫院名稱,從庫中選取若干個相關的高頻的“名詞+形容詞”作為醫院的整體印象。如圖3所示,整體印象可描述為醫院好、醫生好、態度差等詞對。該做法可以避免護法分析和詞性標注過程中文本處理失誤對最終結果的影響。
【主權項】
1.一種對醫院在線評論進行歸納和分類的方法,其特征在于,包括以下步驟: 1)從互聯網上抓取對目標醫院的評論內容,存儲到關系型數據庫中; 2)使用正則表達式對關系型數據庫中的每一條評論內容進行分句,得到若干條短句,把短句存儲到數據庫中,并建立起短句和評論之間的映射關系; 3)使用句法分析工具,對數據庫中的短句分別進行句法分析和詞性標注,將相鄰的名詞進行合并; 4)利用預先定義的同義詞詞典,對形容詞進行同義詞或近義詞替換,并且使用高頻的情感詞替換低頻的情感詞,以提高對評論內容的概括性;將替換后的名詞和情感詞存儲到數據庫中,并建立起和短句之間的映射。 5)根據目標醫院的名稱,從庫中選取出現頻率最高的若干個短語作為醫院的整體印象。2.如權利要求1所述的對醫院在線評論進行歸納和分類的方法,其特征在于步驟5)中所述的若干個短語形式為名詞+情感詞。3.如權利要求1所述的對醫院在線評論進行歸納和分類的方法,其特征在于所述的互聯網包括醫院官網或點評類網站。4.如權利要求1所述的對醫院在線評論進行歸納和分類的方法,其特征在于所述的評論內容結構化存儲到關系型數據庫中,包括評論的ID、醫院名稱、評價內容和評論日期。5.如權利要求1所述的對醫院在線評論進行歸納和分類的方法,其特征在于所述的預先定義的同義詞詞典為哈工大同義詞詞林和/或百度百科。6.如權利要求1所述的對醫院在線評論進行歸納和分類的方法,其特征在于所述的步驟4)中,對形容詞進行同義詞或近義詞替換前,首先基于哈工大同義詞詞林或其他詞庫,使用Neo4j圖數據庫,建立起同義詞或近義詞之間的關聯;對圖進行遍歷后,得到從目標詞開始所有能夠關聯的詞,作為同義詞或近義詞。7.如權利要求1所述的對醫院在線評論進行歸納和分類的方法,其特征在于所述的步驟4)中,對形容詞進行同義詞或近義詞替換后,如果否定副詞之后緊跟形容詞,則將二者合并作為一個形容詞。
【專利摘要】本發明公開了一種對醫院的在線評論進行歸納和分類的方法,旨在對患者對醫院做出的眾多的線上評價進行歸納,概括出對醫院的整體印象,實現對評論的分類。首先,使用正則表達式把抓取的中文評論內容分割成多個短句。然后對每個短句進行分詞、詞性標注,將相鄰的名詞合并成一個名詞。再基于同義詞詞典,對形容詞進行替換,原則是高頻詞替換低頻詞。接著把得到的“名詞+形容詞”短語存入到數據庫中,同時建立起短語、短句、評論之間的映射關系。輸入醫院的名稱,從庫中選擇出若干個高頻短語作為對醫院的整體評價。本發明的方法可以對醫院的餓在線評論進行精簡,省去閱讀眾多評論的麻煩,同時方便分類閱讀評論,從而為就醫選擇和醫院選擇提供便利。
【IPC分類】G06F17/30, G06F17/27, G06F17/22
【公開號】CN105528410
【申請號】CN201510883561
【發明人】張引, 王一兵, 張銳
【申請人】浙江大學
【公開日】2016年4月27日
【申請日】2015年12月5日