本申請涉及計算機領域,尤其涉及一種基于大數據挖掘相似裁判文書的技術。
背景技術:
隨著互聯網技術的迅速發展,網絡上的文本數據信息呈現爆炸式增長,然而,在這些海量的文本數據信息中查找出少量的有效的文本數據信息就變得越來越困難。例如,在海量的自動問答系統、智能檢索系統、郵件篩選系統等存在大量文本數據信息的系統中查找出有效的文本數據信息越來越困難且耗時耗力。
現有技術中,在法院業務場景里,法官對在審案件做出事實認定和判決結果之前,需要事先或者實時挖掘有效的相似的裁判文書。例如,人民法院通過比較多個法官在審判案情相似,當事人訴求相近的不同案件時的判決結果,以審計法官的判決結果是否合理;同時,法官在實際審判案件過程中,也會參考案情相似的已有案例的裁判文書,形成最終的事實認定和裁判文書的判決結果。由于人民法院在搜索有效的相似的裁判文書的實際操作中依賴于大量的人力標注和搜索,耗時又耗力,況且人力搜索出的相似裁判文書的質量完全依賴于個人經驗,不能更好的滿足法院業務需求,導致工作效率低;又由于各級法院記錄裁判文書的風格各異,關鍵案情和當事人關鍵訴求通常通過搜索模板或者傳統的自然語言處理方法挖掘,容易挖掘出錯誤的案情和當事人訴求,尤其挖掘不出當事人爭議點,造成挖掘出的有效的相似的裁判文書的精確度低;又由于出于對在審輸入案例的保密性,不能實時輸入在審案例文本查詢相似的裁判文書,造成查詢相似的裁判文書的實時性差,同時在查詢到相似的裁判文書時,由于相似的裁判文書的文字多、內容復雜及裁判文書的判決結果需要人工提取,導致查詢到的相似的裁判文書的判決結果的可視化程度低,造成法院處理在審案例文本的業務時的工作效率低。
因此,現有技術中,由于在海量的文本數據中查找某一輸入案例文本的相似的裁判文書耗時耗力、實時性差及精確度低,造成正常處理查找業務的工作效率低。
技術實現要素:
本申請的目的是提供一種基于大數據挖掘相似裁判文書的方法與設備,以解決現有技術中在海量的已公開的裁判文書中查找某一輸入案例文本的相似的裁判文書耗時耗力、實時性差及精確度低,造成正常處理查找業務的工作效率低的問題。
根據本申請的一個方面,提供了一種用于第一設備端基于大數據挖掘相似裁判文書的方法,包括:
獲取海量已公開的裁判文書,并獲取每一所述裁判文書的案由;
基于每一所述裁判文書的文本內容獲取關于所述裁判文書案情的文本主題特征信息和關于所述裁判文書中當事人爭議內容和當事人訴求內容的若干關鍵詞相關信息,并基于所述文本主題特征信息和若干所述關鍵詞相關信息建立所述裁判文書的文本特征向量;
基于若干所述關鍵詞相關信息更新關于關鍵詞的特征詞庫。
根據本申請的另一個方面,提供了一種用于第二設備端基于大數據挖掘相似裁判文書的方法,包括:
獲取輸入案例文本,基于檢索數據庫中關于關鍵詞的特征詞庫,提取所述輸入案例文本的若干候選關鍵詞;
基于所述輸入案例文本的文本內容及若干所述候選關鍵詞獲取所述輸入案例文本的文本主題特征信息和若干關鍵詞相關信息,并基于所述文本主題特征信息和若干所述關鍵詞相關信息建立所述輸入案例文本的文本特征向量;
從所述檢索數據庫中獲取與所述輸入案例文本具有相同案由的若干候選的裁判文書;
計算所述候選的裁判文書的文本特征向量和所述輸入案例文本的文本特征向量的相似度,基于所述相似度選取相似的裁判文書。
根據本申請的另一個方面,提供了一種用于基于大數據挖掘相似裁判文書的第一設備,包括:
裁判文書獲取裝置,用于獲取海量已公開的裁判文書,并獲取每一所述裁判文書的案由;
文本特征挖掘裝置,用于基于每一所述裁判文書的文本內容獲取關于所述裁判文書案情的文本主題特征信息和關于所述裁判文書中當事人爭議內容和當事人訴求內容的若干關鍵詞相關信息,并基于所述文本主題特征信息和若干所述關鍵詞相關信息建立所述裁判文書的文本特征向量;
特征詞庫建立裝置,用于基于若干所述關鍵詞相關信息更新關于關鍵詞的特征詞庫。
根據本申請的另一個方面,提供了一種用于基于大數據挖掘相似裁判文書的第二設備,包括:
輸入裝置,用于獲取輸入案例文本,基于檢索數據庫中關于關鍵詞的特征詞庫,提取所述輸入案例文本的若干候選關鍵詞;
輸入案例文本特征挖掘裝置,用于基于所述輸入案例文本的文本內容及若干所述候選關鍵詞獲取所述輸入案例文本的文本主題特征信息和若干關鍵詞相關信息,并基于所述文本主題特征信息和若干所述關鍵詞相關信息建立所述輸入案例文本的文本特征向量;
候選裁判文書獲取裝置,用于從所述檢索數據庫中獲取與所述輸入案例文本具有相同案由的若干候選的裁判文書;
相似裁判文書獲取裝置,用于計算所述候選的裁判文書的文本特征向量和所述輸入案例文本的文本特征向量的相似度,基于所述相似度選取相似的裁判文書。
根據本申請的另一個方面,提供了一種用于基于大數據挖掘相似裁判文書的系統,該系統包括第一設備和第二設備,其中,
所述第一設備包括:裁判文書獲取裝置,用于獲取海量已公開的裁判文書,并獲取每一所述裁判文書的案由;文本特征挖掘裝置,用于基于每一所述裁判文書的文本內容獲取關于所述裁判文書案情的文本主題特征信息和關于所述裁判文書中當事人爭議內容和當事人訴求內容的若干關 鍵詞相關信息,并基于所述文本主題特征信息和若干所述關鍵詞相關信息建立所述裁判文書的文本特征向量;特征詞庫建立裝置,用于基于若干所述關鍵詞相關信息更新關于關鍵詞的特征詞庫;文本結構化裝置,用于將所述裁判文書進行結構化處理,得到結構化后的文本結構化信息;文本結構化信息獲取裝置,用于基于所述文本結構化信息獲取所述裁判文書的裁判相關信息,所述裁判相關信息包括當事人信息、案件類型、案由和判決結果;發送裝置,用于將所有所述裁判文書的文本特征向量、所述特征詞庫及所述裁判相關信息發送至第二設備的檢索數據庫中;
所述第二設備包括:接收裝置,用于從第一設備接收所述第一設備所獲取的所述公開裁判文書的文本特征向量、所述特征詞庫及所述裁判相關信息,并保存至所述檢索數據庫中,所述裁判相關信息包括當事人信息、案件類型、案由和判決結果;文本結構化信息接收裝置,用于接收所述第一設備所發送的將所述裁判文書進行結構化處理所得到結構化后的文本結構化信息;文本結構化信息獲取裝置,用于獲取所述相似的裁判文書的文本結構化信息;輸入裝置,用于獲取輸入案例文本,基于檢索數據庫中關于關鍵詞的特征詞庫,提取所述輸入案例文本的若干候選關鍵詞;輸入案例文本特征挖掘裝置,用于基于所述輸入案例文本的文本內容及若干所述候選關鍵詞獲取所述輸入案例文本的文本主題特征信息和若干關鍵詞相關信息,并基于所述文本主題特征信息和若干所述關鍵詞相關信息建立所述輸入案例文本的文本特征向量;候選裁判文書獲取裝置,用于從所述檢索數據庫中獲取與所述輸入案例文本具有相同案由的若干候選的裁判文書;相似裁判文書獲取裝置,用于計算所述候選的裁判文書的文本特征向量和所述輸入案例文本的文本特征向量的相似度,基于所述相似度選取相似的裁判文書。
與現有技術相比,根據本申請的實施例所述的一種用于第一設備端基于大數據挖掘相似裁判文書的方法與設備,通過獲取海量已公開的裁判文書,并獲取每一所述裁判文書的案由;基于每一所述裁判文書的文本內容獲取關于所述裁判文書案情的文本主題特征信息和關于所述裁判文書中當事人爭議內容和當事人訴求內容的若干關鍵詞相關信息,并基于所述文 本主題特征信息和若干所述關鍵詞相關信息建立所述裁判文書的文本特征向量;有效地將海量已公開的的每一裁判文書通過以裁判文書的裁判文書案情的文本主題特征信息和關于所述裁判文書中當事人爭議內容和當事人訴求內容的若干關鍵詞相關信息這三個要素來挖掘裁判文書的文本特征向量,并以文本特征向量的形式精確地顯示出來,避免了人為耗時耗力地去分析文字多、內容復雜以及風格各異的海量裁判文書,從而有效地提高了挖掘相似的裁判文書的工作效率;并基于若干所述關鍵詞相關信息更新關于關鍵詞的特征詞庫,有效地將裁判文書的文本內容以所有所述關鍵詞及其詞語主題特征和擴展詞建立的特征詞庫的形式進行高度辨識,使得能夠快速獲取相似的裁判文書及其對應的文本特征向量,達到了提高挖掘相似的裁判文書的工作效率的效果。
進一步地,根據本申請的實施例所述的一種用于第二設備端基于大數據挖掘相似裁判文書的方法與設備,通過首先獲取輸入案例文本,基于檢索數據庫中關于關鍵詞的特征詞庫,提取所述輸入案例文本的若干候選關鍵詞,使得輸入案例文本獲得關鍵詞都能在檢索數據庫中找到,從而有效地提高通過關鍵詞對輸入案例文本進行相似的裁判文書的查找;然后基于所述輸入案例文本的文本內容及若干所述候選關鍵詞獲取所述輸入案例文本的文本主題特征信息和若干關鍵詞相關信息,并基于所述文本主題特征信息和若干所述關鍵詞相關信息建立所述輸入案例文本的文本特征向量,能夠有效地將輸入案例文本的相關信息通過文本特征向量的形式表達出來;最后從所述檢索數據庫中獲取與所述輸入案例文本具有相同案由的若干候選的裁判文書;計算所述候選的裁判文書的文本特征向量和所述輸入案例文本的文本特征向量的相似度,基于所述相似度選取相似的裁判文書,有效地將來自第一設備發送的候選的裁判文書的文本特征向量與實時挖掘出的輸入案例文本的文本特征向量進行相似度計算,得到相似的裁判文書,使得能夠快速地從海量已公開的裁判文書中精確地篩選出與輸入案例文本相似的裁判文書,避免了人為耗時耗力地去分析文字多、內容復雜以及風格各異的海量的裁判文書,從而有效地提高了挖掘相似文本的工作效率。
附圖說明
通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本申請的其它特征、目的和優點將會變得更明顯:
圖1示出根據本申請一個方面的一種用于第一設備端基于大數據挖掘相似裁判文書的方法流程示意圖;
圖2示出根據本申請一個方面的一個優選實施例用于第一設備端基于大數據挖掘裁判文書的文本特征向量的方法流程示意圖;
圖3示出根據本申請一個方面的一種用于第二設備端基于大數據挖掘相似裁判文書的方法流程示意圖;
圖4示出根據本申請一個方面的一個優選實施例用于第二設備端基于大數據挖掘裁判文書的文本特征向量的方法流程示意圖;
圖5示出根據本申請一個方面的一種基于大數據挖掘相似裁判文書的整體方法流程示意圖;
圖6示出根據本申請一個方面的一種用于基于大數據挖掘相似裁判文書的第一設備的結構示意圖;
圖7示出根據本申請一個方面的一種用于第一設備基于大數據的挖掘相似裁判文書的法院審各判階段的流程示意圖;
圖8示出根據本申請一個方面的一個優選實施例用于云計算服務器挖掘裁判文書的文本特征向量的文本特征挖掘裝置12的結構示意圖;
圖9示出根據本申請一個方面的一種用于基于大數據挖掘相似裁判文書的第二設備的結構示意圖;
圖10示出根據本申請一個方面的一個優選實施例用于基于大數據挖掘相似裁判文書的法院內網服務器中的輸入案例文本特征挖掘裝置22的結構示意圖;
圖11示出根據本申請一個方面的一種基于大數據挖掘相似裁判文書的系統示意圖。
附圖中相同或相似的附圖標記代表相同或相似的部件。
具體實施方式
下面結合附圖對本申請作進一步詳細描述。
圖1示出根據本申請一個方面的一種用于第一設備端基于大數據挖掘相似裁判文書的方法流程示意圖。該方法包括步驟s11、步驟s12和步驟s13。
其中,所述步驟s11:獲取海量已公開的裁判文書,并獲取每一所述裁判文書的案由;所述步驟s12:基于每一所述裁判文書的文本內容獲取關于所述裁判文書案情的文本主題特征信息和關于所述裁判文書中當事人爭議內容和當事人訴求內容的若干關鍵詞相關信息,并基于所述文本主題特征信息和若干所述關鍵詞相關信息建立所述裁判文書的文本特征向量;所述步驟s13:基于若干所述關鍵詞相關信息更新關于關鍵詞的特征詞庫。
在步驟s11中,其中所述裁判文書的案由包括但不限于合同糾紛案由、婚姻家庭糾紛案由、權屬侵權及無因管理糾紛案由及適用特別程序案件案由等。當然,現有及今后可能出現的所有法院業務場景中的裁判文書的案由如能適用本申請,均可以引用的方式包含于本申請。
在步驟s13中,其中所述關于關鍵詞的特征詞庫包括海量已公開的裁判文書的所有的關鍵詞相關信息和關鍵詞對應的擴展詞相關信息。
在此,所述裁判文書包括但不限于法院業務場景中的裁判文書等,包括一審法院認定事實文書、二審法院認定事實文書、再審法院認定事實文書、起訴狀、答辯狀、質詢記錄及證人證言等。
下面以法院業務場景中的裁判文書為例對本申請進行具體實施例的詳細解釋。當然,此處采用法院業務場景中的裁判文書為例對本申請進行具體實施例的詳細解釋,僅僅出于示例的目的,本申請的實施例不限于此,在其它的軟件程序中同樣可以實現下述實施例。
由于,在人民法院業務場景中的裁判文書不僅文字多且內容復雜,而且由于地域的不同,使得裁判文書的記錄風格各異,因此需對海量已公開的裁判文書進行文本特征化處理,以使法院工作人員能夠盡快的從海量已公開的裁判文書中找出需求的相似的裁判文書,其中應從以下三個方面來搜索需求的裁判文書,所述三個方面分別為裁判文書案情、當事人爭議內 容和當事人訴求內容。
需要說明的是,所述文本主題特征信息包括但不限于法院業務場景中的裁判文書中關于裁判文書案情,所述關鍵詞包括但不限于法院業務場景中的裁判文書中的當事人爭議內容和當事人訴求內容等,下面以裁判文書中的當事人爭議內容和當事人訴求內容為裁判文書的關鍵詞以及關于裁判文書案情為文本主題特征信息為本申請一個方面的一個優選實施例對所述裁判文書進行文本特征向量的挖掘。
本申請一個方面的一個優選實施例通過獲取海量已公開的裁判文書并獲取每一所述裁判文書的案由;基于每一所述裁判文書的文本內容獲取關于所述裁判文書案情的文本主題特征信息和關于所述裁判文書中當事人爭議內容和當事人訴求內容的若干關鍵詞相關信息,并基于所述文本主題特征信息和若干所述關鍵詞相關信息建立所述裁判文書的文本特征向量,由于通過提取裁判文書中的與當事人爭議內容和當事人訴求內容作為關鍵詞,并提取與當事人爭議內容和當事人訴求內容有關的詞語作為關鍵詞的擴展詞將法院業務場景中的裁判文書以文本特征向量的形式表現出來,并挖掘出關于裁判文書案情的內容作為文本主題特信息,使得高效準確的將文字多且內容復雜的裁判文書的文本內容精確地表達出來,從而使法院工作人員能快速地通過裁判文書案情、當事人爭議內容及當事人訴求內容查找到所需的相似的裁判文書,進一步地,基于若干所述關鍵詞相關信息更新關于關鍵詞的特征詞庫,使得法院工作人員能在輸入關鍵詞及其擴展詞的同時,從特征詞庫中盡快的找到與輸入的關鍵詞及其擴展詞有關的裁判文書,有效地提高了法院業務場景中的工作效率。
具體地,在所述步驟s11中,獲取海量已公開的裁判文書。例如,在法院業務場景中抓取海量已公開的裁判文書,因為按照最高人民法院的規定,幾乎所有的裁判文書都需要對外公開,因此在經過最高人民法院授權后,可以抓取已公開的所有裁判文書;且所述獲取海量已公開的裁判文書可通過一個普通的網頁抓取器抓取法院業務場景中所有的裁判文書所對應的標題,內容,判決編號,判決法院,審判員,判決時間等信息。
進一步地,在所述步驟s11之后且在所述步驟s12之前還包括步驟 s14(未示出)和步驟s15(未示出),所述步驟s14(未示出)將所述裁判文書進行結構化處理,得到結構化后的文本結構化信息;所述步驟s15(未示出)基于所述文本結構化信息獲取所述裁判文書的裁判相關信息,所述裁判相關信息包括當事人信息、案件類型、案由和判決結果。
在本申請的實施例中,所述步驟s14(未示出)主要對在所述步驟s11中獲取的海量已公開的裁判文書進行文本預處理和結構化處理。例如,將在步驟s11中從法院業務場景中通過網頁抓取到的海量已公開的裁判文書后,需要提取所抓取的裁判文書的文本內容,做好對裁判文書的文字處理和結構化處理。在所述步驟s14(未示出)中,首先通過網頁分段方法(pageparse)提取裁判文書中文本內容,在所述網頁分段方法(pageparse)中主要通過配置網頁模板來提取裁判文書中不同部分的內容;接著通過將裁判文書中的中文空格等字符替換成英文,數值歸一化成阿拉伯數字,去除文書內容中換行符,歸一化文書編號及審判法院名稱等對裁判文書進行文本預處理;然后對所述經過文本預處理的裁判文書進行結構化處理,其中,所述結構化處理包括以下四個方面:(一)、提取裁判文書中的原告、被告姓名,歸一化表達標題和內容中的原告和被告,(二)、提取裁判文書中的案件類型,其中所述案件類型主要分為刑事訴訟,民事訴請,行政訴訟,知識產權糾紛,裁定書,賠償案件,執行案件等7大裁判文書類型,(三)、結構化提取裁判文書中的案件案由,并歸一化到人民法院審判的標準案由庫中的案由上,(四)、結構化提取裁判文書的判決結果,即主要提取判決結果對象,主刑,附加刑,賠償金額及當事人輸贏等。
進一步地,所述步驟s12基于每一所述裁判文書的文本內容獲取關于所述裁判文書案情的文本主題特征信息和關于所述裁判文書中當事人爭議內容和當事人訴求內容的若干關鍵詞相關信息,并基于所述文本主題特征信息和若干所述關鍵詞相關信息建立所述裁判文書的文本特征向量,具體地,所述步驟s12具體的執行過程如圖2所示,其中,圖2示出根據本申請一個方面的一個優選實施例用于第一設備端基于大數據挖掘裁判文書的文本特征向量的方法流程示意圖。所述步驟s12具體包括步驟s121、步驟s122、步驟s123和步驟s124。
其中,所述步驟s121包括:提取所述裁判文書的文本主題特征信息和所述裁判文書中各個詞語的詞語主題特征;所述步驟s122包括:獲取各個所述詞語間的上下文關系,基于所述上下文關系修正各個詞語的詞語主題特征,并基于所修正后的各個所述詞語的詞語主題特征和所述文本主題特征信息的匹配程度,確定若干所述裁判文書的關鍵詞相關信息,其中,所述關鍵詞相關信息包括關鍵詞、關鍵詞重要度信息及關鍵詞對應的詞語主題特征;所述步驟s123包括:基于所述關鍵詞相關信息,更新所述裁判文書的文本主題特征信息;所述步驟s124包括:基于所述關鍵詞相關信息獲取擴展詞相關信息,所述擴展詞相關信息包括所述關鍵詞的擴展詞和擴展詞相關度,并基于所述關鍵詞相關信息和所述擴展詞相關信息建立詞袋特征信息,并基于所更新的文本主題特征信息和所述詞袋特征信息,確定所述裁判文書的文本特征向量。
具體地,在所述步驟s121中,所述裁判文書的文本主題特征信息具體用于指示所述裁判文書的案情,在本申請實施例中優選地采用主題模型方法來提取獲取的裁判文書的文本主題特征信息和各個詞語的詞語主題特征,其中所述主題模型方法與現有技術中的主體模型方法一致。當然,其他現有的或今后可能出現的提取裁判文書中的文本主題特征信息和各個詞語的詞語主題特征的方法如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。
進一步地,所述步驟s122包括獲取各個所述詞語間的上下文詞語共現關系;獲取任意兩個所述詞語間的上下文轉移概率;基于所述上下文詞語共現關系和所述上下文轉移概率,修正各個詞語的詞語主題特征;基于所修正后的各個所述詞語的詞語主題特征和所述文本主題特征信息的匹配程度,確定若干所述裁判文書的關鍵詞相關信息,其中,所述關鍵詞相關信息包括關鍵詞、關鍵詞重要度信息及關鍵詞對應的詞語主題特征。
在本申請的實施例中,所述步驟s122依賴于在步驟s121中提取的裁判文書的文本主題特征信息及各個詞語的詞語主題特征,根據獲取各個所述詞語間的上下文詞語共現關系;獲取任意兩個所述詞語間的上下文轉移概率;基于所述上下文詞語共現關系和所述上下文轉移概率,修正各個詞 語的詞語主題特征;基于所修正后的各個所述詞語的詞語主題特征和所述文本主題特征信息的匹配程度,確定若干所述裁判文書的關鍵詞及其對應的詞語主題特征,并獲取所述關鍵詞的重要度信息。例如,針對一個裁判文書ds中的第i個單詞wi,如果令該單詞對應的主題topic為tj,則根據主題模型方法可知單詞wi在裁判文書ds中出現的轉移概率為:pj(wi|ds)=p(wi|tj)×p(tj|ds);其中,p(wi|tj)為在一主題tj下單詞wi的轉移概率,p(tj|ds)為在一裁判文書ds中主題tj的轉移概率,接著一一枚舉單詞的主題topic,得到所有的所述轉移概率pj(wi|ds),其中j取值為1至k的自然正整數,根據所得的所有所述轉移概率為裁判文書ds中的第i個單詞wi選擇一個主題topic,其中,最簡單常用的方法便是取令pj(wi|ds)值最大的主題tj,即max[j]pj(wi|ds);然后如果裁判文書ds中的第i個單詞wi在此時選擇了一個與在步驟s121中獲得的詞語主題特征不同的主題topic,便會對在給定的主題下的詞語的轉移概率和裁判文書中的每個主題的轉移概率相應的造成影響,由于所述在給定的主題下的詞語的轉移概率和裁判文書中的每個主題的轉移概率又會反過來的影響單詞wi在裁判文書ds中出現的轉移概率的計算,故對所有的裁判文書進行一次所述轉移概率pj(wi|ds)的計算,并重新選擇詞語的詞語主題topic看作是一次迭代。這樣依照上述方法進行n次循環迭代之后,得到裁判文書收斂后的詞語主題特征對應的詞語為裁判文書的關鍵詞,所述關鍵詞對應的詞語主題特征即為經過迭代后確定的,通過上述實施例中的方法確定的關鍵詞更能夠有效準確地表達所述裁判文書的關鍵詞及其關鍵詞的詞語特征。
在本申請的實施例中,所述步驟s123中,基于在所述步驟s122中確定的關鍵詞相關信息,更新所述裁判文書的文本主題特征信息。例如,通過以下公式來更新裁判文書的文本主題特征信息:
其中d表示更新后的文本主題特征信息,且裁判文書包含有n個關鍵詞,wi是第i個關鍵詞在裁判文書中的重要度信息,ii是關鍵詞wi的詞語主題特征,通過對以上裁判文書中的關鍵詞的詞語主題特征加權和,得到 裁判文書的文本主題特征信息,可以有效地去除裁判文書中不重要的詞語和對構建文本主題特征信息的影響。
進一步地,在所述步驟s124中基于所述關鍵詞相關信息獲取擴展詞相關信息,所述擴展詞相關信息包括所述關鍵詞的擴展詞和擴展詞相關度。其中所述擴展詞包括所述關鍵詞的同義詞及所述關鍵詞在所述裁判文書中高度相關的詞語。在本申請的實施例中,通過計算任意兩個詞語的主題特征相似度,來挖掘同義詞。例如,對于關鍵詞a,取相似度最高的若干個詞語,作為關鍵詞a的同義詞。其中,通過挖掘高度相關的詞語算法(word2vector)來計算關鍵詞的高度相關的詞語,所述算法對每個詞語計算詞向量,然后計算任意兩個詞語的詞向量相似度,來挖掘高度相關的詞語。例如,對于關鍵詞a,取詞向量相似度最高的若干個詞語,作為關鍵詞a的高度相關的詞語。
進一步地,在步驟s124中基于所述關鍵詞相關信息獲取擴展詞相關信息,所述擴展詞相關信息包括所述關鍵詞的擴展詞和擴展詞相關度,并基于所述關鍵詞相關信息和所述擴展詞相關信息建立詞袋特征信息,具體地,所述步驟s124包括基于所述關鍵詞及其對應的詞語主題特征,確定所述關鍵詞的擴展詞和擴展詞相關度,其中,所述擴展詞包括所述關鍵詞的同義詞和在所述裁判文書中高度相關的相關詞語;基于所述關鍵詞及其對應的詞語主題特征和所述擴展詞及擴展詞相關度,利用詞袋模型,建立詞袋特征信息。
在本申請實施例中,所述詞袋特征信息用于指示裁判文書中的關鍵詞及其擴展詞對應的詞語特征。在詞袋特征信息中,關鍵詞特征的特征值是關鍵詞在裁判文書中的重要度信息,同義詞特征的特征值是關鍵詞重要度信息與同義程度的乘積,相關詞語特征的特征值是關鍵詞重要度信息與相關程度的乘積。例如,假設所有裁判文書中一共有10萬不同的詞語,那么每個裁判文書的詞袋特征信息都是10萬維的向量,每維向量標記該位置的詞語是否在裁判文書中出現。例如,假設詞語word1是詞袋特征信息中的第1維,詞語word2是詞袋特征信息中的第2維,詞語word3是詞袋特征信息中的第10維,詞語word4是詞袋特征信息中的第30維,word3 和word1互為相似詞語,相似度為weight13,word4和word2互為相似詞語,相似度為weight24;其中裁判文書a包含詞語word1,word3以及weight4,并且它們在a中重要度信息分別為weight1,weight3,weight4,那么裁判文書a的詞袋特征信息的第1維的特征值為weight1+weight13*weight3,第2維的特征值為weight24*weight4,第10維的特征值為weight3+weight1*weight13,第30維的特征值為weight4。其中,通過以上計算方法亦可以得到關鍵詞的高度相關的詞語的詞語特征的特征值,故所得的詞袋特征信息中的特征值包括關鍵詞的詞語主題特征對應的特征值以及擴展詞的詞語主題特征對應的特征值。
進一步地,所述步驟s124基于所更新的文本主題特征信息和所述詞袋特征信息,確定所述裁判文書的文本特征向量,具體地,所述步驟s124包括將所述所更新的文本主題特征信息和所述詞袋特征信息進行合并,確定所述裁判文書的原始文本特征;通過對所述裁判文書的原始文本特征進行特征歸一,確定所述裁判文書的文本特征向量。
例如,將在所述步驟s123中得到的裁判文書的文本主題特征信息和詞袋特征信息拼接成一個特征向量,生成裁判文書的原始文本特征。例如,裁判文書的文本主題特征信息是一個10維的特征向量,詞袋特征信息是一個100維的特征向量,則有裁判文書的原始文本特征為一個110維的特征向量。再利用機器學習領域常用的特征歸一化方法,對原始文本特征進行特征歸一,生成裁判文書的文本特征向量。例如,假設所有裁判文書的同一特征均符合正態分布,因此可以將每維特征歸一成標準的正態分布。
進一步地,所述步驟s13基于若干所述關鍵詞相關信息更新關于關鍵詞的特征詞庫,具體地,所述步驟s13包括以所述關鍵詞為索引,對每一所述關鍵詞的詞語主題特征和擴展詞建立所述關于關鍵詞的特征詞庫。例如,在法院業務場景中,將裁判文書中的當事人訴求內容的詞語以及當事人爭議內容的詞語作為提取裁判文書的關鍵詞,并基于關鍵詞查找與當事人訴求內容相關的詞語以及當事人爭議內容相關的詞語作為關鍵詞的擴展詞對裁判文書進行特征提取,得到裁判文書的關鍵詞和擴展詞組成的特征詞庫。
進一步地,所述本申請的一個方面的一種用于第一設備端挖掘相似文本的方法還包括步驟s16(未示出)將所有所述裁判文書的文本特征向量、所述特征詞庫及所述裁判相關信息發送至第二設備的檢索數據庫中。例如,在法院業務場景中,將在所述步驟s12中獲得的裁判文書的文本特征向量,在所述步驟s13中獲得的裁判文書的特征詞庫以及在所述步驟s14(未示出)中獲得的裁判文書的文本結構化信息發送至第二設備,以使第二設備在依賴第一設備計算出的特征詞庫和簡化的計算邏輯,確保第一設備和第二設備針對同一份裁判文書能夠輸出相同的文本特征向量及特征詞庫。
圖3示出根據本申請一個方面的一種用于第二設備端基于大數據挖掘相似裁判文書的方法流程示意圖。該法該包括步驟s21、步驟s22、步驟s23和步驟s24。
其中,所述步驟s21:獲取輸入案例文本,基于檢索數據庫中關于關鍵詞的特征詞庫,提取所述輸入案例文本的若干候選關鍵詞;所述步驟s22:基于所述輸入案例文本的文本內容及若干所述候選關鍵詞獲取所述輸入案例文本的文本主題特征信息和若干關鍵詞相關信息,并基于所述文本主題特征信息和若干所述關鍵詞相關信息建立所述輸入案例文本的文本特征向量;所述步驟s23:從所述檢索數據庫中獲取與所述輸入案例文本具有相同案由的若干候選的裁判文書;所述步驟s24:計算所述候選的裁判文書的文本特征向量和所述輸入案例文本的文本特征向量的相似度,基于所述相似度選取相似的裁判文書。
需要說明的是,所述輸入案例文本包括但不限于已有的裁判文書和在審案例文書。當然,其他現有的或今后可能出現的輸入案例文本如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。
在本申請的實施例中,在所述步驟s21之前還包括步驟s25(未示出),所述步驟s25(未示出)包括從第一設備接收所述第一設備所獲取的所述公開裁判文書的文本特征向量、所述特征詞庫及所述裁判相關信息,并保存至所述檢索數據庫中,所述裁判相關信息包括當事人信息、案件類型、案由和判決結果。例如,在法院業務場景內網中的檢索數據庫在線存儲了裁判文書的文本特征向量、所述特征詞庫及所屬裁判相關信息。具體存儲 的裁判文書相關的信息包括以下八個方面:(一)、每種裁判文書中的案例類型和案由對應的裁判文書。其中,key是案例類型和案由,value是裁判文書在系統內部的編號。(二)、已有裁判文書的結構化信息。其中,key是裁判文書在系統內部的編號,value是由結構化提取模塊生成的文本結構化信息。(三)、已有裁判文書的文本特征向量。其中,key是裁判文書在系統內部的編號,value是文本特征模塊生成的文本特征向量。(四)、已有裁判文書的全部關鍵詞。其中,key是一個常量,value是關鍵詞主題模塊生成的全部關鍵詞。(五)、每個關鍵詞的詞語主題特征。其中,key是關鍵詞,value是關鍵詞主題模塊生成的關鍵詞詞語主題特征。(六)、每個關鍵詞的同義詞。其中,key是關鍵詞,value是關鍵詞的同義詞及其同義程度。(七)、每個關鍵詞的相關詞。key是關鍵詞,value是關鍵詞的相關詞及其相關程度。(八)、裁判文書每維特征的特征值均值方差。key是特征編號,value是特征值的均值和方差。
需要說明的是,所述文本類型包括但不限于法院業務場景中的輸入案例文本的案件類型,其中所述案件類型包括刑事訴訟,民事訴請,行政訴訟,知識產權糾紛,裁定書,賠償案件,執行案件以及在審案例的在審階段。當然,其他現有的或今后可能出現的文本類型如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。
進一步地,所述步驟s21獲取輸入案例文本,基于檢索數據庫中關于關鍵詞的特征詞庫,提取所述輸入案例文本的若干候選關鍵詞,具體地,所述步驟s21包括獲取輸入案例文本,基于所述輸入案例文本的案由,從檢索數據庫中關于關鍵詞的特征詞庫提取所述輸入案例文本的若干候選關鍵詞。例如,在法院業務場景中的海量已公開的裁判文書中查找與所述輸入案例文本相似的裁判文書,由于法院業務場景中的裁判文書案情案由類型不同,故為了便于快速地查找到與輸入案例文本相似的裁判文書,則基于輸入案例文本的案由,從檢索數據庫中關于關鍵詞的特征詞庫中提取與輸入案例文本的詞語相交集的詞語,作為輸入案例文本的若干候選關鍵詞,能夠確保輸入案例文本挖掘出來的關鍵詞存在于檢索數據庫中。
進一步地,所述步驟s22包括基于所述輸入案例文本的文本內容及若 干所述候選關鍵詞獲取所述輸入案例文本的文本主題特征信息和若干關鍵詞相關信息,并基于所述文本主題特征信息和若干所述關鍵詞相關信息建立所述輸入案例文本的文本特征向量,具體地,所述步驟s22具體的執行過程如圖4所示,其中,圖4示出根據本申請一個方面的一個優選實施例用于第二設備端基于大數據挖掘裁判文書的文本特征向量的方法流程示意圖。所述步驟s22具體包括步驟s221、步驟s222和步驟s223。
其中,所述步驟s221包括:基于所述輸入案例文本的各個詞語和所有所述裁判文書的全部關鍵詞進行比對,以從所述輸入案例文本中提取候選關鍵詞及其詞語主題特征,并基于所述詞語主題特征獲取所述輸入案例文本的文本主題特征信息;所述步驟s222包括:獲取各個所述候選關鍵詞間的上下文關系,基于所述上下文關系修正各個候選關鍵詞的詞語主題特征,并基于所修正后的各個所述候選關鍵詞的詞語主題特征和所述文本主題特征信息的匹配程度,確定所述輸入案例文本的關鍵詞相關信息;所述步驟s223包括:基于所述關鍵詞相關信息,更新所述輸入案例文本的文本主題特征信息及獲取擴展詞相關信息,并基于所述關鍵詞相關信息和所述擴展詞相關信息建立所述輸入案例文本的詞袋特征信息,并基于所更新的文本主題特征信息和所述詞袋特征信息,確定所述輸入案例文本的文本特征向量。
本申請實施例中,在法院業務場景中的法院內網主要完成用戶實時輸入案例文本的文本特征向量。在所述步驟s221中基于所述輸入案例文本的各個詞語和所有所述裁判文書的全部關鍵詞進行比對,以從所述輸入案例文本中提取候選關鍵詞及其詞語主題特征。例如,法院業務場景中的法院內網挖掘在線輸入的所述輸入案例文本關鍵詞設有一個假設:在線輸入的所述輸入案例文本的關鍵詞,必須也是已有的裁判文書的關鍵詞。因此,該模塊在海量已公開的裁判文書中查詢與輸入案例文本具有相同案由的裁判文書的全部與當事人訴求內容和當事人爭議內容相同的關鍵詞,并和輸入案例文本詞語取交集,作為在線輸入的輸入案例文本的候選關鍵詞,有效地保證了輸入案例文本選擇出的關鍵詞都是已公開的裁判文書中的關鍵詞,從而能在已有的裁判文書中挖掘出與輸入案例文本相似的裁判文 書及其對應的文本特征向量和特征,從已公開的裁判文書中的所有關鍵詞中確定輸入案例文本的候選關鍵詞使得在處理海量的裁判文書的基礎上簡化輸入案例文本的計算邏輯。
具體地,在所述步驟s221中基于所述詞語主題特征獲取所述輸入案例文本的文本主題特征,所述裁判文書的文本主題特征為所述裁判文書的案件類型,在本申請實施例中優選地采用主題模型方法來提取輸入案例文本的文本主題特征和各個詞語的詞語主題特征,其中所述主題模型方法與現有技術中的主體模型方法一致。當然,其他現有的或今后可能出現的提取裁判文書中的文本主題特征和各個詞語的詞語主題特征的方法如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。
具體地,在所述步驟s222中,首先獲取任意兩個所述候選關鍵詞間的上下文轉移概率;基于所述上下文詞語共現關系和所述上下文轉移概率,修正各個詞語的詞語主題特征;基于所修正后的各個所述詞語的詞語主題特征和在所述步驟s221中采用主題模型獲得所述文本主題特信息的匹配程度,確定所述裁判文書的關鍵詞及其對應的詞語主題特征,并獲取所述關鍵詞的重要度信息。例如,針對輸入案例文本ds中的第i個候選關鍵詞wi,如果令該候選關鍵詞對應的主題topic為tj,則根據主題模型方法可知候選關鍵詞wi在輸入案例文本ds中出現的轉移概率為:pj(wi|ds)=p(wi|tj)×p(tj|ds);其中,p(wi|tj)為在一主題tj下單詞wi的轉移概率,p(tj|ds)為在一裁判文書ds中主題tj的轉移概率,接著一一枚舉候選關鍵詞的主題topic,得到所有的所述轉移概率pj(wi|ds),其中j取值為1至k的自然正整數,根據所得的所有所述轉移概率為輸入案例文本ds中的第i個候選關鍵詞wi選擇一個主題topic,其中,最簡單常用的方法便是取令pj(wi|ds)值最大的主題tj,即max[j]pj(wi|ds);然后如果輸入案例文本ds中的第i個候選關鍵詞wi在此時選擇了一個與在步驟s221中獲得的詞語主題特征不同的主題topic,便會對在給定的主題下的詞語的轉移概率和輸入案例文本中的每個主題的轉移概率相應的造成影響,由于所述在給定的主題下的詞語的轉移概率和輸入案例文本中的每個主題的轉移概率又會反過來的影響候選關鍵詞wi在輸入案例文本ds中出現的轉移 概率的計算,故對輸入案例文本進行一次所述轉移概率pj(wi|ds)的計算,并重新選擇詞語的詞語主題topic看作是一次迭代。這樣依照上述方法進行n次循環迭代之后,得到輸入案例文本收斂后的詞語主題特征對應的候選關鍵詞為輸入案例文本的關鍵詞,所述關鍵詞對應的詞語主題特征即為經過迭代后確定的,通過上述實施例中的方法確定的關鍵詞更能夠有效準確地表達所述輸入案例文本的關鍵詞及其關鍵詞的詞語特征,使得基于關鍵詞得到的文本主題特征信息更能夠與輸入案例文本的案件類型相近,更能準確度的表達輸入案例文本的具體內容,從而使得通過輸入案例文本的文本主題特征信息查找到的相似的裁判文書的相似度更高,提高查找相似的裁判文書的精確度。
在本申請的實施例中,所述步驟s223中基于所述關鍵詞及其對應所述詞語主題特征,更新所述輸入案例文本的文本主題特征信息。例如,通過以下公式來更新輸入案例文本的文本主題特征信息:
其中d表示更新后的文本主題特征信息,且文本包含有n個關鍵詞,wi是第i個關鍵詞在輸入案例文本中的重要度信息,ii是關鍵詞wi的詞語主題特征,通過對以上輸入案例文本中的關鍵詞的詞語主題特征加權和,得到輸入案例文本的文本主題特征信息,可以有效地去除輸入案例文本中不重要的關鍵詞和對構建文本主題特征信息的影響。
具體地,所述步驟s223基于所述關鍵詞相關信息和所述擴展詞相關信息建立所述輸入本文的詞袋特征信息中,其中,所述關鍵詞的擴展詞包括關鍵詞的同義詞及在所述輸入案例文本中的高度相關的詞語。在所述步驟s223中首先通過計算任意兩個關鍵詞的主題特征相似度,來挖掘同義詞。例如,對于關鍵詞a,取相似度最高的若干個詞語,作為關鍵詞a的同義詞。其中,通過挖掘高度相關的詞語算法(word2vector)來計算關鍵詞的高度相關的詞語,所述算法對每個詞語計算詞向量,然后計算任意兩個詞語的詞向量相似度,來挖掘高度相關的詞語。例如,對于關鍵詞a,取詞向量相似度最高的若干個詞語,作為關鍵詞a的高度相關的詞語。接 著基于所述關鍵詞的同義詞及其同義詞特征及在所述輸入案例文本中的高度相關的詞語及其相關詞特征,獲取所述輸入案例文本的擴展詞相關信息,基于所述關鍵詞相關信息和所述擴展詞相關信息,利用詞袋模型,建立所述輸入案例文本的詞袋特征信息。
在本申請實施例中,所述詞袋特征信息用于指示輸入案例文本中的關鍵詞及其擴展詞對應的詞語特征。在詞袋特征信息中,關鍵詞特征的特征值是關鍵詞在輸入案例文本中的重要度信息,同義詞特征的特征值是關鍵詞重要度信息與同義程度的乘積,相關詞語特征的特征值是關鍵詞重要度信息與相關程度的乘積。例如,假設所述輸入案例文本中一共有10萬不同的詞語,那么輸入案例文本的詞袋特征信息都是10萬維的向量,每維向量標記該位置的詞語是否在輸入案例文本中出現。例如,假設詞語word1是詞袋特征信息中的第1維,詞語word2是詞袋特征信息中的第2維,詞語word3是詞袋特征信息中的第10維,詞語word4是詞袋特征信息中的第30維,word3和word1互為相似詞語,相似度為weight13,word4和word2互為相似詞語,相似度為weight24;其中裁判文書a包含詞語word1,word3以及weight4,并且它們在a中重要度分別為weight1,weight3,weight4,那么裁判文書a的詞袋特征信息的第1維的特征值為weight1+weight13*weight3,第2維的特征值為weight24*weight4,第10維的特征值為weight3+weight1*weight13,第30維的特征值為weight4。其中,通過以上計算方法亦可以得到關鍵詞的高度相關的詞語的詞語特征的特征值,故所得的詞袋特征中信息的特征值包括關鍵詞的詞語主題特征對應的特征值以及同義詞和高度相關的詞語的詞語主題特征對應的特征值。
本申請的實施例中,所述步驟s223基于所更新的文本主題特征信息和所述詞袋特征信息,確定所述輸入案例文本的文本特征向量中,具體地,將所述所更新的文本主題特征信息和所述詞袋特征信息進行合并,確定所述輸入案例文本的原始文本特征;通過對所述輸入案例文本的原始文本特征進行特征歸一,確定所述輸入案例文本的文本特征向量。
例如,將在所述步驟s223中得到的輸入案例文本的文本主題特征信 息和詞袋特征信息拼接成一個特征向量,生成輸入案例文本的原始文本特征。例如,輸入案例文本的文本主題特征信息是一個10維的特征向量,詞袋特征信息是一個100維的特征向量,則有輸入案例文本的原始文本特征為一個110維的特征向量。再利用機器學習領域常用的特征歸一化方法,對原始文本特征進行特征歸一,生成輸入案例文本的文本特征向量。例如,假設輸入案例文本的同一特征均符合正態分布,因此可以將每維特征歸一成標準的正態分布。
本申請的實施例中,所述步驟s24基于在所述步驟s23中從所述檢索數據庫中獲取與所述輸入案例文本具有相同案由的若干候選的裁判文書,計算所述候選的裁判文書的文本特征向量和所述輸入案例文本的文本特征向量的相似度,基于所述相似度選取相似的裁判文書。
需要說明的是,在所述步驟s24中計算文本特征向量的相似度的算法包括但不限于歐式距離算法和余弦相似度算法等。當然,其他現有的或今后可能出現的計算文本特征向量的相似度的算法如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。
例如,首先根據用戶輸入的輸入案例文本的案件類型和案件案由,查詢同一案件類型和案件案由的全部已有的裁判文書作為候選相似裁判文書,然后檢索候選相似裁判文書的文本特征向量。接著采用上述計算文本特征向量相似度的算法(歐式距離算法或余弦相似度算法),計算輸入的所述輸入案例文本和每個候選相似裁判文書的相似度。接著,根據用戶輸入的需求的相似的裁判文書的個數n,取相似度最高的n個裁判文書作為最終的所需的相似的裁判文書。然后查詢相似的裁判文書的文本結構化信息和裁判相關信息,并反饋給需求獲取相似的裁判文書的用戶。最后統計相似的裁判文書的判決結果,按主刑,附加刑,賠償金額,當事人輸贏等文本特征的維度,以可視化的形式,展示給需求獲取相似的裁判文書的用戶。具體地,例如,根據用戶輸入的輸入案例文本的案件類型和案件案由,查詢同一案件類型和案件案由的全部已有的裁判文書作為候選的裁判文書有100個,用戶需求返回的與輸入案例文本相似的候選的裁判文書的個數為10個,則通過上述相似度算法對輸入案例文本的文本特征向量分別 與100個候選的裁判文書的文本特征向量進行相似度計算,并將計算得到的相似度按從低到高的順序排列,取相似度最高的10個候選的裁判文書作為相似的裁判文書,并將所述10個相似的裁判文書的文本結構化信息和裁判相關信息反饋給需要獲取相似的裁判文書的用戶。
進一步地,所述本申請的一個方面的一種用于第二設備端挖掘相似文本的方法還包括接收所述第一設備所發送的將所述裁判文書進行結構化處理所得到結構化后的文本結構化信息;獲取所述相似的裁判文書的文本結構化信息。例如,通過對候選的裁判文書的相似度計算之后,將獲取所有的符合需求數量的相似的裁判文書的文本結構化信息。
圖5示出根據本申請一個方面的一種基于大數據挖掘相似裁判文書的整體方法流程示意圖。所述方法包括步驟s501、步驟s502、步驟s503、步驟s504、步驟s505、步驟s506、步驟s507、步驟s508、步驟s509、步驟s510和步驟s511。
其中,所述步驟s501包括:獲取海量裁判文書;所述步驟s502包括:對所述海量裁判文書進行文本預處理和結構化處理;所述步驟s503包括:挖掘裁判文書的文本主題特征信息;所述步驟s504:挖掘海量裁判文書的關鍵詞相關信息和建立關于關鍵詞的特征詞庫;所述步驟s505包括:生成裁判文書的文本特征向量;所述步驟s506包括:在線存儲所述裁判文書的文本特征向量及特征詞庫;所述步驟s507包括:獲取輸入案例文本;所述步驟s508包括:在線挖掘輸入案例文本的文本主題特征信息和關鍵詞相關信息;所述步驟s509包括:在線挖掘輸入案例文本的文本特征向量;所述步驟s510包括:在線檢索與輸入案例文本的具有相同案由的若干候選的裁判文書,并計算所述候選的裁判文書的文本特征向量和所述輸入案例文本的文本特征向量的相似度;所述步驟s511包括:獲取相似的裁判文書。
本申請的實施例中,法院業務場景中基于海量已公開的裁判文書挖掘相似的裁判文書的需求,首先所述步驟s501中通過經過法院授權后獲取海量已公開的裁判文書,并在所述步驟s502中對所述的裁判文書進行文本預處理使得裁判文書轉換成可以進行文本挖掘的形式,同時對文本預處理后的裁判文 書進行結構化處理得到文本結構化信息,接著在所述步驟s503中通過現有技術中的主題模型方法挖掘裁判文書的文本主題特征信息使得表達出裁判文書的具體裁判文書案情。由于法院業務中裁判文書數量的不斷增多以及時間的法院業務場景中業務的繁忙,使得采用傳統的人為或者自然語言處理來挖掘相似的裁判文書耗時耗力,且海量已公開的裁判文書中的文字多且內容復雜,決定相似的裁判文書的要素都隱藏在大段的文字內,故本申請在所述步驟s504中選擇將基于與輸入案例文本具有相同案由的若干候選的裁判文書進行當事人訴求內容和當事人爭議內容相同的詞語進行挖掘,得到候選的裁判文書的關鍵詞相關信息,并將所述關鍵詞相關信息表達成文本特征向量的形式更方面快捷地計算裁判文書是否與輸入案例文本相似,同時將與裁判文書的當事人訴求內容和當事人爭議內容相同的詞語相關的詞語作為候選的裁判文書的擴展詞,并基于裁判文書的所有關鍵詞相關信息和擴展詞相關信息建立特征詞庫;接著在所述步驟s505中,基于候選的裁判文書的關鍵詞相關信息所更新的文本主題特征信息和詞袋特征信息得到裁判文書的文本特征向量,其中所述文本特征向量中的特征值由關鍵詞所對應的詞語主題特征的特征值組成,每維特征向量表示裁判文書的同一特征表示的向量;緊接著在所述步驟s506中,將所有的裁判文書的文本特征向量和特征詞庫都發送至第二設備端的檢索數據庫中進行在線存儲,以備快速地查找輸入的輸入案例文本的相似的裁判文書;然后再所述步驟s507中獲取需要查找相似的裁判文書的輸入案例文本;接著在所述步驟s508中借助于在第一設備端發送過來的所有裁判文書的關鍵詞相關信息來挖掘輸入案例文本的文本主題特征信息和關鍵詞相關信息;并在所述步驟s509中基于獲取的輸入案例文本的文本主題特征信息和關鍵詞相關信息得到輸入案例文本的更新后的文本主題特征信息和詞袋特征信息,并將所述輸入案例文本的文本主題特征信息和詞袋特征信息進行合并得到輸入案例文本的文本特征向量;接著在所述步驟s510中在第二設備端在線檢索與輸入案例文本具有相同案由的若干候選的裁判文書,例如將案件案由和案件類型一樣的全部已有的裁判文書查找出來,并分別計算這些候選的裁判文書的文本特征向量與輸入案例文本的文本特征向量 的相似度,并將相似度的大小按照從高到低排序;最后在所述步驟s511中根據輸入的需要相似的裁判文書的數量,將在所述步驟s510中的相似度排序最高的相同數量的相應候選的裁判文書作為需要獲取的相似的裁判文書。
在法院業務場景中,需要通過比較多個法官在審判案情相似,當事人訴求內容相近的不同案例時的判決結果,以審計法官的判決結果是否合理;同時,法官在實際審判案例過程中,也會參考案情相似的已有案例的判決結果,形成最終的事實認定和判決結果,因此在這些繁雜的法院業務場景里,都需要事先或者實時挖掘與輸入案例文本相似的裁判文書。但由于每個案例的內容千差萬別,且法院業務場景下審理的案例數量又快速增長,因此通過傳統的人工整理手段已難以滿足法院業務場景中的需求,故在本申請的實施例中通過采用如圖5所示的設備來處理法院業務場景中的海量已公開的裁判文書,并挖掘出裁判文書的文本特征向量,以使能夠快速地查找出輸入案例文本的相似的裁判文書。
圖6示出根據本申請一個方面的一種用于基于大數據挖掘相似裁判文書的第一設備的結構示意圖。該設備1包括裁判文書獲取裝置11、文本特征挖掘裝置12和特征建立裝置13。
其中,所述裁判文書獲取裝置11用于獲取海量已公開的裁判文書,并獲取每一所述裁判文書的案由;所述文本特征挖掘裝置12用于基于每一所述裁判文書的文本內容獲取關于所述裁判文書案情的文本主題特征信息和關于所述裁判文書中當事人爭議內容和當事人訴求內容的若干關鍵詞相關信息,并基于所述文本主題特征信息和若干所述關鍵詞相關信息建立所述裁判文書的文本特征向量;所述特征詞庫建立裝置13用于基于若干所述關鍵詞相關信息更新關于關鍵詞的特征詞庫。
在此,所述設備1包括但不限于用戶設備、或用戶設備與網絡設備通過網絡相集成所構成的設備。所述用戶設備其包括但不限于任何一種可與用戶通過觸摸板進行人機交互的移動電子產品,例如智能手機、pda等,所述移動電子產品可以采用任意操作系統,如android操作系統、ios操作系統等。其中,所述網絡設備包括一種能夠按照事先設定或存儲的指令,自動進行數 值計算和信息處理的電子設備,其硬件包括但不限于微處理器、專用集成電路(asic)、可編程門陣列(fpga)、數字處理器(dsp)、嵌入式設備等。所述網絡包括但不限于互聯網、廣域網、城域網、局域網、vpn網絡、無線自組織網絡(adhoc網絡)等。優選地,所述設備1還可以是能夠使用云計算手段處理大數據計算的云計算服務器,下面以云計算服務器作為第一設備為本申請的一個方面的優選實施例對基于大數據的挖掘相似裁判文書進行詳細解釋。當然,本領域技術人員應能理解上述設備1僅為舉例,其他現有的或今后可能出現的設備1如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。
上述各裝置之間是持續不斷工作的,在此,本領域技術人員應理解“持續”是指上述各裝置分別實時地或者按照設定的或實時調整的工作模式要求。
在此,所述裁判文書包括但不限于法院業務場景中的裁判文書等,包括一審法院認定事實文書、二審法院認定事實文書、再審法院認定事實文書、起訴狀、答辯狀、質詢記錄及證人證言等。
下面以法院業務場景中能夠使用云計算手段處理大數據計算的云計算服務器對裁判文書進行挖掘的第一設備為本申請的一個方面的優選實施例對本申請進行具體實施例的詳細解釋。當然,此處采用法院業務場景中的挖掘海量已公開的裁判文書的云計算服務器作為第一設備對本申請進行具體實施例的詳細解釋,僅僅出于示例的目的,本申請的實施例不限于此,在其它的軟件程序中同樣可以實現下述實施例。
需要說明的是,所述文本主題特征信息包括但不限于法院業務場景中的裁判文書中關于裁判文書案情,所述關鍵詞包括但不限于法院業務場景中的裁判文書中的當事人爭議內容和當事人訴求內容等,下面以裁判文書中的當事人爭議內容和當事人訴求內容為裁判文書的關鍵詞以及關于裁判文書案情為文本主題特征信息為本申請一個方面的一個優選實施例對所述裁判文書進行文本特征向量的挖掘。
本申請的實施例中,所述裁判文書獲取裝置11用于獲取海量已公開的裁判文書,并獲取每一所述裁判文書的案由;由于在法院業務場景中的審判業務是分階段進行的,輸入案例文本會隨著審判過程的深入,其內容很可 能會發生很大的變化。因此需要因地制宜的在審判流程每個階段,對挖掘系統輸入合適的數據,能使每個階段挖掘出的相似案例滿足實際業務需要。所以在所述文本特征挖掘裝置12中需要持續分階段的對海量已公開的裁判文書進行基于大數據的相似的裁判文書的挖掘,并從中提取出關于所述裁判文書案情的文本主題特征信息和關于所述裁判文書中當事人爭議內容和當事人訴求內容的若干關鍵詞相關信息,并基于所述文本主題特征信息和若干所述關鍵詞相關信息建立所述裁判文書的文本特征向量。例如,在云計算服務器使用物聯網網絡將法院業務場景中已公開的全部的裁判文書存儲起來,以備云計算服務器在所述文本特征挖掘裝置12中通過離線特征化工充分運用云計算的強大計算能力已公開的裁判文書進行文本特征化,并從中挖掘出裁判文書的文本特征向量和在所述特征詞庫建立裝置13中挖掘所有裁判文書的特征詞庫,并在通過法院業務場景中的網絡專線,一次性傳輸到法院內網中的在線存儲器中。
進一步地,所述本申請的一個方面的一種用于基于大數據挖掘相似裁判文書的第一設備還包括:文本結構化裝置14(未示出),用于將所述裁判文書進行結構化處理,得到結構化后的文本結構化信息;在所述裁判文書獲取裝置11之后且在所述文本特征挖掘裝置12之前,所述文本結構化裝置將獲取的法院業務場景中的審判業務中的各個階段的裁判文書進行結構化處理,并通過文本結構化信息獲取裝置15(未示出),用于基于所述文本結構化信息獲取所述裁判文書的裁判相關信息,所述裁判相關信息包括當事人信息、案件類型、案由和判決結果。
需要說明的是,所述文本結構化信息獲取裝置15(未示出)中獲取出的裁判文書的裁判相關信息中的案件類型包括但不限于刑事訴訟,民事訴請,行政訴訟,知識產權糾紛,裁定書,賠償案件,執行案件等7大裁判文書類型以及法院審判的各個階段。其中所述法院審判的各個階段如圖7所示。當然,其他現有的或今后可能出現的裁判文書的文本主題特征如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。
圖7示出根據本申請一個方面的一種用于第一設備基于大數據的挖掘相似裁判文書的法院審各判階段的流程示意圖。其中,云計算服務器基于 云計算的挖掘相似的裁判文書的設備,根據人民法院審判流程,分階段設計每個階段的需要挖掘的相應的裁判文書的文本內容;同時考慮人民法院系統的網絡特點和保密要求,采用在云計算服務器中對法院業務場景中的審判業務中分階段對裁判文書進行挖掘以滿足法院業務場景中的業務需求。
在此,如圖7所示本申請的云計算服務器需要處理的法院業務場景中的審判流程包括:立案階段s71、開庭審理階段s72、初審判決階段s73、二審判決階段s74、再判決階段s75和判決結果執行階段s76。其中,在所述立案階段s71為人民法院接收到起訴人的訴狀和被告的答辯狀后,并決定立案后的立案階段;所述開庭審理階段s72為人民法院開庭審理階段;所述初審判決階段s73為人民法院初審判決階段;所述二審判決階段s74為人民法院二審結案階段;所述再判決階段s75為人民法院再審結案階段;所述判決結果執行階段s76為人民法院就此審理案例做出的最后的判決結果執行階段。所述前五個階段中,法院工作人員均有挖掘相似的裁判文書的需求。
其中,在圖7中的各個審判階段中需要挖掘相似的裁判文書相應的數據分別如下。在所述立案階段s71中對應的與裁判文書相關的有起訴狀和答辯狀;在所述開庭審理階段s72中對應的與裁判文書相關的有起訴狀、答辯狀、質詢記錄和證人證言;在所述初審判決階段s73中對應的與裁判文書相關的有一審法院認定事實;在所述二審判決階段s74中對應的與裁判文書相關的有上述狀和二審法院認定事實;在所述再判決階段s75中對應的與裁判文書相關的有再審法院認定事實。其中,所述起訴狀用于指示原告呈交給一審法院的起訴文書;所述答辯狀用于指示一審法院接收到起訴狀后,要求被告提供的答辯內容;所述質詢記錄用于指示人民法院開庭審理時,原告代理人對被告的質詢內容及被告答辯內容,被告代理人對原告的質詢內容及原告的答辯內容;所述證人證言用于指示人民法院審理階段,當事人的證人證言,以及原被告代理人對對方證人的質詢記錄;所述一審法院認定事實用于指示一審法院經調查和審理后,認定的事實內容;所述上訴狀用于指示一審判決后,不服判決的一方當事人的二審起訴狀; 所述二審/再審法院認定事實用于指示二審或再審法院認定的事實。
在確定了在法院業務場景中的云計算服務器挖掘相似的裁判文書的各個階段的數據文本之后,需對裁判文書獲取裝置11中獲取若干裁判文書在所述文本特征挖掘裝置12中進行相關的文本特征向量的提取,具體地,所述文本特征挖掘裝置12包括的所有裝置如圖8所示。
其中,圖8示出根據本申請一個方面的一個優選實施例用于云計算服務器挖掘裁判文書的文本特征向量的文本特征挖掘裝置12的結構示意圖。所述文本特征挖掘裝置12包括第一挖掘單元121、第二挖掘單元122、第三挖掘單元123和生成單元124。其中所述第一挖掘單元121用于提取所述裁判文書的文本主題特征信息和所述裁判文書中各個詞語的詞語主題特征;所述第二挖掘單元122用于獲取各個所述詞語間的上下文關系,基于所述上下文關系修正各個詞語的詞語主題特征,并基于所修正后的各個所述詞語的詞語主題特征和所述文本主題特征信息的匹配程度,確定若干所述裁判文書的關鍵詞相關信息,其中,所述關鍵詞相關信息包括關鍵詞、關鍵詞重要度信息及關鍵詞對應的詞語主題特征;所述第三挖掘單元123用于基于所述關鍵詞相關信息,更新所述裁判文書的文本主題特征信息;所述生成單元124用于基于所述關鍵詞相關信息獲取擴展詞相關信息,所述擴展詞相關信息包括所述關鍵詞的擴展詞和擴展詞相關度,并基于所述關鍵詞相關信息和所述擴展詞相關信息建立詞袋特征信息,并基于所更新的文本主題特征信息和所述詞袋特征信息,確定所述裁判文書的文本特征向量。
具體地,所述第一挖掘單元121中的裁判文書的文本主題特征信息具體用于指示所述裁判文書中的案情,在本申請實施例中優選地采用主題模型方法來提取獲取的裁判文書的文本主題特征信息和各個詞語的詞語主題特征,其中所述主題模型方法與現有技術中的主體模型方法一致。當然,其他現有的或今后可能出現的提取裁判文書中的文本主題特征信息和各個詞語的詞語主題特征的方法如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。
進一步地,所述第二挖掘單元122用于獲取各個所述詞語間的上下文 詞語共現關系;獲取任意兩個所述詞語間的上下文轉移概率;基于所述上下文詞語共現關系和所述上下文轉移概率,修正各個詞語的詞語主題特征;基于所修正后的各個所述詞語的詞語主題特征和所述文本主題特征信息的匹配程度,確定若干所述裁判文書的關鍵詞及其對應的詞語主題特征,并獲取所述關鍵詞的重要度信息。
在本申請實施例中,所述第二挖掘單元122基于在所述第一挖掘單元121中提取的裁判文書的文本主題特征信息及各個詞語的詞語主題特征,根據各個所述詞語間的上下文關系修正各個詞語的詞語主題特征,并基于修正后的各個所述詞語的詞語主題特征和所述文本主題特征信息的匹配程度,從而確定若干所述裁判文書的關鍵詞及其對應的詞語主題特征,并獲取所述關鍵詞的重要度信息。此處具體地確定裁判文書的關鍵詞及其對應的詞語主題特征,并獲取所述關鍵詞的重要度信息的詳細實施例與上述的所述步驟122中具體的實施例相對應,此處不再贅述。
在本申請的實施例中,所述第三挖掘單元123在基于第二挖掘單元122中確定的關鍵詞相關信息,更新所述裁判文書的文本主題特征信息。例如,通過以下公式來更新裁判文書的文本主題特征信息:
其中d表示更新后的文本主題特征信息,且文本包含有n個關鍵詞,wi是第i個關鍵詞在裁判文書中的重要度,ii是關鍵詞wi的詞語主題特征,通過對以上裁判文書中的關鍵詞的詞語主題特征加權和,得到裁判文書的文本主題特征信息,可以有效地去除裁判文書中不重要的詞語和對構建文本主題特征信息的影響。
進一步地,所述第三挖掘單元124基于所述關鍵詞相關信息獲取擴展詞相關信息,所述擴展詞相關信息包括所述關鍵詞的擴展詞和擴展詞相關度。其中所述關鍵詞包括所述關鍵詞的同義詞及所述關鍵詞在所述裁判文書中高度相關的詞語。在本申請的實施例中,通過計算任意兩個詞語的主題特征相似度,來挖掘同義詞。例如,對于關鍵詞a,取相似度最高的若干個詞語,作為關鍵詞a的同義詞。其中,通過挖掘高度相關的詞語算法 (word2vector)來計算關鍵詞的高度相關的詞語,所述算法對每個詞語計算詞向量,然后計算任意兩個詞語的詞向量相似度,來挖掘高度相關的詞語。例如,對于關鍵詞a,取詞向量相似度最高的若干個詞語,作為關鍵詞a的高度相關的詞語。
進一步地,所述生成單元124基于所述關鍵詞及其對應的詞語主題特征,確定所述關鍵詞的擴展詞和擴展詞相關度,其中,所述擴展詞包括所述關鍵詞的同義詞和在所述裁判文書中高度相關的相關詞語;基于所述關鍵詞及其對應的詞語主題特征和所述擴展詞及擴展詞相關度,利用詞袋模型,建立詞袋特征信息。
在本申請實施例中,所述詞袋特征信息用于指示裁判文書中的關鍵詞及其擴展詞對應的詞語特征。在詞袋特征信息中,關鍵詞特征的特征值是關鍵詞在裁判文書中的重要度信息,同義詞特征的特征值是關鍵詞重要度信息與同義程度的乘積,相關詞語特征的特征值是關鍵詞重要度信息與相關程度的乘積。例如,假設所有裁判文書中一共有10萬不同的詞語,那么每個裁判文書的詞袋特征都是10萬維的向量,每維向量標記該位置的詞語是否在裁判文書中出現。例如,假設詞語word1是詞袋特征信息中的第1維,詞語word2是詞袋特征信息中的第2維,詞語word3是詞袋特征信息中的第10維,詞語word4是詞袋特征信息中的第30維,word3和word1互為相似詞語,相似度為weight13,word4和word2互為相似詞語,相似度為weight24;其中裁判文書a包含詞語word1,word3以及weight4,并且它們在a中重要度信息分別為weight1,weight3,weight4,那么裁判文書a的詞袋特征第1維的特征值為weight1+weight13*weight3,第2維的特征值為weight24*weight4,第10維的特征值為weight3+weight1*weight13,第30維的特征值為weight4。其中,通過以上計算方法亦可以得到關鍵詞的高度相關的詞語的詞語特征的特征值,故所得的詞袋特征信息中的特征值包括關鍵詞的詞語主題特征對應的特征值以及擴展詞的詞語主題特征對應的特征值。
進一步地,所述生成單元124將所述所更新的文本主題特征信息和所述詞袋特征信息進行合并,確定所述裁判文書的原始文本特征;通過對所 述裁判文書的原始文本特征進行特征歸一,確定所述裁判文書的文本特征向量。具體地,所述生成單元124將在所述第三挖掘單元123中得到的裁判文書的文本主題特征信息和詞袋特征信息拼接成一個特征向量,生成裁判文書的原始文本特征,其中,具體地生成裁判文書的原始文本的具體實施例與上述所述步驟s124中的實施例相對應,此處不再贅述。
進一步地,所述特征詞庫建立裝置13以所述關鍵詞為索引,對每一所述關鍵詞的詞語主題特征和擴展詞建立所述關于關鍵詞的特征詞庫。例如,在法院業務場景中,將裁判文書中的當事人訴求內容和當事人爭議內容相同的詞語作為提取裁判文書的關鍵詞,并基于關鍵詞查找與當事人訴求詞語以及當事人爭議點詞語相關的所有詞語作為關鍵詞的擴展詞對裁判文書進行特征提取,得到裁判文書的關鍵詞相關信息和擴展詞相關信息建立的特征詞庫。
進一步地,所述本申請的一個方面的一種用于基于大數據挖掘相似裁判文書的第一設備還包括發送裝置16(未示出),用于將所有所述裁判文書的文本特征向量、所述特征詞庫及所述裁判相關信息發送至第二設備的檢索數據庫中。例如,在法院業務場景中,將在所述文本特征挖掘裝置12中獲得的裁判文書的文本特征向量,在所述特征詞庫建立裝置13中獲得的裁判文書的特征詞庫以及在所述發送裝置14(未示出)中獲得的裁判文書的文本結構化信息和文本類型發送至第二設備,以使第二設備在依賴第一設備計算出的特征詞庫和簡化的計算邏輯,確保第一設備和第二設備針對同一份裁判文書能夠輸出相同的文本特征向量及特征詞庫;同時考慮人民法院系統的網絡特點和保密要求,采用在云計算服務器中對法院業務場景中的審判業務中分階段對裁判文書進行挖掘以滿足法院業務場景中的業務需求。
由于在法院業務場景中,在審的輸入案例文本的文本特征向量都存儲于法院內網服務器中,除已公開后的裁判文書外,其他的法院業務系統中的在審的輸入案例文本均不能流出法院內網服務器,為了滿足法院業務場景中的對輸入案例文本的相關信息的保密性要求,本申請提出了如圖9所示的設備,以滿足對法院業務場景中的輸入案例文本的保密性的要求,從 而提高了處理輸入案例文本的實時性。
圖9示出根據本申請一個方面的一種用于基于大數據挖掘相似裁判文書的第二設備的結構示意圖。該設備2包括輸入裝置21、輸入案例文本特征挖掘裝置22、候選裁判文書獲取裝置23和相似裁判文書獲取裝置24。
其中,所述輸入裝置21用于獲取輸入案例文本,基于檢索數據庫中關于關鍵詞的特征詞庫,提取所述輸入案例文本的若干候選關鍵詞;所述輸入案例文本特征挖掘裝置22用于基于所述輸入案例文本的文本內容及若干所述候選關鍵詞獲取所述輸入案例文本的文本主題特征信息和若干關鍵詞相關信息,并基于所述文本主題特征信息和若干所述關鍵詞相關信息建立所述輸入案例文本的文本特征向量;所述候選裁判文書獲取裝置23用于從所述檢索數據庫中獲取與所述輸入案例文本具有相同案由的若干候選的裁判文書;所述相似裁判文書獲取裝置24用于計算所述候選的裁判文書的文本特征向量和所述輸入案例文本的文本特征向量的相似度,基于所述相似度選取相似的裁判文書。
在此,所述設備2包括但不限于用戶設備、或用戶設備與網絡設備通過網絡相集成所構成的設備。所述用戶設備其包括但不限于任何一種可與用戶通過觸摸板進行人機交互的移動電子產品,例如智能手機、pda等,所述移動電子產品可以采用任意操作系統,如android操作系統、ios操作系統等。其中,所述網絡設備包括一種能夠按照事先設定或存儲的指令,自動進行數值計算和信息處理的電子設備,其硬件包括但不限于微處理器、專用集成電路(asic)、可編程門陣列(fpga)、數字處理器(dsp)、嵌入式設備等。所述網絡包括但不限于互聯網、廣域網、城域網、局域網、vpn網絡、無線自組織網絡(adhoc網絡)等。優選地,所述設備2還可以是能夠使用云計算服務器中的離線特征化工具的在線化的簡單的計算邏輯的法院內網服務器作為本申請一個方面的第二設備,下面以法院內網服務器作為第二設備為本申請的一個方面的優選實施例對基于大數據的挖掘相似裁判文書進行詳細解釋。當然,本領域技術人員應能理解上述設備2僅為舉例,其他現有的或今后可能出現的設備2如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。
上述各裝置之間是持續不斷工作的,在此,本領域技術人員應理解“持續”是指上述各裝置分別實時地或者按照設定的或實時調整的工作模式要求。
需要說明的是,在本申請的優選實施例中,所述設備1云計算服務端處理的是在法院業務場景中的海量已公開的裁判文書中挖掘出與所述設備2中輸入的輸入案例文本對應的相似的裁判文書,即在云計算服務器中進行的是對海量已公開的裁判文書進行的挖掘,而所述設備2法院內網服務器是通過在線特征化工具只需將輸入的一個輸入案例文本進行簡單的計算,將云計算服務器中離線特征化工具輸出的特征詞庫作為法院內網服務器中在線特征化工具的輸入,從而簡化了法院內網服務器中的在線計算邏輯,以確保同一份裁判文書輸入到兩個工具之后輸出完全相同的文本特征向量、特征詞庫以及結構化信息。當然,所述云計算服務器將通過離線特征化工具輸出的裁判文書的相關特征通過網絡專線一次性傳輸到法院內網服務器中的在線存儲器中,從而不僅滿足了對海量的已公開的相似的裁判文書的挖掘,又確保了法院內網服務器中的不對外公開的輸入案例文本的保密性,并將輸入案例文本的相似的裁判文書的挖掘出來,并獲取相似的裁判文書,從而有效地提高了法院業務場景中的挖掘相似裁判文書的工作效率。
需要說明的是,所述輸入案例文本包括但不限于已有的裁判文書和在審案例文本等。當然,其他現有的或今后可能出現的輸入案例文本如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。
在本申請的實施例中,所述第二設備還包括接收裝置25(未示出),所述接收裝置25(未示出)從第一設備接收所述第一設備所獲取的所述公開裁判文書的文本特征向量、所述特征詞庫及所述裁判相關信息,并保存至所述檢索數據庫中,所述裁判相關信息包括當事人信息、案件類型、案由和判決結果。例如,在法院業務場景內網中的檢索數據庫在線存儲了裁判文書的文本特征向量、所述特征詞庫及所屬裁判相關信息。具體存儲在接收裝置25中的裁判文書的信息包括以下八個方面:(一)、每種裁判文書中的案例類型和案由對應的裁判文書。其中,key是案例類型和案由,value是裁判文書在系統內部的編號。(二)、已有裁判文書的結構化信息。其中,key是裁判文書在系統內部的編號,value是由結構化提取模塊生成 的文本結構化信息。(三)、已有裁判文書的文本特征向量。其中,key是裁判文書在系統內部的編號,value是文本特征模塊生成的文本特征向量。(四)、已有裁判文書的全部關鍵詞。其中,key是一個常量,value是關鍵詞主題模塊生成的全部關鍵詞。(五)、每個關鍵詞的詞語主題特征。其中,key是關鍵詞,value是關鍵詞主題模塊生成的關鍵詞詞語主題特征。(六)、每個關鍵詞的同義詞。其中,key是關鍵詞,value是關鍵詞的同義詞及其同義程度。(七)、每個關鍵詞的相關詞。key是關鍵詞,value是關鍵詞的相關詞及其相關程度。(八)、裁判文書每維特征的特征值均值方差。key是特征編號,value是特征值的均值和方差。
需要說明的是,所述文本類型包括但不限于法院業務場景中的輸入案例文本的案件類型,其中所述案件類型包括刑事訴訟,民事訴請,行政訴訟,知識產權糾紛,裁定書,賠償案件,執行案件以及在審案例的在審階段。當然,其他現有的或今后可能出現的文本類型如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。
進一步地,所述輸入裝置21獲取輸入案例文本,基于檢索數據庫中關于關鍵詞的特征詞庫,提取所述輸入案例文本的若干候選關鍵詞,具體地,所述輸入裝置21包括獲取輸入案例文本,基于所述輸入案例文本的案由,從檢索數據庫中關于關鍵詞的特征詞庫提取所述輸入案例文本的若干候選關鍵詞。例如,在法院業務場景中的海量已公開的裁判文書中查找與所述輸入案例文本相似的裁判文書,由于法院業務場景中的裁判文書案情案由類型不同,故為了便于快速地查找到與輸入案例文本相似的裁判文書,則基于輸入案例文本的案由,從檢索數據庫中關于關鍵詞的特征詞庫中提取與輸入案例文本的詞語相交集的詞語,作為輸入案例文本的若干候選關鍵詞,能夠確保輸入案例文本挖掘出來的關鍵詞存在于檢索數據庫中。
進一步地,所述輸入案例文本特征挖掘裝置22查詢法院內網服務器中的接收裝置25(未示出)接收的相關特征詞庫,對輸入案例文本進行在線特征化計算得到輸入案例文本的文本特征向量,具體如圖10所示。圖10示出根據本申請一個方面的一個優選實施例用于基于大數據挖掘相似裁判文書的法院內網服務器中的輸入案例文本特征挖掘裝置22的結構流 程圖。所述輸入案例文本特征挖掘裝置22包括第四挖掘單元221、第五挖掘單元222和第六挖掘單元223。
其中,所述第四挖掘單元221用于基于所述輸入案例文本的各個詞語和所有所述裁判文書的全部關鍵詞進行比對,以從所述輸入案例文本中提取候選關鍵詞及其詞語主題特征,并基于所述詞語主題特征獲取所述輸入案例文本的文本主題特征信息;所述第五挖掘單元222用于獲取各個所述候選關鍵詞間的上下文關系,基于所述上下文關系修正各個候選關鍵詞的詞語主題特征,并基于所修正后的各個所述候選關鍵詞的詞語主題特征和所述文本主題特征信息的匹配程度,確定所述輸入案例文本的關鍵詞相關信息;所述第六挖掘單元223用于基于所述關鍵詞相關信息,更新所述輸入案例文本的文本主題特征信息及獲取擴展詞相關信息,并基于所述關鍵詞相關信息和所述擴展詞相關信息建立所述輸入本文的詞袋特征信息,并基于所更新的文本主題特征信息和所述詞袋特征信息,確定所述輸入案例文本的文本特征向量。
本申請實施例中,在法院業務場景中的法院內網主要完成用戶實時輸入案例文本的文本特征向量。在法院內網服務器的第四挖掘單元221中挖掘在線輸入的所述輸入案例文本關鍵詞設有一個假設:在線輸入的所述輸入案例文本的關鍵詞,必須也是已有的裁判文書的關鍵詞。因此,該模塊在海量已公開的裁判文書中查詢與輸入案例文本具有相同案由的裁判文書的全部與當事人訴求內容和當事人爭議內容相同的關鍵詞,并和輸入案例文本詞語取交集,作為在線輸入的輸入案例文本的候選關鍵詞,有效地保證了輸入案例文本選擇出的關鍵詞都是已有的裁判文書中的關鍵詞,從而能在已有的裁判文書中挖掘出與輸入案例文本相似的裁判文書及其對應的文本特征向量和特征詞庫,從已公開的裁判文書中的所有關鍵詞中確定輸入案例文本的候選關鍵詞使得在處理海量已公開的裁判文書的基礎上簡化輸入案例文本的計算邏輯。具體地,所述第四挖掘裝置221挖掘輸入案例文本的文本主題特征的方法與上述實施例中的所述步驟s221中挖掘文本主題特征的方法想對應,此處不再贅述。
具體地,在法院內網服務器中的所述第五挖掘單元222確定所述輸入 案例文本的關鍵詞的具體方法與本申請上述實施例中的所述步驟s222中描述的方法相對應,通過與上述實施例中的所述步驟s222中相對應的方法確定的關鍵詞更能夠有效準確地表達所述輸入案例文本的關鍵詞及其關鍵詞的詞語特征,使得基于關鍵詞得到的文本主題特征信息更能夠與輸入案例文本的案件類型相近,更能準確度的表達輸入案例文本的文本內容,從而使得通過輸入案例文本的文本主題特征信息查找到的相似的裁判文書的相似度更高,提高查找相似的裁判文書的精確度。
在本申請的實施例中,所述第六挖掘裝置223中基于所述關鍵詞相關信息,更新所述輸入案例文本的文本主題特征信息及獲取擴展詞相關信息。此處具體地更新輸入案例文本的文本主題特征信息與本申請上述所述步驟s223的實施例中的更新輸入案例文本的文本主題特征信息的方法一致,此處不再贅述。當然,此處獲取輸入案例文本的關鍵詞的同義詞及在輸入案例文本中的高度相關的詞語以及詞袋特征的具體方法與上述所述步驟s223中獲取關鍵詞的同義詞和高度相關的詞語以及詞袋特征的方法一致,此處亦不再贅述。
本申請的實施例中,所述第六挖掘裝置223將所述所更新的文本主題特征信息和所述詞袋特征信息進行合并,確定所述輸入案例文本的原始文本特征;通過對所述輸入案例文本的原始文本特征進行特征歸一,確定所述輸入案例文本的文本特征向量。例如,將在所述步驟s123中得到的輸入案例文本的文本主題特征信息和詞袋特征信息拼接成一個特征向量,生成輸入案例文本的原始文本特征。例如,輸入案例文本的文本主題特征信息是一個10維的特征向量,詞袋特征信息是一個100維的特征向量,則有輸入案例文本的原始文本特征為一個110維的特征向量。再利用機器學習領域常用的特征歸一化方法,對原始文本特征進行特征歸一,生成輸入案例文本的文本特征向量。例如,假設輸入案例文本的同一特征均符合正態分布,因此可以將每維特征歸一成標準的正態分布。
本申請的實施例中,所述相似裁判文書獲取裝置24基于在所述候選裁判文書獲取裝置23中從所述檢索數據庫中獲取與所述輸入案例文本具有相同案由的若干候選的裁判文書,計算所述候選的裁判文書的文本特征 向量和所述輸入案例文本的文本特征向量的相似度,基于所述相似度選取相似的裁判文書。
需要說明的是,所述相似裁判文書獲取裝置24中計算文本特征向量的相似度的算法包括但不限于歐式距離算法和余弦相似度算法等。當然,其他現有的或今后可能出現的計算文本特征向量的相似度的算法如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。
例如,首先根據用戶輸入的輸入案例文本的案件類型和案件案由,查詢同一案件類型和案件案由的全部已有的裁判文書作為候選相似裁判文書,然后檢索候選相似裁判文書的文本特征向量。接著采用上述計算文本特征向量相似度的算法(歐式距離算法或余弦相似度算法),計算輸入的所述輸入案例文本和每個候選相似裁判文書的相似度。接著,根據用戶輸入的需求的相似的裁判文書的個數n,取相似度最高的n個裁判文書作為最終的所需的相似的裁判文書。然后查詢相似的裁判文書的文本結構化信息和裁判相關信息,并反饋給需求獲取相似的裁判文書的用戶。最后統計相似的裁判文書的判決結果,按主刑,附加刑,賠償金額,當事人輸贏等文本特征的維度,以可視化的形式,展示給需求獲取相似的裁判文書的用戶。具體地,例如,根據用戶輸入的輸入案例文本的案件類型和案件案由,查詢同一案件類型和案件案由的全部已有的裁判文書作為候選的裁判文書有100個,用戶需求返回的與輸入案例文本相似的候選的裁判文書的個數為10個,則通過上述相似度算法對輸入案例文本的文本特征向量分別與100個候選的裁判文書的文本特征向量進行相似度計算,并將計算得到的相似度按從低到高的順序排列,取相似度最高的10個候選的裁判文書作為相似的裁判文書,并將所述10個相似的裁判文書的文本結構化信息和裁判相關信息反饋給需要獲取相似的裁判文書的用戶。
進一步地,所述本申請的一個方面的一種用于基于大數據挖掘相似裁判文書的第二設備還包括:文本結構化信息接收裝置,用于接收所述第一設備所發送的將所述裁判文書進行結構化處理所得到結構化后的文本結構化信息;文本結構化信息獲取裝置,用于獲取所述相似的裁判文書的文本結構化信息。例如,通過對候選的裁判文書的相似度計算之后,將獲取 所有的符合需求數量的相似的裁判文書的文本結構化信息。
圖11示出根據本申請一個方面的一種基于大數據挖掘相似裁判文書的系統示意圖。該設備包括云計算服務器31和法院內網服務器32。其中,所述云計算服務器31包括已公開的裁判文書獲取裝置311、離線特征化工具裝置312和已公開的裁判文書的文本特征向量生成裝置313,所述法院內網服務器32包括在線存儲器321、在線輸入的輸入案例文本獲取裝置322、在線特征化工具裝置323、輸入案例文本的文本特征向量生成裝置324、在線相似的裁判文書計算工具裝置325和輸入案例文本的相似的裁判文書326。
其中,所述云計算服務器31與圖6所示的申請一個方面的一種用于基于大數據挖掘相似裁判文書的第一設備的功能一致,所述法院內網服務器32與圖9所示的本申請一個方面的一種用于基于大數據挖掘相似裁判文書的第二設備的功能一致。以下為描述簡潔,所述云計算服務器31中的已公開的裁判文書獲取裝置311與圖6中的裁判文書獲取裝置11互換使用,所述離線特征化工具裝置312和所述已公開的裁判文書的文本特征向量生成裝置313與圖6中的所述文本特征挖掘裝置12互換使用,所述法院內網服務器32中的所述在線存儲器321與圖9中的候選裁判文書獲取裝置23互換使用,在線輸入的輸入案例文本獲取裝置322與圖9中的所述輸入裝置21互換使用,所述在線特征化工具裝置323和所述輸入案例文本的文本特征向量生成裝置324與圖9中的輸入案例文本特征挖掘裝置22互換使用,所述在線相似的裁判文書計算工具裝置325和輸入案例文本的相似的裁判文書326與圖9中的相似裁判文書獲取裝置24互換使用,其實質內容相同。
本申請的實施例中,在法院業務場景的審判業務中,所述云計算服務器31中的已公開的裁判文書獲取裝置311使用互聯網網絡存儲全部的已公開的裁判文書;所述離線特征化工具裝置312充分運用云計算的強大計算能力,對已公開的院裁判文本進行特征化,并挖掘關于關鍵詞的特征詞庫;所述已公開的裁判文書的文本特征向量生成裝置313挖掘已公開的裁判文書的文本特征向量以及關于關鍵詞的特征詞庫,并通過網絡專線,一 次性傳輸到法院內網服務器31中的在線存儲器321。所述法院內網服務器32中的在線存儲器321存儲已公開的裁判文書的文本特征向量以及關于關鍵詞的特征詞庫;所述在線輸入的輸入案例文本獲取裝置322獲取輸入案例文本的相關文本內容;所述在線特征化工具裝置323查詢在線存儲器中的已公開的裁判文書的關于關鍵詞的特征詞庫以獲得相關的特征詞庫,并對輸入案例文本進行特征化計算,以使在所述輸入案例文本的文本特征向量生成裝置324中形成輸入案例文本的文本特征向量;所述在線相似的裁判文書計算工具裝置325在線輸入所述輸入案例文本及其對應的文本特征向量,查詢在線存儲器,在線檢索與輸入案例文本的具有相同案由已公開的若干候選的裁判文書的文本特征向量,計算已公開的所述候選的裁判文書的文本特征向量和所述輸入案例文本的的文本特征向量的相似度,排序后獲得與所述輸入案例文本最相似的裁判文書。
在此,上述離線特征化工具裝置312和在線特征化工具裝置323之間的計算邏輯相同,二者的區別是在線特征化工具裝置312中只需要經過簡單的計算,就能實現與離線特征化工具裝置323相同的計算邏輯。離線特征化工具裝置312輸出的關于關鍵詞的特征詞庫,作為在線特征化工具裝置323的輸入,且在線特征化工具裝置323依賴離線計算的關于關鍵詞的特征詞庫和簡化的在線計算邏輯,以確保同一份數據輸入到兩個工具裝置之后,輸出結果完全相同。即同一裁判文書分別經過離線特征化工具裝置312和在線特征化工具裝置323之后,分別得到一樣的文本特征向量和關于關鍵詞的特征詞庫,使得更有效地進行輸入案例文本與裁判文書之間的文本特征向量的相似度計算,有效地提高了法院業務場景中的挖掘相似的裁判文書的工作效率和精確度;經過所述在線特征化工具裝置323的計算之后,在輸入案例文本的文本特征向量生成裝置324中生成輸入案例文本的文本特征向量以備在在線相似的裁判文書計算工具裝置325中,分別計算具有相同的文本類型的若干候選的裁判文書的文本特征向量與輸入案例文本的文本特征向量之間的相似度,并在輸入案例文本的相似的裁判文書326中,基于法院業務場景中需要的相似的裁判文書的數量,將相似度最高的相應數量的候選的裁判文書作為相似的裁判文書。
本申請的上述實施例中,通過本申請基于大數據挖掘相似裁判文書的設備中可以看出,本申請的上述實施例中,借助大數據文本分析技術,能夠有效的挖掘相似的裁判文書的裁判文書案情的文本主題特征信息和關于所述裁判文書中當事人爭議內容和當事人訴求內容的若干關鍵詞相關信息三個要素,并完成要素內容兩兩比較,以實現挖掘相似裁判文書。本申請實施例通過首先對全國所有的裁判文書建立文本特征向量,包括文本主題特征信息,文本關鍵詞特征,擴展關鍵詞特征。然后利用機器學習實時計算方法,對實時輸入的輸入案例文本(或者是只有案情和當事人訴求的起訴狀)計算文本特征向量,再利用機器學習模型,計算出與實時輸入的輸入案例文本最相似的已有判決結果的裁判文書。在上述過程中,法院工作人員可以根據實際情況輸入需要尋找相似的裁判文書,本申請裝置不限制輸入案例文本的結構,完全滿足法院業務的應用場景。
與現有技術相比,根據本申請的實施例所述的一種用于第一設備端基于大數據挖掘相似裁判文書的方法與設備,通過獲取海量已公開的裁判文書,并獲取每一所述裁判文書的案由;基于每一所述裁判文書的文本內容獲取關于所述裁判文書案情的文本主題特征信息和關于所述裁判文書中當事人爭議內容和當事人訴求內容的若干關鍵詞相關信息,并基于所述文本主題特征信息和若干所述關鍵詞相關信息建立所述裁判文書的文本特征向量;有效地將海量已公開的的每一裁判文書通過以裁判文書的裁判文書案情的文本主題特征信息和關于所述裁判文書中當事人爭議內容和當事人訴求內容的若干關鍵詞相關信息這三個要素來挖掘裁判文書的文本特征向量,并以文本特征向量的形式精確地顯示出來,避免了人為耗時耗力地去分析文字多、內容復雜以及風格各異的海量裁判文書,從而有效地提高了挖掘相似的裁判文書的工作效率;并基于若干所述關鍵詞相關信息更新關于關鍵詞的特征詞庫,有效地將裁判文書的文本內容以所有所述關鍵詞及其詞語主題特征和擴展詞建立的特征詞庫的形式進行高度辨識,使得能夠快速獲取相似的裁判文書及其對應的文本特征向量,達到了提高挖掘相似的裁判文書的工作效率的效果。
進一步地,根據本申請的實施例所述的一種用于第二設備端基于大數 據挖掘相似裁判文書的方法與設備,通過首先獲取輸入案例文本,基于檢索數據庫中關于關鍵詞的特征詞庫,提取所述輸入案例文本的若干候選關鍵詞,使得輸入案例文本獲得關鍵詞都能在檢索數據庫中找到,從而有效地提高通過關鍵詞對輸入案例文本進行相似的裁判文書的查找;然后基于所述輸入案例文本的文本內容及若干所述候選關鍵詞獲取所述輸入案例文本的文本主題特征信息和若干關鍵詞相關信息,并基于所述文本主題特征信息和若干所述關鍵詞相關信息建立所述輸入案例文本的文本特征向量,能夠有效地將輸入案例文本的相關信息通過文本特征向量的形式表達出來;最后從所述檢索數據庫中獲取與所述輸入案例文本具有相同案由的若干候選的裁判文書;計算所述候選的裁判文書的文本特征向量和所述輸入案例文本的文本特征向量的相似度,基于所述相似度選取相似的裁判文書,有效地將來自第一設備發送的候選的裁判文書的文本特征向量與實時挖掘出的輸入案例文本的文本特征向量進行相似度計算,得到相似的裁判文書,使得能夠快速地從海量已公開的裁判文書中精確地篩選出與輸入案例文本相似的裁判文書,避免了人為耗時耗力地去分析文字多、內容復雜以及風格各異的海量的裁判文書,從而有效地提高了挖掘相似文本的工作效率。
需要注意的是,本申請可在軟件和/或軟件與硬件的組合體中被實施,例如,可采用專用集成電路(asic)、通用目的計算機或任何其他類似硬件設備來實現。在一個實施例中,本申請的軟件程序可以通過處理器執行以實現上文所述步驟或功能。同樣地,本申請的軟件程序(包括相關的數據結構)可以被存儲到計算機可讀記錄介質中,例如,ram存儲器,磁或光驅動器或軟磁盤及類似設備。另外,本申請的一些步驟或功能可采用硬件來實現,例如,作為與處理器配合從而執行各個步驟或功能的電路。
另外,本申請的一部分可被應用為計算機程序產品,例如計算機程序指令,當其被計算機執行時,通過該計算機的操作,可以調用或提供根據本申請的方法和/或技術方案。而調用本申請的方法的程序指令,可能被存儲在固定的或可移動的記錄介質中,和/或通過廣播或其他信號承載媒體中的數據流而被傳輸,和/或被存儲在根據所述程序指令運行的計算機設備的 工作存儲器中。在此,根據本申請的一個實施例包括一個裝置,該裝置包括用于存儲計算機程序指令的存儲器和用于執行程序指令的處理器,其中,當該計算機程序指令被該處理器執行時,觸發該裝置運行基于前述根據本申請的多個實施例的方法和/或技術方案。
對于本領域技術人員而言,顯然本申請不限于上述示范性實施例的細節,而且在不背離本申請的精神或基本特征的情況下,能夠以其他的具體形式實現本申請。因此,無論從哪一點來看,均應將實施例看作是示范性的,而且是非限制性的,本申請的范圍由所附權利要求而不是上述說明限定,因此旨在將落在權利要求的等同要件的含義和范圍內的所有變化涵括在本申請內。不應將權利要求中的任何附圖標記視為限制所涉及的權利要求。此外,顯然“包括”一詞不排除其他單元或步驟,單數不排除復數。裝置權利要求中陳述的多個單元或裝置也可以由一個單元或裝置通過軟件或者硬件來實現。第一,第二等詞語用來表示名稱,而并不表示任何特定的順序。