基于大數據挖掘相似裁判文書的方法和設備與流程

            文檔序號:11654269閱讀:482來源:國知局
            基于大數據挖掘相似裁判文書的方法和設備與流程

            本申請涉及計算機領域,尤其涉及一種基于大數據挖掘相似裁判文書的技術。



            背景技術:

            隨著互聯網技術的迅速發展,網絡上的文本數據信息呈現爆炸式增長,然而,在這些海量的文本數據信息中查找出少量的有效的文本數據信息就變得越來越困難。例如,在海量的自動問答系統、智能檢索系統、郵件篩選系統等存在大量文本數據信息的系統中查找出有效的文本數據信息越來越困難且耗時耗力。

            現有技術中,在法院業務場景里,法官對在審案件做出事實認定和判決結果之前,需要事先或者實時挖掘有效的相似的裁判文書。例如,人民法院通過比較多個法官在審判案情相似,當事人訴求相近的不同案件時的判決結果,以審計法官的判決結果是否合理;同時,法官在實際審判案件過程中,也會參考案情相似的已有案例的裁判文書,形成最終的事實認定和裁判文書的判決結果。由于人民法院在搜索有效的相似的裁判文書的實際操作中依賴于大量的人力標注和搜索,耗時又耗力,況且人力搜索出的相似裁判文書的質量完全依賴于個人經驗,不能更好的滿足法院業務需求,導致工作效率低;又由于各級法院記錄裁判文書的風格各異,關鍵案情和當事人關鍵訴求通常通過搜索模板或者傳統的自然語言處理方法挖掘,容易挖掘出錯誤的案情和當事人訴求,尤其挖掘不出當事人爭議點,造成挖掘出的有效的相似的裁判文書的精確度低;又由于出于對在審輸入案例的保密性,不能實時輸入在審案例文本查詢相似的裁判文書,造成查詢相似的裁判文書的實時性差,同時在查詢到相似的裁判文書時,由于相似的裁判文書的文字多、內容復雜及裁判文書的判決結果需要人工提取,導致查詢到的相似的裁判文書的判決結果的可視化程度低,造成法院處理在審案例文本的業務時的工作效率低。

            因此,現有技術中,由于在海量的文本數據中查找某一輸入案例文本的相似的裁判文書耗時耗力、實時性差及精確度低,造成正常處理查找業務的工作效率低。



            技術實現要素:

            本申請的目的是提供一種基于大數據挖掘相似裁判文書的方法與設備,以解決現有技術中在海量的已公開的裁判文書中查找某一輸入案例文本的相似的裁判文書耗時耗力、實時性差及精確度低,造成正常處理查找業務的工作效率低的問題。

            根據本申請的一個方面,提供了一種用于第一設備端基于大數據挖掘相似裁判文書的方法,包括:

            獲取海量已公開的裁判文書,并獲取每一所述裁判文書的案由;

            基于每一所述裁判文書的文本內容獲取關于所述裁判文書案情的文本主題特征信息和關于所述裁判文書中當事人爭議內容和當事人訴求內容的若干關鍵詞相關信息,并基于所述文本主題特征信息和若干所述關鍵詞相關信息建立所述裁判文書的文本特征向量;

            基于若干所述關鍵詞相關信息更新關于關鍵詞的特征詞庫。

            根據本申請的另一個方面,提供了一種用于第二設備端基于大數據挖掘相似裁判文書的方法,包括:

            獲取輸入案例文本,基于檢索數據庫中關于關鍵詞的特征詞庫,提取所述輸入案例文本的若干候選關鍵詞;

            基于所述輸入案例文本的文本內容及若干所述候選關鍵詞獲取所述輸入案例文本的文本主題特征信息和若干關鍵詞相關信息,并基于所述文本主題特征信息和若干所述關鍵詞相關信息建立所述輸入案例文本的文本特征向量;

            從所述檢索數據庫中獲取與所述輸入案例文本具有相同案由的若干候選的裁判文書;

            計算所述候選的裁判文書的文本特征向量和所述輸入案例文本的文本特征向量的相似度,基于所述相似度選取相似的裁判文書。

            根據本申請的另一個方面,提供了一種用于基于大數據挖掘相似裁判文書的第一設備,包括:

            裁判文書獲取裝置,用于獲取海量已公開的裁判文書,并獲取每一所述裁判文書的案由;

            文本特征挖掘裝置,用于基于每一所述裁判文書的文本內容獲取關于所述裁判文書案情的文本主題特征信息和關于所述裁判文書中當事人爭議內容和當事人訴求內容的若干關鍵詞相關信息,并基于所述文本主題特征信息和若干所述關鍵詞相關信息建立所述裁判文書的文本特征向量;

            特征詞庫建立裝置,用于基于若干所述關鍵詞相關信息更新關于關鍵詞的特征詞庫。

            根據本申請的另一個方面,提供了一種用于基于大數據挖掘相似裁判文書的第二設備,包括:

            輸入裝置,用于獲取輸入案例文本,基于檢索數據庫中關于關鍵詞的特征詞庫,提取所述輸入案例文本的若干候選關鍵詞;

            輸入案例文本特征挖掘裝置,用于基于所述輸入案例文本的文本內容及若干所述候選關鍵詞獲取所述輸入案例文本的文本主題特征信息和若干關鍵詞相關信息,并基于所述文本主題特征信息和若干所述關鍵詞相關信息建立所述輸入案例文本的文本特征向量;

            候選裁判文書獲取裝置,用于從所述檢索數據庫中獲取與所述輸入案例文本具有相同案由的若干候選的裁判文書;

            相似裁判文書獲取裝置,用于計算所述候選的裁判文書的文本特征向量和所述輸入案例文本的文本特征向量的相似度,基于所述相似度選取相似的裁判文書。

            根據本申請的另一個方面,提供了一種用于基于大數據挖掘相似裁判文書的系統,該系統包括第一設備和第二設備,其中,

            所述第一設備包括:裁判文書獲取裝置,用于獲取海量已公開的裁判文書,并獲取每一所述裁判文書的案由;文本特征挖掘裝置,用于基于每一所述裁判文書的文本內容獲取關于所述裁判文書案情的文本主題特征信息和關于所述裁判文書中當事人爭議內容和當事人訴求內容的若干關 鍵詞相關信息,并基于所述文本主題特征信息和若干所述關鍵詞相關信息建立所述裁判文書的文本特征向量;特征詞庫建立裝置,用于基于若干所述關鍵詞相關信息更新關于關鍵詞的特征詞庫;文本結構化裝置,用于將所述裁判文書進行結構化處理,得到結構化后的文本結構化信息;文本結構化信息獲取裝置,用于基于所述文本結構化信息獲取所述裁判文書的裁判相關信息,所述裁判相關信息包括當事人信息、案件類型、案由和判決結果;發送裝置,用于將所有所述裁判文書的文本特征向量、所述特征詞庫及所述裁判相關信息發送至第二設備的檢索數據庫中;

            所述第二設備包括:接收裝置,用于從第一設備接收所述第一設備所獲取的所述公開裁判文書的文本特征向量、所述特征詞庫及所述裁判相關信息,并保存至所述檢索數據庫中,所述裁判相關信息包括當事人信息、案件類型、案由和判決結果;文本結構化信息接收裝置,用于接收所述第一設備所發送的將所述裁判文書進行結構化處理所得到結構化后的文本結構化信息;文本結構化信息獲取裝置,用于獲取所述相似的裁判文書的文本結構化信息;輸入裝置,用于獲取輸入案例文本,基于檢索數據庫中關于關鍵詞的特征詞庫,提取所述輸入案例文本的若干候選關鍵詞;輸入案例文本特征挖掘裝置,用于基于所述輸入案例文本的文本內容及若干所述候選關鍵詞獲取所述輸入案例文本的文本主題特征信息和若干關鍵詞相關信息,并基于所述文本主題特征信息和若干所述關鍵詞相關信息建立所述輸入案例文本的文本特征向量;候選裁判文書獲取裝置,用于從所述檢索數據庫中獲取與所述輸入案例文本具有相同案由的若干候選的裁判文書;相似裁判文書獲取裝置,用于計算所述候選的裁判文書的文本特征向量和所述輸入案例文本的文本特征向量的相似度,基于所述相似度選取相似的裁判文書。

            與現有技術相比,根據本申請的實施例所述的一種用于第一設備端基于大數據挖掘相似裁判文書的方法與設備,通過獲取海量已公開的裁判文書,并獲取每一所述裁判文書的案由;基于每一所述裁判文書的文本內容獲取關于所述裁判文書案情的文本主題特征信息和關于所述裁判文書中當事人爭議內容和當事人訴求內容的若干關鍵詞相關信息,并基于所述文 本主題特征信息和若干所述關鍵詞相關信息建立所述裁判文書的文本特征向量;有效地將海量已公開的的每一裁判文書通過以裁判文書的裁判文書案情的文本主題特征信息和關于所述裁判文書中當事人爭議內容和當事人訴求內容的若干關鍵詞相關信息這三個要素來挖掘裁判文書的文本特征向量,并以文本特征向量的形式精確地顯示出來,避免了人為耗時耗力地去分析文字多、內容復雜以及風格各異的海量裁判文書,從而有效地提高了挖掘相似的裁判文書的工作效率;并基于若干所述關鍵詞相關信息更新關于關鍵詞的特征詞庫,有效地將裁判文書的文本內容以所有所述關鍵詞及其詞語主題特征和擴展詞建立的特征詞庫的形式進行高度辨識,使得能夠快速獲取相似的裁判文書及其對應的文本特征向量,達到了提高挖掘相似的裁判文書的工作效率的效果。

            進一步地,根據本申請的實施例所述的一種用于第二設備端基于大數據挖掘相似裁判文書的方法與設備,通過首先獲取輸入案例文本,基于檢索數據庫中關于關鍵詞的特征詞庫,提取所述輸入案例文本的若干候選關鍵詞,使得輸入案例文本獲得關鍵詞都能在檢索數據庫中找到,從而有效地提高通過關鍵詞對輸入案例文本進行相似的裁判文書的查找;然后基于所述輸入案例文本的文本內容及若干所述候選關鍵詞獲取所述輸入案例文本的文本主題特征信息和若干關鍵詞相關信息,并基于所述文本主題特征信息和若干所述關鍵詞相關信息建立所述輸入案例文本的文本特征向量,能夠有效地將輸入案例文本的相關信息通過文本特征向量的形式表達出來;最后從所述檢索數據庫中獲取與所述輸入案例文本具有相同案由的若干候選的裁判文書;計算所述候選的裁判文書的文本特征向量和所述輸入案例文本的文本特征向量的相似度,基于所述相似度選取相似的裁判文書,有效地將來自第一設備發送的候選的裁判文書的文本特征向量與實時挖掘出的輸入案例文本的文本特征向量進行相似度計算,得到相似的裁判文書,使得能夠快速地從海量已公開的裁判文書中精確地篩選出與輸入案例文本相似的裁判文書,避免了人為耗時耗力地去分析文字多、內容復雜以及風格各異的海量的裁判文書,從而有效地提高了挖掘相似文本的工作效率。

            附圖說明

            通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本申請的其它特征、目的和優點將會變得更明顯:

            圖1示出根據本申請一個方面的一種用于第一設備端基于大數據挖掘相似裁判文書的方法流程示意圖;

            圖2示出根據本申請一個方面的一個優選實施例用于第一設備端基于大數據挖掘裁判文書的文本特征向量的方法流程示意圖;

            圖3示出根據本申請一個方面的一種用于第二設備端基于大數據挖掘相似裁判文書的方法流程示意圖;

            圖4示出根據本申請一個方面的一個優選實施例用于第二設備端基于大數據挖掘裁判文書的文本特征向量的方法流程示意圖;

            圖5示出根據本申請一個方面的一種基于大數據挖掘相似裁判文書的整體方法流程示意圖;

            圖6示出根據本申請一個方面的一種用于基于大數據挖掘相似裁判文書的第一設備的結構示意圖;

            圖7示出根據本申請一個方面的一種用于第一設備基于大數據的挖掘相似裁判文書的法院審各判階段的流程示意圖;

            圖8示出根據本申請一個方面的一個優選實施例用于云計算服務器挖掘裁判文書的文本特征向量的文本特征挖掘裝置12的結構示意圖;

            圖9示出根據本申請一個方面的一種用于基于大數據挖掘相似裁判文書的第二設備的結構示意圖;

            圖10示出根據本申請一個方面的一個優選實施例用于基于大數據挖掘相似裁判文書的法院內網服務器中的輸入案例文本特征挖掘裝置22的結構示意圖;

            圖11示出根據本申請一個方面的一種基于大數據挖掘相似裁判文書的系統示意圖。

            附圖中相同或相似的附圖標記代表相同或相似的部件。

            具體實施方式

            下面結合附圖對本申請作進一步詳細描述。

            圖1示出根據本申請一個方面的一種用于第一設備端基于大數據挖掘相似裁判文書的方法流程示意圖。該方法包括步驟s11、步驟s12和步驟s13。

            其中,所述步驟s11:獲取海量已公開的裁判文書,并獲取每一所述裁判文書的案由;所述步驟s12:基于每一所述裁判文書的文本內容獲取關于所述裁判文書案情的文本主題特征信息和關于所述裁判文書中當事人爭議內容和當事人訴求內容的若干關鍵詞相關信息,并基于所述文本主題特征信息和若干所述關鍵詞相關信息建立所述裁判文書的文本特征向量;所述步驟s13:基于若干所述關鍵詞相關信息更新關于關鍵詞的特征詞庫。

            在步驟s11中,其中所述裁判文書的案由包括但不限于合同糾紛案由、婚姻家庭糾紛案由、權屬侵權及無因管理糾紛案由及適用特別程序案件案由等。當然,現有及今后可能出現的所有法院業務場景中的裁判文書的案由如能適用本申請,均可以引用的方式包含于本申請。

            在步驟s13中,其中所述關于關鍵詞的特征詞庫包括海量已公開的裁判文書的所有的關鍵詞相關信息和關鍵詞對應的擴展詞相關信息。

            在此,所述裁判文書包括但不限于法院業務場景中的裁判文書等,包括一審法院認定事實文書、二審法院認定事實文書、再審法院認定事實文書、起訴狀、答辯狀、質詢記錄及證人證言等。

            下面以法院業務場景中的裁判文書為例對本申請進行具體實施例的詳細解釋。當然,此處采用法院業務場景中的裁判文書為例對本申請進行具體實施例的詳細解釋,僅僅出于示例的目的,本申請的實施例不限于此,在其它的軟件程序中同樣可以實現下述實施例。

            由于,在人民法院業務場景中的裁判文書不僅文字多且內容復雜,而且由于地域的不同,使得裁判文書的記錄風格各異,因此需對海量已公開的裁判文書進行文本特征化處理,以使法院工作人員能夠盡快的從海量已公開的裁判文書中找出需求的相似的裁判文書,其中應從以下三個方面來搜索需求的裁判文書,所述三個方面分別為裁判文書案情、當事人爭議內 容和當事人訴求內容。

            需要說明的是,所述文本主題特征信息包括但不限于法院業務場景中的裁判文書中關于裁判文書案情,所述關鍵詞包括但不限于法院業務場景中的裁判文書中的當事人爭議內容和當事人訴求內容等,下面以裁判文書中的當事人爭議內容和當事人訴求內容為裁判文書的關鍵詞以及關于裁判文書案情為文本主題特征信息為本申請一個方面的一個優選實施例對所述裁判文書進行文本特征向量的挖掘。

            本申請一個方面的一個優選實施例通過獲取海量已公開的裁判文書并獲取每一所述裁判文書的案由;基于每一所述裁判文書的文本內容獲取關于所述裁判文書案情的文本主題特征信息和關于所述裁判文書中當事人爭議內容和當事人訴求內容的若干關鍵詞相關信息,并基于所述文本主題特征信息和若干所述關鍵詞相關信息建立所述裁判文書的文本特征向量,由于通過提取裁判文書中的與當事人爭議內容和當事人訴求內容作為關鍵詞,并提取與當事人爭議內容和當事人訴求內容有關的詞語作為關鍵詞的擴展詞將法院業務場景中的裁判文書以文本特征向量的形式表現出來,并挖掘出關于裁判文書案情的內容作為文本主題特信息,使得高效準確的將文字多且內容復雜的裁判文書的文本內容精確地表達出來,從而使法院工作人員能快速地通過裁判文書案情、當事人爭議內容及當事人訴求內容查找到所需的相似的裁判文書,進一步地,基于若干所述關鍵詞相關信息更新關于關鍵詞的特征詞庫,使得法院工作人員能在輸入關鍵詞及其擴展詞的同時,從特征詞庫中盡快的找到與輸入的關鍵詞及其擴展詞有關的裁判文書,有效地提高了法院業務場景中的工作效率。

            具體地,在所述步驟s11中,獲取海量已公開的裁判文書。例如,在法院業務場景中抓取海量已公開的裁判文書,因為按照最高人民法院的規定,幾乎所有的裁判文書都需要對外公開,因此在經過最高人民法院授權后,可以抓取已公開的所有裁判文書;且所述獲取海量已公開的裁判文書可通過一個普通的網頁抓取器抓取法院業務場景中所有的裁判文書所對應的標題,內容,判決編號,判決法院,審判員,判決時間等信息。

            進一步地,在所述步驟s11之后且在所述步驟s12之前還包括步驟 s14(未示出)和步驟s15(未示出),所述步驟s14(未示出)將所述裁判文書進行結構化處理,得到結構化后的文本結構化信息;所述步驟s15(未示出)基于所述文本結構化信息獲取所述裁判文書的裁判相關信息,所述裁判相關信息包括當事人信息、案件類型、案由和判決結果。

            在本申請的實施例中,所述步驟s14(未示出)主要對在所述步驟s11中獲取的海量已公開的裁判文書進行文本預處理和結構化處理。例如,將在步驟s11中從法院業務場景中通過網頁抓取到的海量已公開的裁判文書后,需要提取所抓取的裁判文書的文本內容,做好對裁判文書的文字處理和結構化處理。在所述步驟s14(未示出)中,首先通過網頁分段方法(pageparse)提取裁判文書中文本內容,在所述網頁分段方法(pageparse)中主要通過配置網頁模板來提取裁判文書中不同部分的內容;接著通過將裁判文書中的中文空格等字符替換成英文,數值歸一化成阿拉伯數字,去除文書內容中換行符,歸一化文書編號及審判法院名稱等對裁判文書進行文本預處理;然后對所述經過文本預處理的裁判文書進行結構化處理,其中,所述結構化處理包括以下四個方面:(一)、提取裁判文書中的原告、被告姓名,歸一化表達標題和內容中的原告和被告,(二)、提取裁判文書中的案件類型,其中所述案件類型主要分為刑事訴訟,民事訴請,行政訴訟,知識產權糾紛,裁定書,賠償案件,執行案件等7大裁判文書類型,(三)、結構化提取裁判文書中的案件案由,并歸一化到人民法院審判的標準案由庫中的案由上,(四)、結構化提取裁判文書的判決結果,即主要提取判決結果對象,主刑,附加刑,賠償金額及當事人輸贏等。

            進一步地,所述步驟s12基于每一所述裁判文書的文本內容獲取關于所述裁判文書案情的文本主題特征信息和關于所述裁判文書中當事人爭議內容和當事人訴求內容的若干關鍵詞相關信息,并基于所述文本主題特征信息和若干所述關鍵詞相關信息建立所述裁判文書的文本特征向量,具體地,所述步驟s12具體的執行過程如圖2所示,其中,圖2示出根據本申請一個方面的一個優選實施例用于第一設備端基于大數據挖掘裁判文書的文本特征向量的方法流程示意圖。所述步驟s12具體包括步驟s121、步驟s122、步驟s123和步驟s124。

            其中,所述步驟s121包括:提取所述裁判文書的文本主題特征信息和所述裁判文書中各個詞語的詞語主題特征;所述步驟s122包括:獲取各個所述詞語間的上下文關系,基于所述上下文關系修正各個詞語的詞語主題特征,并基于所修正后的各個所述詞語的詞語主題特征和所述文本主題特征信息的匹配程度,確定若干所述裁判文書的關鍵詞相關信息,其中,所述關鍵詞相關信息包括關鍵詞、關鍵詞重要度信息及關鍵詞對應的詞語主題特征;所述步驟s123包括:基于所述關鍵詞相關信息,更新所述裁判文書的文本主題特征信息;所述步驟s124包括:基于所述關鍵詞相關信息獲取擴展詞相關信息,所述擴展詞相關信息包括所述關鍵詞的擴展詞和擴展詞相關度,并基于所述關鍵詞相關信息和所述擴展詞相關信息建立詞袋特征信息,并基于所更新的文本主題特征信息和所述詞袋特征信息,確定所述裁判文書的文本特征向量。

            具體地,在所述步驟s121中,所述裁判文書的文本主題特征信息具體用于指示所述裁判文書的案情,在本申請實施例中優選地采用主題模型方法來提取獲取的裁判文書的文本主題特征信息和各個詞語的詞語主題特征,其中所述主題模型方法與現有技術中的主體模型方法一致。當然,其他現有的或今后可能出現的提取裁判文書中的文本主題特征信息和各個詞語的詞語主題特征的方法如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。

            進一步地,所述步驟s122包括獲取各個所述詞語間的上下文詞語共現關系;獲取任意兩個所述詞語間的上下文轉移概率;基于所述上下文詞語共現關系和所述上下文轉移概率,修正各個詞語的詞語主題特征;基于所修正后的各個所述詞語的詞語主題特征和所述文本主題特征信息的匹配程度,確定若干所述裁判文書的關鍵詞相關信息,其中,所述關鍵詞相關信息包括關鍵詞、關鍵詞重要度信息及關鍵詞對應的詞語主題特征。

            在本申請的實施例中,所述步驟s122依賴于在步驟s121中提取的裁判文書的文本主題特征信息及各個詞語的詞語主題特征,根據獲取各個所述詞語間的上下文詞語共現關系;獲取任意兩個所述詞語間的上下文轉移概率;基于所述上下文詞語共現關系和所述上下文轉移概率,修正各個詞 語的詞語主題特征;基于所修正后的各個所述詞語的詞語主題特征和所述文本主題特征信息的匹配程度,確定若干所述裁判文書的關鍵詞及其對應的詞語主題特征,并獲取所述關鍵詞的重要度信息。例如,針對一個裁判文書ds中的第i個單詞wi,如果令該單詞對應的主題topic為tj,則根據主題模型方法可知單詞wi在裁判文書ds中出現的轉移概率為:pj(wi|ds)=p(wi|tj)×p(tj|ds);其中,p(wi|tj)為在一主題tj下單詞wi的轉移概率,p(tj|ds)為在一裁判文書ds中主題tj的轉移概率,接著一一枚舉單詞的主題topic,得到所有的所述轉移概率pj(wi|ds),其中j取值為1至k的自然正整數,根據所得的所有所述轉移概率為裁判文書ds中的第i個單詞wi選擇一個主題topic,其中,最簡單常用的方法便是取令pj(wi|ds)值最大的主題tj,即max[j]pj(wi|ds);然后如果裁判文書ds中的第i個單詞wi在此時選擇了一個與在步驟s121中獲得的詞語主題特征不同的主題topic,便會對在給定的主題下的詞語的轉移概率和裁判文書中的每個主題的轉移概率相應的造成影響,由于所述在給定的主題下的詞語的轉移概率和裁判文書中的每個主題的轉移概率又會反過來的影響單詞wi在裁判文書ds中出現的轉移概率的計算,故對所有的裁判文書進行一次所述轉移概率pj(wi|ds)的計算,并重新選擇詞語的詞語主題topic看作是一次迭代。這樣依照上述方法進行n次循環迭代之后,得到裁判文書收斂后的詞語主題特征對應的詞語為裁判文書的關鍵詞,所述關鍵詞對應的詞語主題特征即為經過迭代后確定的,通過上述實施例中的方法確定的關鍵詞更能夠有效準確地表達所述裁判文書的關鍵詞及其關鍵詞的詞語特征。

            在本申請的實施例中,所述步驟s123中,基于在所述步驟s122中確定的關鍵詞相關信息,更新所述裁判文書的文本主題特征信息。例如,通過以下公式來更新裁判文書的文本主題特征信息:

            其中d表示更新后的文本主題特征信息,且裁判文書包含有n個關鍵詞,wi是第i個關鍵詞在裁判文書中的重要度信息,ii是關鍵詞wi的詞語主題特征,通過對以上裁判文書中的關鍵詞的詞語主題特征加權和,得到 裁判文書的文本主題特征信息,可以有效地去除裁判文書中不重要的詞語和對構建文本主題特征信息的影響。

            進一步地,在所述步驟s124中基于所述關鍵詞相關信息獲取擴展詞相關信息,所述擴展詞相關信息包括所述關鍵詞的擴展詞和擴展詞相關度。其中所述擴展詞包括所述關鍵詞的同義詞及所述關鍵詞在所述裁判文書中高度相關的詞語。在本申請的實施例中,通過計算任意兩個詞語的主題特征相似度,來挖掘同義詞。例如,對于關鍵詞a,取相似度最高的若干個詞語,作為關鍵詞a的同義詞。其中,通過挖掘高度相關的詞語算法(word2vector)來計算關鍵詞的高度相關的詞語,所述算法對每個詞語計算詞向量,然后計算任意兩個詞語的詞向量相似度,來挖掘高度相關的詞語。例如,對于關鍵詞a,取詞向量相似度最高的若干個詞語,作為關鍵詞a的高度相關的詞語。

            進一步地,在步驟s124中基于所述關鍵詞相關信息獲取擴展詞相關信息,所述擴展詞相關信息包括所述關鍵詞的擴展詞和擴展詞相關度,并基于所述關鍵詞相關信息和所述擴展詞相關信息建立詞袋特征信息,具體地,所述步驟s124包括基于所述關鍵詞及其對應的詞語主題特征,確定所述關鍵詞的擴展詞和擴展詞相關度,其中,所述擴展詞包括所述關鍵詞的同義詞和在所述裁判文書中高度相關的相關詞語;基于所述關鍵詞及其對應的詞語主題特征和所述擴展詞及擴展詞相關度,利用詞袋模型,建立詞袋特征信息。

            在本申請實施例中,所述詞袋特征信息用于指示裁判文書中的關鍵詞及其擴展詞對應的詞語特征。在詞袋特征信息中,關鍵詞特征的特征值是關鍵詞在裁判文書中的重要度信息,同義詞特征的特征值是關鍵詞重要度信息與同義程度的乘積,相關詞語特征的特征值是關鍵詞重要度信息與相關程度的乘積。例如,假設所有裁判文書中一共有10萬不同的詞語,那么每個裁判文書的詞袋特征信息都是10萬維的向量,每維向量標記該位置的詞語是否在裁判文書中出現。例如,假設詞語word1是詞袋特征信息中的第1維,詞語word2是詞袋特征信息中的第2維,詞語word3是詞袋特征信息中的第10維,詞語word4是詞袋特征信息中的第30維,word3 和word1互為相似詞語,相似度為weight13,word4和word2互為相似詞語,相似度為weight24;其中裁判文書a包含詞語word1,word3以及weight4,并且它們在a中重要度信息分別為weight1,weight3,weight4,那么裁判文書a的詞袋特征信息的第1維的特征值為weight1+weight13*weight3,第2維的特征值為weight24*weight4,第10維的特征值為weight3+weight1*weight13,第30維的特征值為weight4。其中,通過以上計算方法亦可以得到關鍵詞的高度相關的詞語的詞語特征的特征值,故所得的詞袋特征信息中的特征值包括關鍵詞的詞語主題特征對應的特征值以及擴展詞的詞語主題特征對應的特征值。

            進一步地,所述步驟s124基于所更新的文本主題特征信息和所述詞袋特征信息,確定所述裁判文書的文本特征向量,具體地,所述步驟s124包括將所述所更新的文本主題特征信息和所述詞袋特征信息進行合并,確定所述裁判文書的原始文本特征;通過對所述裁判文書的原始文本特征進行特征歸一,確定所述裁判文書的文本特征向量。

            例如,將在所述步驟s123中得到的裁判文書的文本主題特征信息和詞袋特征信息拼接成一個特征向量,生成裁判文書的原始文本特征。例如,裁判文書的文本主題特征信息是一個10維的特征向量,詞袋特征信息是一個100維的特征向量,則有裁判文書的原始文本特征為一個110維的特征向量。再利用機器學習領域常用的特征歸一化方法,對原始文本特征進行特征歸一,生成裁判文書的文本特征向量。例如,假設所有裁判文書的同一特征均符合正態分布,因此可以將每維特征歸一成標準的正態分布。

            進一步地,所述步驟s13基于若干所述關鍵詞相關信息更新關于關鍵詞的特征詞庫,具體地,所述步驟s13包括以所述關鍵詞為索引,對每一所述關鍵詞的詞語主題特征和擴展詞建立所述關于關鍵詞的特征詞庫。例如,在法院業務場景中,將裁判文書中的當事人訴求內容的詞語以及當事人爭議內容的詞語作為提取裁判文書的關鍵詞,并基于關鍵詞查找與當事人訴求內容相關的詞語以及當事人爭議內容相關的詞語作為關鍵詞的擴展詞對裁判文書進行特征提取,得到裁判文書的關鍵詞和擴展詞組成的特征詞庫。

            進一步地,所述本申請的一個方面的一種用于第一設備端挖掘相似文本的方法還包括步驟s16(未示出)將所有所述裁判文書的文本特征向量、所述特征詞庫及所述裁判相關信息發送至第二設備的檢索數據庫中。例如,在法院業務場景中,將在所述步驟s12中獲得的裁判文書的文本特征向量,在所述步驟s13中獲得的裁判文書的特征詞庫以及在所述步驟s14(未示出)中獲得的裁判文書的文本結構化信息發送至第二設備,以使第二設備在依賴第一設備計算出的特征詞庫和簡化的計算邏輯,確保第一設備和第二設備針對同一份裁判文書能夠輸出相同的文本特征向量及特征詞庫。

            圖3示出根據本申請一個方面的一種用于第二設備端基于大數據挖掘相似裁判文書的方法流程示意圖。該法該包括步驟s21、步驟s22、步驟s23和步驟s24。

            其中,所述步驟s21:獲取輸入案例文本,基于檢索數據庫中關于關鍵詞的特征詞庫,提取所述輸入案例文本的若干候選關鍵詞;所述步驟s22:基于所述輸入案例文本的文本內容及若干所述候選關鍵詞獲取所述輸入案例文本的文本主題特征信息和若干關鍵詞相關信息,并基于所述文本主題特征信息和若干所述關鍵詞相關信息建立所述輸入案例文本的文本特征向量;所述步驟s23:從所述檢索數據庫中獲取與所述輸入案例文本具有相同案由的若干候選的裁判文書;所述步驟s24:計算所述候選的裁判文書的文本特征向量和所述輸入案例文本的文本特征向量的相似度,基于所述相似度選取相似的裁判文書。

            需要說明的是,所述輸入案例文本包括但不限于已有的裁判文書和在審案例文書。當然,其他現有的或今后可能出現的輸入案例文本如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。

            在本申請的實施例中,在所述步驟s21之前還包括步驟s25(未示出),所述步驟s25(未示出)包括從第一設備接收所述第一設備所獲取的所述公開裁判文書的文本特征向量、所述特征詞庫及所述裁判相關信息,并保存至所述檢索數據庫中,所述裁判相關信息包括當事人信息、案件類型、案由和判決結果。例如,在法院業務場景內網中的檢索數據庫在線存儲了裁判文書的文本特征向量、所述特征詞庫及所屬裁判相關信息。具體存儲 的裁判文書相關的信息包括以下八個方面:(一)、每種裁判文書中的案例類型和案由對應的裁判文書。其中,key是案例類型和案由,value是裁判文書在系統內部的編號。(二)、已有裁判文書的結構化信息。其中,key是裁判文書在系統內部的編號,value是由結構化提取模塊生成的文本結構化信息。(三)、已有裁判文書的文本特征向量。其中,key是裁判文書在系統內部的編號,value是文本特征模塊生成的文本特征向量。(四)、已有裁判文書的全部關鍵詞。其中,key是一個常量,value是關鍵詞主題模塊生成的全部關鍵詞。(五)、每個關鍵詞的詞語主題特征。其中,key是關鍵詞,value是關鍵詞主題模塊生成的關鍵詞詞語主題特征。(六)、每個關鍵詞的同義詞。其中,key是關鍵詞,value是關鍵詞的同義詞及其同義程度。(七)、每個關鍵詞的相關詞。key是關鍵詞,value是關鍵詞的相關詞及其相關程度。(八)、裁判文書每維特征的特征值均值方差。key是特征編號,value是特征值的均值和方差。

            需要說明的是,所述文本類型包括但不限于法院業務場景中的輸入案例文本的案件類型,其中所述案件類型包括刑事訴訟,民事訴請,行政訴訟,知識產權糾紛,裁定書,賠償案件,執行案件以及在審案例的在審階段。當然,其他現有的或今后可能出現的文本類型如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。

            進一步地,所述步驟s21獲取輸入案例文本,基于檢索數據庫中關于關鍵詞的特征詞庫,提取所述輸入案例文本的若干候選關鍵詞,具體地,所述步驟s21包括獲取輸入案例文本,基于所述輸入案例文本的案由,從檢索數據庫中關于關鍵詞的特征詞庫提取所述輸入案例文本的若干候選關鍵詞。例如,在法院業務場景中的海量已公開的裁判文書中查找與所述輸入案例文本相似的裁判文書,由于法院業務場景中的裁判文書案情案由類型不同,故為了便于快速地查找到與輸入案例文本相似的裁判文書,則基于輸入案例文本的案由,從檢索數據庫中關于關鍵詞的特征詞庫中提取與輸入案例文本的詞語相交集的詞語,作為輸入案例文本的若干候選關鍵詞,能夠確保輸入案例文本挖掘出來的關鍵詞存在于檢索數據庫中。

            進一步地,所述步驟s22包括基于所述輸入案例文本的文本內容及若 干所述候選關鍵詞獲取所述輸入案例文本的文本主題特征信息和若干關鍵詞相關信息,并基于所述文本主題特征信息和若干所述關鍵詞相關信息建立所述輸入案例文本的文本特征向量,具體地,所述步驟s22具體的執行過程如圖4所示,其中,圖4示出根據本申請一個方面的一個優選實施例用于第二設備端基于大數據挖掘裁判文書的文本特征向量的方法流程示意圖。所述步驟s22具體包括步驟s221、步驟s222和步驟s223。

            其中,所述步驟s221包括:基于所述輸入案例文本的各個詞語和所有所述裁判文書的全部關鍵詞進行比對,以從所述輸入案例文本中提取候選關鍵詞及其詞語主題特征,并基于所述詞語主題特征獲取所述輸入案例文本的文本主題特征信息;所述步驟s222包括:獲取各個所述候選關鍵詞間的上下文關系,基于所述上下文關系修正各個候選關鍵詞的詞語主題特征,并基于所修正后的各個所述候選關鍵詞的詞語主題特征和所述文本主題特征信息的匹配程度,確定所述輸入案例文本的關鍵詞相關信息;所述步驟s223包括:基于所述關鍵詞相關信息,更新所述輸入案例文本的文本主題特征信息及獲取擴展詞相關信息,并基于所述關鍵詞相關信息和所述擴展詞相關信息建立所述輸入案例文本的詞袋特征信息,并基于所更新的文本主題特征信息和所述詞袋特征信息,確定所述輸入案例文本的文本特征向量。

            本申請實施例中,在法院業務場景中的法院內網主要完成用戶實時輸入案例文本的文本特征向量。在所述步驟s221中基于所述輸入案例文本的各個詞語和所有所述裁判文書的全部關鍵詞進行比對,以從所述輸入案例文本中提取候選關鍵詞及其詞語主題特征。例如,法院業務場景中的法院內網挖掘在線輸入的所述輸入案例文本關鍵詞設有一個假設:在線輸入的所述輸入案例文本的關鍵詞,必須也是已有的裁判文書的關鍵詞。因此,該模塊在海量已公開的裁判文書中查詢與輸入案例文本具有相同案由的裁判文書的全部與當事人訴求內容和當事人爭議內容相同的關鍵詞,并和輸入案例文本詞語取交集,作為在線輸入的輸入案例文本的候選關鍵詞,有效地保證了輸入案例文本選擇出的關鍵詞都是已公開的裁判文書中的關鍵詞,從而能在已有的裁判文書中挖掘出與輸入案例文本相似的裁判文 書及其對應的文本特征向量和特征,從已公開的裁判文書中的所有關鍵詞中確定輸入案例文本的候選關鍵詞使得在處理海量的裁判文書的基礎上簡化輸入案例文本的計算邏輯。

            具體地,在所述步驟s221中基于所述詞語主題特征獲取所述輸入案例文本的文本主題特征,所述裁判文書的文本主題特征為所述裁判文書的案件類型,在本申請實施例中優選地采用主題模型方法來提取輸入案例文本的文本主題特征和各個詞語的詞語主題特征,其中所述主題模型方法與現有技術中的主體模型方法一致。當然,其他現有的或今后可能出現的提取裁判文書中的文本主題特征和各個詞語的詞語主題特征的方法如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。

            具體地,在所述步驟s222中,首先獲取任意兩個所述候選關鍵詞間的上下文轉移概率;基于所述上下文詞語共現關系和所述上下文轉移概率,修正各個詞語的詞語主題特征;基于所修正后的各個所述詞語的詞語主題特征和在所述步驟s221中采用主題模型獲得所述文本主題特信息的匹配程度,確定所述裁判文書的關鍵詞及其對應的詞語主題特征,并獲取所述關鍵詞的重要度信息。例如,針對輸入案例文本ds中的第i個候選關鍵詞wi,如果令該候選關鍵詞對應的主題topic為tj,則根據主題模型方法可知候選關鍵詞wi在輸入案例文本ds中出現的轉移概率為:pj(wi|ds)=p(wi|tj)×p(tj|ds);其中,p(wi|tj)為在一主題tj下單詞wi的轉移概率,p(tj|ds)為在一裁判文書ds中主題tj的轉移概率,接著一一枚舉候選關鍵詞的主題topic,得到所有的所述轉移概率pj(wi|ds),其中j取值為1至k的自然正整數,根據所得的所有所述轉移概率為輸入案例文本ds中的第i個候選關鍵詞wi選擇一個主題topic,其中,最簡單常用的方法便是取令pj(wi|ds)值最大的主題tj,即max[j]pj(wi|ds);然后如果輸入案例文本ds中的第i個候選關鍵詞wi在此時選擇了一個與在步驟s221中獲得的詞語主題特征不同的主題topic,便會對在給定的主題下的詞語的轉移概率和輸入案例文本中的每個主題的轉移概率相應的造成影響,由于所述在給定的主題下的詞語的轉移概率和輸入案例文本中的每個主題的轉移概率又會反過來的影響候選關鍵詞wi在輸入案例文本ds中出現的轉移 概率的計算,故對輸入案例文本進行一次所述轉移概率pj(wi|ds)的計算,并重新選擇詞語的詞語主題topic看作是一次迭代。這樣依照上述方法進行n次循環迭代之后,得到輸入案例文本收斂后的詞語主題特征對應的候選關鍵詞為輸入案例文本的關鍵詞,所述關鍵詞對應的詞語主題特征即為經過迭代后確定的,通過上述實施例中的方法確定的關鍵詞更能夠有效準確地表達所述輸入案例文本的關鍵詞及其關鍵詞的詞語特征,使得基于關鍵詞得到的文本主題特征信息更能夠與輸入案例文本的案件類型相近,更能準確度的表達輸入案例文本的具體內容,從而使得通過輸入案例文本的文本主題特征信息查找到的相似的裁判文書的相似度更高,提高查找相似的裁判文書的精確度。

            在本申請的實施例中,所述步驟s223中基于所述關鍵詞及其對應所述詞語主題特征,更新所述輸入案例文本的文本主題特征信息。例如,通過以下公式來更新輸入案例文本的文本主題特征信息:

            其中d表示更新后的文本主題特征信息,且文本包含有n個關鍵詞,wi是第i個關鍵詞在輸入案例文本中的重要度信息,ii是關鍵詞wi的詞語主題特征,通過對以上輸入案例文本中的關鍵詞的詞語主題特征加權和,得到輸入案例文本的文本主題特征信息,可以有效地去除輸入案例文本中不重要的關鍵詞和對構建文本主題特征信息的影響。

            具體地,所述步驟s223基于所述關鍵詞相關信息和所述擴展詞相關信息建立所述輸入本文的詞袋特征信息中,其中,所述關鍵詞的擴展詞包括關鍵詞的同義詞及在所述輸入案例文本中的高度相關的詞語。在所述步驟s223中首先通過計算任意兩個關鍵詞的主題特征相似度,來挖掘同義詞。例如,對于關鍵詞a,取相似度最高的若干個詞語,作為關鍵詞a的同義詞。其中,通過挖掘高度相關的詞語算法(word2vector)來計算關鍵詞的高度相關的詞語,所述算法對每個詞語計算詞向量,然后計算任意兩個詞語的詞向量相似度,來挖掘高度相關的詞語。例如,對于關鍵詞a,取詞向量相似度最高的若干個詞語,作為關鍵詞a的高度相關的詞語。接 著基于所述關鍵詞的同義詞及其同義詞特征及在所述輸入案例文本中的高度相關的詞語及其相關詞特征,獲取所述輸入案例文本的擴展詞相關信息,基于所述關鍵詞相關信息和所述擴展詞相關信息,利用詞袋模型,建立所述輸入案例文本的詞袋特征信息。

            在本申請實施例中,所述詞袋特征信息用于指示輸入案例文本中的關鍵詞及其擴展詞對應的詞語特征。在詞袋特征信息中,關鍵詞特征的特征值是關鍵詞在輸入案例文本中的重要度信息,同義詞特征的特征值是關鍵詞重要度信息與同義程度的乘積,相關詞語特征的特征值是關鍵詞重要度信息與相關程度的乘積。例如,假設所述輸入案例文本中一共有10萬不同的詞語,那么輸入案例文本的詞袋特征信息都是10萬維的向量,每維向量標記該位置的詞語是否在輸入案例文本中出現。例如,假設詞語word1是詞袋特征信息中的第1維,詞語word2是詞袋特征信息中的第2維,詞語word3是詞袋特征信息中的第10維,詞語word4是詞袋特征信息中的第30維,word3和word1互為相似詞語,相似度為weight13,word4和word2互為相似詞語,相似度為weight24;其中裁判文書a包含詞語word1,word3以及weight4,并且它們在a中重要度分別為weight1,weight3,weight4,那么裁判文書a的詞袋特征信息的第1維的特征值為weight1+weight13*weight3,第2維的特征值為weight24*weight4,第10維的特征值為weight3+weight1*weight13,第30維的特征值為weight4。其中,通過以上計算方法亦可以得到關鍵詞的高度相關的詞語的詞語特征的特征值,故所得的詞袋特征中信息的特征值包括關鍵詞的詞語主題特征對應的特征值以及同義詞和高度相關的詞語的詞語主題特征對應的特征值。

            本申請的實施例中,所述步驟s223基于所更新的文本主題特征信息和所述詞袋特征信息,確定所述輸入案例文本的文本特征向量中,具體地,將所述所更新的文本主題特征信息和所述詞袋特征信息進行合并,確定所述輸入案例文本的原始文本特征;通過對所述輸入案例文本的原始文本特征進行特征歸一,確定所述輸入案例文本的文本特征向量。

            例如,將在所述步驟s223中得到的輸入案例文本的文本主題特征信 息和詞袋特征信息拼接成一個特征向量,生成輸入案例文本的原始文本特征。例如,輸入案例文本的文本主題特征信息是一個10維的特征向量,詞袋特征信息是一個100維的特征向量,則有輸入案例文本的原始文本特征為一個110維的特征向量。再利用機器學習領域常用的特征歸一化方法,對原始文本特征進行特征歸一,生成輸入案例文本的文本特征向量。例如,假設輸入案例文本的同一特征均符合正態分布,因此可以將每維特征歸一成標準的正態分布。

            本申請的實施例中,所述步驟s24基于在所述步驟s23中從所述檢索數據庫中獲取與所述輸入案例文本具有相同案由的若干候選的裁判文書,計算所述候選的裁判文書的文本特征向量和所述輸入案例文本的文本特征向量的相似度,基于所述相似度選取相似的裁判文書。

            需要說明的是,在所述步驟s24中計算文本特征向量的相似度的算法包括但不限于歐式距離算法和余弦相似度算法等。當然,其他現有的或今后可能出現的計算文本特征向量的相似度的算法如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。

            例如,首先根據用戶輸入的輸入案例文本的案件類型和案件案由,查詢同一案件類型和案件案由的全部已有的裁判文書作為候選相似裁判文書,然后檢索候選相似裁判文書的文本特征向量。接著采用上述計算文本特征向量相似度的算法(歐式距離算法或余弦相似度算法),計算輸入的所述輸入案例文本和每個候選相似裁判文書的相似度。接著,根據用戶輸入的需求的相似的裁判文書的個數n,取相似度最高的n個裁判文書作為最終的所需的相似的裁判文書。然后查詢相似的裁判文書的文本結構化信息和裁判相關信息,并反饋給需求獲取相似的裁判文書的用戶。最后統計相似的裁判文書的判決結果,按主刑,附加刑,賠償金額,當事人輸贏等文本特征的維度,以可視化的形式,展示給需求獲取相似的裁判文書的用戶。具體地,例如,根據用戶輸入的輸入案例文本的案件類型和案件案由,查詢同一案件類型和案件案由的全部已有的裁判文書作為候選的裁判文書有100個,用戶需求返回的與輸入案例文本相似的候選的裁判文書的個數為10個,則通過上述相似度算法對輸入案例文本的文本特征向量分別 與100個候選的裁判文書的文本特征向量進行相似度計算,并將計算得到的相似度按從低到高的順序排列,取相似度最高的10個候選的裁判文書作為相似的裁判文書,并將所述10個相似的裁判文書的文本結構化信息和裁判相關信息反饋給需要獲取相似的裁判文書的用戶。

            進一步地,所述本申請的一個方面的一種用于第二設備端挖掘相似文本的方法還包括接收所述第一設備所發送的將所述裁判文書進行結構化處理所得到結構化后的文本結構化信息;獲取所述相似的裁判文書的文本結構化信息。例如,通過對候選的裁判文書的相似度計算之后,將獲取所有的符合需求數量的相似的裁判文書的文本結構化信息。

            圖5示出根據本申請一個方面的一種基于大數據挖掘相似裁判文書的整體方法流程示意圖。所述方法包括步驟s501、步驟s502、步驟s503、步驟s504、步驟s505、步驟s506、步驟s507、步驟s508、步驟s509、步驟s510和步驟s511。

            其中,所述步驟s501包括:獲取海量裁判文書;所述步驟s502包括:對所述海量裁判文書進行文本預處理和結構化處理;所述步驟s503包括:挖掘裁判文書的文本主題特征信息;所述步驟s504:挖掘海量裁判文書的關鍵詞相關信息和建立關于關鍵詞的特征詞庫;所述步驟s505包括:生成裁判文書的文本特征向量;所述步驟s506包括:在線存儲所述裁判文書的文本特征向量及特征詞庫;所述步驟s507包括:獲取輸入案例文本;所述步驟s508包括:在線挖掘輸入案例文本的文本主題特征信息和關鍵詞相關信息;所述步驟s509包括:在線挖掘輸入案例文本的文本特征向量;所述步驟s510包括:在線檢索與輸入案例文本的具有相同案由的若干候選的裁判文書,并計算所述候選的裁判文書的文本特征向量和所述輸入案例文本的文本特征向量的相似度;所述步驟s511包括:獲取相似的裁判文書。

            本申請的實施例中,法院業務場景中基于海量已公開的裁判文書挖掘相似的裁判文書的需求,首先所述步驟s501中通過經過法院授權后獲取海量已公開的裁判文書,并在所述步驟s502中對所述的裁判文書進行文本預處理使得裁判文書轉換成可以進行文本挖掘的形式,同時對文本預處理后的裁判文 書進行結構化處理得到文本結構化信息,接著在所述步驟s503中通過現有技術中的主題模型方法挖掘裁判文書的文本主題特征信息使得表達出裁判文書的具體裁判文書案情。由于法院業務中裁判文書數量的不斷增多以及時間的法院業務場景中業務的繁忙,使得采用傳統的人為或者自然語言處理來挖掘相似的裁判文書耗時耗力,且海量已公開的裁判文書中的文字多且內容復雜,決定相似的裁判文書的要素都隱藏在大段的文字內,故本申請在所述步驟s504中選擇將基于與輸入案例文本具有相同案由的若干候選的裁判文書進行當事人訴求內容和當事人爭議內容相同的詞語進行挖掘,得到候選的裁判文書的關鍵詞相關信息,并將所述關鍵詞相關信息表達成文本特征向量的形式更方面快捷地計算裁判文書是否與輸入案例文本相似,同時將與裁判文書的當事人訴求內容和當事人爭議內容相同的詞語相關的詞語作為候選的裁判文書的擴展詞,并基于裁判文書的所有關鍵詞相關信息和擴展詞相關信息建立特征詞庫;接著在所述步驟s505中,基于候選的裁判文書的關鍵詞相關信息所更新的文本主題特征信息和詞袋特征信息得到裁判文書的文本特征向量,其中所述文本特征向量中的特征值由關鍵詞所對應的詞語主題特征的特征值組成,每維特征向量表示裁判文書的同一特征表示的向量;緊接著在所述步驟s506中,將所有的裁判文書的文本特征向量和特征詞庫都發送至第二設備端的檢索數據庫中進行在線存儲,以備快速地查找輸入的輸入案例文本的相似的裁判文書;然后再所述步驟s507中獲取需要查找相似的裁判文書的輸入案例文本;接著在所述步驟s508中借助于在第一設備端發送過來的所有裁判文書的關鍵詞相關信息來挖掘輸入案例文本的文本主題特征信息和關鍵詞相關信息;并在所述步驟s509中基于獲取的輸入案例文本的文本主題特征信息和關鍵詞相關信息得到輸入案例文本的更新后的文本主題特征信息和詞袋特征信息,并將所述輸入案例文本的文本主題特征信息和詞袋特征信息進行合并得到輸入案例文本的文本特征向量;接著在所述步驟s510中在第二設備端在線檢索與輸入案例文本具有相同案由的若干候選的裁判文書,例如將案件案由和案件類型一樣的全部已有的裁判文書查找出來,并分別計算這些候選的裁判文書的文本特征向量與輸入案例文本的文本特征向量 的相似度,并將相似度的大小按照從高到低排序;最后在所述步驟s511中根據輸入的需要相似的裁判文書的數量,將在所述步驟s510中的相似度排序最高的相同數量的相應候選的裁判文書作為需要獲取的相似的裁判文書。

            在法院業務場景中,需要通過比較多個法官在審判案情相似,當事人訴求內容相近的不同案例時的判決結果,以審計法官的判決結果是否合理;同時,法官在實際審判案例過程中,也會參考案情相似的已有案例的判決結果,形成最終的事實認定和判決結果,因此在這些繁雜的法院業務場景里,都需要事先或者實時挖掘與輸入案例文本相似的裁判文書。但由于每個案例的內容千差萬別,且法院業務場景下審理的案例數量又快速增長,因此通過傳統的人工整理手段已難以滿足法院業務場景中的需求,故在本申請的實施例中通過采用如圖5所示的設備來處理法院業務場景中的海量已公開的裁判文書,并挖掘出裁判文書的文本特征向量,以使能夠快速地查找出輸入案例文本的相似的裁判文書。

            圖6示出根據本申請一個方面的一種用于基于大數據挖掘相似裁判文書的第一設備的結構示意圖。該設備1包括裁判文書獲取裝置11、文本特征挖掘裝置12和特征建立裝置13。

            其中,所述裁判文書獲取裝置11用于獲取海量已公開的裁判文書,并獲取每一所述裁判文書的案由;所述文本特征挖掘裝置12用于基于每一所述裁判文書的文本內容獲取關于所述裁判文書案情的文本主題特征信息和關于所述裁判文書中當事人爭議內容和當事人訴求內容的若干關鍵詞相關信息,并基于所述文本主題特征信息和若干所述關鍵詞相關信息建立所述裁判文書的文本特征向量;所述特征詞庫建立裝置13用于基于若干所述關鍵詞相關信息更新關于關鍵詞的特征詞庫。

            在此,所述設備1包括但不限于用戶設備、或用戶設備與網絡設備通過網絡相集成所構成的設備。所述用戶設備其包括但不限于任何一種可與用戶通過觸摸板進行人機交互的移動電子產品,例如智能手機、pda等,所述移動電子產品可以采用任意操作系統,如android操作系統、ios操作系統等。其中,所述網絡設備包括一種能夠按照事先設定或存儲的指令,自動進行數 值計算和信息處理的電子設備,其硬件包括但不限于微處理器、專用集成電路(asic)、可編程門陣列(fpga)、數字處理器(dsp)、嵌入式設備等。所述網絡包括但不限于互聯網、廣域網、城域網、局域網、vpn網絡、無線自組織網絡(adhoc網絡)等。優選地,所述設備1還可以是能夠使用云計算手段處理大數據計算的云計算服務器,下面以云計算服務器作為第一設備為本申請的一個方面的優選實施例對基于大數據的挖掘相似裁判文書進行詳細解釋。當然,本領域技術人員應能理解上述設備1僅為舉例,其他現有的或今后可能出現的設備1如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。

            上述各裝置之間是持續不斷工作的,在此,本領域技術人員應理解“持續”是指上述各裝置分別實時地或者按照設定的或實時調整的工作模式要求。

            在此,所述裁判文書包括但不限于法院業務場景中的裁判文書等,包括一審法院認定事實文書、二審法院認定事實文書、再審法院認定事實文書、起訴狀、答辯狀、質詢記錄及證人證言等。

            下面以法院業務場景中能夠使用云計算手段處理大數據計算的云計算服務器對裁判文書進行挖掘的第一設備為本申請的一個方面的優選實施例對本申請進行具體實施例的詳細解釋。當然,此處采用法院業務場景中的挖掘海量已公開的裁判文書的云計算服務器作為第一設備對本申請進行具體實施例的詳細解釋,僅僅出于示例的目的,本申請的實施例不限于此,在其它的軟件程序中同樣可以實現下述實施例。

            需要說明的是,所述文本主題特征信息包括但不限于法院業務場景中的裁判文書中關于裁判文書案情,所述關鍵詞包括但不限于法院業務場景中的裁判文書中的當事人爭議內容和當事人訴求內容等,下面以裁判文書中的當事人爭議內容和當事人訴求內容為裁判文書的關鍵詞以及關于裁判文書案情為文本主題特征信息為本申請一個方面的一個優選實施例對所述裁判文書進行文本特征向量的挖掘。

            本申請的實施例中,所述裁判文書獲取裝置11用于獲取海量已公開的裁判文書,并獲取每一所述裁判文書的案由;由于在法院業務場景中的審判業務是分階段進行的,輸入案例文本會隨著審判過程的深入,其內容很可 能會發生很大的變化。因此需要因地制宜的在審判流程每個階段,對挖掘系統輸入合適的數據,能使每個階段挖掘出的相似案例滿足實際業務需要。所以在所述文本特征挖掘裝置12中需要持續分階段的對海量已公開的裁判文書進行基于大數據的相似的裁判文書的挖掘,并從中提取出關于所述裁判文書案情的文本主題特征信息和關于所述裁判文書中當事人爭議內容和當事人訴求內容的若干關鍵詞相關信息,并基于所述文本主題特征信息和若干所述關鍵詞相關信息建立所述裁判文書的文本特征向量。例如,在云計算服務器使用物聯網網絡將法院業務場景中已公開的全部的裁判文書存儲起來,以備云計算服務器在所述文本特征挖掘裝置12中通過離線特征化工充分運用云計算的強大計算能力已公開的裁判文書進行文本特征化,并從中挖掘出裁判文書的文本特征向量和在所述特征詞庫建立裝置13中挖掘所有裁判文書的特征詞庫,并在通過法院業務場景中的網絡專線,一次性傳輸到法院內網中的在線存儲器中。

            進一步地,所述本申請的一個方面的一種用于基于大數據挖掘相似裁判文書的第一設備還包括:文本結構化裝置14(未示出),用于將所述裁判文書進行結構化處理,得到結構化后的文本結構化信息;在所述裁判文書獲取裝置11之后且在所述文本特征挖掘裝置12之前,所述文本結構化裝置將獲取的法院業務場景中的審判業務中的各個階段的裁判文書進行結構化處理,并通過文本結構化信息獲取裝置15(未示出),用于基于所述文本結構化信息獲取所述裁判文書的裁判相關信息,所述裁判相關信息包括當事人信息、案件類型、案由和判決結果。

            需要說明的是,所述文本結構化信息獲取裝置15(未示出)中獲取出的裁判文書的裁判相關信息中的案件類型包括但不限于刑事訴訟,民事訴請,行政訴訟,知識產權糾紛,裁定書,賠償案件,執行案件等7大裁判文書類型以及法院審判的各個階段。其中所述法院審判的各個階段如圖7所示。當然,其他現有的或今后可能出現的裁判文書的文本主題特征如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。

            圖7示出根據本申請一個方面的一種用于第一設備基于大數據的挖掘相似裁判文書的法院審各判階段的流程示意圖。其中,云計算服務器基于 云計算的挖掘相似的裁判文書的設備,根據人民法院審判流程,分階段設計每個階段的需要挖掘的相應的裁判文書的文本內容;同時考慮人民法院系統的網絡特點和保密要求,采用在云計算服務器中對法院業務場景中的審判業務中分階段對裁判文書進行挖掘以滿足法院業務場景中的業務需求。

            在此,如圖7所示本申請的云計算服務器需要處理的法院業務場景中的審判流程包括:立案階段s71、開庭審理階段s72、初審判決階段s73、二審判決階段s74、再判決階段s75和判決結果執行階段s76。其中,在所述立案階段s71為人民法院接收到起訴人的訴狀和被告的答辯狀后,并決定立案后的立案階段;所述開庭審理階段s72為人民法院開庭審理階段;所述初審判決階段s73為人民法院初審判決階段;所述二審判決階段s74為人民法院二審結案階段;所述再判決階段s75為人民法院再審結案階段;所述判決結果執行階段s76為人民法院就此審理案例做出的最后的判決結果執行階段。所述前五個階段中,法院工作人員均有挖掘相似的裁判文書的需求。

            其中,在圖7中的各個審判階段中需要挖掘相似的裁判文書相應的數據分別如下。在所述立案階段s71中對應的與裁判文書相關的有起訴狀和答辯狀;在所述開庭審理階段s72中對應的與裁判文書相關的有起訴狀、答辯狀、質詢記錄和證人證言;在所述初審判決階段s73中對應的與裁判文書相關的有一審法院認定事實;在所述二審判決階段s74中對應的與裁判文書相關的有上述狀和二審法院認定事實;在所述再判決階段s75中對應的與裁判文書相關的有再審法院認定事實。其中,所述起訴狀用于指示原告呈交給一審法院的起訴文書;所述答辯狀用于指示一審法院接收到起訴狀后,要求被告提供的答辯內容;所述質詢記錄用于指示人民法院開庭審理時,原告代理人對被告的質詢內容及被告答辯內容,被告代理人對原告的質詢內容及原告的答辯內容;所述證人證言用于指示人民法院審理階段,當事人的證人證言,以及原被告代理人對對方證人的質詢記錄;所述一審法院認定事實用于指示一審法院經調查和審理后,認定的事實內容;所述上訴狀用于指示一審判決后,不服判決的一方當事人的二審起訴狀; 所述二審/再審法院認定事實用于指示二審或再審法院認定的事實。

            在確定了在法院業務場景中的云計算服務器挖掘相似的裁判文書的各個階段的數據文本之后,需對裁判文書獲取裝置11中獲取若干裁判文書在所述文本特征挖掘裝置12中進行相關的文本特征向量的提取,具體地,所述文本特征挖掘裝置12包括的所有裝置如圖8所示。

            其中,圖8示出根據本申請一個方面的一個優選實施例用于云計算服務器挖掘裁判文書的文本特征向量的文本特征挖掘裝置12的結構示意圖。所述文本特征挖掘裝置12包括第一挖掘單元121、第二挖掘單元122、第三挖掘單元123和生成單元124。其中所述第一挖掘單元121用于提取所述裁判文書的文本主題特征信息和所述裁判文書中各個詞語的詞語主題特征;所述第二挖掘單元122用于獲取各個所述詞語間的上下文關系,基于所述上下文關系修正各個詞語的詞語主題特征,并基于所修正后的各個所述詞語的詞語主題特征和所述文本主題特征信息的匹配程度,確定若干所述裁判文書的關鍵詞相關信息,其中,所述關鍵詞相關信息包括關鍵詞、關鍵詞重要度信息及關鍵詞對應的詞語主題特征;所述第三挖掘單元123用于基于所述關鍵詞相關信息,更新所述裁判文書的文本主題特征信息;所述生成單元124用于基于所述關鍵詞相關信息獲取擴展詞相關信息,所述擴展詞相關信息包括所述關鍵詞的擴展詞和擴展詞相關度,并基于所述關鍵詞相關信息和所述擴展詞相關信息建立詞袋特征信息,并基于所更新的文本主題特征信息和所述詞袋特征信息,確定所述裁判文書的文本特征向量。

            具體地,所述第一挖掘單元121中的裁判文書的文本主題特征信息具體用于指示所述裁判文書中的案情,在本申請實施例中優選地采用主題模型方法來提取獲取的裁判文書的文本主題特征信息和各個詞語的詞語主題特征,其中所述主題模型方法與現有技術中的主體模型方法一致。當然,其他現有的或今后可能出現的提取裁判文書中的文本主題特征信息和各個詞語的詞語主題特征的方法如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。

            進一步地,所述第二挖掘單元122用于獲取各個所述詞語間的上下文 詞語共現關系;獲取任意兩個所述詞語間的上下文轉移概率;基于所述上下文詞語共現關系和所述上下文轉移概率,修正各個詞語的詞語主題特征;基于所修正后的各個所述詞語的詞語主題特征和所述文本主題特征信息的匹配程度,確定若干所述裁判文書的關鍵詞及其對應的詞語主題特征,并獲取所述關鍵詞的重要度信息。

            在本申請實施例中,所述第二挖掘單元122基于在所述第一挖掘單元121中提取的裁判文書的文本主題特征信息及各個詞語的詞語主題特征,根據各個所述詞語間的上下文關系修正各個詞語的詞語主題特征,并基于修正后的各個所述詞語的詞語主題特征和所述文本主題特征信息的匹配程度,從而確定若干所述裁判文書的關鍵詞及其對應的詞語主題特征,并獲取所述關鍵詞的重要度信息。此處具體地確定裁判文書的關鍵詞及其對應的詞語主題特征,并獲取所述關鍵詞的重要度信息的詳細實施例與上述的所述步驟122中具體的實施例相對應,此處不再贅述。

            在本申請的實施例中,所述第三挖掘單元123在基于第二挖掘單元122中確定的關鍵詞相關信息,更新所述裁判文書的文本主題特征信息。例如,通過以下公式來更新裁判文書的文本主題特征信息:

            其中d表示更新后的文本主題特征信息,且文本包含有n個關鍵詞,wi是第i個關鍵詞在裁判文書中的重要度,ii是關鍵詞wi的詞語主題特征,通過對以上裁判文書中的關鍵詞的詞語主題特征加權和,得到裁判文書的文本主題特征信息,可以有效地去除裁判文書中不重要的詞語和對構建文本主題特征信息的影響。

            進一步地,所述第三挖掘單元124基于所述關鍵詞相關信息獲取擴展詞相關信息,所述擴展詞相關信息包括所述關鍵詞的擴展詞和擴展詞相關度。其中所述關鍵詞包括所述關鍵詞的同義詞及所述關鍵詞在所述裁判文書中高度相關的詞語。在本申請的實施例中,通過計算任意兩個詞語的主題特征相似度,來挖掘同義詞。例如,對于關鍵詞a,取相似度最高的若干個詞語,作為關鍵詞a的同義詞。其中,通過挖掘高度相關的詞語算法 (word2vector)來計算關鍵詞的高度相關的詞語,所述算法對每個詞語計算詞向量,然后計算任意兩個詞語的詞向量相似度,來挖掘高度相關的詞語。例如,對于關鍵詞a,取詞向量相似度最高的若干個詞語,作為關鍵詞a的高度相關的詞語。

            進一步地,所述生成單元124基于所述關鍵詞及其對應的詞語主題特征,確定所述關鍵詞的擴展詞和擴展詞相關度,其中,所述擴展詞包括所述關鍵詞的同義詞和在所述裁判文書中高度相關的相關詞語;基于所述關鍵詞及其對應的詞語主題特征和所述擴展詞及擴展詞相關度,利用詞袋模型,建立詞袋特征信息。

            在本申請實施例中,所述詞袋特征信息用于指示裁判文書中的關鍵詞及其擴展詞對應的詞語特征。在詞袋特征信息中,關鍵詞特征的特征值是關鍵詞在裁判文書中的重要度信息,同義詞特征的特征值是關鍵詞重要度信息與同義程度的乘積,相關詞語特征的特征值是關鍵詞重要度信息與相關程度的乘積。例如,假設所有裁判文書中一共有10萬不同的詞語,那么每個裁判文書的詞袋特征都是10萬維的向量,每維向量標記該位置的詞語是否在裁判文書中出現。例如,假設詞語word1是詞袋特征信息中的第1維,詞語word2是詞袋特征信息中的第2維,詞語word3是詞袋特征信息中的第10維,詞語word4是詞袋特征信息中的第30維,word3和word1互為相似詞語,相似度為weight13,word4和word2互為相似詞語,相似度為weight24;其中裁判文書a包含詞語word1,word3以及weight4,并且它們在a中重要度信息分別為weight1,weight3,weight4,那么裁判文書a的詞袋特征第1維的特征值為weight1+weight13*weight3,第2維的特征值為weight24*weight4,第10維的特征值為weight3+weight1*weight13,第30維的特征值為weight4。其中,通過以上計算方法亦可以得到關鍵詞的高度相關的詞語的詞語特征的特征值,故所得的詞袋特征信息中的特征值包括關鍵詞的詞語主題特征對應的特征值以及擴展詞的詞語主題特征對應的特征值。

            進一步地,所述生成單元124將所述所更新的文本主題特征信息和所述詞袋特征信息進行合并,確定所述裁判文書的原始文本特征;通過對所 述裁判文書的原始文本特征進行特征歸一,確定所述裁判文書的文本特征向量。具體地,所述生成單元124將在所述第三挖掘單元123中得到的裁判文書的文本主題特征信息和詞袋特征信息拼接成一個特征向量,生成裁判文書的原始文本特征,其中,具體地生成裁判文書的原始文本的具體實施例與上述所述步驟s124中的實施例相對應,此處不再贅述。

            進一步地,所述特征詞庫建立裝置13以所述關鍵詞為索引,對每一所述關鍵詞的詞語主題特征和擴展詞建立所述關于關鍵詞的特征詞庫。例如,在法院業務場景中,將裁判文書中的當事人訴求內容和當事人爭議內容相同的詞語作為提取裁判文書的關鍵詞,并基于關鍵詞查找與當事人訴求詞語以及當事人爭議點詞語相關的所有詞語作為關鍵詞的擴展詞對裁判文書進行特征提取,得到裁判文書的關鍵詞相關信息和擴展詞相關信息建立的特征詞庫。

            進一步地,所述本申請的一個方面的一種用于基于大數據挖掘相似裁判文書的第一設備還包括發送裝置16(未示出),用于將所有所述裁判文書的文本特征向量、所述特征詞庫及所述裁判相關信息發送至第二設備的檢索數據庫中。例如,在法院業務場景中,將在所述文本特征挖掘裝置12中獲得的裁判文書的文本特征向量,在所述特征詞庫建立裝置13中獲得的裁判文書的特征詞庫以及在所述發送裝置14(未示出)中獲得的裁判文書的文本結構化信息和文本類型發送至第二設備,以使第二設備在依賴第一設備計算出的特征詞庫和簡化的計算邏輯,確保第一設備和第二設備針對同一份裁判文書能夠輸出相同的文本特征向量及特征詞庫;同時考慮人民法院系統的網絡特點和保密要求,采用在云計算服務器中對法院業務場景中的審判業務中分階段對裁判文書進行挖掘以滿足法院業務場景中的業務需求。

            由于在法院業務場景中,在審的輸入案例文本的文本特征向量都存儲于法院內網服務器中,除已公開后的裁判文書外,其他的法院業務系統中的在審的輸入案例文本均不能流出法院內網服務器,為了滿足法院業務場景中的對輸入案例文本的相關信息的保密性要求,本申請提出了如圖9所示的設備,以滿足對法院業務場景中的輸入案例文本的保密性的要求,從 而提高了處理輸入案例文本的實時性。

            圖9示出根據本申請一個方面的一種用于基于大數據挖掘相似裁判文書的第二設備的結構示意圖。該設備2包括輸入裝置21、輸入案例文本特征挖掘裝置22、候選裁判文書獲取裝置23和相似裁判文書獲取裝置24。

            其中,所述輸入裝置21用于獲取輸入案例文本,基于檢索數據庫中關于關鍵詞的特征詞庫,提取所述輸入案例文本的若干候選關鍵詞;所述輸入案例文本特征挖掘裝置22用于基于所述輸入案例文本的文本內容及若干所述候選關鍵詞獲取所述輸入案例文本的文本主題特征信息和若干關鍵詞相關信息,并基于所述文本主題特征信息和若干所述關鍵詞相關信息建立所述輸入案例文本的文本特征向量;所述候選裁判文書獲取裝置23用于從所述檢索數據庫中獲取與所述輸入案例文本具有相同案由的若干候選的裁判文書;所述相似裁判文書獲取裝置24用于計算所述候選的裁判文書的文本特征向量和所述輸入案例文本的文本特征向量的相似度,基于所述相似度選取相似的裁判文書。

            在此,所述設備2包括但不限于用戶設備、或用戶設備與網絡設備通過網絡相集成所構成的設備。所述用戶設備其包括但不限于任何一種可與用戶通過觸摸板進行人機交互的移動電子產品,例如智能手機、pda等,所述移動電子產品可以采用任意操作系統,如android操作系統、ios操作系統等。其中,所述網絡設備包括一種能夠按照事先設定或存儲的指令,自動進行數值計算和信息處理的電子設備,其硬件包括但不限于微處理器、專用集成電路(asic)、可編程門陣列(fpga)、數字處理器(dsp)、嵌入式設備等。所述網絡包括但不限于互聯網、廣域網、城域網、局域網、vpn網絡、無線自組織網絡(adhoc網絡)等。優選地,所述設備2還可以是能夠使用云計算服務器中的離線特征化工具的在線化的簡單的計算邏輯的法院內網服務器作為本申請一個方面的第二設備,下面以法院內網服務器作為第二設備為本申請的一個方面的優選實施例對基于大數據的挖掘相似裁判文書進行詳細解釋。當然,本領域技術人員應能理解上述設備2僅為舉例,其他現有的或今后可能出現的設備2如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。

            上述各裝置之間是持續不斷工作的,在此,本領域技術人員應理解“持續”是指上述各裝置分別實時地或者按照設定的或實時調整的工作模式要求。

            需要說明的是,在本申請的優選實施例中,所述設備1云計算服務端處理的是在法院業務場景中的海量已公開的裁判文書中挖掘出與所述設備2中輸入的輸入案例文本對應的相似的裁判文書,即在云計算服務器中進行的是對海量已公開的裁判文書進行的挖掘,而所述設備2法院內網服務器是通過在線特征化工具只需將輸入的一個輸入案例文本進行簡單的計算,將云計算服務器中離線特征化工具輸出的特征詞庫作為法院內網服務器中在線特征化工具的輸入,從而簡化了法院內網服務器中的在線計算邏輯,以確保同一份裁判文書輸入到兩個工具之后輸出完全相同的文本特征向量、特征詞庫以及結構化信息。當然,所述云計算服務器將通過離線特征化工具輸出的裁判文書的相關特征通過網絡專線一次性傳輸到法院內網服務器中的在線存儲器中,從而不僅滿足了對海量的已公開的相似的裁判文書的挖掘,又確保了法院內網服務器中的不對外公開的輸入案例文本的保密性,并將輸入案例文本的相似的裁判文書的挖掘出來,并獲取相似的裁判文書,從而有效地提高了法院業務場景中的挖掘相似裁判文書的工作效率。

            需要說明的是,所述輸入案例文本包括但不限于已有的裁判文書和在審案例文本等。當然,其他現有的或今后可能出現的輸入案例文本如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。

            在本申請的實施例中,所述第二設備還包括接收裝置25(未示出),所述接收裝置25(未示出)從第一設備接收所述第一設備所獲取的所述公開裁判文書的文本特征向量、所述特征詞庫及所述裁判相關信息,并保存至所述檢索數據庫中,所述裁判相關信息包括當事人信息、案件類型、案由和判決結果。例如,在法院業務場景內網中的檢索數據庫在線存儲了裁判文書的文本特征向量、所述特征詞庫及所屬裁判相關信息。具體存儲在接收裝置25中的裁判文書的信息包括以下八個方面:(一)、每種裁判文書中的案例類型和案由對應的裁判文書。其中,key是案例類型和案由,value是裁判文書在系統內部的編號。(二)、已有裁判文書的結構化信息。其中,key是裁判文書在系統內部的編號,value是由結構化提取模塊生成 的文本結構化信息。(三)、已有裁判文書的文本特征向量。其中,key是裁判文書在系統內部的編號,value是文本特征模塊生成的文本特征向量。(四)、已有裁判文書的全部關鍵詞。其中,key是一個常量,value是關鍵詞主題模塊生成的全部關鍵詞。(五)、每個關鍵詞的詞語主題特征。其中,key是關鍵詞,value是關鍵詞主題模塊生成的關鍵詞詞語主題特征。(六)、每個關鍵詞的同義詞。其中,key是關鍵詞,value是關鍵詞的同義詞及其同義程度。(七)、每個關鍵詞的相關詞。key是關鍵詞,value是關鍵詞的相關詞及其相關程度。(八)、裁判文書每維特征的特征值均值方差。key是特征編號,value是特征值的均值和方差。

            需要說明的是,所述文本類型包括但不限于法院業務場景中的輸入案例文本的案件類型,其中所述案件類型包括刑事訴訟,民事訴請,行政訴訟,知識產權糾紛,裁定書,賠償案件,執行案件以及在審案例的在審階段。當然,其他現有的或今后可能出現的文本類型如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。

            進一步地,所述輸入裝置21獲取輸入案例文本,基于檢索數據庫中關于關鍵詞的特征詞庫,提取所述輸入案例文本的若干候選關鍵詞,具體地,所述輸入裝置21包括獲取輸入案例文本,基于所述輸入案例文本的案由,從檢索數據庫中關于關鍵詞的特征詞庫提取所述輸入案例文本的若干候選關鍵詞。例如,在法院業務場景中的海量已公開的裁判文書中查找與所述輸入案例文本相似的裁判文書,由于法院業務場景中的裁判文書案情案由類型不同,故為了便于快速地查找到與輸入案例文本相似的裁判文書,則基于輸入案例文本的案由,從檢索數據庫中關于關鍵詞的特征詞庫中提取與輸入案例文本的詞語相交集的詞語,作為輸入案例文本的若干候選關鍵詞,能夠確保輸入案例文本挖掘出來的關鍵詞存在于檢索數據庫中。

            進一步地,所述輸入案例文本特征挖掘裝置22查詢法院內網服務器中的接收裝置25(未示出)接收的相關特征詞庫,對輸入案例文本進行在線特征化計算得到輸入案例文本的文本特征向量,具體如圖10所示。圖10示出根據本申請一個方面的一個優選實施例用于基于大數據挖掘相似裁判文書的法院內網服務器中的輸入案例文本特征挖掘裝置22的結構流 程圖。所述輸入案例文本特征挖掘裝置22包括第四挖掘單元221、第五挖掘單元222和第六挖掘單元223。

            其中,所述第四挖掘單元221用于基于所述輸入案例文本的各個詞語和所有所述裁判文書的全部關鍵詞進行比對,以從所述輸入案例文本中提取候選關鍵詞及其詞語主題特征,并基于所述詞語主題特征獲取所述輸入案例文本的文本主題特征信息;所述第五挖掘單元222用于獲取各個所述候選關鍵詞間的上下文關系,基于所述上下文關系修正各個候選關鍵詞的詞語主題特征,并基于所修正后的各個所述候選關鍵詞的詞語主題特征和所述文本主題特征信息的匹配程度,確定所述輸入案例文本的關鍵詞相關信息;所述第六挖掘單元223用于基于所述關鍵詞相關信息,更新所述輸入案例文本的文本主題特征信息及獲取擴展詞相關信息,并基于所述關鍵詞相關信息和所述擴展詞相關信息建立所述輸入本文的詞袋特征信息,并基于所更新的文本主題特征信息和所述詞袋特征信息,確定所述輸入案例文本的文本特征向量。

            本申請實施例中,在法院業務場景中的法院內網主要完成用戶實時輸入案例文本的文本特征向量。在法院內網服務器的第四挖掘單元221中挖掘在線輸入的所述輸入案例文本關鍵詞設有一個假設:在線輸入的所述輸入案例文本的關鍵詞,必須也是已有的裁判文書的關鍵詞。因此,該模塊在海量已公開的裁判文書中查詢與輸入案例文本具有相同案由的裁判文書的全部與當事人訴求內容和當事人爭議內容相同的關鍵詞,并和輸入案例文本詞語取交集,作為在線輸入的輸入案例文本的候選關鍵詞,有效地保證了輸入案例文本選擇出的關鍵詞都是已有的裁判文書中的關鍵詞,從而能在已有的裁判文書中挖掘出與輸入案例文本相似的裁判文書及其對應的文本特征向量和特征詞庫,從已公開的裁判文書中的所有關鍵詞中確定輸入案例文本的候選關鍵詞使得在處理海量已公開的裁判文書的基礎上簡化輸入案例文本的計算邏輯。具體地,所述第四挖掘裝置221挖掘輸入案例文本的文本主題特征的方法與上述實施例中的所述步驟s221中挖掘文本主題特征的方法想對應,此處不再贅述。

            具體地,在法院內網服務器中的所述第五挖掘單元222確定所述輸入 案例文本的關鍵詞的具體方法與本申請上述實施例中的所述步驟s222中描述的方法相對應,通過與上述實施例中的所述步驟s222中相對應的方法確定的關鍵詞更能夠有效準確地表達所述輸入案例文本的關鍵詞及其關鍵詞的詞語特征,使得基于關鍵詞得到的文本主題特征信息更能夠與輸入案例文本的案件類型相近,更能準確度的表達輸入案例文本的文本內容,從而使得通過輸入案例文本的文本主題特征信息查找到的相似的裁判文書的相似度更高,提高查找相似的裁判文書的精確度。

            在本申請的實施例中,所述第六挖掘裝置223中基于所述關鍵詞相關信息,更新所述輸入案例文本的文本主題特征信息及獲取擴展詞相關信息。此處具體地更新輸入案例文本的文本主題特征信息與本申請上述所述步驟s223的實施例中的更新輸入案例文本的文本主題特征信息的方法一致,此處不再贅述。當然,此處獲取輸入案例文本的關鍵詞的同義詞及在輸入案例文本中的高度相關的詞語以及詞袋特征的具體方法與上述所述步驟s223中獲取關鍵詞的同義詞和高度相關的詞語以及詞袋特征的方法一致,此處亦不再贅述。

            本申請的實施例中,所述第六挖掘裝置223將所述所更新的文本主題特征信息和所述詞袋特征信息進行合并,確定所述輸入案例文本的原始文本特征;通過對所述輸入案例文本的原始文本特征進行特征歸一,確定所述輸入案例文本的文本特征向量。例如,將在所述步驟s123中得到的輸入案例文本的文本主題特征信息和詞袋特征信息拼接成一個特征向量,生成輸入案例文本的原始文本特征。例如,輸入案例文本的文本主題特征信息是一個10維的特征向量,詞袋特征信息是一個100維的特征向量,則有輸入案例文本的原始文本特征為一個110維的特征向量。再利用機器學習領域常用的特征歸一化方法,對原始文本特征進行特征歸一,生成輸入案例文本的文本特征向量。例如,假設輸入案例文本的同一特征均符合正態分布,因此可以將每維特征歸一成標準的正態分布。

            本申請的實施例中,所述相似裁判文書獲取裝置24基于在所述候選裁判文書獲取裝置23中從所述檢索數據庫中獲取與所述輸入案例文本具有相同案由的若干候選的裁判文書,計算所述候選的裁判文書的文本特征 向量和所述輸入案例文本的文本特征向量的相似度,基于所述相似度選取相似的裁判文書。

            需要說明的是,所述相似裁判文書獲取裝置24中計算文本特征向量的相似度的算法包括但不限于歐式距離算法和余弦相似度算法等。當然,其他現有的或今后可能出現的計算文本特征向量的相似度的算法如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。

            例如,首先根據用戶輸入的輸入案例文本的案件類型和案件案由,查詢同一案件類型和案件案由的全部已有的裁判文書作為候選相似裁判文書,然后檢索候選相似裁判文書的文本特征向量。接著采用上述計算文本特征向量相似度的算法(歐式距離算法或余弦相似度算法),計算輸入的所述輸入案例文本和每個候選相似裁判文書的相似度。接著,根據用戶輸入的需求的相似的裁判文書的個數n,取相似度最高的n個裁判文書作為最終的所需的相似的裁判文書。然后查詢相似的裁判文書的文本結構化信息和裁判相關信息,并反饋給需求獲取相似的裁判文書的用戶。最后統計相似的裁判文書的判決結果,按主刑,附加刑,賠償金額,當事人輸贏等文本特征的維度,以可視化的形式,展示給需求獲取相似的裁判文書的用戶。具體地,例如,根據用戶輸入的輸入案例文本的案件類型和案件案由,查詢同一案件類型和案件案由的全部已有的裁判文書作為候選的裁判文書有100個,用戶需求返回的與輸入案例文本相似的候選的裁判文書的個數為10個,則通過上述相似度算法對輸入案例文本的文本特征向量分別與100個候選的裁判文書的文本特征向量進行相似度計算,并將計算得到的相似度按從低到高的順序排列,取相似度最高的10個候選的裁判文書作為相似的裁判文書,并將所述10個相似的裁判文書的文本結構化信息和裁判相關信息反饋給需要獲取相似的裁判文書的用戶。

            進一步地,所述本申請的一個方面的一種用于基于大數據挖掘相似裁判文書的第二設備還包括:文本結構化信息接收裝置,用于接收所述第一設備所發送的將所述裁判文書進行結構化處理所得到結構化后的文本結構化信息;文本結構化信息獲取裝置,用于獲取所述相似的裁判文書的文本結構化信息。例如,通過對候選的裁判文書的相似度計算之后,將獲取 所有的符合需求數量的相似的裁判文書的文本結構化信息。

            圖11示出根據本申請一個方面的一種基于大數據挖掘相似裁判文書的系統示意圖。該設備包括云計算服務器31和法院內網服務器32。其中,所述云計算服務器31包括已公開的裁判文書獲取裝置311、離線特征化工具裝置312和已公開的裁判文書的文本特征向量生成裝置313,所述法院內網服務器32包括在線存儲器321、在線輸入的輸入案例文本獲取裝置322、在線特征化工具裝置323、輸入案例文本的文本特征向量生成裝置324、在線相似的裁判文書計算工具裝置325和輸入案例文本的相似的裁判文書326。

            其中,所述云計算服務器31與圖6所示的申請一個方面的一種用于基于大數據挖掘相似裁判文書的第一設備的功能一致,所述法院內網服務器32與圖9所示的本申請一個方面的一種用于基于大數據挖掘相似裁判文書的第二設備的功能一致。以下為描述簡潔,所述云計算服務器31中的已公開的裁判文書獲取裝置311與圖6中的裁判文書獲取裝置11互換使用,所述離線特征化工具裝置312和所述已公開的裁判文書的文本特征向量生成裝置313與圖6中的所述文本特征挖掘裝置12互換使用,所述法院內網服務器32中的所述在線存儲器321與圖9中的候選裁判文書獲取裝置23互換使用,在線輸入的輸入案例文本獲取裝置322與圖9中的所述輸入裝置21互換使用,所述在線特征化工具裝置323和所述輸入案例文本的文本特征向量生成裝置324與圖9中的輸入案例文本特征挖掘裝置22互換使用,所述在線相似的裁判文書計算工具裝置325和輸入案例文本的相似的裁判文書326與圖9中的相似裁判文書獲取裝置24互換使用,其實質內容相同。

            本申請的實施例中,在法院業務場景的審判業務中,所述云計算服務器31中的已公開的裁判文書獲取裝置311使用互聯網網絡存儲全部的已公開的裁判文書;所述離線特征化工具裝置312充分運用云計算的強大計算能力,對已公開的院裁判文本進行特征化,并挖掘關于關鍵詞的特征詞庫;所述已公開的裁判文書的文本特征向量生成裝置313挖掘已公開的裁判文書的文本特征向量以及關于關鍵詞的特征詞庫,并通過網絡專線,一 次性傳輸到法院內網服務器31中的在線存儲器321。所述法院內網服務器32中的在線存儲器321存儲已公開的裁判文書的文本特征向量以及關于關鍵詞的特征詞庫;所述在線輸入的輸入案例文本獲取裝置322獲取輸入案例文本的相關文本內容;所述在線特征化工具裝置323查詢在線存儲器中的已公開的裁判文書的關于關鍵詞的特征詞庫以獲得相關的特征詞庫,并對輸入案例文本進行特征化計算,以使在所述輸入案例文本的文本特征向量生成裝置324中形成輸入案例文本的文本特征向量;所述在線相似的裁判文書計算工具裝置325在線輸入所述輸入案例文本及其對應的文本特征向量,查詢在線存儲器,在線檢索與輸入案例文本的具有相同案由已公開的若干候選的裁判文書的文本特征向量,計算已公開的所述候選的裁判文書的文本特征向量和所述輸入案例文本的的文本特征向量的相似度,排序后獲得與所述輸入案例文本最相似的裁判文書。

            在此,上述離線特征化工具裝置312和在線特征化工具裝置323之間的計算邏輯相同,二者的區別是在線特征化工具裝置312中只需要經過簡單的計算,就能實現與離線特征化工具裝置323相同的計算邏輯。離線特征化工具裝置312輸出的關于關鍵詞的特征詞庫,作為在線特征化工具裝置323的輸入,且在線特征化工具裝置323依賴離線計算的關于關鍵詞的特征詞庫和簡化的在線計算邏輯,以確保同一份數據輸入到兩個工具裝置之后,輸出結果完全相同。即同一裁判文書分別經過離線特征化工具裝置312和在線特征化工具裝置323之后,分別得到一樣的文本特征向量和關于關鍵詞的特征詞庫,使得更有效地進行輸入案例文本與裁判文書之間的文本特征向量的相似度計算,有效地提高了法院業務場景中的挖掘相似的裁判文書的工作效率和精確度;經過所述在線特征化工具裝置323的計算之后,在輸入案例文本的文本特征向量生成裝置324中生成輸入案例文本的文本特征向量以備在在線相似的裁判文書計算工具裝置325中,分別計算具有相同的文本類型的若干候選的裁判文書的文本特征向量與輸入案例文本的文本特征向量之間的相似度,并在輸入案例文本的相似的裁判文書326中,基于法院業務場景中需要的相似的裁判文書的數量,將相似度最高的相應數量的候選的裁判文書作為相似的裁判文書。

            本申請的上述實施例中,通過本申請基于大數據挖掘相似裁判文書的設備中可以看出,本申請的上述實施例中,借助大數據文本分析技術,能夠有效的挖掘相似的裁判文書的裁判文書案情的文本主題特征信息和關于所述裁判文書中當事人爭議內容和當事人訴求內容的若干關鍵詞相關信息三個要素,并完成要素內容兩兩比較,以實現挖掘相似裁判文書。本申請實施例通過首先對全國所有的裁判文書建立文本特征向量,包括文本主題特征信息,文本關鍵詞特征,擴展關鍵詞特征。然后利用機器學習實時計算方法,對實時輸入的輸入案例文本(或者是只有案情和當事人訴求的起訴狀)計算文本特征向量,再利用機器學習模型,計算出與實時輸入的輸入案例文本最相似的已有判決結果的裁判文書。在上述過程中,法院工作人員可以根據實際情況輸入需要尋找相似的裁判文書,本申請裝置不限制輸入案例文本的結構,完全滿足法院業務的應用場景。

            與現有技術相比,根據本申請的實施例所述的一種用于第一設備端基于大數據挖掘相似裁判文書的方法與設備,通過獲取海量已公開的裁判文書,并獲取每一所述裁判文書的案由;基于每一所述裁判文書的文本內容獲取關于所述裁判文書案情的文本主題特征信息和關于所述裁判文書中當事人爭議內容和當事人訴求內容的若干關鍵詞相關信息,并基于所述文本主題特征信息和若干所述關鍵詞相關信息建立所述裁判文書的文本特征向量;有效地將海量已公開的的每一裁判文書通過以裁判文書的裁判文書案情的文本主題特征信息和關于所述裁判文書中當事人爭議內容和當事人訴求內容的若干關鍵詞相關信息這三個要素來挖掘裁判文書的文本特征向量,并以文本特征向量的形式精確地顯示出來,避免了人為耗時耗力地去分析文字多、內容復雜以及風格各異的海量裁判文書,從而有效地提高了挖掘相似的裁判文書的工作效率;并基于若干所述關鍵詞相關信息更新關于關鍵詞的特征詞庫,有效地將裁判文書的文本內容以所有所述關鍵詞及其詞語主題特征和擴展詞建立的特征詞庫的形式進行高度辨識,使得能夠快速獲取相似的裁判文書及其對應的文本特征向量,達到了提高挖掘相似的裁判文書的工作效率的效果。

            進一步地,根據本申請的實施例所述的一種用于第二設備端基于大數 據挖掘相似裁判文書的方法與設備,通過首先獲取輸入案例文本,基于檢索數據庫中關于關鍵詞的特征詞庫,提取所述輸入案例文本的若干候選關鍵詞,使得輸入案例文本獲得關鍵詞都能在檢索數據庫中找到,從而有效地提高通過關鍵詞對輸入案例文本進行相似的裁判文書的查找;然后基于所述輸入案例文本的文本內容及若干所述候選關鍵詞獲取所述輸入案例文本的文本主題特征信息和若干關鍵詞相關信息,并基于所述文本主題特征信息和若干所述關鍵詞相關信息建立所述輸入案例文本的文本特征向量,能夠有效地將輸入案例文本的相關信息通過文本特征向量的形式表達出來;最后從所述檢索數據庫中獲取與所述輸入案例文本具有相同案由的若干候選的裁判文書;計算所述候選的裁判文書的文本特征向量和所述輸入案例文本的文本特征向量的相似度,基于所述相似度選取相似的裁判文書,有效地將來自第一設備發送的候選的裁判文書的文本特征向量與實時挖掘出的輸入案例文本的文本特征向量進行相似度計算,得到相似的裁判文書,使得能夠快速地從海量已公開的裁判文書中精確地篩選出與輸入案例文本相似的裁判文書,避免了人為耗時耗力地去分析文字多、內容復雜以及風格各異的海量的裁判文書,從而有效地提高了挖掘相似文本的工作效率。

            需要注意的是,本申請可在軟件和/或軟件與硬件的組合體中被實施,例如,可采用專用集成電路(asic)、通用目的計算機或任何其他類似硬件設備來實現。在一個實施例中,本申請的軟件程序可以通過處理器執行以實現上文所述步驟或功能。同樣地,本申請的軟件程序(包括相關的數據結構)可以被存儲到計算機可讀記錄介質中,例如,ram存儲器,磁或光驅動器或軟磁盤及類似設備。另外,本申請的一些步驟或功能可采用硬件來實現,例如,作為與處理器配合從而執行各個步驟或功能的電路。

            另外,本申請的一部分可被應用為計算機程序產品,例如計算機程序指令,當其被計算機執行時,通過該計算機的操作,可以調用或提供根據本申請的方法和/或技術方案。而調用本申請的方法的程序指令,可能被存儲在固定的或可移動的記錄介質中,和/或通過廣播或其他信號承載媒體中的數據流而被傳輸,和/或被存儲在根據所述程序指令運行的計算機設備的 工作存儲器中。在此,根據本申請的一個實施例包括一個裝置,該裝置包括用于存儲計算機程序指令的存儲器和用于執行程序指令的處理器,其中,當該計算機程序指令被該處理器執行時,觸發該裝置運行基于前述根據本申請的多個實施例的方法和/或技術方案。

            對于本領域技術人員而言,顯然本申請不限于上述示范性實施例的細節,而且在不背離本申請的精神或基本特征的情況下,能夠以其他的具體形式實現本申請。因此,無論從哪一點來看,均應將實施例看作是示范性的,而且是非限制性的,本申請的范圍由所附權利要求而不是上述說明限定,因此旨在將落在權利要求的等同要件的含義和范圍內的所有變化涵括在本申請內。不應將權利要求中的任何附圖標記視為限制所涉及的權利要求。此外,顯然“包括”一詞不排除其他單元或步驟,單數不排除復數。裝置權利要求中陳述的多個單元或裝置也可以由一個單元或裝置通過軟件或者硬件來實現。第一,第二等詞語用來表示名稱,而并不表示任何特定的順序。

            當前第1頁1 2 
            網友詢問留言 已有0條留言
            • 還沒有人留言評論。精彩留言會獲得點贊!
            1
            婷婷六月激情在线综合激情,亚洲国产大片,久久中文字幕综合婷婷,精品久久久久久中文字幕,亚洲一区二区三区高清不卡,99国产精品热久久久久久夜夜嗨 ,欧美日韩亚洲综合在线一区二区,99国产精品电影,伊人精品线视天天综合,精品伊人久久久大香线蕉欧美
            亚洲精品1区 国产成人一级 91精品国产欧美一区二区 亚洲精品乱码久久久久久下载 国产精品久久久久久久伊一 九色国产 国产精品九九视频 伊人久久成人爱综合网 欧美日韩亚洲区久久综合 欧美日本一道免费一区三区 夜夜爽一区二区三区精品 欧美日韩高清一区二区三区 国产成人av在线 国产精品对白交换绿帽视频 国产视频亚洲 国产在线欧美精品 国产精品综合网 国产日韩精品欧美一区色 国产日韩精品欧美一区喷 欧美日韩在线观看区一二 国产区精品 欧美视频日韩视频 中文字幕天天躁日日躁狠狠躁97 视频一二三区 欧美高清在线精品一区二区不卡 国产精品揄拍一区二区久久 99久久综合狠狠综合久久aⅴ 亚洲乱码视频在线观看 日韩在线第二页 亚洲精品无码专区在线播放 成人亚洲网站www在线观看 欧美三级一区二区 99久久精品免费看国产高清 91麻豆国产在线观看 最新日韩欧美不卡一二三区 成人在线观看不卡 日韩国产在线 在线亚洲精品 亚洲午夜久久久久中文字幕 国产精品成人久久久久久久 精品国产一区二区在线观看 欧美精品国产一区二区三区 中文在线播放 亚洲第一页在线视频 国产午夜精品福利久久 九色国产 精品国产九九 国产永久视频 久久精品人人做人人综合试看 国产一区二区三区免费观看 亚洲精品国产电影 9999热视频 国产精品资源在线 麻豆久久婷婷国产综合五月 国产精品免费一级在线观看 亚洲国产一区二区三区青草影视 中文在线播放 国产成人综合在线 国产在线观看色 国产亚洲三级 国产片一区二区三区 久久99精品久久久久久牛牛影视 亚洲欧美日韩国产 四虎永久免费网站 国产一毛片 国产精品视频在 九九热在线精品 99精品福利视频 色婷婷色99国产综合精品 97成人精品视频在线播放 精品久久久久久中文字幕 亚洲欧美一区二区三区孕妇 亚洲欧美成人网 日韩高清在线二区 国产尤物在线观看 在线不卡一区二区 91网站在线看 韩国精品福利一区二区 欧美日韩国产成人精品 99热精品久久 国产精品免费视频一区 高清视频一区 精品九九久久 欧美日韩在线观看免费 91欧美激情一区二区三区成人 99福利视频 亚洲国产精品91 久热国产在线 精品久久久久久中文字幕女 国产精品久久久久久久久99热 成人自拍视频网 国产精品视频久久久久久 久久影院国产 国产玖玖在线观看 99精品在线免费 亚洲欧美一区二区三区导航 久久久久久久综合 国产欧美日韩精品高清二区综合区 国产精品视频自拍 亚洲一级片免费 久久久久久九九 国产欧美自拍视频 视频一区二区在线观看 欧美日韩一区二区三区久久 中文在线亚洲 伊人热人久久中文字幕 日韩欧美亚洲国产一区二区三区 欧美亚洲国产成人高清在线 欧美日韩国产码高清综合人成 国产性大片免费播放网站 亚洲午夜综合网 91精品久久一区二区三区 国产无套在线播放 国产精品视频网站 国产成人亚洲精品老王 91在线网站 国产视频97 欧美黑人欧美精品刺激 国产一区二区三区免费在线视频 久久久国产精品免费看 99re6久精品国产首页 久久精品91 国产成人一级 国产成人精品曰本亚洲 日本福利在线观看 伊人成综合网 久久综合一本 国产综合久久久久久 久久精品成人免费看 久久福利 91精品国产91久久久久久麻豆 亚洲精品成人在线 亚洲伊人久久精品 欧美日本二区 国产永久视频 国产一区二 一区二区福利 国产一毛片 亚洲精品1区 毛片一区二区三区 伊人久久大香线蕉综合影 国产欧美在线观看一区 亚洲国产欧洲综合997久久 国产一区二区免费视频 国产91精品对白露脸全集观看 久久亚洲国产伦理 欧美成人伊人久久综合网 亚洲性久久久影院 久久99国产精一区二区三区! 91精品国产欧美一区二区 欧美日韩亚洲区久久综合 日韩精品一二三区 久久久夜色精品国产噜噜 国产在线精品福利91香蕉 久久久久久久亚洲精品 97se色综合一区二区二区 91国语精品自产拍在线观看性色 91久久国产综合精品女同我 日韩中文字幕a 国产成人亚洲日本精品 久久国产精品-国产精品 久久国产经典视频 久久国产精品伦理 亚洲第一页在线视频 国产精品久久久久三级 日韩毛片网 久久免费高清视频 麻豆国产在线观看一区二区 91麻豆国产福利在线观看 国产成人精品男人的天堂538 一区二区三区中文字幕 免费在线视频一区 欧美日韩国产成人精品 国产综合网站 国产资源免费观看 亚洲精品亚洲人成在线播放 精品久久久久久中文字幕专区 亚洲人成人毛片无遮挡 国产一起色一起爱 国产香蕉精品视频在 九九热免费观看 日韩亚洲欧美一区 九九热精品在线观看 精品久久久久久中文字幕专区 亚洲欧美自拍偷拍 国产精品每日更新 久久久久国产一级毛片高清板 久久天天躁狠狠躁夜夜中文字幕 久久精品片 日韩在线毛片 国产成人精品本亚洲 国产成人精品一区二区三区 九九热在线观看 国产r级在线观看 国产欧美日韩精品高清二区综合区 韩国电影一区二区 国产精品毛片va一区二区三区 五月婷婷伊人网 久久一区二区三区免费 一本色道久久综合狠狠躁篇 亚洲综合色站 国产尤物在线观看 亚洲一区亚洲二区 免费在线视频一区 欧洲精品视频在线观看 日韩中文字幕a 中文字幕日本在线mv视频精品 91精品在线免费视频 精品国产免费人成在线观看 精品a级片 中文字幕日本在线mv视频精品 日韩在线精品视频 婷婷丁香色 91精品国产高清久久久久 国产成人精品日本亚洲直接 五月综合视频 欧美日韩在线亚洲国产人 精液呈暗黄色 亚洲乱码一区 久久精品中文字幕不卡一二区 亚洲天堂精品在线 激情婷婷综合 国产免费久久精品久久久 国产精品亚洲二区在线 久久免费播放视频 五月婷婷丁香综合 在线亚洲欧美日韩 久久免费精品高清麻豆 精品久久久久久中文字幕 亚洲一区网站 国产精品福利社 日韩中文字幕免费 亚洲综合丝袜 91精品在线播放 国产精品18 亚洲日日夜夜 伊人久久大香线蕉综合影 亚洲精品中文字幕乱码影院 亚洲一区二区黄色 亚洲第一页在线视频 一区二区在线观看视频 国产成人福利精品视频 亚洲高清二区 国内成人免费视频 精品亚洲性xxx久久久 国产精品合集一区二区三区 97av免费视频 国产一起色一起爱 国产区久久 国产资源免费观看 99精品视频免费 国产成人一级 国产精品九九免费视频 欧美91精品久久久久网免费 99热国产免费 久久精品色 98精品国产综合久久 久久精品播放 中文字幕视频免费 国产欧美日韩一区二区三区在线 精品久久蜜桃 国产小视频精品 一本色道久久综合狠狠躁篇 91在线免费观看 亚洲精品区 伊人成综合网 伊人热人久久中文字幕 伊人黄色片 99国产精品热久久久久久夜夜嗨 久久免费精品视频 亚洲一区二区三区高清不卡 久久久久国产一级毛片高清板 国产片一区二区三区 久久狠狠干 99久久婷婷国产综合精品电影 国产99区 国产精品成人久久久久 久久狠狠干 青青国产在线观看 亚洲高清国产拍精品影院 国产精品一区二区av 九九热在线免费视频 伊人久久国产 国产精品久久久久久久久久一区 在线观看免费视频一区 国产精品自在在线午夜区app 国产精品综合色区在线观看 国产毛片久久久久久国产毛片 97国产免费全部免费观看 国产精品每日更新 国产尤物视频在线 九九视频这里只有精品99 一本一道久久a久久精品综合 久久综合给会久久狠狠狠 国产成人精品男人的天堂538 欧美一区二区高清 毛片一区二区三区 国产欧美日韩在线观看一区二区三区 在线国产二区 欧美不卡网 91在线精品中文字幕 在线国产福利 国内精品91久久久久 91亚洲福利 日韩欧美国产中文字幕 91久久精品国产性色也91久久 亚洲性久久久影院 欧美精品1区 国产热re99久久6国产精品 九九热免费观看 国产精品欧美日韩 久久久久国产一级毛片高清板 久久国产经典视频 日韩欧美亚洲国产一区二区三区 欧美亚洲综合另类在线观看 国产精品自在在线午夜区app 97中文字幕在线观看 视频一二三区 精品国产一区在线观看 国产欧美日韩在线一区二区不卡 欧美一区二三区 伊人成人在线观看 国内精品91久久久久 97在线亚洲 国产在线不卡一区 久久久全免费全集一级全黄片 国产精品v欧美精品∨日韩 亚洲毛片网站 在线不卡一区二区 99re热在线视频 久久激情网 国产毛片一区二区三区精品 久久亚洲综合色 中文字幕视频免费 国产视频亚洲 婷婷伊人久久 国产一区二区免费播放 久久99国产精品成人欧美 99国产在线视频 国产成人免费视频精品一区二区 国产不卡一区二区三区免费视 国产码欧美日韩高清综合一区 久久精品国产主播一区二区 国产一区电影 久久精品国产夜色 国产精品国产三级国产 日韩一区二区三区在线 久久97久久97精品免视看 久久国产免费一区二区三区 伊人久久大香线蕉综合电影网 99re6久精品国产首页 久久激情网 亚洲成人高清在线 国产精品网址 国产成人精品男人的天堂538 香蕉国产综合久久猫咪 国产专区中文字幕 91麻豆精品国产高清在线 久久国产经典视频 国产精品成人va在线观看 国产精品爱啪在线线免费观看 日本精品久久久久久久久免费 亚洲综合一区二区三区 久久五月网 精品国产网红福利在线观看 久久综合亚洲伊人色 亚洲国产精品久久久久久网站 在线日韩国产 99国产精品热久久久久久夜夜嗨 国产综合精品在线 国产区福利 精品亚洲综合久久中文字幕 国产制服丝袜在线 毛片在线播放网站 在线观看免费视频一区 国产精品久久久精品三级 亚洲国产电影在线观看 最新日韩欧美不卡一二三区 狠狠综合久久综合鬼色 日本精品1在线区 国产日韩一区二区三区在线播放 欧美日韩精品在线播放 亚洲欧美日韩国产一区二区三区精品 久久综合久久网 婷婷六月激情在线综合激情 亚洲乱码一区 国产专区91 97av视频在线观看 精品久久久久久中文字幕 久久五月视频 国产成人福利精品视频 国产精品网址 中文字幕视频在线 精品一区二区三区免费视频 伊人手机在线视频 亚洲精品中文字幕乱码 国产在线视频www色 色噜噜国产精品视频一区二区 精品亚洲成a人在线观看 国产香蕉尹人综合在线 成人免费一区二区三区在线观看 国产不卡一区二区三区免费视 欧美精品久久天天躁 国产专区中文字幕 久久精品国产免费中文 久久精品国产免费一区 久久无码精品一区二区三区 国产欧美另类久久久精品免费 欧美精品久久天天躁 亚洲精品在线视频 国产视频91在线 91精品福利一区二区三区野战 日韩中文字幕免费 国产精品99一区二区三区 欧美成人高清性色生活 国产精品系列在线观看 亚洲国产福利精品一区二区 国产成人在线小视频 国产精品久久久久免费 99re热在线视频 久久久久久久综合 一区二区国产在线播放 成人国产在线视频 亚洲精品乱码久久久久 欧美日韩一区二区综合 精品久久久久免费极品大片 中文字幕视频二区 激情粉嫩精品国产尤物 国产成人精品一区二区视频 久久精品中文字幕首页 亚洲高清在线 国产精品亚洲一区二区三区 伊人久久艹 中文在线亚洲 国产精品一区二区在线播放 国产精品九九免费视频 亚洲二区在线播放 亚洲狠狠婷婷综合久久久久网站 亚洲欧美日韩网站 日韩成人精品 亚洲国产一区二区三区青草影视 91精品国产福利在线观看 国产精品久久久久久久久99热 国产一区二区精品尤物 久碰香蕉精品视频在线观看 亚洲日日夜夜 在线不卡一区二区 国产午夜亚洲精品 九九热在线视频观看这里只有精品 伊人手机在线视频 91免费国产精品 日韩欧美中字 91精品国产91久久久久 国产全黄三级播放 视频一区二区三区免费观看 国产开裆丝袜高跟在线观看 国产成人欧美 激情综合丝袜美女一区二区 国产成人亚洲综合无 欧美精品一区二区三区免费观看 欧美亚洲国产日韩 日韩亚州 国产欧美日韩精品高清二区综合区 亚洲午夜国产片在线观看 精品久久久久久中文字幕 欧美精品1区 久久伊人久久亚洲综合 亚洲欧美日韩精品 国产成人精品久久亚洲高清不卡 久久福利影视 国产精品99精品久久免费 久久久久免费精品视频 国产日产亚洲精品 亚洲国产午夜电影在线入口 精品无码一区在线观看 午夜国产精品视频 亚洲一级片免费 伊人久久大香线蕉综合影 国产精品久久影院 久碰香蕉精品视频在线观看 www.欧美精品 在线小视频国产 亚洲国产天堂久久综合图区 欧美一区二区三区不卡 日韩美女福利视频 九九精品免视频国产成人 不卡国产00高中生在线视频 亚洲第一页在线视频 欧美日韩在线播放成人 99re视频这里只有精品 国产精品91在线 精品乱码一区二区三区在线 国产区久久 91麻豆精品国产自产在线观看一区 日韩精品成人在线 九九热在线观看 国产精品久久不卡日韩美女 欧美一区二区三区综合色视频 欧美精品免费一区欧美久久优播 国产精品网址 国产专区中文字幕 国产精品欧美亚洲韩国日本久久 日韩美香港a一级毛片 久久精品123 欧美一区二区三区免费看 99r在线视频 亚洲精品国产字幕久久vr 国产综合激情在线亚洲第一页 91免费国产精品 日韩免费小视频 亚洲国产精品综合一区在线 国产亚洲第一伦理第一区 在线亚洲精品 国产精品一区二区制服丝袜 国产在线成人精品 九九精品免视频国产成人 亚洲国产网 欧美日韩亚洲一区二区三区在线观看 在线亚洲精品 欧美一区二区三区高清视频 国产成人精品男人的天堂538 欧美日韩在线观看区一二 亚洲欧美一区二区久久 久久精品中文字幕首页 日本高清www午夜视频 久久精品国产免费 久久999精品 亚洲国产精品欧美综合 88国产精品视频一区二区三区 91久久偷偷做嫩草影院免费看 国产精品夜色视频一区二区 欧美日韩导航 国产成人啪精品午夜在线播放 一区二区视频在线免费观看 99久久精品国产自免费 精液呈暗黄色 久久99国产精品 日本精品久久久久久久久免费 精品国产97在线观看 99re视频这里只有精品 国产视频91在线 999av视频 亚洲美女视频一区二区三区 久久97久久97精品免视看 亚洲国产成人久久三区 99久久亚洲国产高清观看 日韩毛片在线视频 综合激情在线 91福利一区二区在线观看 一区二区视频在线免费观看 激情粉嫩精品国产尤物 国产成人精品曰本亚洲78 国产成人精品本亚洲 国产精品成人免费视频 国产成人啪精品视频免费软件 久久精品国产亚洲妲己影院 国产精品成人久久久久久久 久久大香线蕉综合爱 欧美一区二区三区高清视频 99热国产免费 在线观看欧美国产 91精品视频在线播放 国产精品福利社 欧美精品一区二区三区免费观看 国产一区二区免费视频 国产午夜精品一区二区 精品视频在线观看97 91精品福利久久久 国产一区福利 国产综合激情在线亚洲第一页 国产精品久久久久久久久久久不卡 九色国产 在线日韩国产 黄网在线观看 亚洲一区小说区中文字幕 中文字幕丝袜 日本二区在线观看 日本国产一区在线观看 欧美日韩一区二区三区久久 欧美精品亚洲精品日韩专 国产日产亚洲精品 久久综合九色综合欧美播 亚洲国产欧美无圣光一区 欧美视频区 亚洲乱码视频在线观看 久久无码精品一区二区三区 九九热精品免费视频 久久99精品久久久久久牛牛影视 国产精品成久久久久三级 国产一区福利 午夜国产精品视频 日本二区在线观看 99久久网站 国产亚洲天堂 精品国产一区二区三区不卡 亚洲国产日韩在线一区 国产成人综合在线观看网站 久久免费高清视频 欧美在线导航 午夜精品久久久久久99热7777 欧美久久综合网 国产小视频精品 国产尤物在线观看 亚洲国产精品综合一区在线 欧美一区二区三区不卡视频 欧美黑人欧美精品刺激 日本福利在线观看 久久国产偷 国产手机精品一区二区 国产热re99久久6国产精品 国产高清啪啪 欧美亚洲国产成人高清在线 国产在线第三页 亚洲综合一区二区三区 99r在线视频 99精品久久久久久久婷婷 国产精品乱码免费一区二区 国产在线精品福利91香蕉 国产尤物视频在线 五月婷婷亚洲 中文字幕久久综合伊人 亚洲精品一级毛片 99国产精品电影 在线视频第一页 久久99国产精品成人欧美 国产白白视频在线观看2 成人精品一区二区www 亚洲成人网在线观看 麻豆91在线视频 色综合合久久天天综合绕视看 久久精品国产免费高清 国产不卡一区二区三区免费视 欧美国产中文 99精品欧美 九九在线精品 国产中文字幕在线免费观看 国产一区中文字幕在线观看 国产成人一级 国产精品一区二区制服丝袜 国产一起色一起爱 亚洲精品成人在线 亚洲欧美精品在线 国产欧美自拍视频 99精品久久久久久久婷婷 久99视频 国产热re99久久6国产精品 视频一区亚洲 国产精品视频分类 国产精品成在线观看 99re6久精品国产首页 亚洲在成人网在线看 亚洲国产日韩在线一区 久久国产三级 日韩国产欧美 欧美在线一区二区三区 国产精品美女一级在线观看 成人午夜免费福利视频 亚洲天堂精品在线 91精品国产手机 欧美日韩视频在线播放 狠狠综合久久综合鬼色 九一色视频 青青视频国产 亚洲欧美自拍一区 中文字幕天天躁日日躁狠狠躁97 日韩免费大片 996热视频 伊人成综合网 亚洲天堂欧美 日韩精品亚洲人成在线观看 久久综合给会久久狠狠狠 日韩精品亚洲人成在线观看 日韩国产欧美 亚洲成aⅴ人片在线影院八 亚洲精品1区 99久久精品免费 国产精品高清在线观看 国产精品久久久免费视频 在线亚洲欧美日韩 91在线看视频 国产精品96久久久久久久 欧美日韩国产成人精品 91在线亚洲 热久久亚洲 国产精品美女免费视频观看 日韩在线毛片 亚洲永久免费视频 九九免费在线视频 亚洲一区网站 日本高清二区视频久二区 精品国产美女福利在线 伊人久久艹 国产精品久久久久三级 欧美成人精品第一区二区三区 99久久精品国产自免费 在线观看日韩一区 国产中文字幕一区 成人免费午夜视频 欧美日韩另类在线 久久99国产精品成人欧美 色婷婷中文网 久久天天躁夜夜躁狠狠躁2020 欧美成人伊人久久综合网 国产精品福利资源在线 国产伦精品一区二区三区高清 国产精品亚洲综合色区韩国 亚洲一区欧美日韩 色综合视频 国语自产精品视频在线区 国产高清a 成人国内精品久久久久影 国产在线精品香蕉综合网一区 国产不卡在线看 国产成人精品精品欧美 国产欧美日韩综合精品一区二区三区 韩国电影一区二区 国产在线视频www色 91中文字幕在线一区 国产人成午夜免视频网站 亚洲综合一区二区三区 色综合视频一区二区观看 久久五月网 九九热精品在线观看 国产一区二区三区国产精品 99久热re在线精品996热视频 亚洲国产网 在线视频亚洲一区 日韩字幕一中文在线综合 国产高清一级毛片在线不卡 精品国产色在线 国产高清视频一区二区 精品日本久久久久久久久久 亚洲国产午夜精品乱码 成人免费国产gav视频在线 日韩欧美一区二区在线观看 欧美曰批人成在线观看 韩国电影一区二区 99re这里只有精品6 日韩精品一区二区三区视频 99re6久精品国产首页 亚洲欧美一区二区三区导航 欧美色图一区二区三区 午夜精品视频在线观看 欧美激情在线观看一区二区三区 亚洲热在线 成人国产精品一区二区网站 亚洲一级毛片在线播放 亚洲一区小说区中文字幕 亚洲午夜久久久久影院 国产自产v一区二区三区c 国产精品视频免费 久久调教视频 国产成人91激情在线播放 国产精品欧美亚洲韩国日本久久 久久亚洲日本不卡一区二区 91中文字幕网 成人国产在线视频 国产视频91在线 欧美成人精品第一区二区三区 国产精品福利在线 久久综合九色综合精品 欧美一区二区三区精品 久久国产综合尤物免费观看 久久99青青久久99久久 日韩精品免费 久久国产精品999 91亚洲视频在线观看 国产精品igao视频 色综合区 在线亚洲欧国产精品专区 国产一区二区三区在线观看视频 亚洲精品成人在线 一区二区国产在线播放 中文在线亚洲 亚洲精品第一国产综合野 国产一区二区精品久久 一区二区三区四区精品视频 99热精品久久 中文字幕视频二区 国产成人精品男人的天堂538 99精品影视 美女福利视频一区二区 久久午夜夜伦伦鲁鲁片 综合久久久久久久综合网 国产精品国产欧美综合一区 国产99视频在线观看 国产亚洲女在线精品 婷婷影院在线综合免费视频 国产亚洲3p一区二区三区 91成人爽a毛片一区二区 亚洲一区二区高清 国产欧美亚洲精品第二区首页 欧美日韩导航 亚洲高清二区 欧美激情观看一区二区久久 日韩毛片在线播放 亚洲欧美日韩高清中文在线 亚洲日本在线播放 国产精品一区二区制服丝袜 精品国产一区二区三区不卡 国产不卡在线看 国产欧美网站 四虎永久在线观看视频精品 国产黄色片在线观看 夜夜综合 一本色道久久综合狠狠躁篇 欧美亚洲综合另类在线观看 国产91在线看 伊人久久国产 欧美一区二区在线观看免费网站 国产精品久久久久三级 久久福利 日韩中文字幕a 亚洲午夜久久久久影院 91在线高清视频 国产亚洲一区二区三区啪 久久人精品 国产精品亚洲午夜一区二区三区 综合久久久久久 久久伊人一区二区三区四区 国产综合久久久久久 日韩一区精品视频在线看 国产精品日韩欧美制服 日本精品1在线区 99re视频 无码av免费一区二区三区试看 国产视频1区 日韩欧美中文字幕一区 日本高清中文字幕一区二区三区a 亚洲国产欧美无圣光一区 国产在线视频一区二区三区 欧美国产第一页 在线亚洲欧美日韩 日韩中文字幕第一页 在线不卡一区二区 伊人久久青青 国产精品一区二区在线播放 www.五月婷婷 麻豆久久婷婷国产综合五月 亚洲精品区 久久国产欧美另类久久久 99在线视频免费 伊人久久中文字幕久久cm 久久精品成人免费看 久久这里只有精品首页 88国产精品视频一区二区三区 中文字幕日本在线mv视频精品 国产在线精品成人一区二区三区 伊人精品线视天天综合 亚洲一区二区黄色 国产尤物视频在线 亚洲精品99久久久久中文字幕 国产一区二区三区免费观看 伊人久久大香线蕉综合电影网 国产成人精品区在线观看 日本精品一区二区三区视频 日韩高清在线二区 久久免费播放视频 一区二区成人国产精品 国产精品免费精品自在线观看 亚洲精品视频二区 麻豆国产精品有码在线观看 精品日本一区二区 亚洲欧洲久久 久久中文字幕综合婷婷 中文字幕视频在线 国产成人精品综合在线观看 91精品国产91久久久久福利 精液呈暗黄色 香蕉国产综合久久猫咪 国产专区精品 亚洲精品无码不卡 国产永久视频 亚洲成a人片在线播放观看国产 一区二区国产在线播放 亚洲一区二区黄色 欧美日韩在线观看视频 亚洲精品另类 久久国产综合尤物免费观看 国产一区二区三区国产精品 高清视频一区 国产精品igao视频 国产精品资源在线 久久综合精品国产一区二区三区 www.五月婷婷 精品色综合 99热国产免费 麻豆福利影院 亚洲伊人久久大香线蕉苏妲己 久久电影院久久国产 久久精品伊人 在线日韩理论午夜中文电影 亚洲国产欧洲综合997久久 伊人国产精品 久草国产精品 欧美一区精品二区三区 亚洲成人高清在线 91免费国产精品 日韩精品福利在线 国产一线在线观看 国产不卡在线看 久久99青青久久99久久 亚洲精品亚洲人成在线播放 99久久免费看国产精品 国产日本在线观看 青草国产在线视频 麻豆久久婷婷国产综合五月 国产中文字幕一区 91久久精品国产性色也91久久 国产一区a 国产欧美日韩成人 国产亚洲女在线精品 一区二区美女 中文字幕在线2021一区 在线小视频国产 久久这里只有精品首页 国产在线第三页 欧美日韩中文字幕 在线亚洲+欧美+日本专区 精品国产一区二区三区不卡 久久这里精品 欧美在线va在线播放 精液呈暗黄色 91精品国产手机 91在线免费播放 欧美视频亚洲色图 欧美国产日韩精品 日韩高清不卡在线 精品视频免费观看 欧美日韩一区二区三区四区 国产欧美亚洲精品第二区首页 亚洲韩精品欧美一区二区三区 国产精品视频免费 在线精品小视频 久久午夜夜伦伦鲁鲁片 国产无套在线播放 久热这里只精品99re8久 欧美久久久久 久久香蕉国产线看观看精品蕉 国产成人精品男人的天堂538 亚洲人成网站色7799在线观看 日韩在线第二页 一本色道久久综合狠狠躁篇 国产一区二区三区不卡在线观看 亚洲乱码在线 在线观看欧美国产 久久福利青草精品资源站免费 国产玖玖在线观看 在线亚洲精品 亚洲成aⅴ人在线观看 精品91在线 欧美一区二三区 日韩中文字幕视频在线 日本成人一区二区 日韩免费专区 国内精品在线观看视频 久久国产综合尤物免费观看 国产精品系列在线观看 一本一道久久a久久精品综合 亚洲免费播放 久久精品国产免费 久久人精品 亚洲毛片网站 亚洲成a人一区二区三区 韩国福利一区二区三区高清视频 亚洲精品天堂在线 一区二区三区中文字幕 亚洲国产色婷婷精品综合在线观看 亚洲国产成人久久笫一页 999国产视频 国产精品香港三级在线电影 欧美日韩一区二区三区四区 日韩国产欧美 国产精品99一区二区三区 午夜国产精品理论片久久影院 亚洲精品中文字幕麻豆 亚洲国产高清视频 久久免费手机视频 日韩a在线观看 五月婷婷亚洲 亚洲精品中文字幕麻豆 中文字幕丝袜 www国产精品 亚洲天堂精品在线 亚洲乱码一区 国产日韩欧美三级 久久999精品 伊人热人久久中文字幕 久热国产在线视频 国产欧美日韩在线观看一区二区三区 国产一二三区在线 日韩国产欧美 91精品国产91久久久久 亚洲一区小说区中文字幕 精品一区二区免费视频 国产精品视频免费 国产精品亚洲综合色区韩国 亚洲国产精品成人午夜在线观看 欧美国产日韩精品 中文字幕精品一区二区精品