本申請涉及計算機技術領域,具體涉及互聯網技術領域,尤其涉及人機智能問答系統的斷句識別方法和裝置。
背景技術:
隨著人機智能技術的發展,越來越多的問答系統采用人機智能技術。現有的人機智能問答系統通常采用一問一答的形式,即默認用戶輸入為一個完整語句,而后針對該完整語句反饋問題的答案。而實際上人機對話的過程中,用戶可能會將一個完整的語句拆成多個斷句進行表達,比如用戶可能會將“我想問一下東西送到北京需要多久”,拆分成“我想問一下”和“東西送到北京需要多久”兩個斷句進行輸入。針對這種情況,就需要人機智能問答系統能夠準確判斷出用戶輸入語句的完整性。
現有的人機智能問答系統通常是采用漢語言語言模型(n-gram模型)通過預測下一個詞出現的概率來判斷輸入語句為完整語句的概率。但是,由于n-gram模型自身具有局限性,n的取值通常只能為2或3,即當前詞的出現只與前面1個或2個詞相關,導致該模型因信息缺失而不能準確判斷輸入語句是否為完整語句。
技術實現要素:
本申請的目的在于提出一種改進的人機智能問答系統的斷句識別方法和裝置,來解決以上背景技術部分提到的技術問題。
第一方面,本申請提供了一種人機智能問答系統的斷句識別方法,所述方法包括:接收用戶輸入的當前語句;將所述當前語句輸入預先訓練的斷句識別模型得到所述當前語句為完整語句的第一概率,其中,所述斷句識別模型用于根據所述當前語句的漢語言模型對應的概率和 循環神經網絡語言模型對應的概率確定所述第一概率;若所述第一概率大于預設的第一閾值,則確定所述當前語句為完整語句。
在一些實施例中,所述方法還包括:基于循環神經網絡語言模型,確定所述當前語句的第一個詞出現在與所述當前語句相鄰的上一句中的第二概率;若所述第二概率大于預設的第二閾值,則確定所述當前語句和與所述當前語句相鄰的上一句均為斷句;將所述當前語句與所述上一句相結合作為完整語句。
在一些實施例中,所述方法還包括:建立斷句識別模型的步驟,包括:獲取問題語料庫,其中,所述問題語料庫包括多個問題語料,所述問題語料為完整語句;對各所述問題語料分詞生成多個斷句;根據所述斷句中包含詞的數目以及該斷句對應的完整語句包含詞的數目,確定各所述斷句的分值,其中,所述分值用于表征與之對應的斷句為完整語句的概率;確定各所述斷句的所述漢語言模型對應的概率和循環神經網絡語言模型對應的概率;以各所述斷句的所述概率以及該斷句的分值為訓練樣本,訓練得到所述斷句識別模型。
在一些實施例中,所述對各所述問題語料分詞生成多個斷句,包括:生成所述斷句的步驟,包括:對第一問題語料進行分詞處理,獲取由n個詞組成的第一問題語料,其中,所述第一問題語料為所述問題語料庫中的任一問題語料,n為自然數;在所述第一問題語料中取第1~i個詞,生成第i個語句,其中,1≤i≤n;生成所述第一問題語料對應的n個斷句;基于所述生成所述斷句的步驟,生成所述問題語料庫中各所述第一問題語料對應的斷句。
在一些實施例中,所述方法還包括:若所述第一概率小于或等于預設的第一閾值,則確定所述當前語句為斷句;提示用戶繼續輸入的提示信息。
第二方面,本申請提供了一種人機智能問答系統的斷句識別裝置,所述裝置包括:當前語句接收模塊,配置用于接收用戶輸入的當前語句;第一概率獲取模塊,配置用于將所述當前語句輸入預先訓練的斷句識別模型得到所述當前語句為完整語句的第一概率,其中,所述斷句識別模型用于根據所述當前語句的漢語言模型對應的概率和循環神 經網絡語言模型對應的概率確定所述第一概率;完整語句確定模塊,配置用于若所述第一概率大于預設的第一閾值,則確定所述當前語句為完整語句。
在一些實施例中,所述裝置還包括:第二概率確定模塊,配置用于基于循環神經網絡語言模型,確定所述當前語句的第一個詞出現在與所述當前語句相鄰的上一句中的第二概率;若所述第二概率大于預設的第二閾值,則確定所述當前語句和與所述當前語句相鄰的上一句均為斷句;將所述當前語句與所述上一句相結合作為完整語句。
在一些實施例中,所述裝置還包括:斷句識別模型建立模塊,配置用于建立斷句識別模型,所述斷句識別模型建立模塊包括:問題語料庫獲取單元,配置用于獲取問題語料庫,其中,所述問題語料庫包括多個問題語料,所述問題語料為完整語句;斷句生成單元,配置用于對各所述問題語料分詞生成多個斷句;分值確定單元,配置用于根據所述斷句中包含詞的數目以及該斷句對應的完整語句包含詞的數目,確定各所述斷句的分值,其中,所述分值用于表征與之對應的斷句為完整語句的概率;概率確定單元,配置用于確定各所述斷句的所述漢語言模型對應的概率和循環神經網絡語言模型對應的概率;斷句識別模型訓練單元,配置用于以各所述斷句的所述概率以及該斷句的分值為訓練樣本,訓練得到所述斷句識別模型。
在一些實施例中,所述斷句生成單元配置具體用于:生成所述斷句,且生成所述斷句的步驟包括:對第一問題語料進行分詞處理,獲取由n個詞組成的第一問題語料,其中,所述第一問題語料為所述問題語料庫中的任一問題語料,n為自然數;在所述第一問題語料中取第1~i個詞,生成第i個語句,其中,1≤i≤n;生成所述第一問題語料對應的n個斷句;基于所述生成所述斷句的步驟,生成所述問題語料庫中各所述第一問題語料對應的斷句。
在一些實施例中,所述裝置還包括:斷句確定模塊,配置用于若所述第一概率小于或等于預設的第一閾值,則確定所述當前語句為斷句;生成提示用戶繼續輸入的提示信息。
本申請提供的人機智能問答系統的斷句識別方法和裝置,首先接 收用戶輸入的當前語句,之后將接收到的當前語句輸入預先訓練的斷句識別模型,以獲取該當前語句為完整語句的第一概率,而后判斷該第一概率是否大于預設的第一閾值,若是,則確定該當前語句為完整語句,該方法將漢語言模型和循環神經網絡語言模型相融合獲得用于確定當前語句為完整語句的概率的斷句識別模型,該斷句識別模型可以提高人機智能問答系統判斷所述當前語句為完整語句的準確率。
附圖說明
通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本申請的其它特征、目的和優點將會變得更明顯:
圖1是本申請可以應用于其中的示例性系統架構圖;
圖2是根據本申請的人機智能問答系統的斷句識別方法的一個實施例的流程圖;
圖3是根據本申請的人機智能問答系統的斷句識別方法中,獲得預先訓練的斷句識別模型的一種實現方式的示意性流程圖;
圖4是根據本申請的人機智能問答系統的斷句識別方法的又一個實施例的流程圖;
圖5是根據本申請的人機智能問答系統的斷句識別裝置的一個實施例的結構示意圖;
圖6是適于用來實現本申請實施例的終端設備或服務器的計算機系統的結構示意圖。
具體實施方式
下面結合附圖和實施例對本申請作進一步的詳細說明。可以理解的是,此處所描述的具體實施例僅僅用于解釋相關發明,而非對該發明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與有關發明相關的部分。
需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。下面將參考附圖并結合實施例來詳細說明本申請。
圖1示出了可以應用本申請的人機智能問答系統的斷句識別方法或人機智能問答系統的斷句識別裝置的實施例的示例性系統架構100。
如圖1所示,系統架構100可以包括終端設備101、102、103,網絡104和服務器105。網絡104用以在終端設備101、102、103和服務器105之間提供通信鏈路的介質。網絡104可以包括各種連接類型,例如有線、無線通信鏈路或者光纖電纜等等。
用戶可以使用終端設備101、102、103通過網絡104與服務器105交互,以接收或發送消息等。終端設備101、102、103上可以安裝有各種通訊客戶端應用,例如即時通信軟件、購物類應用、搜索類應用、網頁瀏覽器應用、社交平臺軟件等。
終端設備101、102、103可以是具有顯示屏并且支持人機智能問答的各種電子設備,包括但不限于智能手機、平板電腦、電子書閱讀器、mp3播放器(movingpictureexpertsgroupaudiolayeriii,動態影像專家壓縮標準音頻層面3)、mp4(movingpictureexpertsgroupaudiolayeriv,動態影像專家壓縮標準音頻層面4)播放器、膝上型便攜計算機和臺式計算機等等。
服務器105可以是提供各種服務的服務器,例如對終端設備101、102、103發送的當前語句提供支持的后臺服務器。后臺服務器可以對接收到的當前語句等數據進行統計、分析等處理,并將處理結果反饋給終端設備。
需要說明的是,本申請實施例所提供的人機智能問答系統的斷句識別方法一般由服務器105執行,相應地,人機智能問答系統的斷句識別裝置一般設置于服務器105中。
應該理解,圖1中的終端設備、網絡和服務器的數目僅僅是示意性的。根據實現需要,可以具有任意數目的終端設備、網絡和服務器。
繼續參考圖2,其示出了根據本申請的人機智能問答系統的斷句識別方法的一個實施例的流程200。所述的人機智能問答系統的斷句識別方法,包括以下步驟:
步驟201,接收用戶輸入的當前語句。
在本實施例中,人機智能問答方法運行于其上的電子設備(例如圖1所示的服務器)可以通過有線連接方式或者無線連接方式從用戶利用其進行人機智能問答的終端接收用戶輸入的當前語句。需要指出的是,上述無線連接方式可以包括但不限于3g/4g連接、wifi連接、藍牙連接、wimax連接、zigbee連接、uwb(ultrawideband)連接、以及其他現在已知或將來開發的無線連接方式。
通常,在人機智能問答系統中,當用戶一次輸入完成后即認為用戶已經輸入了當前語句,而不考慮該語句是否為完整語句。例如,當用戶想要詢問東西送到北京要多久時,不論用戶輸入為類似于“我想問一下”的斷句,還是類似于“我想問一下東西送到北京要多久”的整句,都可以認為用戶輸入的是當前語句。
步驟202,將當前語句輸入預先訓練的斷句識別模型得到當前語句為完整語句的第一概率。
在本實施例中,人機智能問答系統的斷句識別方法運行與其上的電子設備可以預先訓練一個斷句識別模型,該斷句識別模型可以用于根據用戶輸入的當前語句的漢語言模型對應的概率和循環神經網絡語言模型對應的概率確定當前語句為完整語句的第一概率。基于步驟201接收到的用戶輸入的當前語句,上述電子設備可以將該當前語句輸入上述斷句識別模型,獲取上述當前語句為完整語句的第一概率。
步驟203,若第一概率大于預設的第一閾值,則確定當前語句為完整語句。
在本實施例中,人機智能問答系統的斷句識別方法運行與其上的電子設備可以預先設置一個第一閾值,而后基于步驟202獲得的上述當前語句為完整語句的第一概率,上述電子設備可以判斷該第一概率與上述第一閾值的大小關系,如果上述第一概率大于預設的第一閾值,則可以認為上述當前語句為完整語句。
在本實施例的一些可選的實現方式中,如果上述第一概率小于或等于預設的第一閾值,則可以認為上述當前語句為斷句。上述電子設備可以生成用于提示用戶繼續輸入的提示信息,該提示信息可以類似于“嗯,您說”等。
本申請的上述實施例提供的人機智能問答系統的斷句識別方法,首先接收用戶輸入的當前語句,之后將接收到的當前語句輸入預先訓練的斷句識別模型,以獲取該當前語句為完整語句的第一概率,而后判斷該第一概率是否大于預設的第一閾值,若是,則確定該當前語句為完整語句,該方法將漢語言模型和循環神經網絡語言模型相融合獲得用于確定當前語句為完整語句的概率的斷句識別模型,該斷句識別模型可以提高人機智能問答系統判斷上述當前語句為完整語句的準確率。
在一些可選的方案中,步驟202中用到的預先訓練的斷句識別模型可以通過如圖3所示的流程300來建立。
步驟301,獲取問題語料庫。
在本實現方式中,人機智能問答系統的斷句識別方法運行于其上的電子設備可以從歷史的人機問答數據中選取完整的問題語料組成問題語料庫。這里的問題語料庫可以包括多個問題語料,并且各問題語料均為完整語句。以電商領域的人機智能問答系統的咨詢數據為例,其包括在線咨詢數據和離線咨詢數據,而離線咨詢數據因不是實時交互數據,通常都是較為完整的語句,因此可以選取人機智能問答系統中離線咨詢數據組成上述問題語料庫。
需要說明的是,上述電子設備還需要對上述獲取的問題語料庫進一步處理。首先,可以將包含多個完整句子的問題語料做分句處理,這里可以將問題語料中的逗號、頓號等刪除后,將問號、句號、嘆號等作為分隔符對問題語料進行分句處理。其次,還可以在每個完整語句的后面添加一個例如<end>等的結束標記。
步驟302,對各問題語料分詞生成多個斷句。
在本實施例中,上述電子設備可以通過各種手段將上述問題語料庫中的各問題語料做分詞處理。之后,根據分詞生成各問題語料對應的斷句。以問題語料“這手機是金屬機身嗎”為例,可以首先做分詞處理,獲取分詞結果為“這手機是金屬機身嗎”,而后獲取該問題語料對應的斷句。
需要說明的是,上述電子設備可以通過如下步驟獲取各問題語料 對應的斷句:首先,上述電子設備可以對第一問題語料進行分詞處理,獲取由n個詞組成的第一問題語料,這里的第一問題語料可以為上述問題語料庫中的任一問題語料,n為自然數;之后,上述電子設備可以在第一問題語料中取第1~i個詞,生成第i個斷句;最后,根據上述方法生成上述第一問題語料對應的n個斷句,1≤i≤n。上述電子設備可以利用上述方法生成問題語料庫中各問題語料對應的斷句。例如,若上述第一問題語料為“這手機是金屬機身嗎”,首先可以將該第一問題語料進行分詞處理,得到分詞結果為“這手機是金屬機身嗎”,由此可見,該第一問題語料包括6個詞,而后可以獲取上述第一問題語料對應的6個斷句,該第一問題預料的6個斷句分別為:“這”、“這手機”、“這手機是”、“這手機是金屬”、“這手機是金屬機身”、“這手機是金屬機身嗎”,并且其中的“這手機是金屬機身嗎”可以認為是斷句的一種。
步驟303,根據斷句中包含詞的數目以及該斷句對應的完整語句包含詞的數目,確定各斷句的分值。
在本實現方式中,基于步驟302獲取的第一問題語料以及第一問題語料對應的斷句,上述電子設備可以確定各斷句以及該斷句對應的完整語句所包含詞的數目,進而將各斷句中所包含的詞數除以該斷句對應的完整語句所包含的詞數,得到的分值即為該斷句為完整語句的概率。以第一問題語料“這手機是金屬機身嗎”和其對應的斷句“這手機是”和“這手機是金屬機身嗎”為例,上述第一問題語料包含的詞數為6,其對應的上述斷句包含的詞數為3和6,由此可見,用于表征上述兩個斷句為完整語句概率的分值為0.5和1。
步驟304,確定各斷句的漢語言模型對應的概率和循環神經網絡語言模型對應的概率。
在本實現方式中,上述電子設備利用漢語言模型和循環神經網絡語言模型,分別確定各斷句的為完整語句的概率。此方式與現有技術中的僅通過漢語言模型確定完整語句概率的方式相比,可以有效地避免因數據稀疏導致的模型準確率低的問題。
步驟305,以各斷句的概率以及該斷句的分值為訓練樣本,訓練 得到斷句識別模型。
在本實現方式中,基于步驟303確定的各斷句的分值和步驟304確定的各斷句的漢語言模型對應的概率和循環神經網絡語言模型對應的概率,上述電子設備可以采用線性回歸算法等訓練生成上述斷句識別模型。這里的斷句識別模型可以是形如y=f(x1,x2)的公式,其中,x1、x2分別指任一語句的漢語言模型對應的概率和循環神經網絡語言模型對應的概率,y為該語句為完整語句的概率。
本申請的上述實施例的實現方式提供的斷句識別模型的訓練方法,對問題語料庫中的各問題語料分詞處理以獲取各問題語料對應的斷句,而后獲取各斷句的分值、漢語言模型對應的概率以及循環神經網絡語言模型對應的概率作為訓練數據,最后采用線性回歸算法等訓練上述訓練數據訓練獲得斷句識別模型,該斷句識別模型融合了漢語言模型和循環神經網絡語言模型的優點,可以有效地提高人機智能問答系統判斷當前語句為完整語句的準確率。
進一步參考圖4,其示出了人機智能問答系統的斷句識別方法的又一個實施例的流程400。該人機智能問答系統的斷句識別方法的流程400,包括以下步驟:
步驟401,接收用戶輸入的當前語句。
在本實施例中,人機智能問答方法運行于其上的電子設備(例如圖1所示的服務器)可以通過有線連接方式或者無線連接方式從用戶利用其進行人機智能問答的終端接收用戶輸入的當前語句。
步驟402,將當前語句輸入預先訓練的斷句識別模型得到當前語句為完整語句的第一概率。
在本實施例中,人機智能問答系統的斷句識別方法運行與其上的電子設備可以將用戶輸入的當前語句輸入上述訓練的斷句識別模型,以獲取上述當前語句為完整語句的第一概率。這里的該斷句識別模型可以用于根據用戶輸入的當前語句的漢語言模型對應的概率和循環神經網絡語言模型對應的概率確定當前語句為完整語句的第一概率。
步驟403,若第一概率大于預設的第一閾值,則確定當前語句為完整語句。
在本實施例中,人機智能問答系統的斷句識別方法運行與其上的電子設備可以預先設置一個第一閾值,而后基于步驟402獲得的上述當前語句為完整語句的第一概率,上述電子設備可以判斷該第一概率與上述第一閾值的大小關系,如果上述第一概率大于預設的第一閾值,則可以認為上述當前語句為完整語句。
步驟404,基于循環神經網絡語言模型,確定當前語句的第一個詞出現在與當前語句相鄰的上一句中的第二概率。
在本實施例中,基于步驟403確定的當前語句為完整語句,上述電子設備可以首先獲取與上述當前語句相鄰的上一句以及當前語句中的第一個詞,而后采用循環神經網絡模型預測當前語句的第一個詞出現在與當前語句相鄰的上一句中的第二概率。
步驟405,若第二概率大于預設的第二閾值,則確定當前語句和與當前語句相鄰的上一句均為斷句。
在本實施例中,上述電子設備可以預先設置一個第二閾值,之后將上述第二概率與第二閾值相比較。如果比較結果為第二概率大于上述第二閾值,則可以認為上述當前語句和與當前語句相鄰的上一句均為斷句。如果比較結果為第二概率小于或等于上述第二閾值,則可以認為與當前語句相鄰得上一句為完整語句。
步驟406,將當前語句與上一句相結合作為完整語句。
在本實施例中,基于步驟405確定的當前語句和與當前語句相鄰的上一句均為斷句,上述電子設備可以將當前語句和與當前語句相鄰的上一句相結合作為完整語句。由此可見,上述步驟404、405和406可以認為是對當前語句是否為完整語句的進一步判斷,可以進一步提高判斷當前語句為完整語句的準確率。并且該實施例實現了人機智能問答系統的多問一答的形式,即當用戶輸入大于一個斷句的情況下,人機智能問答系統可以只進行一次反饋回答。
從圖4中可以看出,與圖2對應的實施例相比,本實施例中的人機智能問答系統的斷句識別方法的流程400突出了對當前語句是否為完整語句的進一步判斷的步驟。由此,本實施例描述的方案可以通過循環神經網絡語言模型對當前語句是否為完整語句進行再次的判斷, 進一步地提高了判斷當前語句為完整語句的準確率。
進一步參考圖5,作為對上述各圖所示方法的實現,本申請提供了一種人機智能問答系統的斷句識別裝置的一個實施例,該裝置實施例與圖2所示的方法實施例相對應,該裝置具體可以應用于各種電子設備中。
如圖5所示,本實施例所述的人機智能問答裝置500包括:當前語句接收模塊501、第一概率獲取模塊502和完整語句確定模塊503。其中,當前語句接收模塊501配置用于接收用戶輸入的當前語句;第一概率獲取模塊502配置用于將上述當前語句輸入預先訓練的斷句識別模型得到該當前語句為完整語句的第一概率,其中,斷句識別模型用于根據上述當前語句的漢語言模型對應的概率和循環神經網絡語言模型對應的概率確定第一概率;完整語句確定模塊503配置用于若上述第一概率大于預設的第一閾值,則確定上述當前語句為完整語句。
在本實施例的一些可選的實現方式中,上述裝置500還包括第二概率確定模塊(未示出),配置用于基于循環神經網絡語言模型,確定上述當前語句的第一個詞出現在與該當前語句相鄰的上一句中的第二概率;若該第二概率大于預設的第二閾值,則確定當前語句和與該當前語句相鄰的上一句均為斷句;將上述當前語句與上述上一句相結合作為完整語句。
在本實施例的一些可選的實現方式中,上述裝置500還包括斷句識別模型建立模塊(未示出),配置用于建立斷句識別模型,該斷句識別模型建立模塊包括:問題語料庫獲取單元(未示出),配置用于獲取問題語料庫,其中,問題語料庫包括多個問題語料,各問題語料為完整語句;斷句生成單元(未示出),配置用于對各問題語料分詞生成多個斷句;分值確定單元(未示出),配置用于根據上述斷句中包含詞的數目以及該斷句對應的完整語句包含詞的數目,確定各斷句的分值,其中,該分值用于表征與之對應的斷句為完整語句的概率;概率確定單元(未示出),配置用于確定各上述斷句的漢語言模型對應的概率和循環神經網絡語言模型對應的概率;斷句識別模型訓練單元(未示出),配置用于以各上述斷句的概率以及該斷句的分值為訓練樣本,訓練得 到斷句識別模型。
在本實施例的一些可選的實現方式中,上述斷句生成單元(未示出)配置具體用于:生成各問題語料的斷句,生成斷句的步驟包括:對第一問題語料進行分詞處理,獲取由n個詞組成的第一問題語料,其中,第一問題語料為上述問題語料庫中的任一問題語料,n為自然數;在上述第一問題語料中取第1~i個詞,生成第i個語句,其中,1≤i≤n;生成上述第一問題語料對應的n個斷句;基于上述生成斷句的步驟,生成上述問題語料庫中各第一問題語料對應的斷句。
在本實施例的一些可選的實現方式中,上述裝置500還包括斷句確定模塊(未示出)配置用于若上述第一概率小于或等于預設的第一閾值,則確定上述當前語句為斷句;生成提示用戶繼續輸入的提示信息。
本領域技術人員可以理解,上述人機智能問答系統的斷句識別裝置500還包括一些其他公知結構,例如處理器、存儲器等,為了不必要地模糊本公開的實施例,這些公知的結構在圖5中未示出。
下面參考圖6,其示出了適于用來實現本申請實施例的終端設備或服務器的計算機系統600的結構示意圖。
如圖6所示,計算機系統600包括中央處理單元(cpu)601,其可以根據存儲在只讀存儲器(rom)602中的程序或者從存儲部分608加載到隨機訪問存儲器(ram)603中的程序而執行各種適當的動作和處理。在ram603中,還存儲有系統600操作所需的各種程序和數據。cpu601、rom602以及ram603通過總線604彼此相連。輸入/輸出(i/o)接口605也連接至總線604。
以下部件連接至i/o接口605:包括鍵盤、鼠標等的輸入部分606;包括諸如陰極射線管(crt)、液晶顯示器(lcd)等以及揚聲器等的輸出部分607;包括硬盤等的存儲部分608;以及包括諸如lan卡、調制解調器等的網絡接口卡的通信部分609。通信部分609經由諸如因特網的網絡執行通信處理。驅動器610也根據需要連接至i/o接口605。可拆卸介質611,諸如磁盤、光盤、磁光盤、半導體存儲器等等,根據需要安裝在驅動器610上,以便于從其上讀出的計算機程序根據 需要被安裝入存儲部分608。
特別地,根據本公開的實施例,上文參考流程圖描述的過程可以被實現為計算機軟件程序。例如,本公開的實施例包括一種計算機程序產品,其包括有形地包含在機器可讀介質上的計算機程序,所述計算機程序包含用于執行流程圖所示的方法的程序代碼。在這樣的實施例中,該計算機程序可以通過通信部分609從網絡上被下載和安裝,和/或從可拆卸介質611被安裝。
附圖中的流程圖和框圖,圖示了按照本申請各種實施例的系統、方法和計算機程序產品的可能實現的體系架構、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段、或代碼的一部分,所述模塊、程序段、或代碼的一部分包含一個或多個用于實現規定的邏輯功能的可執行指令。也應當注意,在有些作為替換的實現中,方框中所標注的功能也可以以不同于附圖中所標注的順序發生。例如,兩個接連地表示的方框實際上可以基本并行地執行,它們有時也可以按相反的順序執行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執行規定的功能或操作的專用的基于硬件的系統來實現,或者可以用專用硬件與計算機指令的組合來實現。
描述于本申請實施例中所涉及到的模塊可以通過軟件的方式實現,也可以通過硬件的方式來實現。所描述的模塊也可以設置在處理器中,例如,可以描述為:一種處理器包括當前語句接收模塊、第一概率獲取模塊和完整語句確定模塊。其中,這些模塊的名稱在某種情況下并不構成對該模塊本身的限定,例如,當前語句接收模塊還可以被描述為“接收用戶輸入的當前語句的模塊”。
作為另一方面,本申請還提供了一種非易失性計算機存儲介質,該非易失性計算機存儲介質可以是上述實施例中所述裝置中所包含的非易失性計算機存儲介質;也可以是單獨存在,未裝配入終端中的非易失性計算機存儲介質。上述非易失性計算機存儲介質存儲有一個或者多個程序,當所述一個或者多個程序被一個設備執行時,使得所述設備:接收用戶輸入的當前語句;將所述當前語句輸入預先訓練的斷 句識別模型得到所述當前語句為完整語句的第一概率,其中,所述斷句識別模型用于根據所述當前語句的漢語言模型對應的概率和循環神經網絡語言模型對應的概率確定所述第一概率;若所述第一概率大于預設的第一閾值,則確定所述當前語句為完整語句。
以上描述僅為本申請的較佳實施例以及對所運用技術原理的說明。本領域技術人員應當理解,本申請中所涉及的發明范圍,并不限于上述技術特征的特定組合而成的技術方案,同時也應涵蓋在不脫離所述發明構思的情況下,由上述技術特征或其等同特征進行任意組合而形成的其它技術方案。例如上述特征與本申請中公開的(但不限于)具有類似功能的技術特征進行互相替換而形成的技術方案。