本技術涉及語音識別領域,尤其涉及一種多路并發客服實時語音轉文字方法、系統及存儲介質。
背景技術:
1、隨著語音識別技術的發展,實時語音轉文字技術在提高客服效率、提升用戶體驗方面發揮了重要作用,客服人員能夠通過語音識別技術迅速獲取用戶的語音信息,并將其轉化為文本進行記錄和處理,在各個領域都得到了廣泛的應用。
2、在相關技術中,通常采用一個服務端接收客戶端發送的音頻,并對音頻進行語音轉文字得到文本結果,最后將文本結果發送給客戶端,完成實時語音轉文字。
3、然而,當數量過多的客戶端(客服)與服務端連接時,由于語音轉文字需要一定的時間處理,數量過多的客戶端同時進行語音轉文字會導致進程阻塞,服務端無法接收到客戶端發來的音頻,最終整體實時語音轉文字的效率變低,若為了識別更多客服的語音去對服務端進行擴容,又會導致成本較高。
技術實現思路
1、本技術提供了一種多路并發客服實時語音轉文字方法、系統及存儲介質,用于解決數量過多的客戶端同時進行語音轉文字會導致進程阻塞的問題。
2、第一方面,本技術提供了一種多路并發客服實時語音轉文字方法,應用于實時語音轉文字系統,該方法包括:
3、第一服務端接收第一客戶端發送的實時客服音頻;
4、第一服務端對實時客服音頻進行順序識別,得到目標音頻段和每個目標音頻段的順序標號;
5、第一服務端將目標音頻段按照順序標號存儲在消息隊列中;
6、第二服務端按照順序標號從消息隊列中獲取目標音頻段,并將目標音頻段按照順序標號輸入至語音識別模型中得到文本結果;
7、第三服務端從消息隊列中獲取文本結果并將文本結果發送至第二客戶端。
8、在上述實施例中,通過將客服實時音頻的接收、處理和轉換分為多個步驟,并在不同的服務端之間分工協作來完成,提高了客服系統處理大量并發語音請求的效率,通過第一服務端接收并順序識別實時客服音頻并存儲在消息隊列中,然后由第二服務端按順序標號從消息隊列中獲取并輸入語音識別模型得到文本結果,最終將文本結果發送至客戶端,確保了系統在高并發情況下依然能夠高效、準確地完成語音轉文字的任務,避免了傳統單一服務端方法中容易出現的進程阻塞和處理延遲問題。
9、結合第一方面的一些實施例,在一些實施例中,第一服務端對實時客服音頻進行順序識別,得到目標音頻段和每個目標音頻段的順序標號的步驟,具體包括:
10、第一服務端基于端點檢測算法對實時客服音頻進行端點檢測,得到實時客服音頻的全部語音端點,語音端點為實時客服音頻內語音部分的起始點和終止點;
11、第一服務端根據全部語音端點的位置將實時客服音頻切分為多個目標音頻段,并得到目標音頻段的順序標號。
12、在上述實施例中,通過基于端點檢測算法對實時音頻進行端點檢測,并根據語音端點的位置將音頻切分為多個目標音頻段,從而獲得每個音頻段的有效語音部分和順序標號,能夠準確識別并分割語音中的有效信息段,提升了音頻處理的精確性和效率。
13、結合第一方面的一些實施例,在一些實施例中,在第一服務端接收第一客戶端發送的實時客服音頻的步驟之后,方法還包括:
14、第一服務端根據所有服務端的負載情況計算出當前時間段內可以進行端點檢測的實時音頻數量;
15、當接收完成實時音頻數量的實時客服音頻時,第一服務端停止接收第一客戶端發送的實時客服音頻。
16、在上述實施例中,通過根據所有服務端的負載情況計算當前時間段內可以進行端點檢測的實時音頻數量,并在達到該數量后停止接收新的音頻,避免了因過多音頻同時處理造成的系統過載和性能下降,確保了系統在高并發情況下的穩定性和高效性。
17、結合第一方面的一些實施例,在一些實施例中,第二服務端按照順序標號從消息隊列中獲取目標音頻段,并將目標音頻段按照順序標號輸入至語音識別模型中得到文本結果的步驟,具體包括:
18、第二服務端獲取目標音頻段的音頻id,音頻id用于對屬于第一客戶端中同一話機的目標音頻段進行標識;
19、第二服務端按照順序標號從消息隊列中獲取目標音頻段;
20、第二服務端將目標音頻段按照順序標號輸入至語音識別模型中得到目標文本段;
21、第二服務端將音頻id相同的目標音頻段對應的目標文本段進行組裝,得到文本結果。
22、在上述實施例中,通過獲取目標音頻段的音頻id來標識屬于同一話機的音頻段,并按照順序標號依次進行處理和轉換,確保了音頻段在處理過程中的有序性和一致性,使用音頻id和順序標號的雙重標識機制,有效地避免了音頻段在傳輸和處理過程中的混淆和錯位問題,提升了語音識別的準確性和文本結果的完整性。
23、結合第一方面的一些實施例,在一些實施例中,在第二服務端按照順序標號從消息隊列中獲取目標音頻段,并將目標音頻段按照順序標號輸入至語音識別模型中得到文本結果的步驟之后,方法還包括:
24、第一服務端將目標音頻段輸入到情緒識別模型中,得到目標音頻段內對應的情緒狀態;
25、若情緒狀態為預設負面情緒狀態時,第一服務端發送實時提示信息至第一客戶端中的第一話機,第一話機為音頻id對應的話機。
26、在上述實施例中,通過第一服務端將目標音頻段輸入情緒識別模型,得到對應的情緒狀態,并在檢測到預設的負面情緒狀態時,向第一客戶端中的話機發送實時提示信息,能夠實時監控并識別客服和客戶的情緒狀態,尤其是負面的情緒狀態,從而及時采取相應的應對措施。
27、結合第一方面的一些實施例,在一些實施例中,第二服務端將音頻id相同的目標音頻段對應的目標文本段進行組裝,得到文本結果的步驟,具體包括:
28、第二服務端對目標音頻段中的人聲進行檢測,得到第一人聲和第二人聲;
29、第二服務端根據第一人聲的第一人聲名稱對第一人聲對應的目標音頻段進行標注,得到第一人聲文本;
30、第二服務端根據第二人聲的第二人聲名稱對第二人聲對應的目標音頻段進行標注,得到第二人聲文本;
31、第二服務端將第一人聲文本和第二人聲文本進行組裝,得到文本結果。
32、在上述實施例中,通過對目標音頻段中的人聲進行檢測,分別標注第一人聲和第二人聲的目標音頻段,并將其對應的文本段進行組裝,得到以對話形式存在的最終的文本結果,能夠準確區分客戶和客服交流的語音內容,確保了語音識別過程中的準確性和文本結果的清晰性。
33、結合第一方面的一些實施例,在一些實施例中,在第二服務端將音頻id相同的目標音頻段對應的目標文本段進行組裝,得到文本結果的步驟之后,方法還包括:
34、第二服務端對文本結果進行語義檢測,將文本結果中不符合預設詞匯數據庫中的詞語進行標識。
35、在上述實施例中,在第二服務端將音頻id相同的目標音頻段對應的目標文本段組裝為文本結果之后,還包括對文本結果進行語義檢測,并標識不符合預設詞匯數據庫中詞語的部分,可以識別和標記文本中的錯誤或不符合常規用語詞匯,方便后期人工對錯誤的部分進行修正。
36、第二方面,本技術實施例提供了一種實時語音轉文字系統,該實時語音轉文字系統包括:一個或多個處理器和存儲器;該存儲器與該一個或多個處理器耦合,該存儲器用于存儲計算機程序代碼,該計算機程序代碼包括計算機指令,該一個或多個處理器調用該計算機指令以使得該實時語音轉文字系統執行如第一方面以及第一方面中任一可能的實現方式描述的方法。
37、第三方面,本技術實施例提供一種包含指令的計算機程序產品,當上述計算機程序產品在實時語音轉文字系統上運行時,使得上述實時語音轉文字系統執行如第一方面以及第一方面中任一可能的實現方式描述的方法。
38、第四方面,本技術實施例提供一種計算機可讀存儲介質,包括指令,當上述指令在實時語音轉文字系統上運行時,使得上述實時語音轉文字系統執行如第一方面以及第一方面中任一可能的實現方式描述的方法。
39、可以理解地,上述第二方面提供的實時語音轉文字系統,第三方面提供的計算機程序產品和第四方面提供的計算機存儲介質均用于執行本技術實施例所提供的方法。因此,其所能達到的有益效果可參考對應方法中的有益效果,此處不再贅述。
40、本技術實施例中提供的一個或多個技術方案,至少具有如下技術效果或優點:
41、1、本技術通過將客服實時音頻的接收、處理和轉換分為多個步驟,并在不同的服務端之間分工協作來完成,提高了客服系統處理大量并發語音請求的效率,通過第一服務端接收并順序識別實時客服音頻并存儲在消息隊列中,然后由第二服務端按順序標號從消息隊列中獲取并輸入語音識別模型得到文本結果,最終將文本結果發送至客戶端,確保了系統在高并發情況下依然能夠高效、準確地完成語音轉文字的任務,避免了傳統單一服務端方法中容易出現的進程阻塞和處理延遲問題。
42、2、本技術通過獲取目標音頻段的音頻id來標識屬于同一話機的音頻段,并按照順序標號依次進行處理和轉換,確保了音頻段在處理過程中的有序性和一致性,使用音頻id和順序標號的雙重標識機制,有效地避免了音頻段在傳輸和處理過程中的混淆和錯位問題,提升了語音識別的準確性和文本結果的完整性。
43、3、本技術通過對目標音頻段中的人聲進行檢測,分別標注第一人聲和第二人聲的目標音頻段,并將其對應的文本段進行組裝,得到以對話形式存在的最終的文本結果,能夠準確區分客戶和客服交流的語音內容,確保了語音識別過程中的準確性和文本結果的清晰性。