一種通話時延評估方法及裝置的制造方法
【專利摘要】本申請公開了一種通話時延評估方法,第一客戶端和第二客戶端通過通信網絡建立呼叫后,在第一客戶端發送和接收語音的同時緩存發送或接收的語音數據,從而獲得發送錄音和接收錄音;獲取發送錄音和接收錄音中的完整語段;對于發送錄音中每個完整語段i,標識完整語段i的持續語音片段的開始時刻TS_start(i)、持續語音片段的結束時刻TS_wait(i)和完整語段i的結束時刻TS_stop(i);對于接收錄音中每個完整語段j,標識完整語段j的語音開始時刻TR_start(j)。檢查該完整語段i的TS_start(i)到TS_stop(i)之間是否存在接收錄音中任一完整語段j的語音開始時刻TR_start(j),若存在,則確定該完整語段i的響應時延Delay(i)=TR_start(j)?TS_wait(i);若不存在,則確定該完整語段i的響應時延Delay(i)=0;根據所獲得的響應時延,過濾無效響應時延數據并運用直方圖統計方式估計通話時延的方法。本申請還公開了一種通話時延評估裝置。
【專利說明】
一種通話時延評估方法及裝置
技術領域
[0001 ]本申請涉及無線通信技術領域,尤其涉及一種通話時延評估方法及裝置。
【背景技術】
[0002]對于海量用戶的語音通話業務,語音質量監控是一項重要而復雜困難的任務,因為每次通話涉及不同的用戶終端、不同的數據鏈路路徑及網元,不同的網絡供應商,不同的語音信號處理過程。常規的評價語音通話指標主要包括:平均通話時長(ACD)、接通率(ASR)、平均主觀意見分(MOS)等。除此之外,通話時延也是影響通話雙方通話效果的重要因素。通話時延指的是當客戶端A和客戶端B進行無線通話時,聲音信號從客戶端A傳送到客戶端B所需要的時間。
[0003]通話時延過大將直接影響通話效率,讓說話人感覺交流不暢,時延嚴重情況下較難正常交流。當前,基于互聯網的VoIP業務已經被廣泛應用,而VoIP語音服務和2/3G網絡的交換線路(CS)語音業務一直共存并且互融互通,互聯網復雜的拓撲結構導致端到端的網絡時延存在極大的不確定性。通話時延和網絡時延的差別在于:網絡時延是數據包經過網絡傳輸所需要的時間,而通話時延包含網絡時延,另外,通話時延是聲音傳遞所需的時間,所以還包含了聲學采集播放設備的傳送時延。由于聲學采集播放時延相對網絡時延是一個比較穩定的參數,并且網絡時延占通話時延的比例較大,因此評估VoIP業務的通話時延,實際上主要考慮網絡通話中網絡時延的影響。
[0004]對于網絡時延測試,主要有兩個計算指標:I)單向時延(0WD,0neWay Delay)和往返時延(RTT,RoundTrip Time) C3OWD需要在發送和接收方時鐘同步情況下獲取數據發送和接收時間,而在當前互聯網環境下缺乏終端時鐘的同步要求,難以完成大規模的OWD計算,而RTT表示從發送端發送數據開始,到發送端收到來自接收端的確認(接收端收到數據后便立即發送確認),總共經歷的時延。
[0005]我們需要解決的問題是如何對海量實時通話進行通話時延分析,而這些通話有可能涉及不同網絡(例如VoIP to PSTN),并且通話雙方也可能位于不同地點,現有技術中沒有合適的通話時延評估方案。
【發明內容】
[0006]本發明提供了一種通話時延評估方法及系統,可以對實時通話進行有效的時延分析。
[0007]本發明的一個實施例提供了一種通話時延評估方法,包括:
[0008]第一客戶端和第二客戶端通過通信網絡建立呼叫后,在第一客戶端發送和接收語音的同時啟動雙向錄音以獲得發送錄音和接收錄音,獲取發送錄音和接收錄音中的完整語段;每一個所述完整語段包括一個持續語音片段及其之后的靜默時間;
[0009]對于發送錄音中的每個完整語段i,標識完整語段i的持續語音片段開始時刻TS_start(i)、持續語音片段結束時刻TS_wait(i)和完整語段i結束時刻TS_stop(i),i為發送錄音中完整語段的序號;標識接收錄音中每個完整語段j的持續語音片段的開始時刻TR_start(j),j為接收錄音中完整語段的序號;
[0010]對于發送錄音中每個完整語段i,檢查該完整語段i的TS_start(i)到TS_stop(i)之間是否存在接收錄音中任一完整語段j的TR_start(j),若存在,則確定該完整語段i的響應時延Delay(i) = TR_start( j)_TS_wait(i);若不存在,則確定該完整語段i的響應時延Delay(i) =0;
[0011 ]根據所獲得的響應時延估計通話時延。
[0012]本發明的另一個實施例提供了一種通話時延評估裝置,包括:
[0013]錄音模塊,用于在本客戶端與其他客戶端通過通信網絡建立呼叫后,在本客戶端發送和接收語音的同時啟動雙向錄音以獲得發送錄音和接收錄音;
[0014]完整語段標識模塊,用于獲取發送錄音和接收錄音中的完整語段;每一個所述完整語段包括一個持續語音片段及其之后的靜默時間;
[0015]時間標識模塊,用于標識發送錄音中每個完整語段i的持續語音片段的開始時刻TS_start(i)、持續語音片段的結束時刻TS_wait(i)和完整語段i結束時刻TS_stop(i),i為發送錄音中完整語段的序號;標識接收錄音中完整語段j的持續語音片段的開始時刻TR_start(j),j為接收錄音中完整語段的序號;
[0016]響應時延計算模塊,用于針對發送錄音中每個完整語段i,檢查該完整語段i的TS_start(i)到TS_stop(i)之間是否存在接收錄音中任一完整語段j的TR_start( j),若存在,則確定該完整語段i的響應時延Delay (i) =TR_start( j )-TS_wait(i);若不存在,則確定該完整語段i的響應時延Delay(i) =0;
[0017]通話時延模塊,用于根據所獲得的響應時延估計通話時延。
[0018]從以上技術方案可以看出,在通話客戶端中獲取發送錄音和接收錄音的完整語段,將發送錄音的結束時刻與接收錄音的起始時刻之間的間隔作為響應時延,并進一步得到通話時延。從整體宏觀數據而言,正常人的聽說響應差異偏差值相對于通話時延要小,因此該方案得到的通話時延估計值具有較高可信度,可用于對網絡時延進行評估。該方案僅用于單側客戶端,對于通話涉及的網絡沒有限定,對于通話雙方的地點也沒有要求,可以用于海量實時通話的的時延分析。
【附圖說明】
[0019]為了更清楚的說明本發明實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡單的介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來說,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其它的附圖。其中,
[0020]圖1為本發明實施例所涉及的實施環境示意圖。
[0021 ]圖2A為本發明實施例提供的一種通話時延評估方法流程圖;
[0022]圖2B為本發明實施例提供的一種通話時延評估方法流程示意圖;
[0023]圖3為圖2所示流程中步驟202-203的實施過程中語音信號的處理示意圖;
[0024]圖4為本發明實施例中的有效的響應時延直方圖;
[0025]圖5為本發明實施例提供的通話時延評估裝置示意圖。
[0026]圖6為本發明另一實施例提供的通話客戶端示意圖。
【具體實施方式】
[0027]下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是本發明一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。
[0028]圖1為本發明實施例所涉及的實施環境示意圖。參見圖1,該通話時延評估系統包括:第一客戶端101、網絡102和第二客戶端103。第一客戶端101和第二客戶端103之間通過網絡102建立通話鏈路,其中,該通話鏈路在網絡102可以途經一種或多種類型的通信網絡,包括但不限于交換線路、2G/3G/4G/5G移動網絡、互聯網等,本發明對此不作限定。較佳地,所述客戶端為智能手機。
[0029]本發明是一種基于通話行為分析的通話往返時延估計方案,無需專業測量儀器、無需修改通訊協議,可以監控每路通話的時延情況。例如,第一客戶端101和第二客戶端103雙方通話,當第一客戶端101發起語音通話后,第二客戶端103可能有三種狀態:聽后回應、靜默無言、未等第一客戶端101說完搶話。從正常通話行為分析,“聽后回應”的概率是最大的,其響應時延可用如下公式計算:
[0030]聽后回應的響應時延=通話時延+人的聽說響應時間;
[0031 ]而“人的聽說響應時間”可以使用一個經驗值代替。
[0032]因此,如果統計出“聽后回應”場景的響應時延,則可以得到:
[0033]通話時延估計值=響應時延-人的聽說響應時間。
[0034]由于人的聽說響應時間會根據每個個體存在差異,但是從整體宏觀數據而言,正常人的聽說響應差異偏差值相對于通話時延要小,所以本方案用于判別通話時延是否超大異常,用于定位網絡問題應該是可行的。
[0035]本發明方案是基于通話雙方其中一個終端的發送、接收方向的錄音文件進行分析,從而得到響應時間;通過統計方法得到概率最大的響應時間,即B方“聽后回應”的響應時間,進而可以估計通話時延值。
[0036]本發明實施例提供的一種通話時延評估方法流程如圖2A所示,包括:
[0037]步驟201a:第一客戶端和第二客戶端通過通信網絡建立呼叫后,在第一客戶端發送和接收語音的同時啟動雙向錄音以獲得發送錄音和接收錄音,獲取發送錄音和接收錄音中的完整語段;每一個所述完整語段包括一個持續語音片段及其之后的靜默時間;
[0038]步驟202a:對于發送錄音中的每個完整語段i,標識完整語段i的持續語音片段的開始時刻TS_start(i)、持續語音片段的結束時刻TS_wait(i)和完整語段i結束時刻TS_stop(i),i為發送錄音中完整語段的序號;標識接收錄音中每個完整語段j的持續語音片段的開始時刻TR_start(j),j為接收錄音中完整語段的序號;
[0039]步驟203a:對于發送錄音中每個完整語段i,檢查該完整語段i的TS_start(i)到TS_stop(i)之間是否存在接收錄音中任一完整語段j的TR_start(j),若存在,則確定該完整語段i的響應時延Delay(i) = TR_start( j)-TS_wait(i);若不存在,則確定該完整語段i的響應時延Delay(i) =0;
[0040]步驟204a:根據所獲得的響應時延估計通話時延。
[0041]在上述流程中,在通話客戶端中獲取發送錄音和接收錄音的完整語段,將發送錄音中持續語音片段的結束時刻與接收錄音中持續語音片段的起始時刻之間的間隔作為響應時延,并進一步得到通話時延。從整體宏觀數據而言,正常人的聽說響應差異偏差值相對于通話時延要小,因此該方案得到的通話時延估計值具有較高可信度,可用于對網絡時延進行評估。該方案僅用于單側客戶端,對于通話涉及的網絡沒有限定,對于通話雙方的地點也沒有要求,可以用于海量實時通話的時延分析。
[0042]以下對該方案進行進一步詳述。
[0043]本發明實施例提供的又一種通話時延評估方法流程如圖2B所示,包括如下步驟:
[0044]步驟201b:第一客戶端和第二客戶端通過通信網絡建立呼叫,在其中一個客戶端(例如第一客戶端)發送和接收語音的同時緩存發送或接收的語音數據,分別得到發送錄音和接收錄音。
[0045]步驟202b:分別對發送、接收錄音進行語音活動檢測(Vo i ce ActivityDetect1n,VAD),標識得到大小不等的語音塊。
[0046]步驟203b:對時間間隔小于第一閾值的語音塊進行合并,分別得到發送、接收錄音中的完整語段。每一個所述完整語段包括一個持續語音片段及其之后的靜默時間;其中,持續語音片段即前述相互合并后的語音塊。
[0047]在本實施例中,第一閾值取為50至100個語音幀。如每幀時長為20ms,第一閾值的時長為I秒至2秒。
[0048]圖3給出了上述步驟202-203的實施過程中語音信號的處理示意圖。原始語音信號如圖3(a)所示,首先做語音活動檢測,標識出每個語音小塊,如圖3(b)所示;然后將時間間隔小于第一閾值的語音塊合并,得到完整語段的持續語音片段,如圖3(c)所示,將持續語音片段加上下一語段前的靜默部分就得到完整語段,如圖3(d)所示。
[0049]所述完整語段指的是通話的一方一次連續說話的語音,其中可能包括一個或若干的自然語句。
[0050]通常,一次完整通話可以看作通話雙方交替進行發言。其中,任一次發言可以包括一個或多個完整語段。一次發言包括一個完整語段就是說話的一方在此次發言中沒有停頓,直到把話說完,然后等待另一方發言,這是比較普遍的情形;一次發言包括多個完整語段的情況則可能有:
[0051]第一用戶發言完畢后停止說話,第二用戶沒有發言,第一用戶等待一段時間后繼續發g ;
[0052]第一用戶發言本身存在停頓。
[0053]只有在雙方交替發言時聽后回應的響應時延才用于統計通話時延,單方說話過程中的停頓與通話時延無關,需要排除。
[0054]步驟204b:標識發送錄音的每個完整語段的持續語音片段開始時刻TS_start(i),持續語音片段結束時刻TS_wait(i),完整語段結束時刻(也是下一個完整語段語音開始時刻)TS_stop(i),i為發送錄音完整語段序號。
[0055]本發明的一個實施例給出了一種識別完整語段的處理過程:一個完整語段檢測即識別語段的持續語音片段的開始點TS_start和持續語音片段結束點TS_wait:如果本幀前N幀VAD檢測的結果均為vad = 0(代表非語音),且本幀vad=l(代表語音),則本幀為完整語段的起點,本幀的起始時刻為該完整語段的起始時刻;如果本語音語句起始點已找到,且本幀vad = I而后N幀均vad = O,則本幀的下一幀為語音語句的結束點,本幀的下一幀的起始時刻作為本完整語段的結束時刻,此時一個完整語音語句判斷結束,后續繼續下一個語音語句判決,下一個語句的開始點即為上一語句的TS_stop。在發送錄音的TS_start和TS_stop時間范圍內,TS_wait和接收錄音的TR_start之差為該段語音語句響應時延Delay。其中N大于或等于100。
[0056]步驟205b:標識接收錄音的每個完整語段的持續語音片段開始時刻TR_start(j),j為接收錄音完整語句序號。
[0057]步驟206b:計算每段發言的響應時延,具體包括:
[0058]檢查TS_start(i)到TS_stop(i)之間是否存在TR_start(j),若有則Delay(i)=TR_start( j)_TS_wait(i);若無,貝ljDelay(i)=0。該步驟的目的就是僅計算雙方交替發言時聽后回應的響應時延,而不計入單方發言過程中的停頓。
[0059]步驟207b:統計獲得的非零響應時延的分布,將其中的統計峰值作為響應時延估計,將響應時延估計值減去反應時延,所得結果作為通話時延。
[0060]較佳地,排除小于第二閾值,或者大于第三閾值的響應時延值,從而過濾無效響應時延值。
[0061 ] 例如[100ms,3000ms]范圍內才是有效響應時延值,根據經驗,通話時延值不會小于某個經驗值,例如小于I OOms,而小于I OOms的De lay極可能是因為B方搶話的場景,所以可以過濾掉,而時延大于某個較大的正常經驗值,極可能是B方沒有及時響應,跟響應時間無關,所以可以過濾掉。而過濾后剩下的則為可以作為直方圖統計的有效數據,基于直方圖統計,峰值對應的時延值為響應時間值,本實施例中,第二閾值為10ms,第三閾值為3000ms。在其他實施例中,第二閾值和第三閾值也可以取為其他值。第二閾值和第三閾值的具體取值需要根據網絡傳輸方式而定,可基于經驗和先驗測試數據而定。
[0062]該步驟中,可以用所述非零響應時延做出直方圖,從而獲得統計峰值。如圖4所示,直方圖峰值處的時延為130Ims,而人的響應時間經驗值約為300ms,則通話時延估計值為1001ms,而通過專業儀器測量結果為960ms,由此可知本方案的通話時延估計值具有較高可信度,可用于判別網絡時延的好與差。
[0063]本發明另一個實施例提出了一種通話時延評估裝置,該裝置位于通話客戶端,如圖5所示,包括:
[0064]錄音模塊501,用于在本客戶端與其他客戶端通過通信網絡建立呼叫后,在本客戶端發送和接收語音的同時啟動雙向錄音;
[0065]完整語段標識模塊502,用于獲取發送、接收錄音中的完整語段;
[0066]時間標識模塊503,用于標識發送錄音的每個完整語段的持續語音片段的開始時亥ljTS_start(i),持續語音片段的結束時刻TS_wait(i),完整語段結束時刻(也是下一個完整語段語音開始時刻)TS_stop(i),i為發送錄音完整語段序號;標識接收錄音的每個完整語句語音開始時刻TR_start( j),j為接收錄音完整語句序號;
[0067]響應時延計算模塊504,用于檢查TS_start( i)到TS_stop(i )之間是否存在TR_start( j),若有,則響應時延Delay(i) = TR_start(j)_TS_wait(i);若無,則響應時延Delay(i)=0;
[0068]響應時延估計模塊505,用于統計獲得的非零響應時延的分布,將其中的統計峰值作為響應時延估計值;
[0069]通話時延模塊506,用于將響應時延估計值減去反應時延,所得結果作為通話時延輸出。
[0070]在本發明的另一實施例中,所述完整語段標識模塊502進一步包括:
[0071]檢測單元,用于分別對發送、接收錄音進行語音活動檢測,標識得到的語音塊;
[0072]合并單元,用于對時間間隔小于第一閾值的語音塊進行合并,分別得到發送、接收錄音中的完整語段。
[0073]較佳地,所述第一閾值的取值范圍為:1秒至2秒。
[0074]較佳地,所述時間標識模塊503標識發送錄音的每個完整語段語音開始時刻TS_start(i),語音結束時刻TS_wait(i)包括:如果本幀前N幀語音活動檢測的結果均為非語音,且本幀為語音,則本幀的起始時刻為該完整語段的語音起始時刻;以及,
[0075]如果本完整語段的語音起始時刻已找到,且本幀為語音而后N幀均為非語音,則本幀的下一幀的語音起始時刻作為本完整語段的結束時刻。
[0076]在本發明的另一實施例中,所述響應時延估計模塊505進一步包括:排除單元,用于排除小于第二閾值,或者大于第三閾值的響應時延值。
[0077]較佳地,所述第二閾值為100毫秒,所述第三閾值為3000毫秒。
[0078]在本發明的另一實施例中,所述響應時延估計模塊505統計獲得非零響應時延的分布包括:用所述非零響應時延做出直方圖。
[0079]另外,在本發明各個實施例中的各模塊可以集成在一個處理單元中,也可以是各個模塊單獨物理存在,也可以兩個或兩個以上模塊集成在一個單元中。上述集成的單元既可以采用硬件的形式實現,也可以采用軟件功能單元的形式實現。
[0080]在一實施例中,通話客戶端可包括:處理器610、存儲器620、端口630、總線640語音接收器650和語音播放器660。。處理器610和存儲器620通過總線640互聯。處理器610可通過端口630接收和發送數據以實現網絡通信。以VoIP通話為例,語音接收器650接收通話客戶端外部的聲音信號,通過總線640到處理器610處轉換為音頻編碼(該音頻編碼的副本保存在存儲620即為發送語音)并封裝為語音報文,通過端口 630發送到對端的通話客戶端。端口630還接收來自對端通話客戶端的語音報文,該語音報文在處理器610處解封裝還原為音頻編碼(該音頻編碼保存在存儲器620即為接收語音),通過總線640發送到語音播放器660還原為聲音信號播放。
[0081 ] 上述各模塊501?506可以是存儲器620中存儲的機器可執行指令模塊。處理器610通過執行存儲器620中各個模塊501?506中包含的機器可執行指令,進而能夠實現上述各模塊501?506的功能。
[0082]另外,本發明的每個實施例可以通過由數據處理設備如計算機執行的數據處理程序來實現。例如,在智能手機中安裝微信app,通過使用其中的視頻通話或者語音通話功能即可實現不同智能手機之間的語音通話,在這一應用場景下,本實施例中的通話時延評估裝置可以由微信app中的功能模塊來實現。
[0083]顯然,數據處理程序構成了本發明。此外,通常存儲在一個存儲介質中的數據處理程序通過直接將程序讀取出存儲介質或者通過將程序安裝或復制到數據處理設備的存儲設備(如硬盤和/或內存)中執行。因此,這樣的存儲介質也構成了本發明。存儲介質可以使用任何類型的記錄方式,例如紙張存儲介質(如紙帶等)、磁存儲介質(如軟盤、硬盤、閃存等)、光存儲介質(如CD-ROM等)、磁光存儲介質(如MO等)等。
[0084]因此,本發明還公開了一種存儲介質,其中存儲有數據處理程序,該數據處理程序用于執行本發明上述方法的任何一種實施例。
[0085]應當理解,雖然本說明書是按照各個實施方式描述的,但并非每個實施方式僅包含一個獨立的技術方案,說明書的這種敘述方式僅僅是為清楚起見,本領域技術人員應當將說明書作為一個整體,各實施方式中的技術方案也可以經適當組合,形成本領域技術人員可以理解的其他實施方式。
[0086]以上所述僅為本申請的較佳實施例而已,并不用以限制本申請的保護范圍,凡在本申請技術方案的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本申請保護的范圍之內。
【主權項】
1.一種通話時延評估方法,其特征在于,包括: 第一客戶端和第二客戶端通過通信網絡建立呼叫后,在第一客戶端發送和接收語音的同時緩存發送或接收的語音數據,從而得到發送錄音和接收錄音;獲取發送錄音和接收錄音中的完整語段;每一個所述完整語段包括一個持續語音片段及其之后的靜默時間; 對于發送錄音中的每個完整語段i,標識完整語段i的持續語音片段的開始時刻TS_start(i)、持續語音片段的結束時刻TS_wait(i)和完整語段i結束時刻TS_stop(i),i為發送錄音中完整語段的序號;標識接收錄音中每個完整語段j的開始時刻TR_start(j),j為接收錄音中完整語段的序號; 對于發送錄音中每個完整語段i,檢查該完整語段i的TS_start(i)到TS_stop(i)之間是否存在接收錄音中任一完整語段j的TR_start(j),若存在,則確定該完整語段i的響應時延Delay(i) =TR_start( j)_TS_wait(i);若不存在,則確定該完整語段i的響應時延Delay(i)=0; 根據所獲得的響應時延估計通話時延。2.根據權利要求1所述的方法,其特征在于,所述根據所獲得的響應時延估計通話時延,包括: 統計得到所確定的各完整語段i的響應時延Delay(i)中取值非零的各響應時延Delay(i)的分布,將其中的統計峰值作為響應時延估計值; 將響應時延估計值減去反應時延,所得結果作為通話時延。3.根據權利要求1所述的方法,其特征在于,所述獲取發送錄音和接收錄音中的完整語段包括: 分別對所述發送錄音和所述接收錄音進行語音活動檢測,標識得到各個語音塊; 對于所述發送錄音和所述接收錄音分別做如下處理: 對相鄰語音塊之間時間間隔小于第一閾值的至少兩個連續語音塊進行合并以得到完整語段;所述完整語段為一個語音塊,且該語音塊與相鄰的其他語音塊之間時間間隔大等于第一閾值。4.根據權利要求3所述的方法,其特征在于,所述第一閾值的取值范圍為:I秒至2秒。5.根據權利要求1所述的方法,其特征在于,所述標識發送錄音中每個完整語段i的開始時刻TS_start(i),結束時刻TS_wait(i),包括: 對于每個完整語段i,執行如下處理: 如果本幀前N幀語音活動檢測的結果均為非語音,且本幀為語音,則本幀的起始時刻為該完整語段的起始時刻;其中,N為預設的大于零的整數;以及, 如果本完整語段的起始時刻已找到,且本幀為語音而后N幀均為非語音,則將本幀的下一幀的起始時刻作為本完整語段的結束時刻。6.根據權利要求5所述的方法,其特征在于,所述N大于或等于100。7.根據權利要求2所述的方法,其特征在于,在所述統計得到所確定的各完整語段i的響應時延Delay (i)中取值非零的各響應時延Delay (i)的分布之前,進一步包括: 從所確定的各完整語段i的響應時延Delay(i)中,排除取值小于第二閾值或者大于第三閾值的響應時延。8.根據權利要求7所述的方法,其特征在于,所述第二閾值為100毫秒,所述第三閾值為3000毫秒。9.根據權利要求1所述的方法,其特征在于,所述所述統計得到所確定的各完整語段i的響應時延Delay (i)中取值非零的各響應時延Delay (i)的分布,包括: 用所述取值非零的各響應時延Delay(i)做出直方圖; 其中,將所述直方圖中的統計峰值作為所述響應時延估計值。10.一種通話時延評估裝置,其特征在于,包括: 錄音模塊,用于在本客戶端與其他客戶端通過通信網絡建立呼叫后,在本客戶端發送和接收語音的同時啟動雙向錄音以獲得發送錄音和接收錄音; 完整語段標識模塊,用于獲取發送錄音和接收錄音中的完整語段;每一個所述完整語段包括一個持續語音片段及其之后的靜默時間; 時間標識模塊,用于標識發送錄音中每個完整語段i的持續語音片段的開始時刻TS_start(i)、持續語音片段的結束時刻TS_wait(i)和完整語段i的結束時刻TS_stop(i),i為發送錄音中完整語段的序號;標識接收錄音中完整語段j的持續語音片段的開始時刻TR_start(j),j為接收錄音中完整語段的序號; 響應時延計算模塊,用于針對發送錄音中每個完整語段i,檢查該完整語段i的TS_start(i)到TS_stop(i)之間是否存在接收錄音中任一完整語段j的TR_start( j),若存在,則確定該完整語段i的響應時延Delay (i) =TR_start( j )-TS_wait(i);若不存在,則確定該完整語段i的響應時延Delay(i) =0; 通話時延模塊,用于根據所獲得的響應時延估計通話時延。11.根據權利要求10所述的裝置,其特征在于,所述通話時延模塊包括: 響應時延估計單元,用于統計得到所確定的各完整語段i的響應時延Delay(i)中取值非零的各響應時延Delay (i)的分布,將其中的統計峰值作為響應時延估計值; 計算單元,用于將響應時延估計值減去反應時延,所得結果作為通話時延輸出。12.根據權利要求10所述的裝置,其特征在于,所述完整語段標識模塊包括: 檢測單元,用于分別對發送錄音和接收錄音進行語音活動檢測,標識得到的各個語音塊; 合并單元,用于對相鄰語音塊之間時間間隔小于第一閾值的至少兩個連續語音塊進行合并以得到完整語段;所述完整語段為一個語音塊,且該語音塊與相鄰的其他語音塊之間時間間隔大等于第一閾值。13.根據權利要求10所述的裝置,其特征在于,所述響應時延估計模塊進一步包括:排除單元,用于排除小于第二閾值,或者大于第三閾值的響應時延值。
【文檔編號】H04L12/26GK105933181SQ201610281304
【公開日】2016年9月7日
【申請日】2016年4月29日
【發明人】梁俊斌
【申請人】騰訊科技(深圳)有限公司