一種聯合聲像信號進行活體檢測的方法和系統的制作方法
【技術領域】
[0001] 本發明屬于身份認證技術領域,具體涉及一種聯合聲像信號進行活體檢測的方法 和系統。
【背景技術】
[0002] 隨著電子商務的發展,互聯網交易的安全性成為了被日益關注的問題。特別是虛 擬銀行,虛擬證券等一系列金融平臺的陸續推出,對互聯網用戶的身份認證,提出了更高的 要求。
[0003] 傳統的身份認證技術包括"指紋識別","聲紋識別","人臉識別"等等,這些技術 能夠精確地辨別出用戶的靜態生物特征;但是一旦用戶的指紋,聲紋,臉部圖像等信息被竊 取,在虛擬的交易平臺上,這些技術將無法甄別出是被竊取的用戶信息。
[0004] 而活體檢測,為傳統的身份認證技術,提供了有利的補充。現有的活體檢測技術包 括"驗證碼輸入"和"表情識別"。具體地:
[0005] 在基于"驗證碼輸入"的活體檢測系統中,系統隨機分發一幅驗證碼(如字符串) 圖像,用戶在辨認圖像中的驗證碼之后,從鍵盤輸入一串和該驗證碼一致的字符文本,然后 提交給系統,進行活體驗證。這項技術在其面世初期,因其簡單有效,被廣泛使用,但是隨著 "光學字符識別(OCR) "的日益成熟,該技術已被逐漸破解。
[0006] 在基于"表情識別"的活體檢測系統中,系統隨機分發一個表情,用戶需要完成一 個相同的表情,通過網絡攝像頭,然后提交給系統,系統自動辨別用戶的臉部表情,進行活 體驗證。這項技術和人臉識別相結合,通過交互性的視屏認證,提供了更為安全的身份甄 另IJ。但是,本發明的發明人經過研宄發現,具有顯著區分性的表情(即能被系統自動區分的 表情),并且用戶容易完成的表情數目是有限的,通常這些表情也是經常出現在用戶的日常 生活之中的,因此一旦用戶的一段視屏被竊取,這項技術被破解的風險將大為提高;此外, 如果使用"表情串識別",減少因視頻被竊取所帶來的風險,對用戶而言,連續輸入多個表情 也是不自然的,因而這種方式明顯降低了用戶界面的友好性。
【發明內容】
[0007] 針對現有技術中"表情識別"技術存在的因用戶視頻被竊取所帶來的認證風險和 連續輸入多個表情會降低用戶界面友好性的技術問題,本發明提供一種聯合聲像信號進行 活體檢測的方法,為當前的互聯網交易提供了一個安全性能高且用戶界面友好的身份認證 技術。
[0008] 為了實現上述目的,本發明采用如下技術方案:
[0009] 一種聯合聲像信號進行活體檢測的方法,該方法包括以下步驟:
[0010] S1、為在互聯網交易中的用戶,隨機顯示一幅驗證碼圖像,提示用戶閱讀驗證碼;
[0011] S2、收集用戶閱讀驗證碼時的音頻信號和唇形影像;
[0012] S3、通過上下文模型從所述唇形影像中檢出唇語,比較該唇語與驗證碼是否一致, 如果一致,則通過語音識別從所述音頻信號中獲得用戶閱讀驗證碼時的時序信息;
[0013] S4、基于所述用戶閱讀驗證碼時的時序信息,對所述唇形影像進行分割,獲得用戶 閱讀驗證碼時的唇形影像片段,比較該唇形影像片段與驗證碼標準唇形片段的相似度,如 果該相似度大于指定的閾值,則通過活體檢測。
[0014] 本發明提供的聯合聲像信號進行活體檢測的方法,只需用戶讀出由活體檢測系統 隨機分發的驗證碼(如字符串),然后借助于語音識別得到的用戶閱讀驗證碼時的閱讀時 序信息,準確識別出用戶閱讀驗證碼時的唇語,通過比較唇語與驗證碼的一致性,進行活體 驗證。和現有技術"表情識別"相比,在本發明提供的活體檢測方法中,用戶閱讀的字符串, 具有"表情"無法達到的多樣性,基本上避免了因用戶視頻被竊取所帶來的認證風險;此外, 和"表情識別"相比,閱讀字符串,對用戶而言,提供了更為自然和友好的交互方式。
[0015] 進一步,所述步驟S2中收集用戶閱讀驗證碼時的唇形影像包括如下步驟:
[0016] S21、獲取用戶在閱讀驗證碼時的視頻信號;
[0017] S22、從每一幀視頻信號中檢測出用戶的臉部區域,從檢測出的臉部區域中使用 SDM算法進行人臉對齊及關鍵點提取,檢測出用戶的唇部區域,從而獲得用戶在閱讀驗證碼 時的唇形影像。
[0018] 進一步,所述步驟S3中通過上下文模型從所述唇形影像中檢出唇語,比較該唇語 與驗證碼是否一致包括如下步驟:
[0019] S311、從每幀唇形影像中,使用SDM算法檢測出唇部關鍵點,并對唇部關鍵點進行 旋轉校正和尺度歸一化;
[0020] S312、計算每幀唇形影像中,唇部關鍵點的位置坐標,作為描述當前幀唇形的靜態 特征;并計算每幀唇形影像中,唇部關鍵點在當前幀與前一幀的位移變化,作為描述當前幀 唇形變化的動態特征;
[0021] S313、運用連續隱馬爾科夫時間序列模型,逐幀解析每幀唇形影像,根據每幀唇形 影像的靜態特征及動態特征,判斷出當前幀所對應的標準字符唇形以及在標準字符唇形中 所處的時間狀態,串聯每幀的解析結果,即獲得唇形影像所代表的唇語;
[0022] S314、判斷從連續隱馬爾科夫時間序列模型獲得的置信度最高的前三條候補字符 串是否與驗證碼一致,如果前三條候補字符串中任意一條與驗證碼一致,則所述唇形影像 中檢出的唇語與驗證碼一致。
[0023] 進一步,所述步驟S3中通過語音識別從所述音頻信號中獲得用戶閱讀驗證碼時 的時序信息包括如下步驟:
[0024] S321、從所述音頻信號中提取每幀語音信號的MFCC特征以及MFCC特征在當前幀 與前一幀的差分,分別作為描述每幀語音信號的靜態特征及動態特征;
[0025] S322、運用連續隱馬爾科夫時間序列模型,逐幀解析語音信號的靜態特征及動態 特征,判斷出當前幀所對應的字符以及在該字符的標準語音信號中所處的時間狀態,串聯 每幀的解析結果,即獲得用戶音頻信號的語音識別;
[0026] S323、判斷從連續隱馬爾科夫時間序列模型獲得的語音識別結果是否與驗證碼一 致,如果一致,將用戶音頻信號的語音識別作為步驟S4中唇語驗證的輔助信息并執行步驟 S324 ;
[0027] S324、將步驟S322中運用連續隱馬爾科夫時間序列模型逐幀解析過程中獲取的 時間狀態序列進行檢測,獲得用戶在閱讀每個字符時的起止時間信息,將以此作為用戶閱 讀驗證碼時的時序信息。
[0028] 進一步,所述步驟S4具體包括如下步驟:
[0029] S41、基于語音識別獲得的時序信息,根據每個驗證碼閱讀時的起止時間信息,對 唇形影像進行分割,獲得用戶閱讀驗證碼時各字符對應的唇形影像片段;
[0030] S42、就各個分割的唇形影像片段,使用SDM算法檢測出分割片段中每幀唇形影像 的唇部關鍵點,并對唇部關鍵點進行旋轉校正和尺度歸一化;
[0031] S43、計算分割片段中每幀唇部關鍵點的位置坐標,作為描述該分割片段中每幀唇 形的靜態特征;并計算分割片段中每幀唇部關鍵點相對于前一幀的位移變化,作為描述該 分割片段中每幀唇形變化的動態特征;
[0032] S44、運用單字級別的獨立詞隱馬爾科夫時間序列模型,計算各個分割的唇形影像 片段中,各幀唇形的靜態特征和動態特征與該片段期望字符標準唇形間的相似度,如果該 相似度大于指定的第一閾值,則執行步驟S45 ;
[0033] S45、聯合所有兩個相鄰的分割唇形影像片段,作為雙字符的唇形影像片段,運用 雙字級別的獨立詞隱馬爾科夫時間序列模型,計算各個雙字符唇形影像片段中,各幀唇形 的靜態特征和動態特征與該片段所期望雙字符標準唇形間的相似度,如果該相似度大于指 定的第二閾值,則通過活體檢測。
[0034] 本發明還提供一種聯合聲像信號進行活體檢測的系統,該系統包括:
[0035] 驗證碼顯示模塊,用于為在互聯網交易中的用戶,隨機顯示一幅驗證碼圖像,提示 用戶閱讀驗證碼;
[0036] 音頻收集模塊,用于收集用戶閱讀驗證碼時的音頻信號;
[0037] 唇形收集模塊,用于收集用戶閱讀驗證碼時的唇形影像;
[0038] 一級唇語驗證模塊,用于通過上下文模型從所述唇形影像中檢出唇語,比較該唇 語與驗證碼是否一致;如果一致,則執行語音識別模塊;
[0039] 語音識別模塊,用于通過語音識別從所述音頻信號中獲得用戶閱讀驗證碼時的時 序信息;
[0040] 二級唇語驗證模塊,用于基于所述用戶閱讀驗證碼時的時序信息,對所述唇形影 像進行分割,獲得用戶閱讀驗證碼時的唇形影像片段,比較該唇形影像片段與驗證碼標準 唇形片段的相似度,如果該相似度大于指定的閾值,則通過活體檢測。
[0041] 本發明提供的聯合聲像信號進行活體檢測的系統,只需用戶讀出由活體檢測系統 隨機分發的驗證碼(如字符串),然后借助于語音識別得到的用戶閱讀驗證碼時的閱讀時 序信息,準確識別出用戶閱讀驗