專利名稱::一種會話機器人系統的制作方法一種魏WA^統脈領域本發明涉及仿人機器人領域,特別涉及一種^iS機器人系統。背景駄在很多公眾場合,設置了一些用于信息查詢的終端。其一般是由觸摸屏和電腦一起構成。由用戶ffl3i觸^64行查詢或者用鼠標、離鄉行查詢,不會植接通過射舌鄉行信息查詢。
發明內容本發明的目的是衝共一種鋭機器人系統,可以實JIA與機器人系統的直接對話,可應用于公眾場合用于咨詢。本發明的射刮幾器人系統,包括攝像頭及其驅動模塊、Al^跟宗和識別模塊、人臉表瞎識別模塊、語音拾取模塊、語音識別模塊、知識査詢模塊、語音生塊;攝像頭所捕獲的人臉圖像由人戯跟宗與識別模±央進行跟蹤與識別,并由媒表情識別模±央識別出表瞎,語音信號經由語音拾取模±央和語音識別模塊后識另咄語義,所述機器人系統根據媒的表瞎和/或語音來了解人的需求,然后艦知識査詢模棘形成鄉吾句,再艦語音生鵬塊生成語音與Ait行交流。上述^iS機器人系皿包括3D虛擬人模擬模塊,所述3D虛擬/J莫擬模塊在豐幾器A^統生成語音的同B射莫擬出人的表情及口型。,^i舌機器人系統還包括手^i只別模塊和手勢生i^i塊,可以方便與聾椏Ait行交流。與現有技術相比,本發明具有以下有益效果所述^iS機器人系統具剤艮強的視、聽、說、記憶功能。只要用戶和它對過一次話,它就能記住用戶的聲音,見過一次面便能認識用戶。它可以24小時晝夜鵬行簡單的對話和服務。所述^i刮幾器人系統具有語音識別和鵬能力,它倉嫩聽懂用戶的指令,具有較強的聊天功能,并且它具有一定的情感。機器人系統掌握了多種不同國家的語言,既可以是導游,又是翻譯,并且倉辦辦理各種業務,例如接待報案,查詢資料等。圖1是^i舌lfl器人系統的組自圖;圖2是AM對青識別模塊的示意圖;圖3是AMill^流程圖;圖4是AJtiilf、算法框圖5是Alii只別過程圖6是Alt圖像的帶循環植物示例((a)圖像/,(b)圖像/的一棵帶循環植物);圖7是鏈的示例((a)循環鏈,(b)S-鏈);圖8是搜索鏈遇到一個開始點的情況((a)帶循環植物i,(b)正在搜索的鏈,(c)修改后的帶循環植物i);圖9是帶循環植物不^)頃利生成的示例;圖10是一個值域塊由另外4個值域塊決定;圖11是定義域塊中值域謝立置的劃分;圖12是基于象素的8種旋轉變換;圖B是基于塊的8種旋轉變換;圖14是有限環上點/7的"和6因子計算;圖15是語義知識的三元組表示法的示意圖;圖16是語義網絡圖17是基于模式匹配的語音識另啲原理方框圖;屈18是語音合^l莫塊框架圖19是手^i只別模塊框架圖。硬件設計^i舌機器A^統由1臺高性能PC機、2個CCD攝像頭、5個直流伺服電機、1塊高3D5Ulii圖像輸入板和1塊數據采集卡、1個麥克風、2個揚聲器等組成,2個CCD攝像頭共有5個自由度,可模仿人的兩個目臓上、下、左、右運動,也可像人的脖子一樣作旋轉運動,itl^卩識別媒。攝像頭驅動模塊當用戶狄2個攝像頭的攝像區域時,通過攝像頭驅動模i央始纟^E用戶分別定位在2個攝像頭的取像中心,就像人的一雙眼睛。AJ^鵬是指在視頻流中實時地、連續地估計人臉的位置和方向,主要用于需要連續探測和識別媒的場所,AJ^i只別指將檢測至啲人臉圖像的特征信息,與己知媒的特征信息進行比較,從而判斷待識別Aflt是否為一個已知媒的過程,其目的是檢驗輸入圖像中的個體的身份。用戶與機器人系統交流過程中,機器人系統會自動地保留與用戶的對話記錄和用戶照片,隨著交流次數的增多,機器人系統會逐漸他熟悉用戶。通過AM識別禾M^模塊,就能快速地認出用戶,得到用戶的信息,就像見到熟悉的朋友一樣,識別出AJ^后,進一步對表瞎進行識別,對用戶的感進行分析。AJ^跟舒口識別功能模塊還能用于公司前臺人員的接待和監控,家庭防盜等。媒的鵬^i刮幾器人系鄉跟享媒的過程如圖3所示,媒的S跟宗功能作為較低層的功能主要為目標識別等高層功能服務,這要求跟蹤倉嫩快速地完成。本實施例采用以基于顏色的CamS礎5!lf、算法(ContinuouslyAdaptiveMeanShift)為基礎,結,征點足gi宗的方法,對運動目l^a行主動ig]l宗,鵬算法如圖4所示。(1)基于顏色的CamShiftjgj^算法CamShift可以基于招可從測^得到有效的概率分布對目標進行足H^。一般的方法是{頓直方圖反投影(backproject)生成2D的顏色概率分布圖。對于媒以及別的具有特定顏色的目標,顏色對旋轉、平移等目標運動相對不太敏感,所以顏色概率分布是一個合適的選擇。①顏色概率分布圖為了最^f號地M^光照變^^鵬穩定性的影響,首先將圖像從RGBfe^空間轉換到HSV色彩空間(H表示色調,S代表飽和度,V是亮度),然后只選擇在色調H分量中進行處理。在初始化時,假設圖像序列的某幅圖像僅包含所要足腺的目標諾還包含別的目標或背景,需先確定圖像的感興趣區域,使此區域僅包含目標或目標某部分),對此圖像統計H分量的直方圖和進行線性變換,將^l格對應的值轉換到的范圍。然后對序列后面的圖像縱H分量里,將上面得到的直方圖當作査找表,計算反投影圖。對原始圖像的每個像素,以像素值為索弓l査找對應的顏色直方圖箱格,再將直方圖的值作為與原圖像對應位置的反投影圖的像素值。這樣,在根據目標得到直方圖分布的條件下,反投影圖*像素的值相當于原圖像相應位置像素屬于目標的概率。目標或與目標有類i,色的區域,將具有最大的概率值。所以,反投影圖實際上就^M色的概率分布。②CamShift鵬算法首先,產生要S跟宇、目標的顏戰方圖模式,如A^跟享中的A^膚色。之后,對序列的每一幀,原始圖ftMiih述方法轉換成二維的顏色概率分布圖。CamShift算法對顏色概率圖進行處理,找到在當前幀中指定顏色的目標的中心和大小。同時,當前目標的大小和位置信息用于設置下一幀的搜索窗口的大小和位置。重復Jl^i程,就可以實現連續鵬艮蹤。具體算法如下1、設置圖像的感興趣區域(即包含目標的區域),用于計算概率分布;2、選擇用于二維MeanShift的搜索窗口的初始位置,即要J跟宗的目標位置;3、在中'C^于MeanShift搜索窗口、面積稍大于搜索窗口大小的2D區域中,計算顏色概率分布;4、ffl^ii代MeanShift算法,計算概率圖的質心,直到收斂或達到一定迭代次數。對于離散2D圖像概率分布,搜索窗口內的均值位置(質心)ffiil下列公式計算。下式中P0c,力是概率分布圖在Oc,力處的像素值,;c和y在搜索窗口范圍內取值;(a)零,M。。-ZZ尸(x,力(1)(b)x和;;的一,M,。=S2>P(x,_y),M。,-ZZ乂(x,力(2)(C)均值搜索窗口的質心Xc=i,>^=^"(3)^00似oo5、對于序列下一幀圖像(若是沒有下一幀圖像的話,貝lj結剌g^、過程),根據步驟4的結果,4鄉索窗口中心置于均值位置,并且將窗口大小設置為零附巨Moo(目標大小或面積)的函數,可以根據具體的目標進行調整。2D顏色概率分布圖的最大像素值是255,令"2Vii^7^。對于AJ^販宗而言,因為人斷似于橢圓形,則搜索窗口的寬度可以設為2^,高度設為2.%。為了計算窗口中心,s取m計算結果的最大奇數。然后再轉到步驟3。M3i計算二,巨,可以得到f戯腺目標的方向以及離質心的長度和寬度<formula>formulaseeoriginaldocumentpage6</formula>(4)<formula>formulaseeoriginaldocumentpage6</formula>距離質心的長度/和寬度w分別為_<formula>formulaseeoriginaldocumentpage6</formula>(2)基于特征點昨足li^(D1t征點的選擇在基辨征點的足跟宗中,特征點選擇是非常重要的一步。好的特征點可以提高S跟宗算法的魯棒性,4數跟宗算法更好虹作。本實施例采用Shi-Tomasi提出的特征點選取方法,這種方法可以在圖像中選取容易J1^的角點。設矩陣G=Z,其中^=厶、^=/分另提圖像總值/Cc,力對x和y的偏微分,W是以特征點Gc,力為中心的小圖像窗口,大小一般為3x3。義!和義2是矩陣G的特征值,A是予Bfe確定的閾值。若^和義2的最小值minU,,義2)>義,即可以認為此特征點適合用于足跟宇、。同時,可以M設置特征點之間的最小距離來控審膀征點的分布。麟!未找到弓睹源。特征點J跟算法特征點SgSl采用Bouguet提出的算法,這種方法在Lucas和Kanade提出的迭代^fe流算^S礎上,結合對圖像金字塔的多射,率表示由粗到精i艦行處理,實現魯棒的特魁販宗。設/和J是兩幅連續的二維灰度圖像,/0c,力和J0c,力分布表示這兩幅圖像的M值。令w/是圖像/上的一,征點,特征點足跟享的目的是在圖像J上找到一個位于v-n+^[^+4",4f的點,認為/(")和J(v)是相似的。偏移向量rf呵44/是在點"處的圖像皿,也就是光流場。由于孔徑問題,特征點的相似度需要在大小為(2m^+1)x(2wyH)的圖像鄰域(也稱為積分窗口)內進行計算。這樣,rf是使下面的相似度函數s取得最小值的向量,艮P<formula>formulaseeoriginaldocumentpage7</formula>(7)典型地,w和^可取值為2,3,4,5,6,7個像素。在本實施例中,w^和ny均取值為5。Lucas-Kanade算法艦離散空間被微^H十算偏移向量rf。根據(7)式,假設向量rf足夠小<formula>formulaseeoriginaldocumentpage7</formula>(8)可Mi^代的方式求解得到rf。這種方式可以得到較高的精確度,但受到位移向量不能太大的限制。^ffl分層處理的圖像金字t荅,可以在一定程度上突破這種限制。對圖像金字塔的各層都執fi^代式的Lucas-Kanade算法。首先從最高層(,率最低)開々誠行處理,然后將結果當作反饋傳播到下一層,類推,一直到原始圖像(金字塔0層)得到最后的結果。采用圖像金字塔的處理方式后,使Lucas-Kanade算法也能^ffl在像^iS動位移較大的情況,同時保持較高的精確度。在AIMR別中,由辨征點的m^需艦計算光流場,同時對多彿征點進行匹配,計算量相對基于顏色的跟蹤算法更大,并且對于人臉的檢測也采用了膚色模型,所以在對媒進行S腺時,決定以顏極跟5為主,在判斷顏極跟規時,再啟用特征點SgJ^,直到顏^跟f咴復正常。場只別如圖5所示,人J^i只別過程包括如下步驟(1)訓練數據庫。l)計算各AJ險圖像的分形編碼;2)獲得帶循環植物;3)計算圖像上每塊的a和6因子,組成特征向量。向量的旨分量是a和6因子的二元組;上述步驟(1)所述計算各Ali圖像的分形編碼、獲得帶循環植物、計算圖像上每塊的"和6因子、組成特征向量包含如下步驟1)分形編碼與編碼圖像的圖形表示。它的基本思想是將輸入圖像/分割為不重疊的值域±央0—您ex及—5fee)和可重疊的定義域塊CD_SfeexZ)—Sze)。對于圖像/中的^值域塊凡,搜索所有的定義域i央,得到與之最匹配的塊馬及相應的^仿射變換『妙(&o())),使A通過釅可以重建i,(或者至少得到及,的一個近似)。變換過程可以表示為馬—馬,血i,,且W:及—及。也即及產『(辨&o(馬)),式中/w(A)表示馬在8個方向,行旋轉變換,A()表示幾何壓縮變換,將A的尺寸壓縮到與凡相同。『()表示皿變換,尋找^S的對比度因子"和亮度平移因子6。計算圖像/分形代碼的過禾忠就是求每個i,一A對變換信息5元組〈A的位置、A的位置、『、A、&0>的過程。2)編碼圖像的圖形表示一帶循環植物在分形編碼過程中沒有空間上壓縮(即/_5/^=/)—的特殊情況下,編碼圖像/可以表示為一系列不重疊的帶循環植物(circularplant)集合,如圖6所示。帶循環植物是由尾端的閉環(稱為有限環,limitcycle)和由有限環生出的分枝(嫩枝2)組成。植物上的節點1是圖像/上的像素點《,*像素點屬于且僅屬于一棵帶循環植物;點《至lJ點/之間的邊表示從《點推出點的仿射變換釅,本實施例忽略了壓縮和旋轉變換。在這種情況下解碼過程是否收斂取決于剤艮環是否,。若收斂,-皿計算有限環上像素點的最終收斂吸引子就可以計算植物上所有點的吸引子。只需要2次迭代即可達到1頓常規方法迭代"碼時的效果。圖像不同時,w的取值也不同,一般不低于10次。3)沒有空間上壓縮時帶循環植物的計算假定輸入是編碼圖像/,輸出為圖像/的帶循環植物,貝殿有空間上壓縮時帶循環植物的計算方法如下步驟一任取一像素點xe圖像/,將其標識為開始點,計算從x開始的S-鏈,如圖7所示。6~鏈的計算M5l尋找JC的前點y來實現,y在與包含x的值敏央相X寸應的定義敏央中。找到y將^^示上帶循環植物的標志(帶循環植物一)加入鏈中。接著繼續尋找y的前點,重復這一過程,直到到達點x或某點z(z為已經搜索過的鏈中某一點)。如果到達點;c,說明該鏈是循環鏈,如圖6所示。取消點x的開始點標志,從點;c開始重M歷該鏈以獲得有限環;如果到達點z,說明點z是5-鏈的一個分枝點,此時從點z開始重新搜索該鏈,以找出有限環;步驟二取未標志過的一點;e圖像/,將其^i只為開始點計算鏈,直到下面任一種情況滿足為止。(1)該艦為一條&鏈。這種情況下,鶴于一棵新的帶循環植物,用新的植物標志標識紅的每一點。當然也要像步驟一中描述的那樣,找出它的有限環;(2)在該鏈的搜索過程中,碰到一個已經^iR31的點,但該點不是開始點。這種情況下,該鏈是一絲枝^t枝。用碰到點的帶循環植物標志標識該祉的每一點;(3)在該鏈的搜索過程中,碰到一個開始點。這種情況下,該鏈是包含碰至U點的分枝的一部分。取消碰到點的開始點標志(此時,該鏈的開始點成為碰到點所屬帶循環植物上一M枝的開始點),并用碰到點的帶循環植物標志標識該鏈上的每一點,如圖8所示;步驟三重復步驟二,直到編碼圖像/中所有的點都被標志過為止。4),的帶循環植物及其計算當下述充分條件滿足時,值域塊可以代替單個像素作為基元,成為帶循環植物中的點(1)及_您6=5_您^(2)定義J^吩不重疊,定義^tNt鵬;(3)計算分形代碼的過程中,將對比度因子控制在(O,l)之間。^fKl)保證了沒有空間上的壓縮。條併2)保證了帶循環植物上的點都是己定義的值域塊。當像素點作為基元時,在帶循環植物中表承'邊"的仿射變換是從一個像素到另一個像氣即仿射變換的值概卩定義域相同。同理,當±刺乍為基元時,也應保證仿射變換的兩端取值范圍相同。如圖9所示,定義敏央重疊劃分。取未標志過的點/,,將其標識為開始點,找到與i,匹配的定義域塊A。A所在位置對應值域塊&,i^也是一個沒有被fei只過的點,將它加入鏈中,繼續尋找它的前點得到A。但是A所處位置沒有定義的值敏央與;t^應,后續操作無法進行,不能生成帶循環植物。^fK3條證了解碼迭代收斂。當某個值域塊凡與定義Wfe中所有定義域塊進行灰度變^f導到的對比度因子都不在(0,l)之間時,默認取其相鄰前一值Jg&t央i^對應的A作為尺的匹配塊。5)有空間上壓縮時帶循環植物計算當下述充分條件滿足時,值域塊可以代替單個像素作為基元,成為帶循環植物中的點(1)gx及一Sfeex及一您e-D—您exD—您e,其中g為倍數(只討論^=4);(2)定義域1效U分重疊,在水平或垂直方向上重疊相鄰塊的一半,即重疊部分為值鄉央大小;(3)計算分形代碼的過程中,將對比度因子控制在(O,l)之間。條併1)保證了有空間上的壓縮。此時與/,匹配的馬將是i,的4倍大小,即i,將由對應A所處位置的4個值域塊共同決定,如圖6所示。^fK2)保證了帶循環植物上的點都是已定義的11域±央。顯然,當定義域塊按照這種方式重疊劃分時,與每個定義域±^^處位置相對應的4個塊,都是已定義的值域塊,如圖10所示。^#(3)保證了解碼迭代收斂。當某個值域塊i,與定義m中所有定義域i^S行M變換搏到的對比度因子都不在(0,l)之中時,默認取其相鄰前一值J^對應的D;作為凡的匹配塊。在有空間上壓縮的情況下,一個值域塊由另外4個值域塊決定。若直接用其^帶循環植物,它將與帶循環植物的結構要求相矛盾。為了解決這個問題,把與一個定義敏好萬處位置對應的4個值:^^別劃分到i、n、in和iv位置上,如圖11所示。在生成帶循環植物時,對于馬—i,,每次只取馬.中一個位置上的±央作為及,對應。這樣對于一幅輸入圖像的分形代碼,M"4組帶循環植物與擅應。這樣做的理論依據在于(l)在沒有空間上壓縮的情況下,圖像/的分形代碼迭^M碼的過程,可以容易地模型化為一個線性系統義"^i義^"+5,式中圖像/Ei^w矢量化為向量^f是第H娥代得到的圖像,J^力為第W次迭代得到的圖像,矩陣^e,x層的每行只有一個非零元素,5E,"是向量。(2)式表明在第H欠迭代時,尺中一個像素義的被值由第A:-l次迭代后D,中對應像素的M值決定。馬是與及,匹配的定義域塊;(2)式在有空間上壓縮的情況下(^=4),凡中的一個像素由對應A.中的g個像素決定,(2)式所述的統性系統改為義w:丄〖^""+5式中矩陣爿的每g,行有g個非零元素。矩陣^可以被分解為g個有相同維數的矩陣^—7,2,...,g,使得4中的每一行只包含一個一瞎元素,且!^=14=丄.對應定義域^^處位置4個值敏央的仿射變換因子,由于來自同一定義J^央對值J^t央的映射,4個ffi是相同的。將爿中每行的4個元素按照I、II、III、IV四個位置進fi^分,得到A—1、II、III、IV。顯然,這是滿^J^要求的一種劃分,針^的維數相同。6)旋轉變換的加入以塊為基元,在有空間上壓縮的情況下,為了將旋轉變換加入到帶循環植物的生成過程中,首先需要解決下面兩個問題(1)以定義域±丼萬處位置對應的值域塊,在該定義域塊經過8種旋轉變換后,值域塊中對應的像素會否改變?即原來在x值域塊中的像素是否會旋轉到y值域塊中?值敏央內容不變,保證自變換的正確進行;(2)值域塊內的像素位置是否會改變?值域塊內像素位置不變,保證該值i^t央不會成為圖像中未定義的塊。圖12給出了一個4x4的定義域塊8種旋轉變換時的情形。紅色方框表示以該定義M^M處位置對應的一個2x2的值j^央。l2、3和4是值嫩中像素的編號。對于戰兩個問題,從圖中容易看出經過旋轉,值域塊中的像素不會改變,但是像素位置卻發生了變換。像素位置變換后得到的新塊,在原圖像的分形代碼中找不到對應,這使得帶循環植物無法正常生成。為了解決這個問題,本實施例引入"±射定轉變換",旋轉變換把塊作為基元,每次旋轉只改變塊的位置,而塊內像素位置保持不變,如圖13所示。(2)訓練輸入的測試圖像/。計算/的分形編碼;獲得/的帶循環植物;計算/的特征向量》;,步驟(2)所述計算/的分形編碼、獲得/的帶循環植物、計算/的特征向量^包含如下步驟1)一般情況下帶循環植物的計算。在分形編碼的計算過程中,有空間上壓縮和旋轉變換的一般情況下,帶循環植物的生成過程如下-輸入為編碼圖像/;輸出是圖像/的循環植物。讀入圖像/的分形代碼fiactalCode;獲得與/,匹配的定義域塊Dj位置序號DNo,計算馬所處位置對應的4個值域塊序號;獲得馬的旋轉方向代碼rotateType,計算旋轉后A中I、II、ffl、IV四個位置處的值域;t,號;將,儲于位置數組posArray[i]0中;^ffl沒有空間上壓縮時帶循環植物的計算方法計算i位置處的帶循環植抓存儲i位置處的帶循環植物;2)帶循環植物上每點a和b因子的計算假定輸入為編碼圖像/的一棵帶循環植物,輸出為fl和6因子經過計算后的帶循環植物。貝蹄循環植物上每點"和6因子的計算步驟如下-步驟1:計算有限環上各點最終收斂的a和6因子。艦計算從該點開始到該點結莉一次循用,得到仿射變,列,如圖14所示。經過一次循環迭代Wl0W2oW3,點p的參數fl巧/a勸,因子步驟2:計算分^±各點最終收斂的"和6因子。由于分枝點位于有限環上,此時分枝點最終iB^的a和6因子已知。通過計算從分枝點開始到分枝上各點結束的仿射變換序列,可得到分枝上各點最終,的fl和6因子;步驟3:計算嫩枝上各點最終收斂的"和6因子。按照帶循環植物生成的順序,先有分枝再有嫩枝和嫩枝上的嫩枝等。按照御頃序計算,在碰到一條沒有計算過的嫩枝時,該嫩枝上的嫩枝點一定已經計算過。所以,通過計算從嫩枝點開始到嫩枝上各點結束的仿射變換序列,即可得到嫩枝上各點最終l^的"和6因子。在有空間上壓縮的情況下,圖像上一個塊的最終收斂"和6因子由其對應的i、n、in和iv四個位置處的帶循環植物共同決定,此時取平均值作為最終結果。例如,塊凡在4個位置的帶循環植物中,最終收斂的fl和6因子分別為(a/,6/)、(fl〃,6〃)、(a瓜6//》和(a/KV),貝Ufl產(fl/+a/,/fflTi/)/4,6,=(6/+V)/4。帶循環植物描述的是植物上點與點之間的內在聯系和點內的本質特征。它為^點提供了兩個重要的特征參數fl和6因子。設fl,、6,為點/的a和6因子,則q和6,因子可以通過從有限環開始到達點/結束的一系列仿射變換得到。通過下式,可以決定點/的最終收斂吸引子x產6/(l—W,式中A為點/的吸引子。在下面的Alti只別》法中,本實施伊X頓針塊的"和6因子,作為識別比較的基石出。(3)識別A^。計算《與數據庫中所有特征向量間的距離,取最小者作為識別的結果。戰步驟(3)所述計算》與庫中所有特征向量間的距離,取最小者作為識另幅果的'淑呈如圖5所示,包含如下步驟根據歐式距離和分形收斂的概念,定義以下3種距離度量,以便比較塊與塊之間的相似性。設("卩h)、^2)分別為塊取、&的a和6因子,它們之間的相似度"定義為d=a.《+々^+^4,a+/+r=l;式中"=^"^+<^,4=|4一4|,d3=|(一2+^)-(0^4+62)|,4-VG-"i),4=62/(l-fl2)。傳統的人與計^t幾^5,主要ffiil屏幕,和鼠標進行,計穀幾只是機械和重復地執行指令,無法離人的真實想法。如果缺乏情感鵬和表達能力,謝歡佳指望計對幾具有類似人一樣的智能,也4艮難期望人機^S做到真正的和諧與自然。由于人類之間的溝通與交流是自然而富有感情的,因此在人機妊的過程中,人們也^自然地期望計^t幾具有瞎感能力。人類的情感既有明顯的毅方式,如面部表情,聲新吾調,肢體動作和姿勢;也有一些不明顯的表達方式,如心率,鵬,呼吸,血壓等。用裝備有攝像頭,麥克風,生物傳麟和模式識別工具的計算機,可以獲取人類的情感外在表征后,《31^:情殿莫型來推斷人的情況。面部奢瞎是:sr泛公認的情感調整形式之一,它是人際交往中信息傳達、情感交流不可缺少的手段,也是了解他人主觀心理狀態的客觀指標。媒是人們在交談時眼睛所逗留的地方,借助面部表瞎,才能'察言觀色",在別人的^fi足間洞悉他的內心感受,進行更加有效地交流。圖2是人臉新青識別模塊的示意圖,主要包括AM檢測(定位)和AJt表瞎的特征提取及Alt表情識別(分類),其中^模±好萬采用的方法如下。(1)靜態圖像Alt泰瞎的特征提取。基于靜態圖像A^對辦征提取的方法通常情況下可以分為三類全局方法、局部M^斤方法及混合方法。①全局方法主要通3WA^整體特征的處理獲得A^表'ff^征之表征,即圖像作為一個,進行處理后得至鵬征向量或者特征圖像,然后用PCA或多層神經網絡獲取低維就方式。②局部解析方法就是提取置于A^些恃征部位(前額、嘴巴、眉毛等)窗口內的A^表W^征。然后進行PCA處理,達到低維表達媒的目的。艦局部解析,一些媒對青的細節(皺紋等)可以根據高梯度'變化部分5fe提取。③混合方法是一種是基于特征的方法,M局部特征的提取構成全局特征,從而提取表情變化向量。該類方法的一個重要特點是通自特征點的定位獲得整體A^模型,比較典型的方法有點分布模型(PointDistributionModel,PDM)、主動,模型(ActiveShapeModel,ASM)、主動外觀模型(ActiveAppearanceModel,AAM)、彈性圖匹配等,由于其靈活性,混合方法是目前應用最多的一類方法。(2)視,列中媒表清的特征提取。視辦列中進行人臉對辦征提取總體而言可以分為三種方式全局方法,局部解析方法和混合方法。其中前二者是^M特征提取,第三者屬于高層特征提取。①全局方法首5W視Mm列中的整幅圖像進行處理,M降維等方法獲取A^表tf1t征。另外一種全局;^法則M:計算圖像序列中的梯度場或方向場,提取邊界特征,采用邊界時征的變化作為人臉表情的運動特征完成表t辦征的提取。禾u用一個邊界檢測滄波器進行方向檢測,檢測結果采用一個高斯搶波器進行數據壓縮,te媒的四向(上下左右)特征場,用四向特征場表征Alt表清。②局部解析方法MM測人臉中幾個局部區域沿時間軸的變化來提取表1f^動特征。運動模型(MotionModel)方法,將媒分割為眼睛、嘴巴和眉毛等5個區職^話動特征提取。③混合方法主要是M3i)(寸Am征點或者Matter的Jl^取得A^i動數據,為了肖雜有效地足ia人臉的運動,特征點或者Marker通常需要標在運動比較明顯的地方,有時也可以ffliiPCA對大量標注的SS^點進行降維操作取得最能夠體現人Jtig動的關鍵特征點。一方面這些關鍵特征點反映了人臉的輪廓特征,另一方面通m其運動的足lli字、,還可以取得AJt輪廓的變化過程。定義AM運動的參數,主要分為兩類,一類是FACS(FacialActionCodingSystem,Aflt動作編碼系統)參數集合,采用了一個自動跟蹤器對眉毛、目艮睛、鼻子、嘴巴等處的特征點實時足跟享,提取表情運動特征。采用了特征點S腺與局部鈹紋檢須湘結合的方法判斷AI^作的FACS參數,嘗試給出表瞎的強度。另一類是MPEG4中的FAP(FacialAnimationParametere,Alt^畫參數)參數集合,利用特征點足ISI獲取FAP參數,作為Alt表情運動特征。鎌i卿(1)靜態圖像的表瞎iJ拐U。基于靜態圖像的表瞎識別方法只采用了空間信息,因此多采用一些較適于做空據處理的識別模型。①以AX神經網謝乍為核心的識別算法。有些直接將圖像中的某些部分作為輸入,應用神經網絡進行分類。例如,首先將一幅媒表情圖像分為8xl0區嫩,用這些區域塊的光流變ft^寸整幅圖^afii^碼,最后采用一個離散Hopfidd神經網絡對編碼進行分類,實mxit表瞎的識別。②SVM也就靜態人臉表情圖{魏行識另啲模型之一。SVM首先艦用內積函數定乂的非線性變換將輸入空間變換到一個高維空間,在這個空間中求(廣義)最優分類面。SVM分類函數形式上類似于一個神經網絡,輸出的是中間節點的線性組合,*中間節點對應一個支持向量。③奇異值爐(SingularValueDecomposition,SVD)也是基于靜態圖鰣行表瞎識別的方法之一,首先對圖像中的A^,可變形模型分割出特征人臉,同時建立表情、身份和AJt特征的三階張量空間表示,然后將表膚圖像進行HOSVD(HigherOrderSVD,更高階SVD)分解,提取表情子空間。(2)視,辦列中的媒表瞎識別、①基于神經網絡方法。YT咖采用多狀態成分模型對A^各部分(眼睛,下巴,臉頰,鈹紋)進行J1^和建模,并將跟蹤得到的結果進fr^細的參數描述,構造了一個三層神經網絡(含有一個隱層),用15,征參數作為輸入識別上半部分AJ^AU。不i^t行了單個AU的識別,而且還嘗試識別了多個AU組合,取得了很高的識別率。②基于模板的方法。主要分為兩種模板,一種是用典型表情作為標準模板,另外一種是根據圖像中表情的變化構造時空域模板。采用各種表情的標準模板與待識別表情之間進行最近鄰法分類(KNN)。可以首先定義了一^]作參數(AP),將表瞎的識別分為兩個階段,先進行基于距離的分類,取其中三個距離最近的fl魏表情,然后根據在表f辦征提取階段獲得的AU,作進一步比較。采用一種控制理論的方法提取圖像序列中Alt的時空J^t動能量表達,MJ鵬六種不同的基本表十能動過程,建立射青的時空鵬動模板,由兩個人的時空運動模板取平均得至勝定表瞎的運動能量模板,在識別時,fflii計算測試樣本的運動能量與標準模板之間的歐氏距離進行分類,獲得識別結果。③基于規則的方法。Mil圖像運動的局部參數化模型求得剛性運動和非剛性運動參數,iia^些參數構成中間層斷言棘示人ltM動特征,每一個中間層斷言都是表征為決策規則形式,規則左邊疑動參數與特定臨界值的比較,右邊貝提歸納的斷言,臨界值取決于圖像中媒的大小。蹄拾取模塊M麥克風拾取語音信號并轉換,字信號后進fiH吾音識別。語音鄉,語音識別是計^t;uiii識別把語音信號轉變為相應文本的技術,屬于多維模式識另訴卩智能計算機接口的范疇。語音識別的研究目標是讓計算機"聽懂"人類口述的語言。聽懂是不僅將口述語言逐詞逐句地轉換為相應的書面語言,而且肖樹口述語言中所包含的要求或詢問做出正確的響應。目前,大多數語音識別系統都采用了模式匹配的原理。根據這個原理,未知語音的模式要與已知語音的參考模式逐HS行比較,最佳匹配的參考模式被作為識另蹈果。圖17中,待識別語音經過話筒變換成圖中語音信號后加在識另孫統輸A^,先經過預處理。預處理包^i吾音信號釆樣、反混疊帶通澹波器、去除個體發音差異的設備、環境弓胞的噪聲影響等,涉及至隨音識別基元的選取和端點檢測問題,有時還包括模數轉換器。特征提取部分用于提取語音中反映本質特征的聲學參數,常用的特征有短時平均能量或幅度、短時平均過零率、短時自相關函數、線性預觀係數、清音/濁音標志、基音頻率、短時傅立葉變換、倒譜、共振峰等。訓練在識別之前進行,^M讓講話者多次重復語音,從原始語音樣本中去除冗余信息,保留關鍵數據,再按規則對加以聚類,形鵬式庫。模式匹配是齡語音識別系統的核心,是根據一定的準則以及專家知識,計穀幾輸入特征與庫存模式之間的相似度,判斷出輸入語音的語意信息。模型訓練是指按照一定準則,從大量已知模式中提取表示該模式特征的模型參數。模式匹配是指根據一定準則,使未知模式與模型庫中某一模型獲得最佳匹配。語音技術所應用中主流的模型訓練^H模式匹配技術有^下幾種(1)動態時間規整匹配(DynamicTimeWarping,DTW)算法時間夫皿即時間校正,是把一個單詞內的時變特征變為一致的過程。在規整過程中,未知單詞的時間軸要不均勻地扭曲或變折,以便使其特征與模型特征對比,是一個最為小巧的語音識別算法,其系統開銷小,識別速度快,在對付小詞匯量的語蹄令控制系統中效率較高,但是,如果系統稍微復雜一些,這種算法就顯得力不從心。(2)隱馬爾克夫模型(HiddenMarkovModel,HMM):采用語言信號時變特征的參數表示法,由相互關聯的兩個隨inJl程共同描述信號的統計特性。采用HMM這種技術,要以一個具有有限不同狀態的系統作為語音生鵬型,針狀態皆可產生有限個輸出,直到齡單詞輸出完畢,狀態之間的轉移是隨機的,^h狀態下的輸出也是隨機的,由于允許隨機轉移和隨機輸出,所以HMM能鵬發音的各種微妙變化。HMM方法很好鵬決了分類以及訓練丄的困難,維特比(Viterbi)搜索語音識別算法解決了時間軸的規一化問題。HMM是把未知量均勻地伸長或縮短,直到它與參考模式的長度一致時為止,這是一種非常有力的措施,對提高系統的識別精度極為有效。(3)人工神經網絡(ArtificialNeuralNetANN):神經網絡的概念也已經,用于語音識別中,其中最有效的一種方法是使用多層神經網絡,多層神經網絡不僅輸入節點、輸出節點,而且有一層或多層隱節點。利用神經網絡的記fc功能和快速響應特性,將語音信號提取出來的特征值輸入到神經網絡中進行長時間訓練,得到節點間連接權值。自組織神經網絡能完自輸入樣本的分類和聚類功能,但在其輸出層并不^1^見表現出來,需要對其進行模式標識。對于只對錢樣本產生響應的神經元,直接將期斜只為與該類輸入樣本所對應的模式類;對于邊界神經元則采用上艦界神經元的處理方法標識;對于未對tti可輸入類產生響應的神經元,直接屏蔽。這樣,當新的樣本輸入時,就會,直觀的從輸出層讀出輸入樣本屬于哪個模式類。自然語言是人類日常所用的語言,是人類在其社會生活中發展出來的用來互相交際的聲音符號系統,如漢語、英語、日語等。自然語言是個十分復雜的符號系統,符號的形式和其所表達的意義由社會所約定,而且隨著社會的發展而不斷變化發展。自然語言Sif作為語言信息處理技術的一個高層次的重要方向,一直是AX智能界所關注的核心課一。從^M上看,自然語言理解是自然語言系統到計算機的系統內部表示之間的映射;從宏觀上看,它是指計對幾獸辦依照某些的規則來執行人^0f期望的某些語言功能。中文分詞在漢語的書寫泰達中,字詞之間是連著的,M詞語在句子中沒有顯式的標記。自漢語的首^i壬務就是,續的漢字串分割成詞的序列,即中文分詞。中文分詞可分為以下三種形式(1)機械分詞。機械分詞是基于字符串匹配原理,需要分詞詞典作為分詞的依據,詞典的結構以及詞典中詞的個數直接影響分詞的準確度和效率。按照掃描方向可分為正向掃描,反向掃描和雙向掃描;按匹配原則可分為最大匹配法和最小匹配法。機械分詞算法簡單,對詞典粒索引,能有效地提高分詞速度,但這種分詞方法并不能很好地消除歧義,還需和其它方法結合一起,進一步提高分詞精度。(2)統計分詞。統計分詞是以概率論為理論基礎的,將漢語文本中漢字串的出現抽象為一隨機過程,其中,隨機過程中的參數可以通過大規模的漢語語料庫來訓練得出。待分詞的字串C=Clc2...c,輸出的詞串『-M^2…w"其中w^"。對于一個特定的C會有多個『對應,統計分詞的任務就是在這些『中找出概率最大的一個,即求『,使尸(『IC)的值最大。根據貝葉斯公式可以得到戶(『ic)-尸(ciw^(『)/尸(c),其中P(C)是固定值,從詞串恢復到漢字串的概率P(C|『)=1。由此求解問題可以變換為在全切分所得的所有結果中求出某個『,使得尸(『)為最大。N-gram模型是最基本的統計語言模型,用常用的二元模表示戶(『),即=尸(W!)*尸(WIWl)*...*Wml)。(3)知識分詞。知識分詞也稱為規則分詞,它不僅僅是使用詞典的匹配,還運用語法、句法和語義方面的知識進一歩分詞處理。知識分詞需要設計一個語法語義知識庫,ffiil庫中所定義的規則來分詞處理。漢語的詞法句法規則復雜,^一個適用的知識薦難度大,花時間長,因此知識分詞至今難以iSffl于大規fIK實文本處理,有待進一步研究。語義知識的標知識是人們在改造客觀世界的過程中積累皿的經驗及其總結升華的產物。知識是一切智能行為的基礎,是人工智能的重^ff究內容。要使計算機具有智能,就必須使它具有知識。適當選擇和正確使用知識表示方法可以極大地提高人工智能問題求解的效率。從計算機角度看,自然語言中的詞和句子只是保存在內存中的符號串常量,沒特殊的意義。如果按照某種規貝蜮結構組織JS些字符串,轉換成便于計^mf脾處理的結構,那么計算機,聘經過搜索、關聯、判斷、推理、替代等處理后,再以自然譜言表達方式輸出,可以認為計算機具備一定的智能性。(1)邏驗示法。i頓邏輯法表示知識,需將以自然語言描述的知識,艦引入謂詞、函數來加以形式描述,獲得有關邏輯公式,進而以機器內部代碼表示。其中項是描述世界中的物體的常量,包括抽象事物;謂詞是描述關系和屬性的常量;關系邏輯運算有合取(A)、析取(V)、否定()、餅(—)、雙餅");影司有全稱量詞(V)和存在翻(3)。采用歸結或其它方法進行推理。(2)產生式表示法。產生式表示法容易描述事實、規則以及它們的不確定性度量。產生式系統由知識庫和推理機兩部分組成,其中知識庫由規則庫和數據庫組成。規則庫是產生式規則的集合,數據庫是事實的集合。規貝脾是以某^H頁嫩口識的存儲器,規則是用產生式表示,包含著從初始態到最終解決狀態的轉換規則。數據庫存放輸入的事實、外部數據庫輸入的事實以及中間結果。推理機是控制禾iff,包含推理方式和控制策略。其推理方式包含三種:正向推理,反向推理和雙向推理。產生式表示形式固定,形式簡單,規則鍵相互較為3拉,而且知識滿和推理規貝湘分離,會嫩3ti地的修改知i只庫,由此產生式表示常用于專家系統建造時所采用。(3)語義網絡表示法。一^H吾義網絡是以有向圖的三元組(結點A,弧,標注R,結點B)連結而成,如圖15所示。結點表示概念、事物、事件、情況等;弧是有方向的有標注的,方向表示主次,結點A為主,結點B為次,而纟示注R表示結點A的屬性或結點A和結點B之間的關系。其語義網絡如圖4所示。語義網絡會鏃表示事物之間的繼承、補充、變異、細化等關系,而且SX見易懂,很容易用于推理,得到廣泛應用。(4)框架表示法。框架理論的基本觀點是AM以存儲大量的典型情景,當人面臨新的情景時,就從記憶中選擇一個稱作框架的基本知識結構,這個框架是以前記IZ的一個知識空框,而具體的內容以新的情景而改變,對這空框的細節加工修改和補充,形成對新瞎景的認識又記憶于人腦中。框架是由若干個結點和關系(統稱為槽)構成的網絡,表示某一類瞎景的結構化的一種數據結構。框架由框架名和一些槽組成,^槽有一些值,槽的值可以是邏輯的、數字的,可以是程序、條件、默認值或是子框架。框架表示法,性強、概括性高、結構化良好、推理方式靈活、又能把陳迷性知識與過程性知識相結合,但是不易^iii程性知識,所以在具體的系統中,它往往要和其它方法配合使用。知識薦的M:人工智能問題的求解是以知識為基礎的,知識庫規模大小一定程度上反映計算機的智能水平,但是人類的知識浩如煙海,表達形式各異,在現在的計^m技術限制下,不會辦A^些知識用規則形式全部表達出來。文字聊天模塊的知識庫可以分為詞典庫、規則庫、語義知識庫和常識庫。詞典庫主要用于分詞,包含有詞,詞義,詞性,以及詞頻^^言息,同時也可以根據詞典庫里面的詞義來動態生成一皿本的語義知識。規則庫保存中文句子的語法規則,用規則判斷句子是否符^i吾法,也可以根據規則來構造簡單的句子,規則可以動態增加。語義知iP薦中記錄的語義知識主要就是語義關系知識,本質上就是詞語之間的巨大的關系網,通as些關系網可以對詞語進行替換,推導出深層次的語義。常識應可以是人們日常所用的知識,也可以是麟領域的專業知識,內容最為廣泛,其形式可以是文字,圖片,聲音,視頻等。需要花費大量的人力物力去獲取、粒常i口應以及保證每一條常識的正確性,由此常i尸滿的粒是一個長期的過程。常識薦的粒應該3拉于禾將設計,只要粒相關領域的常識庫,就能將聊天、教育和咨詢機器AiS用于該領域。由于常識庫數據量巨大,如何快速保存,E^索引,提高數據檢索的速度需要進一步研究。知識庫的M:主要有手工^z:,計^1^自動^和人機結合^:方式。一,礎庫,如詞典庫,規則庫通過手工來^:,也可到互聯網上獲取、改進已有的知識庫資源。而那些常識庫,可以先ffi31計算tfU人互聯網直接獲取,再經過人工檢査、修改,按照一定格式保存到數據庫中。歸合鵬塊語音合鵬塊的框架圖如圖18所示。語音合成是將以文本形式或者其它形式存在的信息轉換成i吾音信號,讓Ai!3iB^來獲得信息。文語轉換系統(Text-To-SpeechSystem,TTSSystem),它是一種以文字串為輸入的語音合成系統。其輸入的^1常的文本字串,系統中的文本分析器首先根據發音字典,將輸入的文字串,為帶有屬性標記的詞及其讀音符號,再根據語義規則和語音規則,為每一個詞、每一^節確定重音等級和語句結構及語調,以及各種停頓等。這樣文字串就轉變為符號代碼串。根據前面分析的結果,頓目標吾音的韻辦征,合成出輸出語音。基于對合成單元的處理方式的不同,合成算法可以分為三類①發音參數合成(ArticulatoiyParameterSynthesis);^)參數分析合成(ParametricAnalysisSynthesis);③波形編^成(WaveformCodingSynthesis)。其中,前兩種方,本上都是^1在Fant所建立的語音產生的聲源-^M^I莫型的基礎上,分別用不同的物理學模型代表語音產生的聲源、聲激麼波、輻射三個部分。后一種方法本質上屬于基于語言學規則的統計模型。(1)發音參數合成。語音合成的研究始于發音參數合成。該方法,發音生理機制進行分析,用儀器記錄發音器官在發不同語音單元時的各種生理參數,從中歸納出控制合,型所需的參數系列。本質上講,這是一種最能反映語音合財質的系統,但由于對人類發音器官的生理和物理機制以及控制發音器官運動的神經系統并沒有完^t徹了解,所以基于發音參數的合成系統仍然處于摸索階段。(2)參數分析合成。參數分析合成,合成單元(多以音節、半音節或音素)的自然語音按一定的方法進行分析,得到該單元的特征參數并存儲總,成為音庫;合成時,調用相應合成單元的特征參數并根據一定的規貝腿行變換后送入合g,得到合成語音的輸出。該類方法由于其靈活有效在無限詞匯的合成系統中得到了廣泛的應用。(3)波形編石始成。基于大語料庫的波形編石始成方法正得至ljm越多的關注。合成語句的語音單元從一個預先錄制的、經過編碼壓縮的語音數據庫中扭隨出來。只要語音數據庫足夠大,包括了各種可能語境下的所有語音單元,理論上就有可會腿過高效的搜索算法拼接出任何高自然度的語句。由于合成的語音基元都是來自自然的原始發音,合成語句的清晰度和自然度翻每會非常高。但該方法的缺點就是語料庫過于龐大,因此語音庫的構離時費力不靈活,且所占存儲空間過大,韻律調整的禾號極其有限。最優合成單元的選擇需要高效率算法才能使系統很流利。MicrosoftSpeechSDK的鵬微軟SpeechSDK5.1全面支持中文語音應用禾號的開發,SDK里掛共了語音識另,合成弓摩相關組件、應用禾辦層接口、詳細的技術資料和幫助文檔。它采用COM標準開發,底層協議都以C0M組件的形式完封i5l于應用,,層,為應用,i^設計人員屏蔽掉復雜的語音技術,充分體現了COM的優點,即語音相關的一系列工作由COM組件完成:語音識別由識別弓l擎(RecognitionEngine)管理,語音合成由語音合成引擎(SynthesisEngine)負責;禾驕員只需專注于自己的應用,調用相關的語音應用禾iJ^接口(SAPI)來實現語音功能。語音識另啲功能由一系列的COM接口協調完成,語音識別的主要接口(1)IspRecognizer接口用于創建語音識別弓摩的實例,在倉犍時通過參腿擇弓摩的種類。識別引擎有兩種獨占(ProcRecognizer)的引擎和共享(SharedRecognizer)的引擎。獨占的引擎贈只能由倉犍的應用禾Mm吏用,而共享的引擎可以供多個應用禾號共同l頓。(2)IspRecoContext接口主要用于接受和錢與語音識另鵬息相關的事件消息,裝載和卸載識別語法資源。(3)IspRecoGranimar接口ffi^個接口,應用禾將可以載入、激活i吾法規則,而語法規則里則定義著期望識別的單詞、短語和句子。通常有兩種語法規則聽寫語法(DictationGrammar)和命令控制i吾法(CommandandControlGrammar)。(4)IspPhrase接口用于獲取識別的結果,包^i只別的文字、識別了哪一條語法規則等。語音識別的功能由上面的COM接口共同誠,而JJI守特定的工作禾將。概括地說,語音識別的工作原理^f盾COM組件的工作原理和一般Windows應用liff的工作原理(消息驅動機制),具體如下首先初始化COM;接著要實例化^H吾音接口(以特定的順序),設置識別語法、識別消息,使識別引擎處于工作狀態;當有語法規則褲識別后,語音接口向應用禾辦發出語音識別消息;在識別消息響應函數里,艦IspPhrase接口獲取識另啲結果;應用禾將退出時,卸載COM。3D娜人,微虛擬人是人在計^m生成空間(虛擬環境)中的幾何特性與行為特性的表示,用于與機器人交流時,看到的不再是冷冰冰的對話框界面,而是模擬出來的3D虛擬人形象。3D虛擬人會笑,會生氣,表達各種情感,做出普通人的一系列動作,讓用戶感覺就微艮一個真實的人再聊天。三維虛擬人合成的可以分為兩大類虛擬人的幾何表示方法和虛擬人的運動控制方法。戯人的幾何標虛擬人的幾何表示方法主勢開究虛擬人在計^t幾生成空間中的幾何表示,其目的是在計^t幾生成空間中創自擬人的計算圖,型,表示虛擬人在虛擬環境中所占據的幾何空間。虛擬人的幾何表示必須滿E維虛擬人在外觀與行為特性等方面的逼真性要求。包括人體和人體附屬物建模方法。人體的幾何表示方法是動作控制的基礎,并在一定fMj^上影響了動作控制的手段。目前兩個重要的國際標準MPEG4和VRML2.0都開始支持虛擬人的幾何表示。MPEG4描述虛擬人的幾何模型由一系列的節點組成(nodes),其頂層節點bodyNode至少包括兩個子節點表示人體運動的參數和表示人體模型定義的參數。人體運動參數包含296個描述虛擬人骨架拓撲結構的參數,這些參數可以應用于MPEG4兼容的虛擬人體,并生成相同的虛擬人的運動。VRML中有一個專門的子標準描述虛擬人的模型一H-Anim,它完^It盾VRML的語法,由于VRML(VirtualRealityModelingLanguage)被廣泛地應用于Internet上創建虛擬的三維空間,所以H-Anim標準正在成為虛擬人網絡交換最流行的標準。本實施例采用H-Anim標準。H-Anim(HumanoidAnimationSpecification)標準是為在線虛擬環境中的虛擬人表示而制定的,標準兼顧了兼容性、適應性和簡潔性。H-Anim標準中利用VRML97中的Prototype支持,定義了五種自定義節點以描述虛擬人模型,分別是Humanoid,Joint,Segment,Site和Displaces,其中Joint節點用以構自擬人的骨架結構,是虛擬人姿^空制直接操作的X^,用來描述人體骨架的連接性結f關節。H-Anim標準把齡人體分成l個人體重心、77個關節和47僧骼段(Segment),這些元素組成一個完整的虛擬人模型。虛擬人的骨骼段之間由關節相聯,人體重心、#^#骼段以及關節的運動影響與它相聯的其他節點的狀態。H-Anim標準的層次結構(Hierarchy)是由嵌套的Joint節點來實現的。以脊tt^的骸骨關節作為S^t架結構的根,并由此分別向上、下遍歷^ht架結構,按照遇到各關節的順序,將所有關節組織皿形的,結構。樹的根節點Root對應^人體,其他節點對應人#^型的各個關節點。,人體的運動可以看成是由平移和旋轉組成的,即根節點的平移和旋轉以及樹上各節點圍繞父節點的旋轉。根節點的平移決定人#^型的位置,旋轉決定人Wi型的方向,其他各節點的旋轉是在以父節點為坐標原點的局部坐標系下的旋轉來決定人鵬型的運動姿態。據此,本文采用兩標系描述人體各肢體的運動固定在人術艮節點處的固定坐標系和附在各關節點處的運動坐標系,后者是隨肢體運動而運動的局部坐標系。每一個Joint節點均是擁瞎其后的Joint節點的父節點,例如肩關節的節點(R_sh0ulder)定義中,又包含有肘關節(R_elbow)、前臂節點(R_wrist)作為它的子節點,而在肘節點中又有關節作為它的子節點等,這樣就形成了人鵬型的骨架。由于在VRML97中,空間變換是隨著X^湯景樹的3iM而累積的,因而在樹形的骨架結構中,較靠近樹根的Joint節點的旋轉變換,會引起其子Joint節點的位置變化,從而很好地模擬了人體骨架的運動特點。jSft(人的運動控制虛擬人除了幾何屬性外,還要有逼真的行為特性。虛擬人的行為特性需要滿足物理學的規律,既是一種物質的運動,同時也是人的一種智能活動,反映了人的智能思維。運動控制技術可以分為兩類底層控制技將tl高層控制技術。底層控制技術一般直接指定動作參數,如關節旋轉角度和坐標即平時所說的運動控制(MotionContol)。高層控制技術是在/^M控制技術的基礎上,ilii粒行為計算模型和算法控制虛擬人的動作,從而為動畫設計師ilf共在行為層次上控制虛擬人運動的手段,稱為行為控制(BehaviorContral)。比如,可以通,制行走的速度和方向^jt擬人行走動畫。(1)底層的運動控制模型①參數關鍵幀技術(Parametrickeyflametechnology):關鍵幀技術是動畫控制的傳統方法,在早期的WaltDisney的制作室,熟練的動畫師設計卡通片中的關鍵畫面,就是所謂的關鍵幀,然后由一般的動畫師完成中間幀的纟魏i』。在計算機動畫中,中間幀的生成由計^m來完成,插值法代替了設計中間幀的動畫師的工作。在虛擬人動作控制中,關鍵幀和中間幀都^X寸人體姿態進行控制,一麟用人體姿態的狀維進行描述,如人體關節角度。為了與傳統關鍵幀方法進行區別,稱這種方法為參數關鍵幀。這種方法非常的13見,不需要太多的專業知識,可以控制人體動作的旨細節。但要求4頓者具有豐富的人體動畫制作經驗和關鍵幀生成技巧,能夠自如地控制虛擬人模型的上百個自由度。②過程動畫(ProceduralMethods):對于一些周期性的人體運動,如走、跑等,可以建立經驗公式,通過設置人體的運動特征仁鵬、方向等)來控制人體運動。因為這種方法在建模時已經根據真實人體運動提取了特征,所以仿真出的人體運動具有很好的真實感;而且可以MM簡單的參數設置,得到一系列相似的運動效果;并且這種方法tB3S合作為行為建模技術的底層運動實現手段。參數關鍵幀技術實,擬人復^作控制非常繁復,而過程動畫又不會隨用于所有類型的人體運動,因此,人們開發了一,于物理的運動仿真技術。③正向和逆向運動學(Forwardandinversekinematics):正向運動學fc^端效應器仁如手或腳)作為時間的函數,關于固定參考坐標系,求解^效應器的位置。逆向運動學方法在一定程度上減輕了正向運動學方法的煩瑣工作,用戶艦指定末端關節的位置,計算機自動計算出各中間關節的位置。動力學(Dynamics):動力學方法則是根據人體各關節所受的力與力矩,計算出人M關節的加速度和速度,最后確定人體運動過程中的各種姿態。與關鍵幀方法和運動學方法相比,使用動力學方法生成的運動祐,理規律,具有物艦真性.但該方法要雜動控制人員確定人體各關節所受的力與力矩,通常比較困難。⑤運動捕捉(MotionCapture):這種技術^ffl傳感器記錄真實人,三維空間中的活動,然后計穀幾根據所紀錄的數據驅動屏幕上的虛擬人。其最大優點是能夠捕捉到人類真實運動的數據,效果非常逼真。這種方法的缺點有被記錄的人體與虛擬人的模型可能存在尺寸上的不匹配;真實人體的動作受傳繊的限制;傳麟與關節間相對位置的變化。這些因素都會導致記錄翻的誤差,{,擬人的動作失真。并且由于捕捉設備的限制,有些運動無法捕獲。(2)高層的行為控制模型底層的運動控制模型的各種方法可以生成簡單的行為,若是要求虛擬人的運動可以根據環境的變化而做出適當的智能處理,就需要一種為人的智能行為建模的方法。在虛擬人領域,很多學者從虛擬人技術的應用角度,提出了對虛擬人行為模型的要求①自治性行為模型應該l頓擬人自頓環境變化做出反應,并且可以依據自身狀態和感知到的信息自主做出決策。②多樣的行為效果虛擬人的行為模型應該對同一種行為產生不同的效果,例如*人^§"或多或少"有些不同,及是同一個人重復走一段路也會由于自身狀態和環境變化,使行走'或多鈔"有些差異。③個性虛擬人的行為模,該加入個性參數,不僅是單個虛擬人,而且可以應用于群體行為模擬。交流功能虛擬人倉灘自主與人交流。⑤學習功能虛擬人倉辦不斷積累知識,適應復雜的環境。⑥并行行為由于虛擬人有多個效應器,可以在同一時間完成多個行為。知識魏模塊基于自然語言的知識查詢是指用戶用自然語言在檢索系統中對査詢目標進行描述,系統從查詢文本中自動提取査詢^#、査詢目標的關鍵特征等,按一定的規則和算法在數據庫中查找滿足斜牛的記錄作為查詢結果反^^合用戶。知識查詢需要預先設定一個或者多,定知識庫,如特定專業離,產品〗頓說明,企業的規章制度等。和聊天功能模塊不同的是,知識査詢擅長于知識問答,而且答案要盡可能準確,對于不能回答的問題,就回答"不知ii",而不是故意轉移話題。知識查詢對輸入的句子預處理與聊天功能模i央是相同的,也需要先進行分詞、語法語義分析。為了f樹用戶的提問做出正確地回答,首先需要知道用戶是針對什么進行提問,也就是問題的類型是什么,同時還要明確最終給出的答驗該滿足哪些要求。問題的分析疑問詞是確定問翹類SiS:答案要求的主要依據,因此在確定問題類型時,首先要找出問句中的疑問詞,根據疑問詞分析可能的答案類型。但是各疑問詞的辨別能力并不相同由疑問詞"哪里'可知辦'地點"進行提問,它是"專用疑問詞",但如果句中出現'什么",就不能僅靠疑問詞來判斷類型,因為很多類型的問題都有這種"通用疑問詞",必須借助于問句中的另一個詞(稱為"問題焦點'或凝問修飾詞")才育繼行正確的判斷。所謂"問題焦點",就是問題中說明問題主要內容的一個名詞鵬詞性短語,而問題的主要內容就是本實施例想要找到的答案需要滿足的條件。那么如何來確定'問題焦點"呢?一般情況下,問題中的第一個名詞或名詞短語是問題焦點的可能性很大。問答系統的問句一般是由一句話構成,首先取出該句中所有的名詞,然后根據疑問詞與句中名詞的位置信息進行判定,通aX寸大量問題的觀察和統計,可以歸納出含有通用疑問詞時問題類型的判斷規則如下(1)如果疑問詞后緊跟著名詞或名詞短語,則可以將該名詞或名詞短語看作是問題焦點;(2)如果疑問詞處于句子的末尾,則與該疑問詞距離ftjfi的名詞或名詞短語可看作是問題焦點;(3)如果疑問詞后為動詞(如"是、為"等),貝狗子中最后出現的名詞或名詞短語可以看作是問題焦點。表i是問題類ms答案要求的對應關系。表l<table>tableseeoriginaldocumentpage23</column></row><table>手艦別微手語是一種聾人4柳的人體運動語言,是由手形、手臂動作輔之以表情、唇動以及其它體勢來表達思想的,由符號構成的比較穩定的敏系統,是一種靠動作/視覺交際的#^語言。健全人(這里稱旨具有口語能力和聽力正常者)與聾人之間的交流除了用口語(小部分受過訓練的聾人可以通過口語進行魏)之外,主要艦口語和手語艦行交流。然而,絕大多數健全人看不懂手語,而大部膽人聽不見口語,這使得聾人與聽力健全人之間的交流非常困難。手語識另啲目標就;Mi計穀幾提供一種有效的、準確的機制將手語翻譯成文本或語音使聾人和健全A^間的交流變得更方便、'鵬。手^4R別系統可以分為基于視覺(圖像)的識別系統和基于佩戴式設備的識別系統。基于視覺的手辦只別是利用攝像機作為手語感知輸入設備釆集手勢信息,并進行識別。這種方s^格便宜、設于安裝,還可兼顧^自其它所需視頻信息的采集,所以非常適用于在智能建筑中普及應用。從識別方法上看,目前手^i只另孫統主要采用的是隱馬爾科夫模型(HiddenMarkovModel,簡稱HMM)、AI神經網絡(ArtificialNeuralNetworks,簡稱ANN)及模板匹配等方法。模板匹配主要用于少量te手勢的識別。在手斜只別中主流的方法是隱馬爾科夫模型。圖19是手斜只別模塊框架圖。手粉割手勢分割(GestureSegmentation)是基于計算機視覺的,是指如何把手勢從手圖像中分離出來。在復雜背景瞎況下,手勢分割困難重重,還沒有成熟的理論作為指導,現有的算法計算度高,效果也不理想。主要有以下幾種①增加限制的方法,如使用黑色和白色的墻壁,深色的服裝等簡化背景,或者要求人手戴特殊的手套等強調前景,來簡化手區域與背景區域的劃分。②大容量手勢皿M庫:^法,如密西根州立大學計t^幾系的CuiYuntao建立了一個數據庫,其中有各種手,在各個時刻不同位置不同比例的手型圖像,作為基于,匹配識別方法的,。③立體視覺的方法,如紐約靴比亞大學計^mm的Gluckman利用兩個不在同一平面鏡子的反射圖像,計算物體與攝像機之間的距離,根據距離信息分害咄人手。手勢離手勢模型對于手^iR別系統至關重要,特別魏確定識別范圍起關鍵性作用。模型的選取根本上取決于具體應用,如果要實現自然的人機交互,那么必須建立一個精細有效的手勢模型,使得識另孫統對用戶所做的絕大多數手劑故出正確的反應。目前,幾乎所有的手勢建模方法都可以歸結為兩大類基于^11的手勢建模和基于3D模型的手勢建模。基于^見的手勢建模又可分為基于2D灰度圖像本身、基于手(臂)的可變形2D模板、基于圖像屬性和基于圖像運動4種。手粉析手粉析階段的任務就是估計選定的手勢模型的參數。一般由特征檢測和參數估計鄉賊。在特征檢測過程中,首先必須定位做手勢的主體(人手)。定位技術有①基于顏色定位利用限制性背景或者顏色手套。②基于運動的定位這種定位技術通常跟某^Pi設一起使用。例如假m常情況下只有一個人在做手勢,并且手勢者相對于背景的運動量很小。③基于多模式定位例如利用運動和顏色信息的融合定位人手,優點是能克服單個線索定位的局限。不同建模方式參數估計方法不同基于灰度圖像本身的^(見模型在最簡單的情況下,可以選擇模型視圖序列作為參數,也可以l頓序歹哩各幀圖像關于平均圖像的特征儘表示;基于可^娜2D微彭見模型的典型參數是豐鎌節點的均值和它們的方差。艦在練集戰行主成分分析(PrimaryComponentAnalysis,PCA)可得到模型參數;基于圖像屬性表觀模型的常用參數是手形幾何矩,Zemike矩、朝向直方圖等。這些圖像特征參數易于估計,但是它們對圖像中其他非手物體非常敏感;基于運動圖^^11模型的參數包括平移運動參數,旋轉運動參數,以及圖像變形參數等。例如Becker基于寬基線立體視鄉隙人手及頭部運動,然后把人手在3D空間的平移運動速度作為模型參數。手辦湖瞎法(1)基于AX神綠網絡的手勢識別。神經網絡方法具有分類特性及抗干擾性,具有自組織和自學習能力,具有分布性特點,能有效抗噪聲和處理不完整的模式以及具有模式推廣能力。然而由于其處理時間序歹啲能力不強,目前廣泛用于靜態手勢的識別。著名的Fels的GloveTalk系鄉用神經網絡方^f乍為識別技術。(2)基于HMM的手^i只別。對于分析區間內的手勢信號,通常采取HMM方法進行模型化。—般拓撲結構下的HMM具有非常強的描述手劑言號的時空變化能力,在動態手勢識別領域一直占有主導地址,如卡內基,梅隆大學的美國手語識別系統及臺灣大學的臺灣手語識別系統等均采用HMM作為系統的識別技術;然而正是由于HMM拓撲結構的一般性,導g[^種模型在分析手衙言號時過于復雜,使得HMM訓練和識別計算量過大,尤其是在連續的HMM中,由于需要計算大量的狀態概率密度,需琴估計的參數個數較多,使得訓練及識別的速度相對較慢,因而以往手語識別系統所采用的HMM—般為離散HMM。(3)基于幾何特征的手^i只別。基于幾何特征的手斜只別技術是利用手勢的邊緣待征和手勢區,征作為識別特征,具體實現則有各種不同的做法,如利用Hausdorff距離模板匹配的思想,在距離變換空間內就可以實現基于單目視覺的中國手語字母的手^i只別。權利要求1、一種會話機器人系統,其特征在于包括攝像頭及其驅動模塊、人臉跟蹤和識別模塊、人臉表情識別模塊、語音拾取模塊、語音識別模塊、知識查詢模塊、語音生成模塊;攝像頭所捕獲的人臉圖像由人臉跟蹤與識別模塊進行跟蹤與識別,并由人臉表情識別模塊識別出表情,語音信號經由語音拾取模塊和語音識別模塊后識別出語義,所述機器人系統根據人臉的表情和/或語音來了解人的需求,然后通過知識查詢模塊來形成會話語句,再通過語音生成模塊生成語音與人進行交流。2、根據權利要求1所述的^i舌機器人系統,其特征在于還包括3D虛擬人模擬模塊,所述3D虛擬人模擬模塊在機器人系統生成語音的同時模擬出人的表瞎及口型。3、根據權禾腰求l所述的^i刮幾器人系統,其特征在于還包括手勢識別l對央。4、根據權利要求3臓的射刮幾器人系統,其特征在于還包括手勢生鵬塊。5、根據權利要求1或4所述的^S機器人系統,其特征在于所述攝像頭的個數為2個。6、根據權利要求5所述的統機器A^統,其特征在于所述攝像頭共有5個自由度。全文摘要本發明公開了一種會話機器人系統,其攝像頭所捕獲的人臉圖像由人臉跟蹤與識別模塊進行跟蹤與識別,并由人臉表情識別模塊識別出表情,語音信號經由語音拾取模塊和語音識別模塊后識別出語義,所述機器人系統根據人臉的表情和/或語音來了解人的需求,然后通過知識查詢模塊來形成會話語句,再通過語音生成模塊生成語音與人進行交流。該會話機器人系統具有語音識別和理解能力,能夠聽懂用戶的指令,可以應用于學校、家庭、賓館、公司、機場、車站、碼頭、會議等地進行教育、聊天、會話、咨詢等;此外,它還可以為用戶提供宣傳介紹、來訪接待、辦事查詢、文秘服務、外語翻譯等。文檔編號G06N3/00GK101187990SQ20071003251公開日2008年5月28日申請日期2007年12月14日優先權日2007年12月14日發明者肖南峰申請人:華南理工大學