專利名稱:學習器材和學習方法,以及機器人設備的制作方法
技術領域:
本發明涉及學習器材和學習方法,以及機器人設備,并最適用于諸如娛樂機器人。
背景技術:
近年,已開發了一定數量用于商業目的的家用娛樂機器人,用于商業化用途。其中一些娛樂機器人被裝以諸如CCD(電荷耦合器件)照相機和麥克風等各種外傳感器,從而被設計成基于此外傳感器的輸出而識別外部環境,并基于識別結果而自主活動。
若這種娛樂機器人能記住新對象(包括人類,下同)的與之關聯的名字,則他們就更能游刃有余地與用戶溝通,此外,他們還能夠對例如由用戶下達的“踢球”等各種與對象有關的指令而不僅是事先注冊了名字的對象靈活地做出反應。注意到,如上述記住對象的與之關聯的名字被表達成“學習名字”,而以下將這種功能稱作“名字學習功能”。
進而,若通過在娛樂機器人中提供這種名字學習功能、就像人類會做的那樣,以使娛樂機器人能通過對話來學習新對象的名字,則從貼近自然的角度看是上佳的,并能期待娛樂機器人的娛樂特性可增加更多。
以往的技術中存在的問題卻是難以讓娛樂機器人判斷擺在它面前的新對象的名字應不應該學習。
有鑒于此,在以往的技術中,用戶下達一條清晰的話音指令或按下特定的觸覺傳感器、以將操作模式變成注冊模式,從而使對象被識別并被注冊其名字。然而,當考慮到用戶與娛樂機器人之間的自然互動時,卻存在以下問題與這種清晰指示而響應的名字注冊卻十分不自然。
發明內容
本發明是考慮了以上幾點而做出的,目的在于提出一種學習器材和學習方法,以及機器人設備,其可大大增強娛樂特性。
為了解決那些問題,在本發明中,學習器材包括對話裝置,其具有與人類對話的能力,用來通過對話從人類獲得目標對象的名字;數個識別裝置,用來檢測目標對象的規定的不同特征,并用來基于檢測結果、和與事先存儲的已知對象對應的特征數據來識別目標對象;存儲裝置,用來存儲關聯信息,其中已知對象的名字與由識別裝置獲得的關于對象的識別結果互相關聯;判斷裝置,用來基于由對話裝置獲得的目標對象的名字、由識別裝置獲得的目標對象的識別結果、和存儲在存儲裝置中的關聯信息,判斷目標對象是不是新對象;和控制裝置,用來當判斷裝置判斷目標對象是新對象時,讓識別裝置存儲目標對象的特征的對應數據,并讓存儲裝置存儲關于目標對象的關聯信息。
結果,此學習器材可自然地通過與凡人的對話來學習新人、新對象等的名字,就像人類常做的那樣,而不必為了響應給出聲音指令或按下觸覺傳感器等用戶的清晰指示而注冊名字了。
同樣,在本發明中,學習方法包括第一步,與人類對話,并通過對話從人類獲得目標對象的名字,以及檢測目標對象的數個規定的不同特征,并基于檢測結果、和事先存儲的已知對象的特征數據來識別目標對象;第三步,基于所獲得的目標對象的名字、以目標對象各特征為基礎的識別結果、和將事先存儲的已知對象的名字與由識別裝置產生的關于對象的識別結果相關聯的關聯信息,判斷目標對象是不是新對象;和第四步,當判斷目標對象是新對象時,存儲目標對象的各特征的數據、和關于目標對象的關聯信息。
結果,根據此學習方法,能夠自然地通過與凡人的對話來學習新人、新對象等的名字,就像人類常做的那樣,而不必為了響應給出聲音指令或按下觸覺傳感器等用戶的清晰指示而注冊名字了。
進而,在本發明中,機器人設備包括對話裝置,其具有與人類對話的能力,用來通過對話從人類獲得目標對象的名字;數個識別裝置,用來檢測目標對象的規定的不同特征,并用來基于檢測結果、和與事先存儲的已知對象對應的特征數據來識別目標對象;存儲裝置,用來存儲關聯信息,其將已知對象的名字與由識別裝置獲得的關于對象的識別結果相關聯;判斷裝置,用來基于由對話裝置獲得的目標對象的名字、由識別裝置獲得的目標對象的識別結果、和存儲在存儲裝置中的關聯信息,判斷目標對象是不是新對象;和控制裝置,用來當判斷裝置判斷目標對象是新對象時,讓識別裝置存儲目標對象的特征的對應數據,并讓存儲裝置存儲關于目標對象的關聯信息。
結果,此機器人設備可自然地通過與凡人的對話來學習新人、新對象等的名字,就像人類常做的那樣,而不必為了響應給出聲音指令或按下觸覺傳感器等用戶的清晰指而注冊名字了。
圖1是表示本實施例中機器人的外部構造的透視圖;圖2是表示本實施例中機器人的外部構造的透視圖;圖3是用于解釋本實施例中機器人的外部構造的原理圖;圖4是用于解釋本實施例中機器人的內部構造的原理圖;圖5是用于解釋本實施例中機器人的內部構造的原理圖;圖6是用于解釋主控制部件40有關名字學習功能的處理的框圖;圖7是用于解釋將FID和SID與內存中名字關聯的概念圖;圖8是表示名字學習處理例程的流程圖;圖9是表示名字學習處理例程的流程圖;圖10是表示名字學習處理中對話示例的原理圖;圖11是表示名字學習處理中對話示例的原理圖;圖12是用于解釋FID和SID與名字的新注冊的概念圖;圖13是表示字學習處理中對話示例的原理圖;圖14是表示字學習處理中對話示例的原理圖;圖15是表示聲音識別部件的構成框圖;圖16是用于解釋辭典的框圖;圖17是用于解釋語法規則的概念圖;圖18是用于解釋存儲在特征向量緩沖中的內容的概念圖;圖19是用于解釋積分單的概念圖;圖20是表示聲音識別處理例程的流程圖;圖21是表示未注冊詞處理例程的流程圖;圖22是表示音群分割處理例程的流程圖;圖23是表示仿真結果的概念圖;圖24是表示在學習中的面孔識別部件的構成框圖;圖25是表示在識別中的面孔識別部件的構成框圖。
具體實施例方式
以下,參照附圖來詳細說明實施本發明的一種方式。
(1)本實施例中的機器人的構造在圖1和2中,序號1表示本實施例中的兩足直立行走機器人的全體,其中頭部3置于軀干部2上,同屬該構造的臂部4A、4B分別擺放在軀干部2的左上和右上側,而同屬該構造的腿部5A、5B則分別擺放在軀干部2的左下和右下側。
軀干部2由形成上半身的框架10和形成下半身的腰基11構成,此二者皆經腰關節機構12連接,并將上半身設計成通過驅動固定在下半身的腰基11上的腰關節機構12的馬達A1、A2,可繞如圖3所示互相正交的前后向軸13和左右向軸14獨立旋轉。
而且,頭部3固定在肩基15的上部中央,該肩基15經頸關節機構16固定在框架10的上端,并將該頭部設計成通過驅動頸關節機構16的馬達A3、A4,能夠繞如圖3所示互相正交的左右向軸17和上下向軸18獨立旋轉。
進而,臂部4A、4B經肩關節機構19分別固定在肩基15的左右,并被設計成通過驅動對應的肩關節機構19的馬達A5、A6,能夠繞如圖3所示互相正交的左右向軸20和前后向軸21獨立旋轉。
在此情形下,對于各臂部4A、4B,形成上臂的馬達A7的外向軸經肘關節機構22鏈接形成前臂的馬達A8,而手部附加至前臂的前端。
并且,對于臂部4A、4B,其前臂被設計成通過驅動馬達A7繞圖3所示的上下向軸24旋轉,并通過驅動馬達A8繞圖3所示的左右向軸25旋轉。
另一方面,各腿部5A、5B經臀關節機構26附加至下半身的腰基11,并被設計成通過驅動對應的臀關節機構26的馬達A9-A11能夠繞如圖3所示互相正交的上下向軸27、前后向軸28和左右向軸29獨立旋轉。
在此情形下,將構造設計成使得對于各腿部5A、5B,形成小腿的框架32經膝關節機構31鏈接形成大腿的框架30的下端,而足部34經踝關節機構33鏈接框架32的下端。
因此,對于腿部5A、5B,其小腿被設計成通過驅動形成膝關節機構31的馬達A12能夠繞圖3所示的左右向軸35旋轉,而其足部34通過驅動形成踝關節機構33的馬達A13-A14能夠繞如圖3所示互相正交的左右向軸36和前后向軸37獨立旋轉。
另一方面,如圖4所示,在形成軀干部2下半身的腰基11背面,設有控制部件42的小盒,其內裝有主控制部件40,用來控制整個機器人的整個動作,包括電源電路和通信電路的周邊電路41和電池45(圖5)等。
并且,此控制部件42連接至子控制部件43A~43D、其設在各組成部位(軀干部2、頭部3、臂部4A,4B、和腿部5A,5B)內,并將該控制部件設計成能夠進行向這些子控制部件43A~43D提供必要的電源電壓以及與這些子控制部件43A~43D通訊。
而且,各子控制部件43A~43D連接至對應組成部件的各馬達A1~A14,這些子控制部件43A~43D被設計成能夠以從主控制部件40給出的各種指令所指定的方式來驅動對應組成部件的各馬達A1~A14。
進而,如圖5所示,在頭部3上的所定位置設有組件,例如外傳感器部件53,其由充當機器人1的“眼”的CCD(電荷耦合器件)照相機50和充當機器人1的“耳”的麥克風51,以及觸覺傳感器52,和充當“口”的揚聲器54,而在控制部件42內部設有由電池傳感器55和加速傳感器56組成的內傳感器部件57。
并且,外傳感器部件53的CCD照相機50攝取周遭環境,而所攝視頻信號S1A被發送至主控制部件,同時麥克風51收集的諸如作為聲音輸入的用戶語音,其指示“行走”、“躺倒”和“追球”等各種指令,并將得到的音頻信號S1B發送至主控制部件40。
而且,從圖1和圖2看很顯然,觸覺傳感器52處于頭部53的頂上,它檢測由用戶施加的“敲”和“拍”等物理作用而產生的壓力,而該檢測結果作為壓力檢測信號S1C被發送至主控制部件40。
進而,內傳感器部件57中的電池傳感器55在所定間隙處檢測電池45的能量水平,而該檢測結果作為電池水平檢測信號S2A被發送至主控制部件40,同時加速傳感器56在所定間隙處檢測三軸(x軸,y軸,和z軸)向的加速,而該檢測結果作為加速檢測信號S2B被發送至主控制部件40。
主控制部件40基于分別從外傳感器部件53的CCD照相機50、麥克風51、觸覺傳感器52等分別供給視頻信號S1A、音頻信號S1B、壓力檢測信號S1C等(以下將他們合稱做“外傳感器信號S1”),以及分別從內傳感器部件57的電池傳感器55、加速傳感器等分別供給的電池水平檢測信號S2A、加速檢測信號S2B等(以下將他們合稱做“內傳感器信號S2”),判斷機器人1的周圍和內部狀況、來自用戶的指令、以及來自用戶的影響的存在等。
主控制部件40基于判斷結果、事先存儲在內存40A中的控制程序、和存儲在已安裝的外存58中的各種控制參數,確定后續行動,并基于確定結果向相關子控制部件43A~43D發送控制指令。結果,對應的馬達A1~A14基于控制指令并在子控制部件43A~43D的控制下被帶動,從而讓機器人1行動,例如抬頭或低頭、左轉或右轉頭部3,舉起臂部4A、4B,和行走。
在此關頭,主控制部件40還按需要向揚聲器54饋送所定音頻信號S3,以基于音頻信號S3而輸入聲音,或向置于頭部3所定位置處的充當“眼”外形的LED饋送驅動信號,以使LED閃爍。
于是機器人1被設計成能夠基于周遭和內部狀況、指令、來自用戶的影響而自主舉止。
(2)主控制部件40有關名字學習功能的處理其次,對安裝在機器人1上的名字學習功能給出解釋。
此機器人1安裝有名字學習功能,以得到并學習與人關聯的名字(該過程以下稱做“名字學習”),其方式是通過與人對話得到此人的名字,并基于來自麥克風51和CCD照相機50的輸出,存儲與語音的各聲學特征和檢測到的人的形貌特征相關聯的名字,接著,基于已存儲的數據發現未曾得到其名的新的出場人,以上述同樣方式得到并存儲名字、語音的聲學特征和新人的形貌特征。注意到以下將與語音的聲學特征和此人的形貌特征相關聯而存儲其名的人稱做“熟人”,而未曾存儲其名的人稱做“新人”。
并且,此名字學習功能是由主控制部件40中的各種處理來實現的。
此處,主控制部件40有關名字學習功能的處理內容可按功能劃分如下,如圖6所示,聲音識別部件60,用來識別人朗讀的詞;講話者識別部件61,用來檢測人的語音的聲學特征,并用來基于檢測到的聲學特征識別和識別人;面孔識別部件62,用來檢測人面孔的形貌特征,并用來基于檢測到的形貌特征識別和識別人;對話控制部件63,其負責用于新人名字學習的各種控制,包括控制與人對話,還負責名字、語音的聲學特征和熟人面孔的形貌特征的存儲管理;以及聲音合成器64,用來生成并向揚聲器54(圖5)發送音頻信號S3,用于對話控制部件63控制下的各種對話。
在此情形下,聲音識別部件60的功能是基于來自麥克風51(圖5)的音頻信號S1B、通過執行所定的聲音識別處理而逐詞識別音頻信號S1B中的所含有的詞,并被設計成將所識別的詞作為字符串數據D1發送至對話控制部件63。
而且,講話者識別部件61的功能是檢測人的語音的聲學特征,其來自麥克風所供給的音頻信號S1B,這需利用在例如“隔離需識別的講話者和講話者識別(CH2977-7/91/0000~0837S1.00 1991 IEEE)”中記載的方法而進行所定的信號處理。
并且,在平常時候,講話者識別部件61順次將檢測到的聲學特征的數據與全部已存儲的熟人的聲學特征的數據做比較,并當在該時刻檢測到的聲學特征與任何熟人一致時,講話者識別部件61將特定識別符(以下稱做“SID”)通知給對話控制部件63,該識別符附加了與熟人的聲學特征關聯的聲學特征,而當檢測到的聲學特征與任何熟人皆不一致時,將表示無法識別的SID(=-1)傳達給對話控制部件63。
而且,當控制部件63識別人為新人時,講話者識別部件61根據由對話控制部件63給的新學的開始和結束命令的時間周期的期間,檢測語音的聲學特征,并且,檢測的語音的聲學特征存儲在相關聯的新的SID內,該SID被傳送到對話控制部件63。
注意到講話者識別部件61被設計成能夠進行積累學習,即積累地收集人的語音的聲學特征,以及糾正學習,即糾正人的語音的聲學特征,以響應從對話控制部件63給出的積累學習或糾正學習的起始和結束指令,從而正確地識別人。
面孔識別部件62的功能是一直注視著CCD照相機50(圖5)所給的視頻信號S1A,并基于視頻信號S1A以規定的信號處理檢測圖像中所含的人面孔的外貌特征。
接著,在平常時候,面孔識別部件62順次將檢測到的形貌特征的數據與全部已存儲的熟人的聲學特征的數據做比較,并當在該時刻檢測到的形貌特征與任何熟人一致時,面孔識別部件62將特定識別符(以下稱做“FID”)通知給對話控制部件63,該識別符附加到與熟人的形貌特征關聯的形貌特征,而當檢測到的形貌特征與任何熟人皆不一致時,將表示無法識別的FID(=-1)傳達給對話控制部件63。
而且,當對話控制部件63判斷此人是新人時,面孔識別部件62檢測圖像所含的人面孔的形貌特征,該圖像基于從CCD照相機50給出的視頻信號S1A,且根據從對話控制部件63給出的學習起始指令和學習結束指令的期間的圖像。而檢測到的形貌特征與新的特定FID關聯而存儲,并將此FID傳達給對話控制部件63。
注意到面孔識別部件62被設計成能夠進行積累學習,即積累地收集人面孔的形貌特征,以及糾正學習,即糾正人面孔的形貌特征的數據,以響應從對話控制部件63給出的積累學習或糾正學習的起始和結束指令,從而正確地識別人。
聲音合成器64的功能是將從對話控制部件63給出的字符串數據D2變換成音頻信號S3,而如此得到的音頻信號S3被發送至揚聲器54(圖5)。因此,基于音頻信號S3的聲音被設計成可由揚聲器54輸出。
如圖7所示,對話控制部件63具有內存65(圖6),以存儲熟人的名字和與存儲在講話者識別部件61中的人的語音的聲學特征的數據相關聯的SID,其涉及與存儲在面孔識別部件62中的人面孔的形貌特征的數據相關聯的FID。
接著對話控制部件63被設計成在適宜時刻給予聲音合成器64所定的字符串數據D2,以從揚聲器54輸出聲音,從而詢問談話對方的名字或確認他的名字,并根據基于從此人在此刻的響應等的由聲音識別部件60和講話者識別部件61而產生的識別結果和由面孔識別部件62產生的此人的識別結果,以及上述熟人的名字和存儲在內存65中的SID和FID的關聯信息,判斷此人是不是新人。
此后,當判斷此人是新人時,對話控制部件63通過給予講話者識別部件61和面孔識別部件62用于新學習的起始指令和結束指令,讓講話者識別部件61和面孔識別部件62收集和存儲新人的語音的聲學特征和面孔的形貌特征,結果是與分別從講話者識別部件61和面孔識別部件62給出的新人的語音的聲學特征和面孔的形貌特征相關聯的SID和FID被存儲在涉及從對話中得到的人名的內存65。
而且,當判斷此人是熟人時,對話控制部件63通過給出如要求的用于積累學習和糾正學習的起始指令,讓講話者識別部件61和面孔識別部件62進行必要的積累學習和糾正學習,同時對話控制部件63被設計成進行對話控制,從而延續此人的聊侃,直到講話者識別部件61和面孔識別部件62通過在適宜時刻順次地將所定的字符串數據D2發送至聲音合成器64,而能夠收集適量的用于積累學習和糾正學習的必需數據。
(3)對話控制部件63有關名字學習功能的處理的具體處理其次,對于由對話控制部件63處理的有關名字學習功能的具體內容給出解釋。
對話控制部件63進行各種處理,用來根據如圖8和圖9所述的名字學習處理例程RT1、基于存儲在外存58(圖5)中的控制程序依次學習新人的名字。
即,當面孔識別部件62給出FID時,由于面孔識別部件62基于來自CCD照相機50的視頻信號S1A識別人面孔,故對話控制部件63在步驟SP0處開始名字學習處理例程,并在下一步SP1處,基于存儲在內存65中涉及帶有對應SID和FID的熟人名字的信息(以下稱之為“關聯信息”),判斷有無可能搜索對應于FID的名字(即,判斷FID是不是意味著無法識別的“-1”)。
那末,在步驟SP1處得到肯定的結果意味著此人是熟人,帶有存儲在面孔識別部件62中的人面孔的形貌特征,并帶有與存儲在內存65中涉及此人名字的數據所對應的FID。然而,在此情形下,仍然可以想到面孔識別部件62可能會將新人錯認成熟人。
接著,當在步驟SP1處得到肯定的結果時,處理前進至步驟SP2,在此對話控制部件63將所定的字符串數據D2發送至聲音合成器64,從而讓揚聲器54輸出問詢的聲音,例如圖10所示的“閣下是某某君嗎?”,以確認此人的名字是否與使用FID檢測到的名字(對應于上例中的某某君)一致。
此后,處理前往步驟SP3,在此對話控制部件63等候此人回答問題的聲音識別結果,例如“是,我是。”或“不,我不是。”,其可望來自聲音識別部件60。接著,當這一聲音識別結果從聲音識別部件60給出時、或當此刻講話者識別結果的SID從講話者識別部件61給出時,處理前進至步驟SP4,在此對話控制部件63基于來自聲音識別部件60的聲音識別結果,判斷此人的回答是不是肯定性的。
在步驟SP4處獲得肯定的結果意味著基于在步驟SP1處從面孔識別部件62給出的FID而檢索的名字與此人的名字一致,并斷定此人確實是要找的人,其名字是對話控制部件63檢索的。
于是對話控制部件63此刻斷定此人確實是要找的人,其名字是對話控制部件63檢索的,并前進至步驟SP5,在此將積累學習的起始指令給予講話者識別部件61。此刻,當首先從講話者識別部件61給出的SID與可使用基于存儲在內存65中關聯信息的名字而檢索的SID一致時,對話控制部件63此將積累學習的起始指令給予講話者識別部件61,反之,而當不一致時,則給出糾正學習的起始指令。
此后,處理前往步驟SP6,在此對話控制部件63順次將字符串數據D2發送至聲音合成器64,以持續地寒暄而延長與此人的對話,例如圖10所示的“今天天氣不錯,是吧?”而在過了所定的期間后,處理前進至步驟SP7,在此向講話者識別部件61和面孔識別部件62發出積累學習或糾正學習的結束指令,而處理前進至步驟SP20,在此結束對于此人的名字學習處理。
另一方面,在步驟SP1處獲得否定的結果意味著由面孔識別部件62識別面孔的人是新人,或面孔識別部件62將熟人錯認成新人了。而且,在步驟SP4處等到否定的結果意味著使用從面孔識別部件62給出的FID而檢索的名字與此人的名字不一致。在任一情形下,對話控制部件63被認為未處于正確認出此人的狀態中。
接著,當在步驟SP1處得到否定的結果時,或當在步驟SP4處得到否定的結果時,處理前進至步驟SP8,在此對話控制部件63向聲音合成器64饋送字符串D2,從而讓揚聲器54輸出問詢的聲音,例如圖11所示的“請問閣下尊姓?”,以獲悉此人的名字。
接著處理前進至步驟SP9,在此對話控制部件63等候此人回答問題的聲音識別結果(即,名字),例如“我是某某”,和在回答時刻講話者識別部件61的講話者識別結果(即,SID),其分別從聲音識別部件60和講話者識別部件61給出。
接著,當從聲音識別部件60給出聲音識別結果并從講話者識別部件61給出SID時,處理前進至步驟SP10,在此對話控制部件63基于聲音識別結果和SID,以及首先從面孔識別部件62給出的FID,判斷此人是不是新人。
在該實施例的情形下,以上判斷是由三種識別結果的多數決定做出的由聲音識別部件60識別聲音的結果所得的名字,來自講話者識別部件61的SID,和來自面孔識別部件62的FID。
例如,當來自講話者識別部件61的SID和來自面孔識別部件62的FID雙方皆顯示意味著無法識別的“-1”時,并當按以上步驟基于來自聲音識別部件60的聲音識別結果而得到的人名不與內存65中的任何SID和FID關聯時,判斷此人為新人。此判斷可根據某人長得不像任何一張面孔、語音也不像任何熟人而名字又是新名的情況而做出。
另一方面,當來自講話者識別部件61的SID和來自面孔識別部件62的FID與內存65中的不同名字關聯、或二者之一顯示意味著無法識別的“-1”時,并當基于在步驟SP9處聲音識別部件60的聲音識別結果而得到的人名未存儲在內存65中時,對話控制部件63判斷此人是新人。這是因為,在各種識別處理的步驟中將此人判斷為新人的置信度較高,因為一種新類別易于錯誤地被識別成任何已知類別,并考慮到聽覺識別出的名字未注冊的事實。
與此相反,當來自講話者識別部件61的SID和來自面孔識別部件62的FID與內存65中的同一名字關聯時,并當基于在步驟SP9處聲音識別部件60的聲音識別結果而得到的人名與SID和FID關聯時,對話控制部件63判斷此人是熟人。
而且,當來自講話者識別部件61的SID和來自面孔識別部件62的FID與內存65中的不同名字關聯時,并當基于在步驟SP9處聲音識別部件60的聲音識別結果而得到的人名與SID和FID之一關聯時,對話控制部件63判斷此人是熟人。在此情形下,判斷由多數決定做出,因為講話者識別部件61和面孔識別部件62的識別結果中可能有一個是錯誤的。
同時,當來自講話者識別部件61的SID和來自面孔識別部件62的FID與內存65中的不同名字關聯時,并當基于在步驟SP9處聲音識別部件60的聲音識別結果而得到的人名與內存65中的SID和FID皆不關聯時,對話控制部件63不判斷此人是熟人還是新人。在此情形下,可以想見聲音識別部件60、講話者識別部件61、和面孔識別部件62之一或全部識別錯了,但此時尚不能判斷哪一個是錯。所以在此情形下,判斷被掛起。
在此判斷處理之后,當在步驟S10處判斷此人是新人時,處理前進至步驟SP11,在此對話控制部件63給予講話者識別部件61和面孔識別部件62新學習的起始指令,而接著處理前往步驟SP12,在此對話控制部件63將字符串數據D2發送至聲音合成器64,以繼續談話,從而延續此人的聊侃,例如圖11所示的“我是機器人,幸會。”或“某某君,今天天氣不錯,是吧?”。
此后處理轉往步驟SP13,在此對話控制部件63判斷講話者識別部件61中的聲學特征數據和面孔識別部件62中的形貌特征數據二者的收集是否已達到足夠量,而若得到否定的結果,則處理返回步驟SP12,并繼而重復步驟SP12-SP13-SP12的循環,直到在步驟SP13處得到肯定的結果。
當在步驟SP13處得到肯定的結果,并且,講話者識別部件61中的聲學特征數據和面孔識別部件62中的形貌特征數據二者的收集已達到足夠量時,處理前進至步驟SP14,在此對話控制部件63給予講話者識別部件61和面孔識別部件62新學習的結束指令。結果,將聲學特征數據存儲在講話者識別部件61中,且與新SID關聯,并將形貌特征數據存儲在面孔識別部件62中,且與新FID關聯。
此后,處理前進至步驟SP15,在此對話控制部件63等候分別從講話者識別部件61和面孔識別部件62給出SID和FID,并當給出它們時,例如圖12所示,將它們在內存65中注冊,與在步驟SP9處基于在步驟SP9處聲音識別部件60的聲音識別結果而得到的人名相關聯。接著在對話控制部件63中的處理轉向步驟SP20,并結束對于此人的名字學習處理。
另一方面,當在步驟SP10處判斷此人是熟人時,處理前進至步驟SP16,當講話者識別部件61和面孔識別部件62正確判斷熟人(即,當講話者識別部件61和面孔識別部件62輸出同一SID或FID作為識別結果,而對應于作為關聯信息存儲在內存65中的熟人時)時,對話控制部件63給予講話者識別部件61或面孔識別部件62積累學習的起始指令,而當講話者識別部件61和面孔識別部件62不能正確判斷熟人(當講話者識別部件61和面孔識別部件62輸出同一SID或FID作為識別結果,而對應于作為關聯信息存儲在內存65中的熟人時)時,對話控制部件63給予講話者識別部件61或面孔識別部件62糾正學習的起始指令。
具體地說,當在步驟SP9處從講話者識別部件61得到的SID和從面孔識別部件62給出的FID與內存65中同一名字關聯時,同時當在步驟SP10處根據以下事實判斷此人是熟人時即基于聲音識別部件60在步驟SP9處的識別結果而得到的名字是與SID和FID關聯的名字,此時,對話控制部件63給予講話者識別部件61和面孔識別部件62二者積累學習的起始指令。
而且,當在步驟SP9處從講話者識別部件61得到的SID和從面孔識別部件62給出的FID與內存65中不同名字關聯時,同時當在步驟SP10處根據以下事實判斷此人是熟人時即基于聲音識別部件60在步驟SP9處的識別結果而得到的名字是與SID和FID之一關聯的名字,此時,對話控制部件63給予講話者識別部件61或面孔識別部件62之一積累學習的起始指令,其中識別部件61或面孔識別部件62已經產生了與基于聲音識別部件60的識別結果而得到的名字相關聯的SID或FID,并給予講話者識別部件61或面孔識別部件62之一糾正學習的起始指令,其中識別部件61或面孔識別部件62已經產生了與基于聲音識別部件60的識別結果而得到的名字無關聯的SID或FID。
此后處理前往步驟SP17,在此對話控制部件63依次將一系列的字符串數據D2發送至聲音合成器64以保持聊侃,從而延長與此人的對話,例如圖13所示的“唉,閣下是某某君是吧,我想起您來了。今天天氣不錯,是吧?”或“我們何時見過面了?”而在過了所定的積累學習或糾正學習的足夠期間后,處理前進至步驟SP18,在此向講話者識別部件61和面孔識別部件62發出積累學習或糾正學習的結束指令,而處理前進至步驟SP20以終止對于此人的名字學習處理。
同時,當對話控制部件63在步驟SP10處判斷無法確定此人是熟人還是新人時,處理前進至步驟SP19,并將一系列字符串數據D2依次發送至聲音合成器64,以進行例如圖14所示的聊侃“噢,是嗎?您好嗎?”并且,在此情形下,對話控制部件63不給予講話者識別部件61或面孔識別部件62新學習、積累學習、或糾正學習的起始指令或結束指令(即,講話者識別部件61和面孔識別部件62皆不得進行新學習、積累學習、或糾正學習),而在所定期間內處理前進至步驟SP20以終止對于此人的名字學習處理。
如此,對話控制部件63被設計成基于聲音識別部件60、講話者識別部件61、和面孔識別部件62的識別結果,而能夠通過控制與人的對話和控制講話者識別部件61和面孔識別部件62的操作來依次學習新人的名字。
(4)聲音識別部件60和面孔識別部件62的具體構成其次,對于聲音識別部件60和面孔識別部件62的具體構成給出解釋,以體現上述名字學習功能。
(4-1)聲音識別部件60的具體構成圖15表示聲音識別部件60的具體構成。
在此聲音識別部件60中來自麥克風51的音頻信號S1B進入AD(模數)變換器70。AD變換器70對供給的模擬信號的音頻信號S1B進行取樣和量化,使該模擬信號AD變換成數字信號的聲音數據。將此聲音數據饋送至特征抽取部件71。
特征抽取部件71基于合適的幀對輸入的聲音數據進行例如MFCC(Mel頻率對數倒頻譜系數,Mel Frequency Cepstrum Coefficient)分析,并向匹配部件72和未注冊詞處理部件76輸出為特征向量(特征參數)MFCC,作為得到的分析結果。注意到特征抽取部件71能抽取諸如線性預測系數、對數倒頻譜系數、線譜對、各所定頻率的功率(濾波池的輸出)等作為特征向量。
匹配部件72按需要參照聲學模型存儲部件73、辭典存儲部件74、和語法存儲部件75,基于諸如連續分布HMM(隱藏Markov模型),且使用來自特征抽取部件71的特征向量而識別進入麥克風51的音頻態聲音(輸入聲音)。
即,聲學模型存儲部件73存儲聲學模型(例如,HMM,或包括用作DP(動態編程)匹配的標準圖譜等),其代表識別出的語言的單音素、音節和音素學等單詞的聲學特征。HMM(隱藏Markov模型)被用作聲學模型是因為此處進行聲音識別的基礎是連續分布HMM方法。
辭典存儲部件74識別辭典,其中,通過作為識別單位的音群而得到詞音與詞條的信息互相關聯。
下面,圖16表示存儲在存儲部件74中的辭典。
如圖16所示,詞條和在辭典音群中關聯的音素系列在音素系列中為各對應詞而構建。在圖16的辭典中,一個條目(圖16中的一行)對應于一個音群。
注意到圖16中的條目以羅馬字母和日本語字符(假名和漢字)二者、以及羅馬字母中的音素系列來代表。然而,音素系列中的“N”卻表明“N(ん)”,這是日本語中的鼻音音節。而且,圖16中的一個音素系列被描述成一個條目,能將數個音素系列表述成一個條目。
返回圖4,語法存儲部件26存儲語法規定,其描述在辭典存儲部件25的辭典中注冊的各詞是如何鏈接(成句)的。
圖17表示存儲在語法存儲部件75中的語法規定。注意到圖17中的語法規定以EBNF(Extended Backus Naur Form)來描述。
在圖17中,從一行開頭到出現“;”的部分表達了一項語法規定。而且,以“$”開頭的一群西文字母(行)表達了變量,同時不帶“$”的一群西文字母(行)則表達了一個詞條(圖16中以羅馬字母描述的條目)。此外,以一對〔〕括起來的部分可以省略,而標記〔|〕意味著應該選擇擺在前后的任一詞頭(變量)。
因此,在圖17中,例如在頭一行(緊靠頂上的第一行)的語法規定“$col=〔kono|sono〕色は;”中,變量$col代表“konoiro wa(這個顏色)”或“sonoiro wa”(那個顏色)的一行詞。
在圖17所示的語法規定中,變量$sil和$garbage卻未定義,變量$sil代表啞聲學模型(啞模型),而變量$garbage本質上代表冗模型、其允許音素間的自由過渡。
再返回圖15,匹配部件72參照辭典存儲部件74的辭典,通過連接存儲在聲學模型存儲部件73中的聲學模型,而構成詞的聲學模型(詞模型)。進而,匹配部件72參照存儲在語法存儲部件75中的語法規定而連接一些詞模型,并基于字符向量,憑連續分布HMM方法,使用這些連接詞識別輸入麥克風51的聲音。即,匹配部件72檢測詞模型系列,其從特征抽取部件71輸出的時系列特征向量表示最高觀察分值(可能性),并輸出為與該詞模型的系列對應的詞條行的聲音識別結果。
具體地說,匹配部件72將連接詞模型與對應詞鏈接起來,并基于字符向量,憑連續分布HMM方法,使用這些連接詞識別輸入麥克風51的聲音。即,匹配部件72檢測詞模型系列,其從特征抽取部件71輸出的時系列特征向量表示最高觀察積分(可能性),并輸出為與該詞模型的系列對應的詞條行的聲音識別結果。
具體地說,匹配部件72就對應于連接詞模型的一行詞而言,累集各特征向量的出現概率(輸出概率),以累集值作為積分,輸出為積分最高的詞條行的聲音識別結果。
以上輸出并輸入麥克風51的聲音識別結果作為字符串數據D1被輸出至對話控制部件63。
在圖17的實施例中,有一條語法規定「$pat1=$color1$garbage$color2;」(以下酌情稱之為“非注冊詞規定”),其使用變量$garbage表明第9行(自頂上起第9行)上的冗模型,而當適用此非注冊詞規定時,匹配部件72檢測對應于變量$garbage的聲音部件作為非注冊詞的聲音部件。此外,當使用非注冊詞規定時,匹配部件72檢測非注冊詞的音素系,即作為變量$garbage所表明的冗模型中的過渡音素的音素系列。接著,當作為適用非注冊詞規定而得到了聲音識別結果時,匹配部件72向非注冊詞處理部件76供給檢測到的非注冊詞的聲音部和音素系列。
注意到根據以上非注冊詞規定“$pat1=$color1$garbage$color2;”,在由變量$color1表明的注冊在辭典中的詞(行)的音素系列與由變量$color2表明的注冊在辭典中的詞(行)的音素系列之間檢測到一個非注冊詞,然而,在此實施例中甚至也能將此非注冊詞規定使用于以下情形即講話中含數個非注冊詞,以及在辭典中注冊的詞(行)之間未放入非注冊詞的情形。
非注冊詞處理部件76暫時持有從特征抽取部件71供給的特征向量的系列(特征向量系列)。進而,當從匹配部件72收到非注冊詞的聲音部和音素系列時,由于聲音部出自暫時持有的特征向量系列,非注冊詞部處理部件76檢測聲音的特征向量系列。接著非注冊詞處理部件76將唯一的ID(身份)分配給來自匹配部件72的音素系列(非注冊詞),其與非注冊詞的音素系列和聲音部中的特征向量系列一道被提供給特征向量緩沖77。
特征向量緩沖77暫時存儲從非注冊詞處理部件76供給的非注冊詞ID、音素系列、和特征向量系列,其如圖18所示互相關聯。
在圖18中,以1開始的序號作為識別符附于非注冊詞。因此,例如,在N個非注冊詞ID,音素系列和特征向量系列存儲在特征向量緩沖77中的情形下,而當匹配部件72檢測到非注冊詞的聲音部和音素系列時,在非注冊詞處理部件76中將數值N+1附于非注冊詞作為ID,而非注冊詞的ID、音素系列和特征向量系列存儲在特征向量緩沖77中,如圖18中的虛線所示。
返回圖15,音群部件78算出各其他非注冊詞(以下酌情稱之為“新非注冊詞”)與早已存儲在特征向量緩沖77中的非注冊詞(以下酌情稱之為“早已存儲的非注冊詞”)相關聯的積分。
即,像在匹配部件72的情形下那樣,將新非注冊詞作為輸入聲音、并將早已存儲的非注冊詞作為在辭典中注冊的詞,音群部件78算出新非注冊詞與各早已存儲的非注冊詞相對積分。具體地說,音群部件78通過參照特征向量緩沖77識別新非注冊詞的特征向量系列,并根據早已存儲的非注冊詞的音素系列連接聲學模型,憑所連接的聲學模型算出積分,作為新非注冊詞的觀察特征向量系列的可能性。
注意到存儲在聲學模型存儲部件73中的聲學模型用于此目的。
類似地,音群部件78算出新非注冊詞與各早已存儲的非注冊詞相對的積分,并憑此積分更新存儲在積分單存儲部件79中的積分單。
進而,通過參照更新積分單,音群部件78從對早已得到的非注冊詞(早已存儲的非注冊詞)進行音群化的音群中檢測出附加新非注冊詞為新成員的音群。再進而,音群部件78基于同樣的音群的成員將音群分成檢測到新非注冊詞的音群的新成員,并基于分割結果,更新存儲在積分單存儲部件79中的積分單。
積分單存儲部件79存儲新非注冊詞與早已存儲的非注冊詞相對積分,以及積分單,其相對于新非注冊詞而注冊了早已存儲的非注冊詞的積分及其他。
此處,圖19表示積分單。
積分單由描述非注冊詞的“ID”、“音素系列”、“音群數”、“代表成員ID”和“積分”的條目組成。
同樣存儲在特征向量緩沖77中的內容由音群部件78注冊為非注冊詞的“ID”、“音素系列”。“音群數”是指定該條目的非注冊詞是成員的音群的數,而該數由音群部件78指定并在積分單中注冊。“代表成員ID”是作為代表成員的非注冊詞的ID,其代表該條目的非注冊詞是成員的音群,此代表成員ID使識別非注冊詞是成員的音群的代表成員成為可能。音群的代表成員由音群部件29得到,而代表成員ID注冊至積分單上的代表成員ID。“積分”是各其他非注冊詞與此條目的非注冊詞相對的積分,如上述由音群部件78算出。
下面,假設例如N個非注冊詞的ID、音素系列、和特征向量系列存儲在特征向量緩沖77中,注冊至積分單上的是N個非注冊詞的ID、音素系列、音群數、代表ID、和積分。
而且,當新非注冊詞的ID、音素系列、和特征向量系列存儲在特征向量緩沖77中時,積分單由圖19中虛線所示在音群部件78中更新。
即,新非注冊詞的ID、音素系列、音群數、代表ID、和各早已存儲的與新非注冊詞相對的非注冊詞積分(圖19中的積分s(N+1,1),s(2,N+1),...s(N+1,N))被加到積分單。進而,新非注冊詞與各早已存儲的非注冊詞相對的積分(圖1 9中的積分s(N+1,1),s(2,N+1),...s(N+1,N))被附加到積分單。再進而,如后述,按需要對積分單上非注冊詞的音群數和代表成員ID進行置換。
在圖19的實施例中,相對于ID為j的非注冊詞的ID為i的非注冊詞的積分(講話)被表達成s(i,j)。
還將相對于ID為j的非注冊詞(的音素系列)的ID為i的非注冊詞的積分s(i,j)(講話)也注冊至積分單(圖19)。因為積分s(i,j)是當檢測到非注冊詞的音素系列時,在匹配部件72中算出的,故不必在音群部件78中進行計算。
再度返回圖15,維護部件80基于在積分單存儲部件79中更新的積分單而更新存儲在辭典存儲部件74中的辭典。
下面,按以下方式確定音群的代表成員。即,例如,從作為音群成員的非注冊詞中成為音群的代表成員,該代表成員是使得其余非注冊詞的積分總數最大的非注冊詞(其他置換做法可包括例如,由其余非注冊詞數去除總數所產生的平均值)。因此,在此情形下,假設屬于音群的成員的成員ID以k表達,則代表成員是具有ID值為k(∈k)的成員,表達為以下表達式k=maxk{∑s(k3,k)}......(1)注意到在以上表達式(1)中,maxk{}意味著k使得{}內的值最大。而且,k3像k那樣意味著屬于音群的成員的ID。進而,∑意味著在全部屬于音群的成員的ID上變化k3而產生的總數。
在如上確定代表成員的情形下,當音群成員是一兩個非注冊詞時,不必要在確定代表成員中算出積分。即,當音群成員是單個非注冊詞時,該單個非注冊詞就是代表成員,而當音群成員是兩個非注冊詞時,可以將兩詞中的任一個指定為代表成員。
絕不可能將確定代表成員的方法限制在上述一種,但是可能指定諸如一個非注冊詞為音群的代表成員,該非注冊詞是從使得特征向量空間中與各其余非注冊詞相對的距離總數最小的音群成員中拾取的非注冊詞。
在如上構造的聲音識別部件60中,根據圖20所示的聲音識別處理例程RT2來進行聲音識別處理,以識別輸入麥克風51的聲音,并進行對于非注冊詞的非注冊詞處理。
在實際中,當由人講話而得到的音頻信號S1B從麥克風51通過AD變換器70作為聲音數據而提供給特征抽取部件71時,在聲音識別部件60中,此聲音識別處理例程RT2在步驟SP30處開始行動。
在下一步驟SP31中特征抽取部件71通過以所定的幀單位在聲學上分析聲音數據來抽取特征向量,而此特征向量的系列被提供給匹配部件72和非注冊詞處理部件76。
在后續步驟S32處,匹配部件76對于從特抽取部件71給出的特征向量系列進行上述積分計算,而在下一步驟S33處得到并輸出詞行的條目、其是基于積分計算得到的積分的聲音識別結果。
進而,匹配部件72在下一步驟S34處判斷在用戶聲音中含不含非注冊詞。
當在步驟S34處判斷在用戶聲音中不含非注冊詞時,即,在沒有應用上述非注冊詞規定“$pat1=$color1$garbage$color2;”而得到聲音識別結果的情形下,處理前進至步驟S35,結果就終止了。
與以上相反,在步驟S34處,當判斷在用戶聲音中含非注冊詞時,即,在應用上述非注冊詞規定“$pat1=$color1$garbage$color2;”而得到聲音識別結果的情形下,在后續步驟S35處匹配部件23檢測在非注冊詞規定中的變量$garbage對應的聲音部來作為非注冊詞的聲音部,并在此刻檢測非注冊詞的音素系列,即作為在變量$garbage代表的冗模型中的音素過渡的音素系列,而非注冊詞的聲音部和音素系列被提供給非注冊詞處理部件76,終止處理(步驟SP36)。
同時,暫時存儲從特征抽取部件71供給的特征向量系列,當從匹配部件72供給的非注冊詞的聲音部和音素系列時,非注冊詞部處理部件76在聲音部中檢測聲音的特征向量系列。此外,非注冊詞部處理部件76將ID附加來自匹配部件72的非注冊詞(的音素系列),其與非注冊詞的音素系列和聲音部中的特征向量系列一道被提供給特征向量緩沖77。
如以上方式,當新發現的非注冊詞(新非注冊詞)的ID、音素系列、和特征向量系列被存儲在特征向量緩沖器77中時,根據圖21所示非注冊詞處理例程RT3而開始非注冊詞處理的行動。
即,在聲音識別部件60中,如上述,當新發現的非注冊詞(新非注冊詞)的ID、音素系列、和特征向量系列被存儲在特征向量緩沖77中時,此非注冊詞處理例程在步驟SP40處開始行動,緊接著是步驟SP41,在此音群部件78讀出來自特征向量緩沖77的新非注冊詞的ID和音素系列。
在下一步驟S42處,音群部件78通過參照積分單存儲部件30中的積分單而判斷是否存在早已得到(生成)的音群。
而且,當在步驟S42處判斷不存在早已得到的音群時,即在新非注冊詞是頭一個非注冊詞的情形下,而且積分單上不存在早已存儲的非注冊詞的條目,則步驟前往步驟S43,在此音群部件78新生成一個以該新非注冊詞為代表成員的音群,并通過將關于新音群的信息和關于新非注冊詞的信息注冊至積分單存儲部件79中的積分單而更新積分單。
即,音群部件78將來自特征向量緩沖77的新非注冊詞的ID和音素系列注冊至積分單(圖19)。此外,音群部件78生成唯一的音群數,其作為新非注冊詞的音群數而注冊至積分單。并且,音群部件78使新非注冊詞的ID注冊至積分單中,而成為新非注冊詞的代表成員ID。在此情形下,因此,該新非注冊詞變成新音群的代表成員。
注意到在此時不進行積分計算,因為沒有已存儲的非注冊詞,無法籍以進行與新非注冊詞相對的積分計算。
在步驟S43的處理之后,處理前往步驟S52,在此維護部件80基于在步驟S43處更新的積分單而更新辭典存儲部件74中的辭典,并終止處理(步驟SP54)。
即,在此情形下,由于生成了新音群,故維護部件31參照積分單中的音群數而識別新生成的音群。接著維護部件80將對應于音群的條目附加至辭典存儲部件74中的辭典,并注冊為新音群的代表成員的音素系列條目的音素系列,在此情形下即新非注冊詞的音素系列。
另一方面,當在步驟S42處判斷存儲已得到的音群時,即在新非注冊詞不是頭一個非注冊詞的情形下,在積分單(圖19)中存在已存儲的非注冊詞的條目(行),處理前進至步驟S44,在此音群部件78算出已存儲的非注冊詞與新非注冊詞相對的積分,并同時算出新非注冊詞與已存儲的非注冊詞相對的積分。
換句話說,假設例如已存儲的非注冊詞的ID為從1到N,而新非注冊詞的ID為N+1,則在音群部件78中算出N個已存儲的非注冊詞與新非注冊詞相對的積分s(N+1,1),s(N+1,2),...s(N,N+1),其在圖19中虛線所示的部分中,并算出新非注冊詞與N個已存儲的非注冊詞相對的積分s(1,N+1),s(2,N+1),...s(N,N+1)。注意到在音群部件78中算出那些積分時必需新非注冊詞與N個已存儲的非注冊詞的特征向量系列,不過,那些特征向量是參照特征向量緩沖28而識別的。
接著音群部件78將算出的積分與新非注冊詞的ID和音素系列附加至積分單,而處理前進至步驟S45。
在步驟S45,通過參照積分單(圖19),音群部件78檢測使得與新非注冊詞相對的積分s(N+1,i)(i=1,2,...,N)最高(最大)的代表成員的音群。換言之,音群部件78通過參照積分單上代表成員的ID而識別成為代表成員的已存儲的非注冊詞,并進而通過參照積分單上的積分而檢測已存儲的非注冊詞,該詞作為使得非注冊詞的積分最高的代表成員。而音群部件78檢測具有已存儲的非注冊詞的音群數的音群、其作為檢測到的代表成員。
此后處理前往步驟S46,在此音群部件29將新非注冊詞附加至在步驟S45處檢測到的音群的成員(以下酌情稱之為“檢測到的音群”)。即,音群部件78在積分單上將檢測到的音群的代表成員的音群數寫成新非注冊詞的音群數。
例如,在步驟S47處,音群部件78進行例如音群分割處理,以將檢測到的音群一分為二,而處理前進至步驟S48。在步驟S48處,音群部件78判斷檢測到的音群是否已由步驟S47處的音群分割處理成功地一分為二了,而當判斷分割成功時,處理前往步驟S49。在步驟S49處,音群部件78算出通過分割檢測到的音群而產生的兩個音群之間的音群距離(以下酌情將這兩個音群稱之為“第一子音群和第二子音群”)。
此處,第一子音群與第二子音群之間的音群距離例如定義如下。
假設第一子音群和第二子音群二者之中任一成員(非注冊詞)的ID由k代表,而第一子音群和第二子音群的任一代表成員(非注冊詞)由k1或k2代表,則在下式中D(k1,k2)=maxvalk{abs(log(s(k,k1))-log(s(k,k2)))} ......(2)值D(k1,k2)被定義成第一子音群與第二子音群之間的音群間距。
注意到在表達式(2)中abs()表明()中值的絕對值。而且,maxvalk{}指示{}中值的通過變化k而得到的最大值。而表達自然對數或常用對數。
下面,假設ID代表成員i作為成員#1,表達式(2)中的積分的倒數1/s(k,k1)對應于成員#k與代表成員k1之間的距離,而表達式(2)中的積分的倒數1/s(k,k2)對應于成員#k與代表成員k2之間的距離。根據表達式(2),因此,代表成員#k1與第一子音群的任何成員的間距,代表成員#k2與第二子音群的任何成員的間距,這兩個間距之差的最大值即是第一與第二子音群之間的音群間距。
音群間距不限于上述,還可能指定以下作為音群間距,例如,由第一子音群的代表成員與第二子音群的代表成員的DP匹配而得到的特征向量空間中的距離累加。
在步驟S49的處理之后,處理前進至步驟S50,在此音群部件78判斷第一與第二子音群之間的音群間距是否大于所定的閾值ξ(或所定的閾值ξ或更高)。
當在步驟S50處判斷音群間距大于所定的閾值ξ時,即在作為檢測到的音群的成員的多個非注冊詞將按聲學特征被音群化為兩個音群時,處理前往步驟S51,在此音群部件78將第一和第二子音群注冊至積分單存儲部件79中的積分單。
即,隨著將唯一音群數分配給第一和第二子音群,音群部件78更新積分單,從而音群化至第一子音群的成員的音群數被指定為第一子音群的音群數,而音群化至第二子音群的成員的音群數被指定為第二子音群的音群數。
進而,音群部件78更新積分單,從而音群化至第一子音群的成員的成員ID被指定為第一子音群的代表成員ID,而音群化至第二子音群的成員的成員ID被指定為第二子音群的代表成員ID。
注意到有可能將檢測到的音群的音群數分配給第一和第二子音群之一。
當由音群部件78按以上方式將第一和第二子音群注冊至積分單時,處理從步驟S51轉至步驟S52,在此維護部件80基于積分單而更新辭典存儲部件74中的辭典,接著處理終止(步驟SP54)。
即,在此情形下,因為檢測到的音群被分成第一和第二子音群,故維護部件80首先刪除與檢測到的音群對應的辭典中的條目。進而,維護部件80向辭典中附加與第一和第二子音群分別對應的兩個條目,并將第一子音群的代表成員的音素系列注冊為與第一子音群對應的條目的音素系列,同時將第二子音群的代表成員的音素系列注冊為與第二子音群對應的條目的音素系列。
另一方面,當在步驟S48處判斷步驟S47處的音群分割處理不能將檢測到的音群一分為二,或當在步驟S50處判斷第一與第二子音群的音群間距小于所定的閾值ξ時(換言之,在這種情形下即作為檢測到的音群的數個非注冊詞的聲學特征不像第一和第二子音群,以致達到造成了音群化的地步),處理前進至步驟S53,在此音群部件78得到檢測到的音群的新代表成員,并以此來更新積分單。
即,音群部件78對于附加了新非注冊詞的檢測到的音群的各成員,通過參照積分單存儲部件79中的積分單,而識別表達式(1)的計算的必要的積分s(k3,k)。進而,音群部件78使用識別出的積分s(k3,k)、基于表達式(1)而得到成為檢測到的音群的新代表成員的成員ID。接著音群部件78將積分單(圖19)中檢測到的音群的各成員的代表成員ID改寫成檢測到的音群的新代表成員的ID。
此后處理前往步驟S52,在此維護部件80基于積分單而更新辭典存儲部件74中的辭典,接著處理終止(步驟SP54)。
換句話說,在此情形下,維護部件80通過參照積分單而識別檢測到的音群的新代表成員,并進而識別代表成員的音素系列。接著維護部件80將與辭典中檢測到的音群對應的條目的音素系列置換成檢測到的音群的新代表成員的音素系列。
下面,根據圖22所示的音群分割處理例程RT4而進行圖21中步驟SP47處的音群分割處理。
即,在聲音識別處理部件60中,隨著處理從圖22的步驟SP46推進至步驟S47,音群分割處理例程RT4開始于步驟SP60處,而首先在步驟S61處音群部件78選擇兩個任意成員的組合,這兩個成員從附加了新非注冊詞作為成員的檢測到的音群中選出,皆是試驗性代表成員。注意到以下酌情將此兩個試驗性代表成員稱做“第一試驗性代表成員”和“第二試驗性代表成員”。
接著,在下一步驟S62處,音群部件78判斷檢測到的音群的成員是否可以一分為二,從而分別將第一試驗性代表成員和第二試驗性代表成員作為代表成員。
在此階段有必要算出表達式(1)以確定第一或第二試驗性代表成員是否可以作為代表成員,而用于此計算的積分s(k′,k)可通過參照積分單來識別。
當在步驟S62處判斷檢測到的音群的成員不可能一分為二、從而分別將第一試驗性代表成員和第二試驗性代表成員作為代表成員時,處理跳過步驟S62而前往步驟S64。
介時,當在步驟S62處判斷檢測到的音群的成員可以一分為二,從而分別將第一試驗性代表成員和第二試驗性代表成員作為代表成員時,處理前往步驟S63,接著音群部件78將檢測到的音群的成員一分為二,從而分別將第一試驗性代表成員和第二試驗性代表成員作為代表成員,作為檢測到的音群的分割結果,以分割出的一對雙音群作為第一和第二子音群的候選(以下酌情稱之為“一對候選音群”),而處理轉至步驟S64。
在步驟S64處,音群部件78判斷在檢測到的音群的成員中是否還有一對成員未被選為第一和第二試驗性代表成員對,而當判斷是時,處理返回步驟S61,在此未被選為第一和第二試驗性代表成員對的檢測到的音群的一對成員被選擇,隨后重復相同處理。
而且,當在步驟S64處判斷沒有哪一對成員未被選為第一和第二試驗性代表成員對時,處理前進至步驟S65,在此音群部件78判斷是否有一對候選音群。
當在步驟S65處判斷沒有一對候選音群時,處理跳過步驟S66而返回。在此情形下,在圖21的步驟S48處判斷檢測到的音群不可分割。
另一方面,當在步驟S65處判斷存在一對候選音群時,處理前往步驟S66,在此音群部件78當有數對候選音群時,得到各對候選音群的兩個音群的音群間距。接著音群部件78得到音群間距最小的一對候選音群,并分割此對候選音群以產生第一和第二子音群,而處理返回。注意到在僅有一對候選音群的情形下,他們被原樣地作為第一和第二子音群。
在此情形下,在圖21的步驟S48處判斷檢測到的音群已成功地進行了分割。
如上述,因為在音群部件78中附加了作為新成員的音群(檢測到的音群)新非注冊詞被從進行了已得到的非注冊詞的音群化的音群中檢測到,而隨著新非注冊詞作為檢測到的音群的新成員,檢測到的音群基于檢測到的音群的成員而被分割,容易將非注冊詞音群化至聲學特征互相近似的那些(音群)。
此外,因為辭典是基于在維護部件80中的這種音群的結果而更新的,故容易將非注冊詞注冊至防其變大的辭典。
而且,例如,若非注冊詞的聲音部在匹配部件72中檢測錯了,則這一非注冊詞被音群化至另一音群,其與聲音部通過分割檢測到的音群而正確檢測的非注冊詞分離。接著對應于此音群的條目被注冊至辭典,不過,由于對應于此聲音部的條目的音素系列檢測不正確,故不會發生未來聲音識別給出大積分的情況。因此,例如,一旦非注冊詞的聲音部檢測錯了,則此錯誤幾乎對未來聲音識別沒有影響。
現在,圖23表示通過朗讀非注冊詞而得到的音群化結果。注意到圖23中的各條目(各行)表示一個音群。而且,圖23的左列表示各音群的代表成員(非注冊詞)的音素系列,而圖23的右列表示成為各音群的成員的非注冊詞的內容和數字。
即,例如,在圖23中第一行的條目指示一個音群,其成員是僅朗讀非注冊詞“furo(沐浴)”,而該代表成員的音素系列是“doroa”。而且,例如第二行的條目指示一個音群,其成員是三次朗讀非注冊詞“furo”,而該代表成員的音素系列是“kuro”。
進而,例如第七行的條目指示一個音群,其成員是四次朗讀非注冊詞“hon(書)”,而該代表成員的音素系列是“NhoNdesu(ンホンデ一ス)”。而且,例如第八行的條目指示一個音群,其成員是一次朗讀非注冊詞“orengi(橘子)”和十九(19)次朗讀非注冊詞“hon(書)”,而該代表成員的音素系列是“ohoN(オホン)”。其他條目的指示類似。
根據圖23,可見對于同樣的非注冊詞的朗讀進行了正確音群化。
對于圖23中第8行的條目,將一次朗讀非注冊詞“orengi(橘子)”和十九(19)次朗讀非注冊詞“hon(書)”音群化至同一音群。根據朗讀是音群成員,可認為此音群應是非注冊詞“hon(書)”的音群,不過,非注冊詞“orengi”的朗讀也是該音群的成員。隨著不斷輸入非注冊詞“hon(書)”的朗讀,此音群也由音群化而分割,導致音群化可按如下方式進行即產生音群,其成員僅是朗讀非注冊詞“hon(書)”,以及音群,其成員僅是朗讀非注冊詞“orengi”。
(4-2)面孔識別部件62的具體構成下面,對于面孔識別部件62的具體構成給出解釋。
如圖24和25所示,面孔識別部件62能夠在動態變化的環境下,在所定的周期內響應,該面孔識別部件62包括面孔抽取處理部件90,以基于從CCD照相機(圖5)提供的視頻信號S1A而從圖像中抽取面孔圖譜,以及面孔識別處理部件91基于抽取的面孔圖譜而識別面孔。在此實施例中使用“Gabor濾波”進行面孔抽取處理以抽取面孔圖譜,并使用“支持向量機SVM”進行面孔識別處理以從面孔圖譜中識別面孔。
面孔識別部件62被供以學習階段,在此面孔識別處理部件91學習面孔圖譜,以及識別階段以基于學習數據識別從視頻信號S1A中抽取的面孔圖譜。
圖24表示面孔識別部件62的學習階段的構成,而圖25表示面孔識別部件62的識別階段的構成。
如圖24所示,在學習階段向由支持向量機組成的面孔識別處理部件91輸入面孔抽取的結果,該面孔在由Gabor濾波器組成的面孔抽取處理部件90中從CCD照相機(圖5)輸入的已捕獲的用戶圖像中抽取。在面孔識別處理部件91中通過使用從外部供給的學習用數據,即,教師數據,而得到暫時鑒別功能。
而且,如圖25所示,在鑒別階段向面孔識別處理部件91輸入面孔抽取結果,其是在面孔抽取處理部件90中基于從CCD照相機50供給的視頻信號S1A在圖像內從人面孔中抽取的。在面孔識別處理部件91中通過以各種數據庫上的圖像來測試暫時得到的鑒別功能而檢測面孔。接著,成功檢測的內容輸出作為面孔數據。同時,未成功檢測的內容被附加至學習數據,作為非面孔數據,并進行進一步學習。
以下對于面孔抽取處理部件90中的Gabor濾波處理和面孔識別處理部件91中的支持向量機給出詳細解釋。
(4-2-1)Gabor濾波處理早已知道在人類的視覺細胞中存在具有對某些特定方向的選擇性的細胞。這些選擇性細胞含有響應垂直線的細胞和響應水平線的細胞。在這種情形下,Gabor濾波是由數個具有方向選擇性的空間濾波器組成的。
Gabor濾波在空間上以Gabor函數表達。Gabor函數g(x,y)如以下表達式所示,由載波s(x,y)組成、其含余弦分量和二維高斯解析包絡Wr(x,y)。
g(x,y)=s(x,y)Wr(x,y)......(3)載波s(x,y)使用數個函數表達為以下的表達式(4)。此處,坐標值(u0,v0)指示空間頻率,P指示余弦分量的相位。
此處,以下表達式表示載波,s(x,y)=exp(j(2π(u0x+v0y)+P)) ......(4)也可表示成以下表達式,Re(s(x,y))=cos(2π(u0x+v0y)+P)Im(s(x,y))=sin(2π(u0x+v0y)+P) ......(5)即分割成實數部Re(s(x,y))和虛數部Im(s(x,y))。
另一方面,使用以下表達式,由二維高斯分布組成的包絡可表達如下Wr(x,y)=Kexp(-π(a2(x-x0)r2+b2(y-y0)r2)) ......(6)此處,坐標軸(x0,y0)是函數的峰值,常數a和b是高斯分布的比例參數。而且,如以下表達式所示,下標r表明旋轉動作。
(x-x0)r=(x-x0)cosθ+(y-y0)sinθ(y-y0)r=-(x-x0)sinθ+(y-y0)cosθ......(7)因此,根據上述表達式(4)和(6),Gabor濾波可表達成以下表達式所示的空間函數g(x,y)=Kexp(-π(a2(x-x0)r2+b2(y-y0)r2))exp(j(2π(u0x+v0y)+P)) ......(8)此實施例中的面孔抽取處理部件90使用共計二十四(24)個Gabor濾波器來進行面孔抽取,這些Gabor濾波器使用八(8)個方向和三(3)種頻率。
Gabor濾波器的響應以下面的表達式來表達,在此Gi是第i個Gabor濾波器,第i個Gabor結果(Gabor Jet)Ji和輸入圖像IJi(x,y)=Gi(x,y)I(x,y) ......(9)實際上,使用高速傅立葉變換可加快表達式(9)的動作。
制造的Gabor濾波器的性能可通過重構由濾波所得的像素來檢驗。以下表達式H(x,y)=Σi-10aiJi(x,y)---......(10)]]>表示重構的圖像H。
并且,輸入圖像I與重構的圖像H之間產生的誤差E由以下表達式來表達E=12||I(x,y)-H(x,y)||2=12Σx,y(I(x,y)-H(x,y))2---......(11)]]>重構可通過得到使誤差E最小的合適a來實現。
(4-2-2)支持向量機在本實施例中,對于面孔識別處理部件91中的面孔識別,面孔識別是使用支持向量機(SVM)來進行的,該SVM使通用學習性能在圖譜識別領域達到最高。
對于SVM自身,參照例如B·Sholkoph等人的報告(B·Sholkoph,C·Burges,A·Smola,“Advance in Kernel Support Vector Learning”,The MIT Press,1999)。根據本發明申請人做出的初步實驗,可明確使用SVM的面孔識別方法帶來更好的結果,比使用主要分量分析(PCA)和神經網絡要好。
SVM是使用線性鑒別電路(感知器)的學習機器,SVM可通過使用核心函數擴張到非線性空間。而且,鑒別函數的學習是以采用類間最大分離空隙的方式而進行的,從而有可能通過解二維數學方程而得到解,這就在理論上得出了全局解。
通常,圖譜識別的問題是為了得到鑒別函數f(x),其由下面相對測試樣本x=(x1,x2,...,xn)的表達式給出f(x)=Σj-1nwjxj+b---......(12)]]>此處,SVM學習用的教師標簽由以下表達式建立y=(y1,y2,...,yn)......(13)接著,以SVM來識別面孔圖譜這一問題可視為在限定條件下使權因子w的平方最小化,如以下表達式所示y1(wrxi+b)z1......(14)這一有限定問題可使用拉格朗日無定常數法來解。即,首先將拉格朗日(函數)引入以下表達式L(w,b,a)=12||w||2-Σi=11ai(yi(xirw+b)-1)---......(15)]]>此后,如以下表達式所示∂L∂b=∂L∂w=0---......(16)]]>應該對b和w各進行偏微分。
結果,在SVM中的面孔鑒別可視為二次平面問題,由以下表達式來表示maxΣai-12Σaiaiyiyirxj]]>限定條件ai≥0,∑aiyi=0 ......(17)當特征空間的維數小于訓練樣本數時,引入劃痕變量ξ0而使限定條件置換成以下表達式yi(wrxi+b)≥1-ξ1......(18)至于優化,在以下表達式中12||w||2+CΣξ1---......(19)]]>最小化目標函數。
在表達式(19)中,C是系數,籍以指定限定條件應該放寬到何地步,而此值必須由實驗確定。
關于拉格朗日常數的問題被置換成以下表達式
maxΣai-12Σaiaiyiyirxj]]>限定條件0≤ai≤C,∑aiyi=0......(20)然而,對于表達式(20),不可能解決非線性問題。在這種情況的實施例中,隨著核心函數K(x,x3)的引入,一旦在高維空間(kernel trick)匹配,將會線性地分開。所以,同等的在初始空間非線性分開。
核心函數可使用某種映射φ。
K(x,y)=φ(xr)φ(x1)......(21)而且,表達式(12)所示的鑒別函數可由以下表達式來表達f(φ(x))=wrφ(x)+b=∑aiyiK(x,xi)+b ......(22)而且,學習也可視為二維平面問題,如以下表達式所示maxΣai-12ΣaiaiyiyixjK(xi,xj)]]>限定條件0≤ai≤C,∑aiyi=0......(23)作為核心,可使用高斯核心(RBF(徑向基礎函數))等,如以下表達式所示。
K(x,x1)=exp[-|x-x1|σ2]---......(24)]]>對于Gabor濾波,可根據識別任務而變更濾波器種類。
在低頻濾波中將向量賦予全部濾波后的圖像是冗余的。因而可通過下降取樣而降低向量的維數。二十四(24)種下降取樣向量成為一條線的長向量。
而且,在此實施例中,由于供給面孔圖譜識別的SVM是鑒別器,其將特征空間一分為二,以這種方式進行學習,即判斷受檢面孔是“A人”或“非A人”。因此,首先從數據庫中的圖像中收集A人的面孔圖像,接著在Gabor濾波后將“非A人”標簽附加到向量。一般地,所收集的面孔圖像數量最好大于特征空間的維數。同樣,當需要識別十(10)人的面孔時,以“B人”、“非B人”方式為每各人設一個鑒別器。
這種學習有助于發現例如分離“A人”和“非A人”的支持向量。作為將特征空間一分為二的鑒別器,SVM在輸入新面孔圖譜時,取決于Gabor濾波的向量所在的構成所得支持向量的界面的一側而產生識別結果的輸出。因此,當相對于邊界處于“A人”區時,被識別為“A人”。同樣,當處于“非A人”區時,被識別為“非A人”。
從基于來自CCD照相機50的視頻信號S1A的圖像中剪出的面部區不固定。因而有這種可能,即面孔被投射至遠離特征空間中想識別的種類的一點。從而,有可能通過暗示具有目、鼻、和口的特征的部分并由仿射變換來擬態、而增強識別率。
而且能使用自舉以增強識別能力。可使用另一用來學習的圖像而獨立拍攝的圖像來自舉。這意味著當進行學習的鑒別器產生錯誤識別結果的輸出時,通過將輸入圖像輸入學習指令集而再度進行學習。
另一種增強識別性能的方法是觀察識別結果的時間變化。最簡單的方法可以是例如當十次識別中有八次皆識別為“A人”時即識別“A人”。還提出了其他預測方法,例如使用Kalman濾波器的那種。
(5)本實施例的操作和效果根據以上構成,此機器人1通過與新人對話而得到新人的名字,并基于來自麥克風51和CCD照相機50的輸出,存儲與語音的各聲學特征和檢測到的人的形貌特征相關聯而存儲名字,并同時基于由識別另一也將獲得其名的新人的出場而存儲的各種數據和學習人名,并通過以上述同樣方式得到并存儲名字、語音的聲學特征和新人的形貌特征。
因此,此機器人1可自然地通過與凡人的對話來學習新人、新對象的名字,就像人類常做的那樣,而不必隨輸入聲音指令或按下觸覺傳感器等用戶的清晰指示而注冊名字了。
根據以上構成,有可能通過與新人對話而得到新人的名字,并基于來自麥克風51和CCD照相機50的輸出,與語音的各聲學特征和檢測到的人的形貌特征相關聯而存儲名字,并同時基于由識別另一未獲得其名的新人的出場而存儲的各種數據、學習人名,并通過以上述同樣方式得到并存儲名字、語音的聲學特征和新人的形貌特征,結果成功地學習人名,這就可能使機器人實現自然地通過與凡人的對話來學習新人、新對象等的名字,從而大大增強他們的娛樂特性。
(6)其他實施方式在以上實施例中,對于將本發明應用于如圖1構成的二足直立行走的機器人1的情形給出了解釋,但本發明不限于此,并可廣泛應用于各種其他機器人設備和非機器人器材。
而且,在以上實施例中,還對于以下情形給出了解釋,即由具有與人類對話功能的對話裝置與此人進行聲音對話,從而得到人名,以及通過對話向人類學習而得到對象的名字,該對話裝置包括聲音識別部件60,對話控制部件63,聲音合成器64,但本發明不限于此,而對話裝置的構成可使人名憑例如鍵盤輸入通過字符對話而得到。
進而,在以上實施例中,對于需要名字學習的對象是人類的情形給出了解釋,但本發明不限于此,也可考慮各種其它物體成為需要名字學習的對象,而不僅是人類。
在執行以上實施例的情形下,對于以下情形給出了解釋,即由語音的聲學特征和待學習的人的形貌特征來識別人,并基于其結果而判斷此人是不是新人,但本發明不限于此,而是還有,例如,此人可由數種其他特征、包括體型和氣味來識別,這就有可能識別一個生物固體,并基于其結果而判斷此人是不是新人。而且,在名字學習用的待學習的對象是固體而非人類的情形下,可能基于從顏色、形狀、圖譜、和尺寸等與他物區分的各種特性識別此體而得到的結果,判斷此對象是不是新的。并且,在此情形下,可設有數種識別裝置,其檢測各對象不同的和特定的特征,并基于檢測結果和對應于事先存儲的已知對象的特征數據,識別待學習的對象。
進而,在以上實施例中,對于內存構成存儲裝置的情形給出了解釋,該存儲裝置,用來存儲關聯信息,其中已知對象的名字與由各識別裝置(講話者識別部件61和面孔識別部件62)獲得的關于對象的識別結果互相關聯,但本發明不限于此,而可廣泛利用各種除內存外的存儲裝置來存儲信息,例如可存儲信息的盤狀記錄媒體。
進而,在以上實施例中,對于講話者識別部件61和面孔識別部件62僅進行一次識別處理以識別待學習的人的情形給出了解釋,但本發明不限于此,而在無法識別(SID=-1)的情形下,例如,也可不止一次地進行識別處理,而在其他情形下,也可進行數次識別處理。由此做法可改善識別結果的精度。
進而,在以上實施例中,對于對話控制部件63由數種識別裝置(聲音識別部件60、講話者識別部件61、和面孔識別部件62)所產生的識別結果的多數決定來判斷待學習的人是不是新人,但本發明不限于此,而可基于由數個識別裝置使用除多數決定外的任何方法所產生的各識別結果來判斷待學習的人是不是新人。
在此情形下,可廣泛應用各種方法,例如在一種方法中,根據各識別裝置的識別能力給數個識別裝置的識別結果加權,并基于各加權結果判斷一個目標對象是不是新的,而當基于識別能力最高的識別裝置和另一識別裝置所產生的識別結果判斷是新人時,可應用各種其他方法,其中由其余識別裝置產生的結果就不用了。
進而,在以上實施例中,對于以下情形給出了解釋,即當講話者識別部件61和面孔識別部件62能正確識別人時,通過讓講話者識別部件61和面孔識別部件62進行累加學習而企圖增強因統計穩定性造成的識別精度,但本發明不限于此,而同樣,對于存儲在內存65中的關聯信息,也包含了一種功能,以通過讓他們任意次地學習同一組合來改善關聯信息的可靠性。在實踐中,可利用一種使用神經網絡的方法來作為這種功能的示例方法,其描述于“Theses of the Academic Society for Electronic Information andcommunication D-II,Vol.J82-DII,No.6,pp.1072-1081”。
根據以上所述的本發明,學習器材包括對話裝置,其具有與人類對話的能力,用來通過對話從人類獲得目標對象的名字;數個識別裝置,每個用來檢測目標對象的規定的不同特征,并同時用來基于檢測結果、和與事先存儲的已知對象對應的特征數據來識別目標對象;存儲裝置,用來存儲關聯信息,其中已知對象的名字與由各識別裝置獲得的關于對象的識別結果互相關聯;判斷裝置,用來基于由對話裝置獲得的目標對象的名字、由識別裝置獲得的目標對象的識別結果、和存儲在存儲裝置中的關聯信息,判斷目標對象是不是新對象;和控制裝置,用來當判斷裝置判斷目標對象是新對象時,讓識別裝置存儲對應于目標對象的特征數據,并同時讓存儲裝置存儲關于目標對象的關聯信息,從而可能使機器人實現自然地通過與凡人的對話來學習新人、新對象等的名字,就像人類常做的那樣,從而大大增強它們的娛樂特性。
而且,根據本發明,學習方法包括第1步,與人類對話,并通過對話從人類獲得目標對象的名字,以及檢測目標對象的數個規定的不同特征,并同時基于檢測結果、和事先存儲的已知對象的特征數據來識別目標對象;第3步,基于所獲得的目標對象的名字、以目標對象各特征為基礎的識別結果、和將事先存儲的已知對象的名字與由識別裝置產生的關于對象的識別結果相關聯的關聯信息,判斷目標對象是不是新對象;和第4步,當判斷裝置判斷目標對象是新對象時,存儲目標對象的各特征的數據和關于目標對象的關聯信息,從而可能使學習方法實現自然地通過與凡人的對話來學習新人、新對象等的名字,就像人類常做的那樣,從而大大增強其娛樂特性。
進而,根據本發明,機器人設備包括對話裝置,其具有與人類對話的能力,用來通過對話從人類獲得目標對象的名字;數個識別裝置,每個用來檢測目標對象的規定的不同特征,并同時用來基于檢測結果、和與事先存儲的已知對象對應的特征數據來識別目標對象;存儲裝置,用來存儲關聯信息,其將已知對象的名字與由識別裝置獲得的關于對象的識別結果相關聯;判斷裝置,用來基于由對話裝置獲得的目標對象的名字、由識別裝置獲得的目標對象的識別結果、和存儲在存儲裝置中的關聯信息,判斷目標對象是不是新對象;和控制裝置,用來當判斷裝置判斷目標對象是新對象時,讓識別裝置存儲對應于目標對象的特征數據,并同時讓存儲裝置存儲關于目標對象的關聯信息,從而可能使機器人實現自然地通過與凡人的對話來學習新人、新對象等的名字,就像人類常做的那樣,從而大大增強它們的娛樂特性。
產業可利用性本發明應用于諸如娛樂機器人、個人計算機、安全系統等各種機器人。
權利要求
1.一種學習器材包括對話裝置,用來通過對話獲得目標對象的名字;數個識別裝置,用來檢測所述目標對象的數個特征數據,并基于檢測結果和已知對象的對應特征數據來識別目標對象;存儲裝置,用來存儲關聯信息,其將所述已知對象的名字與所述識別裝置的識別結果互相關聯的信息;判斷裝置,用來基于由所述對話裝置獲得的所述目標對象的名字、所述識別裝置對于所述目標對象的識別結果和存儲在所述存儲裝置中的關聯信息,來判斷目標對象是不是新對象;和控制裝置,用來當所述判斷裝置判斷目標對象是新對象時,在對應的所述識別裝置中存儲所述目標對象的所述數個特征數據,并在所述存儲裝置中存儲關于目標對象的關聯信息。
2.根據權利要求1所述的學習器材,其中所述控制裝置控制正確識別所述目標對象的所述識別裝置,以當所述判斷裝置判斷目標對象是所述已知對象時進行積累學習。
3.根據權利要求1所述的學習器材,其中所述控制裝置控制未正確識別所述目標對象的所述識別裝置,以當所述判斷裝置判斷目標對象是所述已知對象時進行糾正學習。
4.根據權利要求1所述的學習器材,其中所述判斷裝置通過參照存儲在所述存儲裝置中的所述關聯信息,由所述對話裝置得到的所述目標對象的名字和所述識別裝置對于對象的識別結果的多數決定,判斷目標對象是不是新對象。
5.根據權利要求1所述的學習器材,其中所述控制裝置控制所述對話裝置按需要延長所述對話。
6.一種學習方法包括對話步驟,其通過對話獲得目標對象的名字;數個識別步驟,其檢測所述目標對象的數個特征數據,并基于檢測結果和已知對象的對應特征數據來識別目標對象;存儲步驟,其存儲關聯信息,其將所述已知對象的名字與所述識別裝置的識別結果互相關聯;判斷步驟,其基于由所述對話裝置獲得的所述目標對象的名字、所述識別裝置對于所述目標對象的識別結果、和存儲在所述存儲裝置中的關聯信息,判斷目標對象是不是新對象;和控制步驟,其當所述判斷裝置判斷目標對象是新對象時,在對應的所述識別裝置中存儲所述目標對象的所述數個特征數據,并在所述存儲裝置中存儲關于目標對象的關聯信息。
7.根據權利要求6所述的學習方法,其中在所述控制步驟中,當所述判斷裝置判斷目標對象是所述已知對象時,對于正確識別的目標對象的所述特征進行積累學習。
8.根據權利要求6所述的學習方法,其中在所述控制步驟中,當所述判斷裝置判斷目標對象是所述已知對象時,對于未正確識別的目標對象的所述特征進行糾正學習。
9.根據權利要求6所述的學習方法,其中在所述判斷步驟中,通過參照所述關聯信息,由所述目標對象的名字和所述特征的識別結果的多數決定,判斷目標對象是不是新對象。
10.根據權利要求6所述的學習方法,其中在所述對話步驟中,按需要延長所述對話。
11.一種機器人設備包括對話裝置,用來通過對話獲得目標對象的名字;數個識別裝置,用來檢測所述目標對象的數個特征數據,并用來基于檢測結果、和已知對象的對應特征數據來識別目標對象;存儲裝置,用來存儲關聯信息,其將所述已知對象的名字與所述識別裝置的識別結果互相關聯;判斷裝置,用來基于由所述對話裝置獲得的所述目標對象的名字、所述識別裝置對于所述目標對象的識別結果、和存儲在所述存儲裝置中的關聯信息,判斷目標對象是不是新對象;和控制裝置,用來當所述判斷裝置判斷目標對象是新對象時,在對應的所述識別裝置中存儲所述目標對象的所述數個特征數據,并在所述存儲裝置中存儲關于目標對象的關聯信息。
12.根據權利要求11所述的機器人,其中所述控制裝置控制正確識別所述目標對象的所述識別裝置,以當所述判斷裝置判斷目標對象是所述已知對象時,進行積累學習。
13.根據權利要求11所述的機器人,其中所述控制裝置控制未正確識別所述目標對象的所述識別裝置,以當所述判斷裝置判斷目標對象是所述已知對象時進行糾正學習。
14.根據權利要求11所述的機器人,其中所述判斷裝置通過參照存儲在所述存儲裝置中的所述關聯信息,由所述對話裝置得到的所述目標對象的名字和所述識別裝置對于對象的識別結果的多數決定,判斷目標對象是不是新對象。
15.根據權利要求11所述的機器人,其中所述控制裝置控制所述對話裝置按需要延長所述對話。
全文摘要
以往的機器人設備等不能自然地進行名字學習。學習一個對象的名字是按以下方式進行的通過與人類對話來得到目標對象的名字,該名字與對于目標對象所檢測到的多項不同特征數據相關聯而存儲,并基于所存儲的數據和關聯信息識別新對象,得到了新人的名字和特征數據并存儲了該關聯信息。
文檔編號G05B19/04GK1507617SQ0380022
公開日2004年6月23日 申請日期2003年3月5日 優先權日2002年3月6日
發明者下村秀樹, 青山一美, 山田敬一, 淺野康治, 大久保厚志, 一, 厚志, 治, 美 申請人:索尼公司