圖像捕獲方法、其控制方法及程序的制作方法

文檔序號：7705996閱讀：198來源：國知局

專利名稱：圖像捕獲方法、其控制方法及程序的制作方法
技術領域：
本發明涉及圖像捕獲裝置，更具體地，涉及可在被捕獲圖像中檢測諸如動物之類的目標對象的圖像捕獲裝置、其控制方法以及用于促使計算機執行該方法的禾呈序。
背景技術：
迄今為止，捕獲景物(諸如，人)的圖像、生成被捕獲圖像以及記錄被捕獲圖像的圖像捕獲裝置(諸如，數碼相機)已變得廣泛流行。而且在近些年中，日益增長數量的人們開始對諸如狗和貓之類的動物感興趣。許多人將這些動物作為其家中的寵物。
可以將使用諸如數碼相機之類的圖像捕獲裝置記錄的被捕獲圖像保存為圖像數據。因為可容易地刪除該圖像數據，因此現今許多人經常捕獲其感興趣的目標對象的圖像。例如，頻繁地捕獲家中寵物的圖像。
然而，當攝像者希望捕獲諸如狗或貓之類的動物的圖像時，動物難于理解攝像者的指令。因此，即使當攝像者將圖像捕獲裝置指向動物時，動物可能也不一定采取攝像者所期望的姿勢。例如，即使當希望捕獲狗的臉部的正面圖像的攝像者將圖像捕獲裝置指向狗的正面時，狗的臉部的正面也不一定被引向該圖像捕獲裝置。即使當攝像者將圖像捕獲裝置指向狗的臉部的正面時，狗也可能面向不同的方向。所以，例如，當攝像者希望捕獲諸如狗或貓之類的動物的臉部的正面時，使得動物臉部的正面面向該圖像捕獲裝置是重要的。
因此，已提出了這樣的相機其響應于用戶半按釋放鍵，輸出用作景物放鍵，將在該完全按下時捕獲的景物的圖像曝光至銀鹽膠巻(silver salt film)(例如，見曰本未審查專利申請公開No. 2002-107807 (圖5))。

發明內容
根據前述的現有技術，通過輸出用作景物的寵物感興趣的聲音，可增加將寵物的注意力吸引至相機的可能性。當將寵物的正面引向相機時，用戶完全按下釋放鍵，從而記錄面向前方的寵物的被捕獲圖像。
然而，可以想象的是，雖然諸如狗或貓之類的動物注意聲音等之中的細微變化并且將其臉部引向圖像捕獲裝置，但是動物可能立即地面向另一方向。此外，諸如狗或貓之類的動物通常是好動的。因此用戶可能難于知道完全按下釋放鍵的適當時間。
為了記錄不理解攝像者指令的動物的臉部的正面的被捕獲圖像，在將動物的臉部引向圖像捕獲裝置的適當時間處記錄被捕獲圖像是重要的。此外，當攝像者希望捕獲不理解攝像者指令的嬰兒的圖像時，在將嬰兒的臉部引向圖像捕獲裝置的適當時間處記錄被捕獲圖像是重要的。
期望提供這樣的技術其適當地記錄不理解攝像者指令的目標對象的被捕獲圖像。
根據本發明的第一實施例，提供了圖像捕獲裝置、其控制方法、以及用于促使計算機執行該方法的程序。該圖像捕獲裝置包括以下要素圖像捕荻部件，用于捕獲景物的圖像并且生成被捕獲圖像；確定信息存儲部件，用于存儲多條確定信息，每條確定信息用于確定被捕獲圖像是否包含多個目標對象的相應一個；操作接受部件，用于接受指定為其存儲了多條確定信息的多個目標對象的至少一個的指定操作；目標對象檢測部件，用于從存儲在確定信息存儲部件中的多條確定信息之中選擇與指定的目標對象有關的確定信息，并且使用所選擇的確定信息在被捕獲圖像中檢測指定的目標對象；以及記錄控制部件，用于促使記錄在檢測到指定的目標對象時所生成的被捕獲圖像。因此，有利的是，當在被捕獲圖像中使用關于目標對象的確定信息檢測指定的目標對象時，記錄在檢測到目標對象時所生成的被捕獲圖像。
根據本發明實施例的圖像捕獲裝置可進一步包含音頻信息存儲部件，用于與目標對象相關聯地存儲關于為其存儲了多條確定信息的多個目標對象中的每個的音頻信息；以及音頻輸出控制部件，用于在記錄控制部件促使記錄被捕獲圖像時，促使輸出對應于音頻信息存儲部件中與被檢測目標對象相關聯地存儲的音頻信息的聲音。因此，有利的是，在記錄被捕獲圖像時，輸出對應于與被檢測目標對象相關聯的音頻信息的聲音。在這種情況下，目標對象可以是動物的臉部，音頻信息可代表動物的叫聲。因此，有利的是，當在被捕獲圖像中檢測到指定的動物的臉部時，輸出被檢測動物的叫聲。在這種情況下，可替代地，目標對象可以是嬰兒的臉部，音頻信息可代表呼叫嬰兒的人的語音。因此，有利的是，當在被捕獲圖像中檢測到嬰兒的臉部時，輸出呼叫嬰兒的語音。
該圖像捕獲裝置可進一步包含以下要素音頻信息存儲部件，用于與目
標對象相關聯地存儲關于為其存儲了多條確定信息的多個目標對象中的每個
的音頻信息，所述音頻信息依據被捕獲圖像的評估結果；被捕獲圖像評估部件，用于在記錄控制部件促使記錄被捕獲圖像時評估被捕獲圖像；以及音頻輸出控制部件，用于根據被捕獲圖像評估部件得到的評估結果，促使輸出對應于音頻信息的聲音。因此，有利的是，在記錄被捕獲圖像時評估它，并且根據評估結果輸出對應于音頻信息的聲音。
操作接受部件可接受在為其存儲了多條確定信息的多個目標對象之中指定多個目標對象的指定操作。記錄控制部件促使記錄在檢測到指定的多個目標對象中的至少之一時所生成的被捕獲圖像。因此，有利的是，記錄在檢測到多個指定的目標對象中的至少之一時所生成的被捕獲圖像。
操作接受部件可以是觸摸板，其顯示用于指定為其存儲了多條確定信息的多個目標對象的至少一個的指定按鍵。因此，有利的是，使用觸摸板上顯示的指定按鍵來指定目標對象。
該圖像捕獲裝置可進一步包含圖像捕獲控制部件，用于基于被檢測目標對象，通過設置預定的圖像捕獲參數來執行圖像捕獲控制。因此，有利的是，通過基于被檢測目標對象設置預定的圖像捕獲參數來執行圖像捕獲控制。
根據本發明的第二實施例，提供了圖像捕獲裝置、其控制方法、以及用于促使計算機執行該方法的程序。該圖像捕獲裝置包括以下要素音頻信息存儲部件，用于與目標對象相關聯地存儲關于多個目標對象中的每個的音頻
信息；操作接受部件，用于接受指定音頻信息存儲部件中存儲的多個目標對象中的至少一個的指定操作；圖像捕獲部件，用于捕獲景物的圖像并且生成被捕獲圖像；目標對象檢測部件，用于在被捕獲圖像中檢測指定的目標對象；音頻輸出控制部件，用于在檢測到指定的目標對象時，促使輸出對應于音頻
信息存儲部件中與被檢測目標對象相關聯地存儲的音頻信息的聲音；以及記錄控制部件，用于在輸出與關于被檢測對象的音頻信息相對應的聲音之后，促使記錄被捕獲圖像。因此，有利的是，當在被捕獲圖像中檢測到指定的目標對象時，輸出與關于被^r測目標對象的音頻信息相對應的聲音，并且，在輸出聲音之后，記錄被捕獲圖像。
存儲在音頻信息存儲部件中的多個目標對象中的每一個均具有正面和側面。目標對象檢測部件可以在被捕獲圖像中可檢測指定的目標對象的正面或側面。在檢測到指定的目標對象的正面或側面時，音頻輸出控制部件可以促使輸出對應于音頻信息存儲部件中與其正面或側面被檢測的目標對象相關聯地存儲的音頻信息的聲音。當在檢測到指定的目標對象的正面時，輸出與關于其正面 ^皮檢測的目標對象的音頻信息相對應的聲音時，記錄控制部件可以促使記錄被捕獲圖像。因此，有利的是，當在被捕獲圖像中檢測到指定的目標對象的正面或側面時，輸出對應于與其正面或側面被檢測的目標對象有關的音頻信息的聲音。在檢測到指定的目標對象的正面時，當輸出與關于其正面被檢測的目標對象的音頻信息相對應的聲音時，記錄被捕荻圖像。在這種情況下，當在檢測到指定的目標對象的側面之后檢測到指定的目標對象的正面時，音頻輸出控制部件可以促使輸出與關于其正面被檢測的目標對象的音頻信息相對應的聲音。因此，有利的是，當在檢測到指定的目標對象的側面之后檢測到指定的目標對象的正面時，輸出對應于關于目標對象的音頻信息的聲音。
記錄控制部件可促使記錄緊接在輸出與關于被檢測目標對象的音頻信息相對應的聲音之后生成的被捕獲圖像。因此，有利的是，記錄緊接在輸出與關于被檢測目標對象的音頻信息相對應的聲音之后生成的被捕獲圖像。
在操作接受部件接受指定操作時，音頻輸出控制部件可促使輸出對應于音頻信息存儲部件中與指定的目標對象相關聯地存儲的音頻信息的聲音，而，在檢測到指定的目標對象時，音頻輸出控制部件可以促使輸出對應于音頻信息存儲部件中與被檢測目標對象相關聯地存儲的音頻信息的聲音。因此，有
利的是，在接受指定操作時，輸出對應于與指定操作所指定的目標對象有關的音頻信息的聲音。在檢測到指定的目標對象時，輸出對應于與被檢測目標對象有關的音頻信息的聲音。音頻信息存儲部件可存儲關于多個目標對象的音頻信息的條目。搡作接受部件可接受在存儲于音頻信息存儲部件中的多個目標對象之中指定多個目標對象的指定操作。在檢測到指定的多個目標對象中的至少之一時，音頻輸出控制部件可促使輸出對應于音頻信息存儲部件中與被檢測目標對象相關聯地存儲的音頻信息的聲音。因此，有利的是，當接受了指定多個目標對象的指定操作時，在檢測到指定的多個目標對象中的至少之一時，輸出對應于與被檢測目標對象有關的音頻信息的聲音。
根據本發明的實施例，具有可適當地記錄不理解攝影者指令的目標對象的被捕獲圖像的優點。

圖1是示出根據本發明實施例的圖像捕獲裝置的示例性結構的框圖；圖2是示出根據本發明實施例的相機控制單元的示例性功能結構的框
圖3A和3B是示出根據本發明實施例的圖像捕獲裝置的外觀的透視圖；圖4是示出根據本發明實施例的目標對象檢測單元的示例性功能結構的
框圖5包含示意性示出在根據本發明實施例的目標對象檢測字典數據庫中存儲的目標對象檢測字典的圖6是示意性示出根據本發明實施例的音頻存儲單元中存儲的細節的
圖7是示出根據本發明實施例的液晶面板上顯示的菜單屏幕的示例的
圖8 (a)(b)包含示出提取要在由根據本發明實施例的目標對象確定單元執行的目標對象確定處理中確定的圖像的圖像提取方法的概要的圖9 (a) ~ 9 (e)包含示出提取要在由根據本發明實施例的目標對象確定單元執行的目標對象確定處理中確定的圖像的圖像提取方法的概要的圖；圖IOA是示出根據本發明實施例確定的圖像的圖；圖IOB和IOC是示出確定處理中使用的矩形特征的圖；圖11 (a)和11 (b)包含示出根據本發明實施例的液晶面板上顯示的被捕獲圖像的示例的圖；圖12A和12B是示出當使用根據本發明實施例的圖像捕獲裝置捕獲狗的圖像時的液晶面板的顯示示例的圖13(a) -13(c)包含示意性示出使用根據本發明實施例的圖像捕獲裝置捕獲狗的圖像的情況的圖14(a) -14(c)包含示意性示出使用根據本發明實施例的圖像捕獲裝置捕獲狗的圖像的情況的圖15是示出根據本發明實施例的圖像捕獲裝置所執行的被捕獲圖像記錄處理的過程的流程圖16是示出作為根據本發明實施例的圖像捕獲裝置所執行的、被捕獲圖像記錄處理的過程的一部分的目標對象一企測處理的過程的流程圖17是示出作為根據本發明實施例的圖像捕獲裝置所執行的、目標對象檢測處理的過程的一部分的確定處理的過程的流程圖18是示出根據本發明實施例的圖像捕獲裝置所執行的被捕獲圖像記錄處理的過程的流程圖19包含示意性示出在根據本發明實施例的目標對象檢測字典數據庫中存儲的目標對象檢測字典的圖2OA和20B是示出當使用根據本發明實施例的圖像捕獲裝置捕獲狗的圖像時的液晶面板的顯示示例的圖21 (a)和21 (b)包含示意性示出使用根據本發明實施例的圖像捕獲裝置捕獲狗的圖像的情況的圖22 (a)和22 (b)包含示意性示出使用根據本發明實施例的圖像捕獲裝置捕獲狗的圖像的情況的圖2 3是示出根據本發明實施例的圖像捕獲裝置所執行的被捕獲圖像記錄處理的過程的流程圖24是示意性示出根據本發明實施例的另一音頻存儲單元中存儲的細節的圖25(a) -25(c)包含示意性示出使用根據本發明實施例的圖像捕獲裝置捕獲狗的圖像的情況的圖；以及
圖26是示出根據本發明實施例的圖像捕獲裝置所執行的被捕獲圖像記錄處理的過程的流程圖。
具體實施例方式
現在參考附圖詳細描述本發明的實施例。
圖1是示出根據本發明實施例的圖像捕獲裝置1 00的示例性結構的框圖。
圖像捕獲裝置100包含鏡頭lll、圖像拾取單元112、系統控制單元120、存儲單元13Q、外部接口 (1/F)單元140、記錄單元15Q、音頻存儲單元160、操作輸入單元170、顯示單元180、音頻輸出單元190以及相機控制單元200。例如，圖像捕獲裝置IOO可由可捕獲景物的圖像、生成圖像數據、通過執行該圖像數據的圖像分析來提取特征量、并且使用已提取的特征量來施加各種類型的圖像處理的數碼相機來實施。
鏡頭111是采集從景物反射的光的多個鏡頭(縮放鏡頭、聚焦鏡頭等)的組件。從景物反射的入射光通過這些鏡頭并被引至圖像拾取單元112。
圖像拾取單元112包含具有電快門功能的圖像拾取元件(未示出)以及處理該圖像拾取元件的輸出信號并生成被捕獲圖像的信號處理部分(未示出)。即，在圖像拾取單元112中，經由鏡頭111進入的景物的光學圖像形成在圖像拾取元件的圖像拾取表面上。在這種情況下，圖像拾取元件執行圖像捕獲操作，并且信號處理部分執行被捕獲圖像信號的信號處理，由此生成被捕獲圖像。所生成的被捕獲圖像被提供至并保存在存儲單元130中。相機控制單元200順序地確定生成被捕獲圖像中使用的相機參數(圖像捕獲參數)。
相機控制單元200在系統控制單元120的控制下以及基于經由存儲單元 130從圖像拾取單元112提供的被捕獲圖像來控制圖像拾取單元112 。參考圖 2詳細描述相機控制單元200。
系統控制單元120控制整個圖像捕獲裝置100。例如，系統控制單元120 根據用戶所輸入的、并由操作輸入單元170接受的操作來執行控制。此外，例如，系統控制單元120控制顯示在顯示單元180上的菜單屏幕等的顯示；將被捕獲圖像記錄至記錄單元150或從記錄單元150讀取被捕獲圖像；以及經由外部1/F單元14Q與外部計算機和網絡通信。在圖像捕獲操作期間監控時，系統控制單元120執行控制操作以在顯示單元180上顯示圖像拾取單元 112所生成的被捕獲圖像。當設置了指定目標對象自動圖像捕獲模式時，系統控制單元120基于是否已檢測到指定的對象來執行以下控制從音頻輸出單元190輸出與音頻存儲單元160中存儲的音頻信息相對應的聲音的輸出控制(音效的回放控制)，以及在記錄單元150中記錄被捕獲圖像的記錄控制。這里所說的指定目標對象自動圖像捕獲模式是這樣的圖像捕獲模式當在被捕獲圖像中檢測到用戶所指定的目標對象時，輸出與指定的目標對象有關的
音頻信息相對應的聲音，并記錄該檢測時得到的被捕獲圖像。參考圖13、 14
等詳細描述指定目標對象自動圖像捕獲模式。
存儲單元130是將被捕獲圖像等臨時保存在圖像捕獲裝置100的系統中的主存儲單元，并且例如由動態隨機存取存儲器(DRAM)來實施。即，主要經由存儲單元130來執行圖像捕獲裝置100中的元件之間的被捕獲圖像的交換。
外部I/F單元140是包含諸如通用串行總線(USB)端子之類的輸入/輸出端的外部接口，并且提供用于建立與外部計算機或網絡的連接的接口。
記錄單元150在系統控制單元l20的控制下記錄圖像拾取單元UO所生成的被捕獲圖像。此外，記錄單元150在系統控制單元120的控制下讀取所記錄的被捕獲圖像并將被捕獲的圖像提供至系統控制單元120。例如，可以使用諸如閃存之類的記錄介質作為記錄單元150。可替代地，可提前將記錄單元150包含在圖像捕獲裝置100中，或將其可拆卸地連接至圖像捕獲裝置 100。
音頻存儲單元160存儲音頻信息的各種條目。在系統控制單元120的控制下，從音頻輸出單元190輸出與存儲在音頻存儲單元160中的音頻信息相對應的聲音。參考圖6詳細描述音頻存儲單元160。
操作輸入單元170是提供在外殼外面的、諸如快門按鍵171 (示出在圖3A 和3B等之中)之類的外部操作構件。當接收到用戶所輸入的操作時，操作輸入單元17Q將根據已接受操作的信號輸出至系統控制單元120。
顯示單元180是在系統控制單元120的控制下顯示各種圖像的顯示單元。例如，顯示單元180顯示例如，圖像拾取單元112所生成的被捕獲圖像；從記錄單元150讀取的被捕獲圖像；以及提供至用戶的菜單屏幕(如，圖7中所示的"用于為自動圖像捕獲指定目標對象的菜單"屏幕)。
音頻輸出單元190在系統控制單元120的控制下輸出與存儲在音頻存儲單元160中的音頻信息相對應的聲音。例如，可由揚聲器實施音頻輸出單元 190。
圖2是示出根據本發明實施例的相機控制單元200的示例性功能結構的框圖。除了相機控制單元200的示例性功能結構之外，圖2還示出了包含不同于圖1中所示的鏡頭111和外部1/F單元140的元件的結構。相機控制單元20Q包含序列控制單元210、相機參數控制單元220、目標對象檢測單元 230以及存儲單元I/F 240。經由存儲單元I/F 240執行存儲單元130與相機參數控制單元220之間以及存儲單元130和目標對象檢測單元230之間的被捕獲圖像的交換。
序列控制單元210由來自于系統控制單元120的圖像捕獲待機命令來激活，并且保持可以記錄圖像拾取單元112所生成的被捕獲圖像的狀態。在該圖像捕獲待機狀態下，圖像拾取單元112所生成的被捕獲圖像被順序地存儲在存儲單元130中。例如，以1/60秒的間隔來順序地更新存儲在存儲單元 130中的被捕獲圖像。序列控制單元210控制相機參數控制單元220以基于存儲在存儲單元130中的當前被捕獲圖像(圖像拾取單元112當前生成的被捕獲圖像)來確定相機參數。此外，序列控制單元210控制目標對象檢測單元 230以在存儲于存儲單元130中的當前被捕獲圖像中檢測用戶使用操作輸入單元170所指定的目標對象。當從目標對象檢測單元230輸出指示已檢測到指定的目標對象的目標對象檢測信息時，序列控制單元210將記錄被捕獲圖像的指令輸出至圖像拾取單元112，并且執行被捕獲圖像的記錄控制。同時，序列控制單元210將指示已檢測到指定的目標對象的信息輸出至系統控制單元120。當輸出指示已檢測到指定的目標對象的信息時，系統控制單元120 輸出與指定的目標對象有關的音頻信息，并且在記錄單元150中記錄當前被捕獲的圖像。
當被序列控制單元210觸發時，相機參數控制單元經由存儲單元I/F 240獲得存儲在存儲單元13Q中的當前被捕獲圖像，評估當前被捕獲圖像，并且確定諸如快門速度、曝光以及白平衡之類的相機參數。相機參數控制單元220使用已確定的相機參數來執行圖像拾取單元112的圖像捕獲控制。當已設置了指定目標對象自動圖像捕獲模式時，如果在當前被捕獲圖像中檢測到指定的目標對象，那么相機參數控制單元220基于指定的目標對象及當前被捕獲圖像的評估來確定諸如快門速度、曝光以及白平衡之類的相機參數。例如，當指定了狗的時候，如果4企測到狗的臉部，那么基于被捕獲圖像中的檢測到的狗的臉部的位置和尺寸來確定對于狗的臉部的最優相機參數。
當被序列控制單元210觸發時，目標對象檢測單元230經由存儲單元I/F 240獲得存儲在存儲單元13Q中的當前被捕獲圖像，在當前被捕獲圖像中檢測用戶使用操作輸入單元170所指定的目標對象，并且，如果檢測到指定的目標對象，那么將包含被捕獲圖像中的被檢測目標對象的位置和尺寸以及指
示該目標對象的等級(degree)的評分的目標對象檢測信息輸出至序列控制單元210。例如，可通過使用矩形特征的檢測器執行目標對象的檢測(例如，參見曰本未審查專利申請公開號2005-157679)。參考圖4詳細描述目標對象檢測單元230。
圖3A和3B是示出根據本發明實施例的圖像捕獲裝置100的外觀的透視圖。圖3A示出圖像捕獲裝置100的正面的外觀(即，將鏡頭lll的表面指向景物)。圖3B示出圖像捕獲裝置100的背面的外觀(即，將液晶面板181的表面指向攝像者)。
圖像捕獲裝置100包含鏡頭111、快門按鍵171、液晶面板181以及音頻輸出單元190。雖然圖像捕獲裝置100包含諸如電源開關之類的另一操作構件作為操作輸入單元170，但是其附圖和描述被省略。由于鏡頭lll和音頻輸出單元190與圖1中所示的那些相同，因此將相同的附圖標記賦予那些元件，并且省略其詳細描述。圖像捕獲裝置100的外殼中包含了包括在鏡頭 111中的鏡頭的一些或所有組件以及音頻輸出單元190。
液晶面板180是顯示例如由圖像拾取單元112所生成的被捕獲圖像的液晶面板。此外，液晶面板181可以是顯示各種選擇按鍵的觸摸面板。利用觸摸面板，可以通過例如使用手指觸摸這些選擇按鍵的區域來輸入操作。即，液晶面板181對應于圖1中所示的顯示單元180和操作輸入單元170。參考圖7詳細描述這些選擇按鍵的顯示示例。
快門按鍵171是當記錄被捕獲圖像時待由攝像者按下的按鍵。當攝像者使用圖像捕獲裝置100來執行通常的圖像捕獲操作(所謂的拍攝圖片)時，在核實顯示在液晶面板181上的景物的圖像之后，攝像者按下快門按鍵171。當按下快門按鍵171時，根據快門按鍵171的按下的信號被提供至系統控制單元120。當提供了根據快門按鍵171的按下的信號時，系統控制單元120 在記錄單元150中記錄在已按下根據快門按鍵171的按下的信號時所獲得的被捕獲圖像。當已設置指定目標對象自動圖像捕獲模式時，如果按下快門按鍵171,那么系統控制單元120將開始檢測指定的目標對象的操作的指令供給相機控制單元200。
圖4是示出根據本發明實施例的目標對象檢測單元230的示例性功能結構的框圖。目標對象檢測單元230包含圖像獲取單元231、圖像縮小單元232、圖像提取單元233、目標對象檢測字典數據庫300、目標對象檢測字典存儲器235、目標對象確定單元236以及確定結果輸出單元237。
圖像獲取單元231經由存儲單元I/F 240獲取存儲在存儲單元130中的被捕獲圖像，并且將所獲取的被捕獲圖像輸出至圖像縮小單元232。
圖像縮小單元232通過以預定的比例來順序地縮小從圖像獲取單元231 輸出的被捕獲圖像而生成不同大小的多個圖像，并且順序地將已生成圖像輸出至圖像提取單元233。參考圖9詳細描述被捕獲圖像的縮小。
圖像提取單元233逐圖像地從輸出自圖像縮小單元232的每個圖像中順序地提取預定區域內的圖像，并且將所提取的圖像輸出至目標對象確定單元 236。參考圖8和9詳細描述圖像的提取。
目標對象檢測字典數據庫300是存儲多個目標對象檢測字典的數據庫，以用于使用目標對象檢測單元236來對輸出自圖像提取單元233的圖像執行目標對象確定處理。所存儲的目標對象檢測字典被順序地提供至目標對象檢測字典存儲器235。參考圖5詳細描述這些目標對象檢測字典。
目標對象檢測字典存儲器235是存儲目標對象檢測字典數據庫300中存儲的目標對象檢測字典之中的一個目標對象檢測字典的工作存儲器。目標對象檢測字典存儲器235將所存儲的目標對象檢測字典的細節提供至目標對象確定單元236。
目標對象確定單元236執行這樣的目標對象確定處理其使用存儲在目標對象檢測字典數據庫300中的目標對象檢測字典來確定從圖像提取單元 2 3 3輸出的圖像是否包含目標對象。目標對象確定單元2 36將確定結果輸出至確定結果輸出單元237。例如，將被捕獲圖像中的被檢測目標對象的位置和尺寸以及指示該目標對象的等級的評分輸出作為確定結果。在目標對象確定處理中，由序列控制單元210來指示用戶使用操作輸入單元170所指定的目標對象，并且使用與用戶指定的目標對象有關的目標對象檢測字典。在目標對象檢測字典數據庫300中存儲的目標對象檢測字典之中，指定的目標對象檢測字典被順序地提供至目標對象檢測字典存儲器2 3 5 。在對象檢測字典存儲器235中，每次存儲一個目標對象檢測字典。使用存儲在目標對象檢測字典存儲器235中的一個目標對象檢測字典順序地執行目標對象確定處理。具體地，目標對象確定單元236提取輸出自圖像提取單元233的圖像的亮度值，并且使用已提取的亮度值以及目標對象檢測字典來執行目標對象確定處理。參考圖10A 10C詳細描述目標對象確定單元236所執行的目標對象確定處理。
當從目標對象確定單元236輸出的確定結果指示從圖像提取單元233輸出的圖像包含目標對象時，確定結果輸出單元2 37將指示已在捕獲圖像中檢測到目標對象的目標對象檢測信息輸出至序列控制單元210。例如，目標對象檢測信息包含被捕獲圖像中的被檢測目標對象的位置和尺寸以及指示該目標對象的等級的評分。
圖5包含示意性示出在根據本發明實施例的目標對象檢測字典數據庫 300中存儲的目標對象^r測字典的圖。以下描述涉及檢測例如狗的臉部和貓的臉部作為目標對象的情況。圖5示出目標對象檢測字典的示例，即狗檢測字典310,用于確定圖像提取單元233提取的圖像是否包含狗的臉部；以及貓檢測字典320,用于確定圖像提取單元233提取的圖像是否包含貓的臉部。這些目標對象檢測字典是用于目標對象確定單元236對圖像提取單元233 提取的圖像執行使用矩形特征的目標對象確定處理的確定信息的條目。以下描述主要涉及狗檢測字典310。然而，除了存儲在貓檢測字典320的各個條目中的值是不同的這點之外，可將相同的應用于貓檢測字典320。
在狗檢測字典310中，存儲了類型311、位置(x、 y)312、寬度(w)313、高度(h)314、閾值(9)315、符號(p)315以及權重(oc)317的t個組合。
在類型311中，存儲了用于目標對象確定處理中的矩形特征的類型。矩形特征由彼此相鄰的兩個矩形構成。通過位置312，確定了矩形特征的位置。通過寬度313和高度314,確定了矩形特征的尺寸。參考圖10A 10C詳細描述矩形特征。
在位置312中，存儲了被確定圖像中的矩形特征的位置。例如，在位置 312中，存儲了在提取的圖像位于x-y坐標(平面坐標)系統的情況下的圖像提取單元233所提取的圖像中的矩形特征的坐標點(x、 y)。
在寬度313中，存儲了被確定圖像中的矩形特征的寬度值。在高度314中，存儲了被確定圖像中的矩形特征的高度值。在閾值315中，存儲了關于包含在構成矩形特征的兩個矩形之一中的像素的亮度值的總和與包含在另一個矩形中的像素的亮度值的總和之間的差值的閾值。
在符號316中，存儲了用于獲取弱假設h(i)的值('T，或"-1")，所述弱假200910126912.2
說明書第13/32頁
設h (i)用于計算指示目標對象的等級的評分。
在權重317中，存儲了用于計算指示目標對象的等級的評分的權重。參
考圖10A ~ 10C詳細描述使用這些值執行的、指示目標對象的等級的評分的計算。
在使用諸如AdaBoost之類的機器學習算法所學習的組合之中，使用前 1000至2000個最有效的組合來設置這些值。這樣，由于目標對象^r測字典是相同的格式，因此可使用一種算法來執行多個確定處理。確定處理中使用的目標對象檢測字典是保留關于確定準則的數據(而不保留那樣的圖像)的確定信息，所述確定準則用于確定被確定圖像是否包含目標對象。因此，可以減小存儲容量，并且可以快速執行確定處理。
圖6是示意性示出根據本發明實施例的音頻存儲單元160中存儲的細節的圖。在音頻存儲單元160中，彼此相關聯地存儲了目標對象161和音頻信息162。
目標對象161是可被指定為其圖像將被自動捕獲的目標對象的目標對象。例如，將"狗，，或"貓，，存儲為目標對象161。
音頻信息162是用于從音頻輸出單元190輸出聲音的音頻信息。參考圖 6,將與"狗，，相關聯地存儲的音頻信息表示為"bow-wow"，并且將與"貓" 相關聯地存儲的音頻信息表示為"meow-meow"。例如，當目標對象才企測單元 230檢測到目標對象161中存儲的目標對象時，從音頻輸出單元190輸出對應于與被檢測目標對象相關聯地存儲的音頻信息的聲音。
圖7是示出根據本發明實施例的液晶面板181上顯示的菜單屏幕的示例的圖。"用于為自動圖像捕獲指定目標對象的菜單"屏幕是用于指定其圖像將被自動捕獲的目標對象的菜單屏幕。該菜單屏幕包含"狗"指定按鍵331、"貓" 指定按鍵332、"狗/貓"指定按鍵333以及"關閉"指定按鍵334。
"狗"指定按鍵331是當將狗指定為其圖像將被自動捕獲的目標對象時所按下的按鍵。"貓"指定按鍵332是當將貓指定為其圖像將被自動捕獲的目標對象時所按下的按鍵。"狗/貓"指定按鍵333是當將狗或貓指定為其圖像將被自動捕獲的目標對象時所按下的按鍵。即，當按下"狗/貓"指定按鍵 333時，當在被捕獲圖像中檢測到狗或貓時執行自動圖像捕獲。"關閉"指定按鍵334是當關閉圖7中所示的"用于為自動圖像捕獲指定目標對象的菜單" 屏幕時所按下的按鍵。在本發明的該實施例中，雖然在液晶顯示面板181上顯示了如7中所示的"用于為自動圖像捕獲指定目標對象的菜單"屏幕，但是當用戶執行按下
"狗，，指定按鍵331、"貓，，指定按鍵332以及"狗/貓"指定按鍵333之一的選擇操作時，設置了指定目標對象自動圖像捕獲模式，在該模式中，根據已按下的指定按鍵的目標對象的圖像將被自動捕獲。當已設置了指定目標對象自動圖像捕獲模式時，如果用戶按下快門按鍵171，則開始檢測指定的目標對象的操作。當在被捕獲圖像中檢測到指定的目標對象時，輸出與被檢測目標對象有關的聲音，并且記錄被捕獲圖像。即，自動地執行了捕獲包含指定的目標對象的圖像。
接下來，現在參考附圖詳細描述檢測目標對象的目標對象檢測方法。
圖8包含示出提取由根據本發明實施例的目標對象確定單元236對其執行目標對象確定處理的圖像的圖像提取方法的相無要的圖。圖8的(a)部分示出其尺寸已被圖像縮小單元232縮小的圖像400。圖8的(b)部分示出在從圖像 400提取要對其執行目標對象確定處理的圖像的情況下執行的圖像提取方法的概要。由圖像提取單元233執行提取該圖像。
圖8的部分(a)中所示的圖像400是通過縮小用作景物的狗(其位于在其后具有山峰的草地之上)的被捕獲圖像而得到的圖像。如圖8的(b)部分中所示，為了從該圖像400中提取將對其執行目標對象確定處理的圖像，將提取框401置于圖像400的上方的左手角，并且提取包含在提取框401內的圖像。其后，將提取框401以向右的方向(由箭頭411 ~ 416指示的方向)移動一個像素，并且提取包含在提取框401內的圖像。類似地，每次將提取框以向右的方向順序地移動一個像素，并且順序地提取包含在提取框內的圖像。當將提取框移至提取框402的位置(其位于圖像400的右邊緣處)并且提取了包含在提取框402內的圖像時，提取框向下移動一個像素并且然后移至圖像400的左邊緣。然后，在提取了剛移至圖像400的左邊緣的提取框內所包含的圖像之后，提取框每次以向右的方向順序地移動一個像素，并且順序地提取包含在提取框內的圖像。自該點向前，順序地提取包含在提取框內的圖像。當將提取框移動至提取框404的位置(其位于圖像400的右下邊緣)并且提取了包含在提取框404內的圖像時，結束從圖像400提取待對其執行目標對象確定處理的圖像的處理。
圖9包含示出提取由根據本發明實施例的目標對象確定單元236對其執行目標對象確定處理的圖像的圖像提取方法的概要的圖。圖9的(a)部分 (e) 部分示出通過使用圖像縮小單元232執行縮小處理而順序獲得的圖像421 ~ 425。對于圖9的(a)部分 (e)部分，左側的圖像示出放置提取框430的第一位置，而右側的圖像示出放置提取框430的最終位置。提取框430從第一位置至最終位置的移動與圖8的(b)部分中所示的那些相似。如圖9中所示，提取框430的尺寸恒定，而與待從其提取圖像的圖像尺寸無關。執行圖像提取處理，直至由使用圖像縮小單元232執行縮小處理而獲得的圖像的尺寸變得小于提取框430為止。
參考附圖詳細描述使用目標對象檢測字典對被確定圖像執行確定處理的示例。
圖IOA是示出根據本發明實施例確定的圖像的圖，而圖IOB和IOC是示出確定處理中使用的矩形特征的圖。圖10A示出圖像提取單元233提取的并且待確定的被確定圖像450。圖IOB和10C示出確定處理中使用的兩種類型的矩形特征。在該示例中，圖10A中所示的被確定圖像450的上方的左手角用作原點(origin),而水平和垂直方向分別用作x軸和y軸。將描述使用狗檢測字典310(示出在圖5中)來對被確定圖像450執行確定處理的情況。在該確定處理中，將描述分別使用了圖IOB和10C中所示的兩種類型的矩形特征的示例。
圖10A中所示的被確定圖像450是由圖像提取單元233從通過使用圖像縮小單元232縮小圖像拾取單元112所生成的被捕獲圖像而獲得的圖像中提取的圖像。被確定圖像450是以預定分辨率標準化的圖像。在該示例中，圖像拾取單元112生成的被捕獲圖像具有例如320像素x 240像素的分辨率。在這種情況下，作為標準化處理，例如，執行將該圖像轉換為具有48像素x 48像素的分辨率的圖像的標準化處理。排列在被確定圖像450上的矩形特征 460和470分別對應于圖10B和10C中所示的矩形特征460和470。
圖IOB和10C中所示的矩形特征460和470分別是每一個均由彼此相鄰的兩個矩形(兩個矩形，一個是黑色的，另一個是白色的)構成的矩形特征。這些矩形特征460和470排列在被確定圖像450上，并且基于包含在該兩個矩形區域中的亮度值之間的差值來對被確定圖像450進行確定。
具體地，將確定中使用的矩形特征460和470的類型存儲在狗檢測字典 310的類型311中。另外，將^^巨形特征460和470排列在^R確定圖^象450上的位置存儲在狗檢測字典310的位置312中。即，當將把矩形特性460排列在被確定圖像450上時，排列矩形特征460以使得矩形特征460的上方的左手角中的點461位于存儲在狗檢測字典310的位置312中的坐標點(x、 y) 的位置。將同樣的應用于矩形特征470。即，將矩形特征470排列在被確定圖像450上以使得矩形特征470的上方的左手角中的點471位于存儲在狗檢測字典310的位置312中的坐標點(x, y)的位置。
矩形特征460和470的尺寸基于存儲在狗檢測字典310的寬度313和高度314中的值來確定。即，假設矩形特征460的寬度wl是存儲在狗檢測字典 310的寬度313中的值，而矩形特征460的高度hl是存儲在在狗檢測字典310 的高度314中的值。將相同的應用于矩形特征470。即，假設矩形特征470 的寬度w2是存儲在狗;險測字典310的寬度313中的值，而矩形特征470的高度h2是存儲在在狗檢測字典310的高度314中的值。
這樣，對于這種已經確定了被確定圖像45Q中的位置和尺寸的矩形特征，計算構成該矩形特征的兩個矩形的每一個中所包含的像素的亮度值的總和，并且計算根據該兩個矩形所計算的亮度值的總和之間的差值作為特征量F (i), 其中i是指示狗檢測字典310中的記錄的值，并且l《i《t。將特征量F(i) 與狗檢測字典310的閾值315中存儲的閾值e (i)相比較，并且根據特征量F (i) 是否小于閾值e(i)以及存儲在符號316中的值p(i)(值p(i)為l或-1)來計算弱假設h(i)。具體地，使用以下來計算弱假設(weak learner) h(i):
(1) 當值p(iHl時
如果特征量F(i)〈閾值e(i),那么弱假設h(i)-l;以及如果特征量F(i)》閾值e(i)，那么弱假設h(i)--1，以及
(2) 當值p(i)--l時:
如果特征量F(U〈閾值e(i),那么弱假設h(i卜-1;以及如果特征量F(i)》閾值e(i),那么弱假設h(i卜l，以及。其后，通過將所計算的弱假設h(i)乘以值a(i)(其存儲在權重317中)來計算h(i)a(i)。從狗檢測字典310的第一行至第t行重復執行這些計算，并且計算h(i)a(i)的總和作為評分S。具體地，使用以下來計算評分S:<formula>formula see original document page 22</formula>
基于使用公式(1)計算的評分S，確定了狗的正面是否包含在被確定圖像450中。具體地，如果評分SX)，那么確定了被確定圖像450中包含狗的正面。相反，如果評分<0，那么確定了被確定圖像450中不包含狗的正面。接下來描述具體的計算方法。
例如，假設基于存儲在狗檢測字典310的第一行中的值所確定的矩形特征是如圖10A中所示的矩形特征460。即，狗4企測字典310的第一行中類型 311中存儲的矩形特征的類型是圖10B中所示的矩形特征460。基于狗檢測字典310的第一行中的位置312、寬度313以及高度314中存儲的值，確定圖 10A中所示的矩形特征46G的位置和尺寸。類似地，假設基于存儲在狗檢測字典310的第二行中的值所確定的矩形特征是如圖10A中所示的矩形特征 470。即，狗;^測字典310的第二行中類型311中存儲的矩形特征的類型是圖 10C中所示的矩形特征470。基于狗檢測字典310的第二行中的位置312、寬度313以及高度314中存儲的值，確定圖10A中所示的矩形特征470的位置和尺寸。
首先，將用于進行確定的評分S設置為0,并且執行使用狗檢測字典310 的第一行中所存儲的值的操作。具體地，計算構成矩形特征46G的兩個矩形 462和463的每一個中所包含的亮度值的總和，所述矩形特征460基于狗抬r 測字典310的第一行中的類型311、位置312、寬度313以及高度314中存儲的值而確定。當由A(l)表示矩形462的區域中所包含的亮度值的總和且由B(l) 表示矩形463的區域中所包含的亮度值的總和時，計算根據各區域所計算的總和之間的差值作為特征量F (1):
F(l)-A(l)-B(l) (2)
其后，將所計算的特征量F(1)與狗檢測字典310的第一行中的閾值315 中存儲的闊值e(i)相比較，并且根據特征量F(l)是否小于閾值e(i)以及狗檢測字典310的第一行中的符號316中所存儲的值p(l)來計算弱假設h(l)。使用上述的公式計算弱假設h (1)。
其后，通過將所計算的弱假設h(l)乘以值a(l)(其存儲在狗檢測字典310 的第一行的權重317中)來計算h(l)a(l)。將所計算的h(l)a(l)累加至評分S。
其后，使用狗檢測字典310的第二行中存儲的值來重復上述操作。具體地，對于構成矩形特征470 (其基于狗檢測字典310的第二行中的類型311、位置312、寬度313以及高度314中存儲的值而確定)的兩個矩形472和473，計算矩形472的區域中所包含的亮度值的總和A(2)以及矩形473的區域中所包含的亮度值的總和B (2),并且使用以下等式計算特征量F (2): F(2)=A(2)-B(2) (3)
其后，將所計算的特征量F(2)與狗檢測字典310的第二行中的閾值315 中存儲的閾值e(2)相比較，并且根據特征量F(2)是否小于閾值e(2)以及狗檢測字典310的第二行中的符號316中所存儲的值p(2)來計算弱假設h(2)。
其后，通過將所計算的弱假設h (2)乘以a(2)值(其存儲在狗檢測字典310 的第二行的權重317中)來計算h(2)a(2)。將所計算的h(2)a(2)累加至評分S。
其后，使用狗檢測字典310的第三行至第t行中存儲的值來重復上述操作。在完成使用狗檢測字典310的第t行中所存儲的值的操作之后，確定評分S的值是否大于等于零。
例如，當使用上述機器學習算法執行學習所獲得的正采樣顯示已成功地檢測到狗的臉部，而負采樣顯示未檢測到狗的臉部時，如果完成使用狗檢測字典310的第一至第t行中所存儲的值的操作之后的評分S的值大于或等于零，那么確定了被確定圖像包含狗的臉部。將同樣的應用于其它目標對象檢測字典。例如，當使用貓檢測字典320進行確定而獲得的正采樣顯示已成功地檢測到貓的臉部時，如果評分S的值大于或等于零，那么確定了被確定圖像包含貓。
在本發明的該實施例中，將評分與零相比較的例子描述為使用目標對象檢測字典的確定。然而，可以使用除了零之外的值進行確定。即，可適當地調整與評分S相比較的值。
通過將被確定圖像調整為具有相同分辨率并且通過使用用于進行確定的具體類型的矩形特征，可同時使用多個目標對象檢測字典，并且可使用相同的算法來確定多個目標對象。在本例中，已描述了使用兩種類型的矩形特征之一的情況。然而，本發明的實施例也適用于使用一種類型或三種或更多種類型的矩形特征的情況。
圖11包含示出根據本發明實施例的液晶面板181上顯示的被捕獲圖像的示例的圖。圖11中所示的捕獲圖像480是與圖9中所示的圖像421 425相對應的圖像。圖11的(a)部分示出目標對象檢測單元230執行狗檢測處理之前的被捕獲圖像480，而圖11的(b)部分示出目標對象檢測單元230執行狗檢測處理之后的被捕獲圖像480。如圖11的(b)部分中所示，當在液晶面板 181上顯示的被捕獲圖像480中檢測到狗時，將標記481置于檢測到的狗的臉部的位置處。
接下來，參考附圖詳細描述已設置指定目標對象自動圖像捕獲模式的情況下的被捕獲圖像的記錄。
圖12A和12B是示出當使用根據本發明實施例的圖像捕獲裝置100捕獲狗的圖像時的液晶面板181的顯示示例的圖。圖12A示出液晶面板181顯示未朝著圖像捕獲裝置100的鏡頭111看的狗的圖像的狀態。圖12B示出液晶面板181顯示朝著圖像捕獲裝置100的鏡頭111看的狗的圖像的狀態。在圖 12B中所示的情況下，被捕獲的圖像包含狗的臉部的正面。所以，將標記500 置于在被捕獲圖像中檢測到的狗的臉部的周圍，并且記錄被捕獲圖像。
在本發明的該實施例中，當在被捕獲圖像中檢測到狗的臉部并且記錄了被捕獲圖像時，從音頻輸出單元190輸出對應于與狗相關聯地存儲在音頻存儲單元160中的音頻信息的聲音"bow-wow"，由此促使狗進一步朝著鏡頭111 看。例如，在通過用戶按下圖7中所示的"用于為自動圖像捕獲指定目標對象的菜單"屏幕上的"狗"指定按4A 331來設置指定目標對象自動圖像捕獲模式的情況下，如果按下快門按鍵171，那么從音頻輸出單元190輸出對應于與狗相關聯地存儲在音頻存儲單元160中的音頻信息的聲音"bow-wow"。另外，可以當在被捕獲圖像中檢測到狗的時候從音頻輸出單元19 0輸出與該音頻信息對應的聲音"bow-wow"，并且記錄被捕獲圖像。參考圖13和"詳細描述被捕獲圖像的記錄。
圖13和14包含示意性示出使用根據本發明實施例的圖像捕獲裝置100 捕獲狗的圖像的情況的圖。在圖13和14的(a)部分中，為了捕獲躺在地板上的狗510的圖像，將圖像捕獲裝置100固定至三腳架101以使得可將圖像捕獲裝置100安排為面向狗510。然而，狗510的臉部未直接面向鏡頭111。以下描述涉及這樣的示例在通過用戶按下圖7中所示的"用于為自動圖像捕獲指定目標對象的菜單"屏幕上的"狗"指定按鍵331來設置指定目標對象自動圖像捕獲模式的情況下，由用戶按下快門按鍵171。
圖13示出這樣的示例當檢測到狗510的臉部時，從音頻輸出單元190 輸出對應于與狗相關聯地存儲在音頻存儲單元160中的音頻信息的聲音
"bow-wow，，，并且記錄尋皮捕獲圖Y象。即，如圖13的(a)部分中所示，當通過手指102按下快門按鍵171時，目標對象檢測單元230開始在被捕獲圖像中檢測狗的狗檢測處理。在已設置了指定目標對象自動圖像捕獲模式的情況下，如果按下了快門按鍵171，那么直至檢測到狗510的臉部為止，將不會記錄被捕獲圖像。如圖13的(b)部分中所示，當目標對象檢測單元230檢測到狗 510的臉部時，從音頻輸出單元190輸出與該音頻信息對應的聲音"bow-冊w"。隨后，如圖13的(c)部分中所示，在從音頻輸出單元190輸出與該音頻信息對應的聲音"bow-wow，，時記錄被捕獲圖像。可以幾乎同步地執行從音頻輸出系統190輸出聲音與記錄被捕獲圖像。可替代地，自從音頻輸出單元190輸出聲音時經過預定時間之后，可以記錄被捕獲圖像。
狗的臉部的檢測未必如人的臉部的檢測那樣精確。所以，如圖13的(b) 部分中所示，即使當狗510朝向圖像捕獲裝置100并且檢測到狗510的臉部時，在狗510的眼睛朝向鏡頭111時狗510可能也未必面向前方。在該示例中，如圖13的部分(b)中所示，當檢測到狗510的臉部時，輸出對應于與狗相關聯地存儲的音頻信息的聲音"bow-wow"，由此將狗510的注意力吸引至圖像捕獲裝置100。在將狗510的臉部引向鏡頭111的時刻，記錄被捕獲圖像。因此，為了記錄不能理解用戶給出的指令的狗510的臉部正面的被捕獲圖像，可以在將狗510的臉部引至圖像捕獲裝置100的適當時間(timing)處記錄被捕獲圖像。
圖14示出這樣的示例當通過手指102按下快門按4定171時且當檢測到狗510的臉部時，從音頻輸出單元190輸出對應于與狗相關聯地存儲在音頻存儲單元160中的音頻信息的聲音"bow-w。w"。即，如圖14的部分(a)中所示，當通過手指102按下快門按鍵171時，從音頻輸出單元190輸出對應于與指定的狗相關聯地存儲在音頻存儲單元160中的音頻信息的聲音"bow-wow"。同時，目標對象檢測單元230開始在被捕獲圖像中檢測狗的狗檢測處理。由于除了在按下快門按鍵171時從音頻輸出單元190輸出對應于音頻信息的聲音"bow-wow"這點之外，該示例與圖l3中所示的示例均相同，因此省略其描述。因此，為了記錄不能理解用戶給出的指令的狗510的臉部正面的被捕獲圖像，即使當狗510的臉部為被引向前方時，通過輸出對應于與狗相關聯的音頻信息的聲音"bow-wow"來吸引狗510的注意力也有助于將狗510的臉部引向圖像捕獲裝置100。即，通過在兩個階段輸出與音頻信息對應的聲音 "bow-wow"，可以在適當的時間處記錄被捕獲圖像。
如圖13和14中所示，通過在記錄被捕獲圖像時輸出對應于與狗相關聯的音頻信息的聲音"bow-wow，，，可以吸引狗510的注意力，并且可以向用戶通知記錄了被捕獲圖像的事實。
在按下圖14的部分(a)中所示的快門按鍵171的時候所輸出的聲音可能
與在檢測到狗的時候輸出的聲音相同，或者可能比檢測到狗之時所輸出的更
長。例如，可以重復聲音"bow-wow"某個時間_險。可替代地，可以將與狗有關的音頻信息的兩個不同條目(如，高的"bow-wow"和低的"bow-wow")存儲在音頻存儲單元160中。這樣，可以使得在按下快門按鍵171的時候所輸出的聲音(圖14的(a)部分中所示)與檢測到狗的時候所輸出的聲音(圖14的 (b)部分中所示)不同。通過在兩個階段輸出不同的聲音，可以進一步吸引狗的注意力。
現在，參考附圖描述根據本發明實施例的圖像捕獲裝置100的操作。
圖15是示出根據本發明實施例的圖像捕獲裝置10 0所執行的被捕獲圖像記錄處理的過程的流程圖。該過程用于在^r測到用戶所指定的目標對象的情況下自動記錄被捕獲圖像。
首先，確定是否已設置了指定目標對象自動圖像捕獲模式(步驟S901)。即，是否已按下圖7中所示的"用于為自動圖像捕獲指定目標對象的菜單" 屏幕上的"狗"指定按鍵331、"貓，，指定按鍵332以及"狗/貓，，指定按鍵 3 3 3中的任意一個。當已設置了指定目標對象自動圖像捕獲模式(步驟S901 中的是)，確定是否按下了快門按鍵171 (步驟S902)。當按下了快門按鍵171 時(步驟S902中的是)，圖像拾取單元112開始生成被捕獲圖像(步驟S903)，并且目標對象檢測單元230對所生成的被捕獲圖像執行目標對象檢測處理 (步驟S920)。參考圖16詳細描述目標對象檢測處理。當尚未設置指定目標對象自動圖像捕獲模式時(步驟S901中的否)，或是當未按下快門按鍵ni時 (步驟S9 02中的否)，終止被捕獲圖像記錄處理的操作。
其后，確定目標對象檢測單元230是否已經在圖像拾取單元112生成的被捕獲圖像中檢測到指定的目標對象(步驟S904)。當已在圖像拾取單元112 生成的被捕獲圖像中檢測到指定的目標對象時(步驟S904中的是)，從音頻輸出單元190輸出對應于與被檢測目標對象相關聯地存儲的音頻信息的聲音 (步驟S905)。其后，將當前被捕獲的圖像記錄在記錄單元150中(步驟S906)。當按下圖7中所示的"用于為自動圖像捕獲指定目標對象的菜單"屏幕上的 "狗/貓，，指定按鍵333時，如果目標對象檢測單元230檢測到狗的臉部或貓的臉部，那么輸出對應于與檢測到的狗或貓相關聯地存儲的音頻信息的聲音(步驟S905),并且將當前被捕獲的圖像記錄在記錄單元150中(步驟S906)。本例圖解這樣的情況當在被捕獲圖像中檢測到指定的動物(狗或貓)時，輸出被檢測到的動物的聲音并且記錄當前被捕獲的圖像。可替代地，可以當在被捕獲的圖像中檢測到指定的動物時記錄當前的被捕獲的圖像，并且可在記錄時輸出檢測到的動物的聲音。因此，可以在適當的時間(其為動物的臉部被引向鏡頭111的時刻)可靠地記錄被捕獲的圖像，并且可立即向用戶通知記錄了被捕獲圖像的事實。
相反，當在圖像拾取單元112生成的被捕獲圖像中未檢測到指定的目標對象時(步驟S904中的否)，重復目標對象4企測處理(步驟S903和S920)。
圖16是示出作為根據本發明實施例的圖像捕獲裝置100所執行的、被捕獲圖像記錄處理的過程的一部分的目標對象^f全測處理的過程(圖15中所示的步驟S920中的過程)的流程圖。
首先，獲得存儲單元130中存儲的當前被捕獲的圖像(步驟S921)。然后，將提取框置于所獲得的被捕獲圖像的上方的左手角(步驟S922)，并且獲得提取框內包含的圖像(步驟S923)。然后，在存儲在目標對象^r測字典數據庫300 中的多個目標對象檢測字典之中取得與指定的目標對象有關的一個目標對象檢測字典，并且將其存儲在目標對象檢測字典存儲器235中(步驟S924)。然后，使用存儲在目標對象檢測字典存儲器235中的目標對象檢測字典，對提取框內的已提取圖像執行確定處理(步驟S940)。參考圖17詳細描述確定處理。
然后，確定提取框內的已提取圖像中是否包含目標對象(步驟S925)。當確定提取框內的已提取圖像中包含目標對象時(步驟S925中的是)，將指示已檢測到目標對象的目標對象檢測信息輸出作為確定結果(步驟S934)。當未確定提取框內的已提取圖像中包含目標對象時(步驟S925中的否)，確定在目標對象檢測字典數據庫30Q中存儲的多個目標對象檢測字典之中是否存在與指定的目標對象有關的任何其它目標對象檢測字典(步驟S926)。當存在與指定的目標對象有關的另一目標對象檢測字典時(步驟S926中的是)，流程返回步驟S924，并且重復目標對象確定處理(步驟S924、 S940和S925)。例如，當已按下圖7中所示的"用于為自動圖像捕獲指定目標對象的菜單"屏幕上的 "狗/貓"指定按鍵333時，只要已執行了使用狗檢測字典310的確定處理，那么就執行使用貓檢測字典320的確定處理。當已按下圖7中所示的"用于為自動圖像捕獲指定目標對象的菜單"屏幕上的"狗"指定按4建331或"貓"
指定按鍵332時，不存在與指定的目標對象有關的其它目標對象檢測字典。
當不存在與指定的目標對象有關的其它目標對象檢測字典時(步驟S926 中的否)，確定已對其執行目標對象檢測處理的圖像是否小于提取框(步驟 S927)。當確定已對其執行目標對象檢測處理的圖像小于提取框時(步驟S927 中的是)，就不再需要進一步縮小已對其執行目標對象檢測處理的圖像以及執行目標對象4企測處理。所以，將指示尚未4企測到目標對象的無目標對象4企測信息輸出作為確定結果(步驟S933)。
當已對其執行目標對象檢測處理的圖像不小于提取框時(步驟S927中的否)，確定提取框是否位于放置該提取框的圖像的右邊緣。當提取框未位于右邊緣時(步驟S928中的否)，將提取框以向右的方向在該圖像中移動一個像素 (步驟S929)，并且流程返回步驟S923。相反，當提取框位于圖像的右邊緣時 (步驟S928中的是)，確定提取框是否位于放置該提取框的圖像的底部邊緣 (步驟S930)。當提取框未位于圖像的底部邊緣時(步驟S930中的否)，將提取框以向下的方向在該圖像中移動一個像素，并且然后將其置于該圖像的左邊緣處(步驟S931),流程返回步驟S923。當提取框位于圖像的底部邊緣時(步驟S930中的是)，以預定的因子縮小提取框被置于其下方右手角的圖像(步驟 S932)。在已縮小該圖像之后，將提取框置于該圖像的上方的左手角(步驟 S922)。
在本示例中，已描述了當確定目標對象將包含在被確定圖像中時，確定了在當前被捕獲圖像中檢測到目標對象，而無需對將要確定的另一圖像執行確定處理。可替代地，即使當確定被確定圖像中包含目標對象時，也可重復確定處理直至被確定圖像變得小于提取框為止，并且，基于該確定結果，可確定當前被捕獲圖像中包含目標對象。當指定了多個目標對象時，可重復執行使用與所有指定的目標對象有關的目標對象檢測字典的確定處理，并且，基于該確定結果，可確定已經在當前被捕獲圖像中檢測到該目標對象。
圖17是示出作為根據本發明實施例的圖像捕獲裝置100所執行的、目標對象檢測處理的過程的一部分的確定處理的過程(圖16中所示的步驟S940中的過程)的流程圖
首先，將評分S初始化為"0"(步驟S941)，并且將變量i初始化為"1" (步驟S942)。然后，基于目標對象檢測字典存儲器235中存儲的目標對象檢測字典的第i行中存儲的類型311、位置312、寬度313以及高度314中存儲的值，確定已在提取框內提取的被確定圖像上的矩形特征，并且計算構成該矩形特征的兩個矩形的區域內所包含的亮度值的總和A (i)和B (i)(步驟 S943)。然后，計算已計算的總和A(i)和B(i)之間的差值作為特征量F(i)(步驟S944)。
然后，確定目標對象檢測字典存儲器235中存儲的目標對象檢測字典的第i行中的符號316的值是否為"p(i)=l"(步驟S945)。當"p(i)=l"時(步驟S945中的是)，確定已計算的特征量F(i)是否小于目標對象檢測字典存儲器235中存儲的目標對象檢測字典的第i行中的閾值315中存儲的閾值 e(i)(步驟S946)。當已計算的特征量F(i)低于閾值e(i)時(步驟S946中的是)，計算出弱假設h(i)4(步驟S947)。相反，當已計算的特征量F(i)不低于閾值e(i)時(步驟S946中的否)，計算出弱假設h (i)=-l (步驟S948)。
當目標對象檢測字典存儲器235中存儲的目標對象檢測字典的第i行中的符號316的值不是"p(i)=l"時(步驟S945中的否)，符號316的值為 "p(i)=-1"。在這種情況下，確定已計算出的特征量F(i)是否低于閾值 e(i)(步驟S949)。當已計算出的特征量F(i)低于閾值e(i)時，計算出弱假設 h (i) =-1 (步驟S950)。相反，當已計算出的特征量F (i)不低于閾值e (i)時(步驟S949中的否)，計算出弱假設h(i卜-1(步驟S951)。
隨后，將目標對象檢測字典存儲器235中存儲的目標對象檢測字典的第 i行中的權重317中存儲的a(i)值乘以已計算出的弱假設h(i),并且將由該乘法得到的乘積h(i)a(i)累加至評分S(步驟S952)。
然后，將"1"累加至變量i (步驟S953 )，并且確定變量i是否大于或等于t(步驟S954 )。當確定變量i不大于t時(步驟S"4中的否)，尚未完成使用目標對象檢測字典存儲器235中存儲的目標對象檢測字典的每一行中的值的確定處理。因此，流程返回步驟S943,重復使用該相同的目標對象檢測字典的確定處理(步驟S943 步驟S953)。相反，當變量i大于t時(步驟 S954中的是)，完成了使用目標對象檢測字典存儲器235中存儲的目標對象檢測字典的每一行中的值的確定處理。因此，流程進入步驟S955,并且確定
評分S的值是否大于或等于零(步驟S955)。
當評分S的值大于或等于零時(步驟S955中的是)，確定被確定圖像包含目標對象(步驟S956)。相反，當評分S的值低于零時(步驟S955中的否)，確定被確定圖像不包含目標對象(步驟S957)。
圖18是示出根據本發明實施例的圖像捕獲裝置100所執行的被捕獲圖像記錄處理的過程的流程圖。除了增加了步驟S961中的過程這點之外，通過修改圖15中所示的部分過程得到該過程，并且與圖15中所示的過程類似。因此，除了步驟S961之外，省略該過程的詳細描述。
當已設置了指定目標對象自動圖像捕獲模式時(步驟S901中的是)，如果按下了快門按鍵171(步驟S902中的是)，那么輸出對應于與指定的目標對象相關聯地存儲的音頻信息的聲音(步驟S961)。當已按下圖7中所示的"用于為自動圖像捕獲指定目標對象的菜單"屏幕上的"狗/貓"指定按鍵333時，可同時地輸出或交替地輸出對應于與狗或貓相關聯地存儲的音頻信息條目的聲音。可替代地，可以僅輸出聲音中的一種。
上面的描述涉及這樣的示例當已按下圖7中所示的"用于為自動圖像捕獲指定目標對象的菜單"屏幕上的"狗"指定按鍵331時，在檢測到狗的臉部的正面的情況下，輸出與關于狗的音頻信息對應的聲音。在這種情況下例如，即使在將狗的臉部的正面引向圖像捕獲裝置IOO之前，如果將狗的臉部的正面以某種角度引向圖像捕獲裝置100，那么可以想象的是，輸出與音頻信息對應的聲音增大了將狗的臉部的正面引向圖像捕獲裝置100的可能性。在以下描述中，將描述這樣的示例當檢測到狗的臉部或貓的臉部的側面或正面時，輸出與關于凈皮^r測目標對象的音頻信息相對應的聲音。
圖19包含示意性示出在根據本發明實施例的目標對象檢測字典數據庫 300中存儲的目標對象檢測字典的圖。在下面描述的本示例中，目標對象檢測字典數據庫300存儲狗的正面^^測字典601、貓的正面一企測字典602、狗的側面檢測字典6 0 3以及貓的側面檢測字典6 04 。狗的正面檢測字典6 01是用于檢測狗的正面的目標對象檢測字典。貓的正面檢測字典602是用于檢測貓的正面的目標對象檢測字典。狗的側面檢測字典603是用于檢測狗的側面的目標對象檢測字典。貓的正面檢測字典604是用于檢測貓的側面的目標對象檢測字典。因為除了存儲在各條目中的值是不同的這點之外，狗的正面檢測字典601、貓的正面檢測字典602、狗的側面檢測字典603以及貓的側面檢測字典604與圖5中所示的狗;險測字典310及貓^f全測字典320均相同，因此省略其具體描述。
例如，當已通過按下圖7中所示的"用于為自動圖像捕獲指定目標對象的菜單"屏幕上的"狗"指定按鍵:331設置了指定目標對象自動圖像捕獲模
式時，可以使用狗的正面檢測字典601及狗的側面4企測字典603來檢測狗的
臉部的正面和側面。
圖20A和20B是示出當使用根據本發明實施例的圖像捕獲裝置100捕獲狗的圖像時的液晶面板181的顯示示例的圖。圖20A示出液晶面板181顯示狗的臉部的側面的圖像的狀態。圖20B示出液晶面板181顯示狗的臉部的正面的圖像的狀態。在圖20A中所示的情況下，被捕獲圖像包含狗的側面。所以，將標記611置于被捕獲圖像中檢測到的狗的臉部的周圍，并且從視頻輸出單元190輸出與音頻信息對應的聲音"bow-wow"。在圖20B中所示的情況下，被捕獲圖像包含狗的正面。所以，將標記612置于被捕獲圖像中檢測到的狗的臉部的周圍，并且乂人^L頻輸出單元190輸出與音頻信息對應的聲音 "bow-wow"。參考圖21和22詳細描述被捕荻圖像的記錄。
圖21和22包含示意性示出使用根據本發明實施例的圖像捕獲裝置100 捕獲狗的圖像的情況的圖。在圖21的(a)部分中，為了捕獲躺在地板上的狗 510的圖像，將圖像捕獲裝置100固定至三腳架101以使得將圖像捕獲裝置 100安排為面向狗510。然而，狗510的臉部被引向與鏡頭111相反的方向。以下描述涉及這樣的示例在已通過用戶按下圖7中所示的"用于為自動圖像捕獲指定目標對象的菜單"屏幕上的"狗"指定按鍵331設置了指定目標對象自動圖像捕獲模式的情況下，用戶按下快門按鍵171。
如圖21的(a)部分中所示，當通過手指102按下快門按鍵171時，目標對象檢測單元230開始在被捕獲圖像中檢測狗的狗檢測處理。在已設置了指定目標對象自動圖像捕獲模式的情況下，如果按下了快門按鍵l71,那么直至檢測到狗510的臉部為止，將不會記錄被捕獲圖像。如圖21的(b)部分中所示，當目標對象檢測單元230檢測到狗510的臉部的側面時，從音頻輸出單元190輸出與音頻信息對應的聲音"bow-wow"。當檢測到狗510的臉部的側面時，僅輸出與音頻信息對應的聲音"bow-wow，，，而不記錄被捕獲圖像。如圖22的(a)部分中所示，當目標對象檢測單元230檢測到狗510的臉部的正面時，從音頻輸出單元190輸出與音頻信息對應的聲音"bow-wow"。隨后，如圖22的(b)部分中所示，在已從音頻輸出單元190輸出與音頻信息對應的聲音"bow-wow，，之后，立即記錄被捕獲圖像。
這樣，當檢測到狗510的臉部的側面時，可以想象的是，狗510將開始把其臉部引向鏡頭lll。在檢測時，通過輸出與關于狗的音頻信息相對應的
聲音"bow-wow"來將狗510的注意力吸引至鏡頭111，可以增大狗510將其臉部引向鏡頭111的可能性。在檢測時，當檢測到狗510的臉部的正面時，輸出與關于狗的音頻信息相對應的聲音"bow-wow"，因而進一步吸引狗510 的注意力，并且促使狗510將其臉部進一步引向鏡頭111。然后，記錄被捕獲圖像。這樣，在兩個階段(即，當檢測到狗的臉部的側面時以及當檢測到狗的臉部的正面時)輸出與關于狗的音頻信息相對應的聲音"bow-wow"。所以，可進一步將狗510的注意力吸引至鏡頭111，并且可增大狗510將其臉部引向鏡頭111的可能性。
如圖14中所示，可以在音頻存儲單元160中存儲關于狗的音頻信息的兩個不同條目(如，高的"bow-wow，，和低的"bow-wow，，)。這才羊，可以Y吏得沖企測到狗的臉部的側面的時候所輸出的聲音與檢測到狗的臉部的正面的時候所輸出的聲音不同。通過以這種方式在兩個階段處輸出不同的聲音，可以進一步吸引狗510的注意力。
圖2 3是示出根據本發明實施例的圖像捕獲裝置100所執行的被捕獲圖像記錄處理的過程的流程圖。本過程是通過修改圖15中所示的部分過程而得到的，并且除了代替步驟S904和S905提供了步驟S971和S974并且進一步添加了步驟S972和S973中的過程這點之外，其均與圖15中所示的過程類似。因此，除了步驟S971 ~ S974中的過程之外，省略該過程的具體描述。
對圖像拾取單元112生成的被捕獲圖像執行目標對象檢測處理(S920)。確定目標對象檢測單元230是否已經在圖像拾取單元112生成的被捕獲圖像中檢測到指定的目標對象的正面(步驟S971)。當在圖像拾取單元112生成的被捕獲圖像中未檢測到指定的目標對象的正面時(步驟S971中的否)，確定目標對象檢測單元230是否已經在圖像拾取單元ll2生成的被捕獲圖像中檢測到指定的目標對象的側面(步驟S972)。當已經在圖像拾取單元112生成的被捕獲圖像中檢測到指定的目標對象的側面時(步驟S972中的是)，從音頻輸出單元190輸出對應于與已檢測到其側面的被檢測指定對象相關聯地存儲的音頻信息的聲音(步驟S973)。流程返回步驟S903。相反，當在圖像拾取單元 112生成的被捕獲圖像中未檢測到指定的目標對象的側面時(步驟S972中的否)，流程返回步驟S903。
當在圖像拾取單元112生成的被捕獲圖像中已檢測到指定的目標對象的正面時(步驟S971中的是)，從音頻輸出單元190輸出對應于與已檢測到其正面的被^r測指定對象相關聯地存儲的音頻信息的聲音(步驟S974)，并且在記錄單元150中記錄當前被捕獲圖像(步驟S906)。
以上描述涉及這樣的示例為了在記錄被捕獲圖像時吸引目標對象的注意力，輸出與關于被檢測目標對象的音頻信息相對應的聲音，并且記錄被捕獲的圖像。通過以這種方式輸出與關于指定的目標對象的音頻信息相對應的聲音，可以吸引目標對象的注意力，并且可向用戶通知已經記錄了被捕獲圖像的事實。例如，如果可以給出與所記錄的被捕獲圖像是否模糊相一致的通知，那么已接收到該通知的用戶可以迅速確定例如是否需要再次捕獲圖像。以下描述涉及這樣的示例在記錄被捕獲圖像時，通過根據被捕獲圖像是否模糊來輸出與音頻信息的不同條目相對應的聲音，來向用戶通知所記錄的被捕獲圖像是否模糊。
圖24是示意性示出根據本發明實施例的音頻存儲單元700中存儲的細節的圖。在本示例中，將描述圖像捕獲裝置100包含音頻存儲單元700 (而不是音頻存儲單元160)的情況。在音頻存儲單元700中，將目標對象701和音頻信息702彼此相關聯地存儲。
目標對象701是可被指定為其圖像將被自動捕獲的目標對象的目標對象。例如，將"狗"或"貓"存儲為目標對象701。目標對象701對應于圖6 中所示的目標對象161。
音頻信息702是用于從音頻輸出單元190輸出聲音的音頻信息。將音頻信息的兩個條目(一個用于"模糊圖像"，另一個用于"非模糊圖像")與目標對象相關聯地存儲。參考圖24，例如，將用于與"狗"相關聯地存儲的"非模糊圖像"的音頻信息表示為"bow-wow",而將用于與"狗"相關聯地存儲的"模糊圖像"的音頻信息表示為"ki-yi"。將用于與"貓"相關聯地存儲的"非模糊圖像"的音頻信息表示為"meow-meow"，而將用于與"貓"相關聯地存儲的"模糊圖像"的音頻信息表示為"fft-fft"。在本示例中，將描述這樣的情況當檢測目標對象時，將用于"非模糊圖像"的音頻信息用作基于其輸出聲音的音頻信息。
圖25包含示意性示出使用根據本發明實施例的圖像捕獲裝置100捕獲狗的圖像的情況的圖。除了在記錄被捕獲圖像時根據被捕獲圖像是否是模糊的來輸出與音頻信息的不同條目相對應的聲音(其示出在圖25的(c)部分中)這點之外，圖25中所示的示例與圖13中所示的示例均相同。所以，將詳細描述圖25的(c)部分，而省略其它部分的詳細描述。
如圖25的(b)部分中所示，當目標對象;f企測單元230 ;險測到狗510的臉部時，從音頻輸出單元190輸出與用于"非模糊圖像"的音頻信息相對應的聲音"bowiow"。隨后，如圖25的(c)部分中所示，在已經從音頻輸出單元 190輸出對應于該音頻信息的聲音"bowiow"之后，立即記錄被捕獲圖像。在記錄被捕獲圖像時，確定被捕獲圖像是否模糊。如圖25的(c)部分中所示，當確定被捕獲圖像模糊時，從音頻輸出單元190輸出與用于"模糊圖像"的音頻信息相對應的聲音"ki-yi"。例如，通過使用相機參數控制單元220評估經由存儲單元I/F 240從存儲單元130得到的當前被捕獲圖像，可以確定被捕獲圖像是否模糊。即，當在當前被捕獲圖像的頻率分量之中存在更多的相對高頻分量時，確定被捕獲圖像不模糊。當在當前被捕獲圖像的頻率分量之中存在較少的相對高頻分量時，確定被捕獲圖像模糊。
當檢測狗的臉部時，輸出與用于"非模糊圖像"的音頻信息相對應的聲音"bowiow"。在記錄被捕獲圖像時，當確定被捕獲圖像模糊時，輸出與用于"模糊圖像，'的音頻信息相對應的聲音"ki-yi",從而迅速地向用戶通知這樣的事實盡管已經記錄了狗510的臉部的正面的被捕獲圖像，但是被捕獲圖像模糊。通過根據圖像是否模糊來輸出與關于目標對象的音頻信息相對應的聲音(而不是輸出捕獲圖像時所輸出的通常的快門聲音)，圖像捕獲變得更加有趣。可替代地，除了執行確定被捕獲圖像是否模糊，還可執行被捕獲圖像的評估，并且可根據被捕獲圖像的評估結果輸出與音頻信息對應的聲音。例如，計算指示聚焦水平(focus level)的評估值、指示圖像捕獲裝置100距離指定的目標對象的接近程度的評估值以及指示被捕獲圖像中景物的亮度的評估值。可將這些評估值用作評估結果。例如，當所有這些評估值都為高時，可輸出對應于該音頻信息的聲音"bow-wow"。當這些評估值中的任何一個為低時，可輸出對應于該音頻信息的聲音"ki-yi"。
圖26是示出根據本發明實施例的圖像捕獲裝置1QQ所執行的被捕獲圖像記錄處理的過程的流程圖。本過程是通過修改圖15中所示的部分過程而得到的，并且除了代替步驟S905提供了步驟S981并且進一步添加了步驟S982 ~ S984中的過程這點之外，其均與圖15中所示的過程類似。因此，除了步驟 S981 ~ S984中的過程之外，省略該過程的詳細描述。確定目標對象檢測單元230是否已經在圖像拾取單元112生成的被捕獲
圖像中檢測到指定的目標對象(步驟S904)。當已在圖像拾取單元112生成的被捕獲圖像中檢測到指定的目標對象時(步驟S904中的是)，從音頻輸出單元190輸出對應于與被檢測目標對象相關聯地存儲的用于"非模糊圖像"的音頻信息的聲音(步驟S981)。
確定記錄單元150中記錄的當前被捕獲圖像是否模糊(步驟S982)。當確定記錄單元150中記錄的當前被捕獲圖像模糊時(步驟S982中的是)，從音頻輸出單元190輸出對應于與被檢測目標對象相關聯地存儲的用于"模糊圖像"的音頻信息的聲音(步驟S983)。相反，當確定記錄單元150中記錄的當前被捕獲圖像不模糊時(步驟S982中的否)，從音頻輸出單元19 0輸出對應于與被檢測目標對象相關聯地存儲的用于"非模糊圖像"的音頻信息的聲音(步驟S984)。
如上面已描述的那樣，在本發明的實施例中，例如，由于在檢測動物臉部時記錄不理解用戶指令的動物的被捕獲圖像，因此，可以在適當的時間(其為將動物臉部引向鏡頭111的時刻)記錄被捕獲圖像。通過在檢測動物臉部時輸出與關于動物的音頻信息相對應的聲音，可以將動物的注意力吸引至圖像捕獲裝置IOO。所以，可以在將動物臉部進一步引向鏡頭111的時刻記錄被捕獲圖像。因此，為了記錄動物臉部的正面的被捕獲圖像，可以在將動物臉部引向圖像捕獲裝置100的適當時間記錄被捕獲圖像。即，可適當地記錄不理解攝影者的指令的目標對象的被捕獲圖像。通過在記錄被捕獲圖像時輸出與關于動物的音頻信息相對應的聲音，可以吸引動物的注意力，并且向用戶通知記錄了被捕獲圖像的事實。通過在捕獲動物的圖像時輸出關于動物的聲音，可提供具有娛樂特征的圖像捕獲裝置。
由于將存儲在目標對象檢測字典數據庫300中的每一個目標對象檢測字典用作確定被捕獲圖像是否包含目標對象的確定信息，因此，可以轉換(switch)確定處理中使用的字典。所以，即使當指定多個目標對象，也可檢測該多個目標對象。例如，狗的眼睛具有較小的白色區域，因此通常難于識別狗的視線。因此，通常難于才企測狗的正面。所以，在本發明的實施例中，可以通過使用矩形特征執行確定處理來改善檢測難于檢測的目標對象的精度。
雖然本發明的實施例所圖解的圖示出了這樣的示例輸出與存儲在音頻存儲單元160中的音頻信息相對應的聲音一次或兩次，可以將該聲音重復輸出預定時間段。進一步，可由用戶設置輸出時間。可由用戶存儲音頻存儲單
元160中存儲的音頻信息。例如，用戶可以記錄他/她的狗或相同類型狗的叫聲，并且將已記錄叫聲存儲在音頻存儲單元160中。使用該叫聲，可以執行自動圖像捕獲。
雖然本發明的實施例已經描述了通過按下快門按鍵171 —次來記錄一個被捕獲圖像的示例，但是通過按下快門按鍵171 —次也可連續記錄多個(例如，六個)被捕獲圖像。可替代地，可以每當檢測目標對象時記錄被捕獲圖像,直至所記錄的被捕獲圖像的數量達到預定數量為止。
雖然已通過示例的方式在本發明的實施例中描述了將"狗"或"貓"用作目標對象，但是本發明的實施例也適用于將另一種動物(諸如哺乳動物)用作目標對象的情況。本發明的實施例還適用于將嬰兒用作目標對象的情況。當將嬰兒用作目標對象時，可以使用呼叫該嬰兒的母親的語音作為關于該嬰兒的音頻信息。
為了增加檢測目標對象的精度，例如，可以為每種類型的目標對象提供目標對象檢測字典。例如，在狗的情況下，可提供用于檢測在日本常見的狗的臉部(例如，可可粉褐色(微黃褐色)的shiba inu("小柴犬")的臉部)的目標對象檢測字典、用于檢測"chihuahua"的目標對象檢測字典等。
雖然本發明的實施例中已描述了將存儲在目標對象檢測字典數據庫3 0 0中的每一個目標對象檢測字典用作用以確定被捕獲圖像是否包含目標對象的確定信息的示例，但是也可采用確定被捕獲圖像是否包含目標對象的另一確定處理。例如，可以執行使用這樣的確定單元的確定處理該確定單元采用被確定圖像中的兩個點的亮度值之間的差值，而不采用矩形特征。
本發明的實施例適用于各種圖像捕獲裝置，諸如捕獲靜止或運動圖像的便攜式攝錄(像) 一體機(相機和記錄器)以及具有圖像捕獲功能的手機。
通過示例的方式圖解本發明的實施例以實現本發明。雖然實施例和下面將描述的權利要求書的特征之間存在對應，但是本發明不限于此，并且在不脫離本發明的精神及范圍的情況下可進行各種修改。
即，根據本發明的實施例，例如，圖像捕獲部件對應于圖像拾取單元112。例如，確定信息存儲部件對應于目標對象檢測字典數據庫3QQ。例如，操作接受部件對應于操作輸入單元170及液晶面板181。例如，目標對象纟企測部件對應于目標對象^r測單元230。例如，記錄控制部件對應于系統控制單元120。
根據本發明的另一實施例，例如，音頻信息存儲部件對應于音頻存儲單元160。例如，音頻輸出控制部件對應于系統控制單元120。
根據本發明的另一實施例，例如，音頻信息存儲部件對應于音頻存儲單元160。例如，被捕獲圖像評估部件對應于相^L參數控制單元220。例如，音頻輸出控制部件對應于系統控制單元120。
根據本發明的另一實施例，例如，圖像捕獲控制部件對應于相機參數控制單元220。
根據本發明的另一實施例，例如，音頻信息存儲部件對應于音頻存儲單元160。例如，操作接受部件對應于操作輸入單元170及液晶面板181。例如，圖像捕獲部件對應于圖像拾取單元112。例如，目標對象檢測部件對應于目標對象檢測單元230。例如，音頻輸出控制部件對應于系統控制單元120。例如，記錄控制部件對應于系統控制單元120。
根據另一實施例，例如，捕獲圖像的步驟對應于步驟S903。例如，檢測目標對象的步驟對應于步驟S920。例如，控制記錄的步驟對應于步驟S906。
本發明的實施例中描述的過程可被看作為具有一系列這些過程的方法，或可被看作為用于促使計算機執行一系列過程的程序，或作為具有在其上記錄的程序的記錄介質。
本領域的技術人員應該理解，依據設計要求及其它因素，只要其在所附權利要求書或其等效物的范圍之內，可以發生各種修改、組合、子組合及變更。
權利要求
1.一種圖像捕獲裝置，包括圖像捕獲部件，用于捕獲景物的圖像并且生成被捕獲圖像；確定信息存儲部件，用于存儲多條確定信息，每條確定信息用于確定被捕獲圖像是否包含多個目標對象的相應一個；操作接受部件，用于接受指定為其存儲了多條確定信息的多個目標對象的至少一個的指定操作；目標對象檢測部件，用于從存儲在確定信息存儲部件中的多條確定信息之中選擇與指定的目標對象有關的確定信息，并且使用所選擇的確定信息在被捕獲圖像中檢測指定的目標對象；以及記錄控制部件，用于促使記錄在檢測到指定的目標對象時所生成的被捕獲圖像。
2，如權利要求1所述的圖像捕獲裝置，進一步包括音頻信息存儲部件，用于與目標對象相關聯地存儲關于為其存儲了多條確定信息的多個目標對象中的每個的音頻信息；以及音頻輸出控制部件，用于在記錄控制部件促使記錄被捕獲圖像時，促使輸出對應于音頻信息存儲部件中與被檢測目標對象相關聯地存儲的音頻信息的聲音。
3. 如權利要求2所述的圖像捕獲裝置，其中，該目標對象是動物的臉部，以及其中，該音頻信息表示該動物的叫聲。
4. 如權利要求2所述的圖像捕獲裝置，其中，該目標對象是嬰兒的臉部，以及其中，該音頻信息表示呼叫該嬰兒的人的語音。
5. 如權利要求1所述的圖像捕獲裝置，進一步包括音頻信息存儲部件，用于與目標對象相關聯地存儲關于為其存儲了多條確定信息的多個目標對象中的每個的音頻信息，所述音頻信息依據被捕獲圖像的評估結果；被捕獲圖像評估部件，用于在記錄控制部件促使記錄被捕獲圖像時評估被捕獲圖像；以及音頻輸出控制部件，用于根據被捕獲圖像評估部件得到的評估結果，促使輸出對應于音頻信息的聲音。
6. 如權利要求1所述的圖像捕獲裝置，其中，操作接受部件接受在為其存儲了多條確定信息的多個目標對象之中指定多個目標對象的指定操作，以及其中，記錄控制部件促使記錄在^^測到指定的多個目標對象中的至少之一時所生成的被捕獲圖像。
7. 如權利要求1所述的圖像捕獲裝置，其中，操作接受部件是觸摸板，其顯示用于指定為其存儲了多條確定信息的多個目標對象的至少一個的指定按鍵。
8. 如權利要求1所述的圖像捕獲裝置，進一步包含圖像捕獲控制部件，用于通過基于被檢測目標對象設置預定的圖像捕獲參數來執行圖像捕獲控制。
9. 一種圖像捕獲裝置，包含音頻信息存儲部件，用于與目標對象相關聯地存儲關于多個目標對象中的每個的音頻信息；操作接受部件，用于接受指定音頻信息存儲部件中存儲的多個目標對象中的至少一個的指定操作；圖像捕獲部件，用于捕獲景物的圖像并且生成被捕獲圖像；目標對象檢測部件，用于在被捕獲圖像中檢測指定的目標對象；音頻輸出控制部件，用于在檢測到指定的目標對象時，促使輸出對應于音頻信息存儲部件中與被檢測目標對象相關聯地存儲的音頻信息的聲音；以及記錄控制部件，用于在輸出與關于^皮;險測對象的音頻信息相對應的聲音之后，促使記錄被捕獲圖像。
10. 如權利要求9所述的圖像捕獲裝置，其中，存儲在音頻信息存儲部件中的多個目標對象中的每一個均具有正面和側面，其中，目標對象檢測部件在被捕獲圖像中檢測指定的目標對象的正面或側面，其中，在檢測到指定的目標對象的正面或側面時，音頻輸出控制部件促使輸出對應于音頻信息存儲部件中與其正面或側面被檢測的目標對象相關聯地存儲的音頻信息的聲音，以及其中，在檢測到指定的目標對象的正面時，當輸出與關于其正面被檢測的目標對象的音頻信息相對應的聲音時，記錄控制部件促使記錄被捕獲圖像。
11. 如權利要求10所述的圖像捕獲裝置，其中，當在檢測到指定的目標對象的側面之后檢測到指定的目標對象的正面時，音頻輸出控制部件促使輸出與關于其正面凈皮;險測的目標對象的音頻信息相對應的聲音。
12. 如權利要求9所述的圖像捕獲裝置，其中，記錄控制部件促使記錄緊接在輸出與關于被檢測目標對象的音頻信息相對應的聲音之后生成的被捕獲圖像。
13. 如權利要求9所述的圖像捕獲裝置，其中，在操作接受部件接受指定操作時，音頻輸出控制部件促使輸出對應于音頻信息存儲部件中與指定的目標對象相關聯地存儲的音頻信息的聲音，而，在檢測到指定的目標對象時，音頻輸出控制部件促使輸出對應于音頻信息存儲部件中與被檢測目標對象相關聯地存儲的音頻信息的聲音。
14. 如權利要求9所述的圖像捕獲裝置，其中，音頻信息存儲部件存儲關于多個目標對象的音頻信息的條目，其中，操作接受部件接受在存儲于音頻信息存儲部件中的多個目標對象之中指定多個目標對象的指定操作，以及其中，在檢測到指定的多個目標對象中的至少之一時，音頻輸出控制部件促使輸出對應于音頻信息存儲部件中與被檢測目標對象相關聯地存儲的音頻信息的聲音。
15. —種用于圖像捕獲裝置的控制方法，該圖像捕獲裝置包含確定信息存儲部件，其用于存儲多條確定信息，每條確定信息用于確定通過捕獲景物的圖像而生成的被捕獲圖像是否包含多個目標對象的相應一個；以及操作接受部件，用于接受指定為其存儲了多條確定信息的多個目標對象的至少一個的指定操作，該方法包括以下步驟捕獲景物的圖像并且生成被捕獲的圖像；從存儲在確定信息存儲部件中的多條確定信息之中選擇與指定的目標對象有關的確定信息，并且使用所選擇的確定信息在被捕獲圖像中檢測指定的目標對象；以及促使記錄在檢測到指定的目標對象時所生成的被捕獲圖像。
16. —種用于促使計算機在圖像捕獲裝置中執行處理的程序，所述圖像捕獲裝置包含確定信息存儲部件，用于存儲多條確定信息，每條確定信息用于確定通過捕獲景物的圖像所生成的被捕獲圖像是否包含多個目標對象的相應一個；以及操作接受部件，用于接受指定為其存儲了多條確定信息的多個目標對象的至少一個的指定操作；所述處理包含以下步驟捕獲景物的圖像，并且生成被捕獲圖像；從存儲在確定信息存儲部件中的多條確定信息之中選擇與指定的目標對象有關的確定信息，并且使用所選擇的確定信息在被捕獲圖像中檢測指定的目標對象；以及促使記錄在檢測指定的目標對象時所生成的被捕獲圖像。
17. —種圖像捕獲裝置，包括圖像捕獲單元，其被配置為捕獲景物的圖像并且生成被捕獲圖像；確定信息存儲單元，其被配置為存儲多條確定信息，每條確定信息用于確定被捕獲圖像是否包含多個目標對象的相應一個；操作接受單元，其被配置為接受指定為其存儲了多條確定信息的多個目標對象的至少一個的指定操作；目標對象檢測單元，其被配置為從存儲在確定信息存儲單元中的多條確定信息之中選擇與指定的目標對象有關的確定信息，并且使用所選擇的確定信息在被捕獲圖像中檢測指定的目標對象；以及記錄控制單元，其被配置為促使記錄在檢測到指定的目標對象時所生成的被捕獲圖像。
18. —種圖像捕獲裝置，包含音頻信息存儲單元，其被配置為與目標對象相關聯地存儲關于多個目標對象中的每個的音頻信息；操作接受單元，其被配置為接受指定音頻信息存儲單元中存儲的多個目標對象中的至少一個的指定操作；圖像捕獲單元，其被配置為捕獲景物的圖像并且生成被捕獲圖像；目標對象檢測單元，其被配置為在被捕獲圖像中檢測指定的目標對象；音頻輸出控制單元，其被配置為在檢測到指定的目標對象時，促使輸出對應于音頻信息存儲單元中與被檢測目標對象相關聯地存儲的音頻信息的聲音；以及記錄控制單元，其被配置為在輸出與關于被檢測對象的音頻信息相對應的聲音之后，促使記錄被捕獲圖像。
全文摘要
公開了圖像捕獲方法、其控制方法及程序。圖像捕獲裝置包含圖像捕獲單元，其捕獲景物的圖像并且生成被捕獲圖像；確定信息存儲單元，其存儲確定信息的條目，每條確定信息用于確定被捕獲圖像是否包含相應的一個目標對象；操作接受單元，其接受指定為其存儲了確定信息條目的至少一個目標對象的指定操作；目標對象檢測單元，其從存儲在確定信息存儲部件中的確定信息的條目之中選擇與指定的目標對象有關的確定信息，并且使用所選擇的確定信息在被捕獲圖像中檢測指定的目標對象；以及記錄控制單元，其促使記錄在檢測到指定的目標對象時所生成的被捕獲圖像。
文檔編號H04N5/238GK101527794SQ20091012691
公開日2009年9月9日申請日期2009年3月5日優先權日2008年3月5日
發明者小川要申請人:索尼株式會社

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：小川要
技術所有人：索尼株式會社
我是此專利的發明人

上一篇：數據處理設備、數據處理方法和程序的制作方法
上一篇：電子裝置、電子系統以及外圍裝置自動檢測與識別方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、王老師：1.數字信號處理 2.傳感器技術及應用 3.機電一體化產品開發 4.機械工程測試技術 5.逆向工程技術研究
2、王老師：1.機器人 2.嵌入式控制系統開發
3、孫老師：1.振動信號時頻分析理論與測試系統設計 2.汽車檢測系統設計 3.汽車電子控制系統設計
4、畢老師：機構動力學與控制
5、袁老師：1.計算機視覺 2.無線網絡及物聯網
如您是高校老師，可以點此聯系我們加入專家庫。

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！