專利名稱:圖像捕獲方法、其控制方法及程序的制作方法
技術領域:
本發明涉及圖像捕獲裝置,更具體地,涉及可在被捕獲圖像中檢測諸如 動物之類的目標對象的圖像捕獲裝置、其控制方法以及用于促使計算機執行 該方法的禾呈序。
背景技術:
迄今為止,捕獲景物(諸如,人)的圖像、生成被捕獲圖像以及記錄被捕 獲圖像的圖像捕獲裝置(諸如,數碼相機)已變得廣泛流行。而且在近些年中, 日益增長數量的人們開始對諸如狗和貓之類的動物感興趣。許多人將這些動 物作為其家中的寵物。
可以將使用諸如數碼相機之類的圖像捕獲裝置記錄的被捕獲圖像保存為 圖像數據。因為可容易地刪除該圖像數據,因此現今許多人經常捕獲其感興 趣的目標對象的圖像。例如,頻繁地捕獲家中寵物的圖像。
然而,當攝像者希望捕獲諸如狗或貓之類的動物的圖像時,動物難于理 解攝像者的指令。因此,即使當攝像者將圖像捕獲裝置指向動物時,動物可 能也不一定采取攝像者所期望的姿勢。例如,即使當希望捕獲狗的臉部的正 面圖像的攝像者將圖像捕獲裝置指向狗的正面時,狗的臉部的正面也不一定 被引向該圖像捕獲裝置。即使當攝像者將圖像捕獲裝置指向狗的臉部的正面 時,狗也可能面向不同的方向。所以,例如,當攝像者希望捕獲諸如狗或貓 之類的動物的臉部的正面時,使得動物臉部的正面面向該圖像捕獲裝置是重 要的。
因此,已提出了這樣的相機其響應于用戶半按釋放鍵,輸出用作景物放鍵,將在該完全按下時捕獲的景物的圖像曝光至銀鹽膠巻(silver salt film)(例如,見曰本未審查專利申請公開No. 2002-107807 (圖5))。
發明內容
根據前述的現有技術,通過輸出用作景物的寵物感興趣的聲音,可增加 將寵物的注意力吸引至相機的可能性。當將寵物的正面引向相機時,用戶完 全按下釋放鍵,從而記錄面向前方的寵物的被捕獲圖像。
然而,可以想象的是,雖然諸如狗或貓之類的動物注意聲音等之中的細 微變化并且將其臉部引向圖像捕獲裝置,但是動物可能立即地面向另 一方向。 此外,諸如狗或貓之類的動物通常是好動的。因此用戶可能難于知道完全按 下釋放鍵的適當時間。
為了記錄不理解攝像者指令的動物的臉部的正面的被捕獲圖像,在將動 物的臉部引向圖像捕獲裝置的適當時間處記錄被捕獲圖像是重要的。此外, 當攝像者希望捕獲不理解攝像者指令的嬰兒的圖像時,在將嬰兒的臉部引向 圖像捕獲裝置的適當時間處記錄被捕獲圖像是重要的。
期望提供這樣的技術其適當地記錄不理解攝像者指令的目標對象的被 捕獲圖像。
根據本發明的第一實施例,提供了圖像捕獲裝置、其控制方法、以及用 于促使計算機執行該方法的程序。該圖像捕獲裝置包括以下要素圖像捕荻 部件,用于捕獲景物的圖像并且生成被捕獲圖像;確定信息存儲部件,用于 存儲多條確定信息,每條確定信息用于確定被捕獲圖像是否包含多個目標對 象的相應一個;操作接受部件,用于接受指定為其存儲了多條確定信息的多 個目標對象的至少一個的指定操作;目標對象檢測部件,用于從存儲在確定 信息存儲部件中的多條確定信息之中選擇與指定的目標對象有關的確定信 息,并且使用所選擇的確定信息在被捕獲圖像中檢測指定的目標對象;以及 記錄控制部件,用于促使記錄在檢測到指定的目標對象時所生成的被捕獲圖 像。因此,有利的是,當在被捕獲圖像中使用關于目標對象的確定信息檢測 指定的目標對象時,記錄在檢測到目標對象時所生成的被捕獲圖像。
根據本發明實施例的圖像捕獲裝置可進一步包含音頻信息存儲部件, 用于與目標對象相關聯地存儲關于為其存儲了多條確定信息的多個目標對象 中的每個的音頻信息;以及音頻輸出控制部件,用于在記錄控制部件促使記錄被捕獲圖像時,促使輸出對應于音頻信息存儲部件中與被檢測目標對象相 關聯地存儲的音頻信息的聲音。因此,有利的是,在記錄被捕獲圖像時,輸 出對應于與被檢測目標對象相關聯的音頻信息的聲音。在這種情況下,目標 對象可以是動物的臉部,音頻信息可代表動物的叫聲。因此,有利的是,當 在被捕獲圖像中檢測到指定的動物的臉部時,輸出被檢測動物的叫聲。在這 種情況下,可替代地,目標對象可以是嬰兒的臉部,音頻信息可代表呼叫嬰 兒的人的語音。因此,有利的是,當在被捕獲圖像中檢測到嬰兒的臉部時, 輸出呼叫嬰兒的語音。
該圖像捕獲裝置可進一步包含以下要素音頻信息存儲部件,用于與目
標對象相關聯地存儲關于為其存儲了多條確定信息的多個目標對象中的每個
的音頻信息,所述音頻信息依據被捕獲圖像的評估結果;被捕獲圖像評估部 件,用于在記錄控制部件促使記錄被捕獲圖像時評估被捕獲圖像;以及音頻 輸出控制部件,用于根據被捕獲圖像評估部件得到的評估結果,促使輸出對 應于音頻信息的聲音。因此,有利的是,在記錄被捕獲圖像時評估它,并且 根據評估結果輸出對應于音頻信息的聲音。
操作接受部件可接受在為其存儲了多條確定信息的多個目標對象之中指 定多個目標對象的指定操作。記錄控制部件促使記錄在檢測到指定的多個目 標對象中的至少之一時所生成的被捕獲圖像。因此,有利的是,記錄在檢測 到多個指定的目標對象中的至少之一時所生成的被捕獲圖像。
操作接受部件可以是觸摸板,其顯示用于指定為其存儲了多條確定信息 的多個目標對象的至少一個的指定按鍵。因此,有利的是,使用觸摸板上顯 示的指定按鍵來指定目標對象。
該圖像捕獲裝置可進一步包含圖像捕獲控制部件,用于基于被檢測目標 對象,通過設置預定的圖像捕獲參數來執行圖像捕獲控制。因此,有利的是, 通過基于被檢測目標對象設置預定的圖像捕獲參數來執行圖像捕獲控制。
根據本發明的第二實施例,提供了圖像捕獲裝置、其控制方法、以及用 于促使計算機執行該方法的程序。該圖像捕獲裝置包括以下要素音頻信息 存儲部件,用于與目標對象相關聯地存儲關于多個目標對象中的每個的音頻
信息;操作接受部件,用于接受指定音頻信息存儲部件中存儲的多個目標對 象中的至少一個的指定操作;圖像捕獲部件,用于捕獲景物的圖像并且生成 被捕獲圖像;目標對象檢測部件,用于在被捕獲圖像中檢測指定的目標對象;音頻輸出控制部件,用于在檢測到指定的目標對象時,促使輸出對應于音頻
信息存儲部件中與被檢測目標對象相關聯地存儲的音頻信息的聲音;以及記 錄控制部件,用于在輸出與關于被檢測對象的音頻信息相對應的聲音之后, 促使記錄被捕獲圖像。因此,有利的是,當在被捕獲圖像中檢測到指定的目 標對象時,輸出與關于被^r測目標對象的音頻信息相對應的聲音,并且,在 輸出聲音之后,記錄被捕獲圖像。
存儲在音頻信息存儲部件中的多個目標對象中的每一個均具有正面和側 面。目標對象檢測部件可以在被捕獲圖像中可檢測指定的目標對象的正面或 側面。在檢測到指定的目標對象的正面或側面時,音頻輸出控制部件可以促 使輸出對應于音頻信息存儲部件中與其正面或側面被檢測的目標對象相關聯 地存儲的音頻信息的聲音。當在檢測到指定的目標對象的正面時,輸出與關 于其正面 ^皮檢測的目標對象的音頻信息相對應的聲音時,記錄控制部件可以 促使記錄被捕獲圖像。因此,有利的是,當在被捕獲圖像中檢測到指定的目 標對象的正面或側面時,輸出對應于與其正面或側面被檢測的目標對象有關 的音頻信息的聲音。在檢測到指定的目標對象的正面時,當輸出與關于其正 面被檢測的目標對象的音頻信息相對應的聲音時,記錄被捕荻圖像。在這種 情況下,當在檢測到指定的目標對象的側面之后檢測到指定的目標對象的正 面時,音頻輸出控制部件可以促使輸出與關于其正面被檢測的目標對象的音 頻信息相對應的聲音。因此,有利的是,當在檢測到指定的目標對象的側面 之后檢測到指定的目標對象的正面時,輸出對應于關于目標對象的音頻信息 的聲音。
記錄控制部件可促使記錄緊接在輸出與關于被檢測目標對象的音頻信息 相對應的聲音之后生成的被捕獲圖像。因此,有利的是,記錄緊接在輸出與 關于被檢測目標對象的音頻信息相對應的聲音之后生成的被捕獲圖像。
在操作接受部件接受指定操作時,音頻輸出控制部件可促使輸出對應于 音頻信息存儲部件中與指定的目標對象相關聯地存儲的音頻信息的聲音,而, 在檢測到指定的目標對象時,音頻輸出控制部件可以促使輸出對應于音頻信 息存儲部件中與被檢測目標對象相關聯地存儲的音頻信息的聲音。因此,有
利的是,在接受指定操作時,輸出對應于與指定操作所指定的目標對象有關 的音頻信息的聲音。在檢測到指定的目標對象時,輸出對應于與被檢測目標 對象有關的音頻信息的聲音。音頻信息存儲部件可存儲關于多個目標對象的音頻信息的條目。搡作接 受部件可接受在存儲于音頻信息存儲部件中的多個目標對象之中指定多個目 標對象的指定操作。在檢測到指定的多個目標對象中的至少之一時,音頻輸 出控制部件可促使輸出對應于音頻信息存儲部件中與被檢測目標對象相關聯 地存儲的音頻信息的聲音。因此,有利的是,當接受了指定多個目標對象的 指定操作時,在檢測到指定的多個目標對象中的至少之一時,輸出對應于與 被檢測目標對象有關的音頻信息的聲音。
根據本發明的實施例,具有可適當地記錄不理解攝影者指令的目標對象 的被捕獲圖像的優點。
圖1是示出根據本發明實施例的圖像捕獲裝置的示例性結構的框圖; 圖2是示出根據本發明實施例的相機控制單元的示例性功能結構的框
圖3A和3B是示出根據本發明實施例的圖像捕獲裝置的外觀的透視圖; 圖4是示出根據本發明實施例的目標對象檢測單元的示例性功能結構的
框圖5包含示意性示出在根據本發明實施例的目標對象檢測字典數據庫中 存儲的目標對象檢測字典的圖6是示意性示出根據本發明實施例的音頻存儲單元中存儲的細節的
圖7是示出根據本發明實施例的液晶面板上顯示的菜單屏幕的示例的
圖8 (a)(b)包含示出提取要在由根據本發明實施例的目標對象確定單 元執行的目標對象確定處理中確定的圖像的圖像提取方法的概要的圖9 (a) ~ 9 (e)包含示出提取要在由根據本發明實施例的目標對象確定 單元執行的目標對象確定處理中確定的圖像的圖像提取方法的概要的圖; 圖IOA是示出根據本發明實施例確定的圖像的圖; 圖IOB和IOC是示出確定處理中使用的矩形特征的圖; 圖11 (a)和11 (b)包含示出根據本發明實施例的液晶面板上顯示的被捕 獲圖像的示例的圖;圖12A和12B是示出當使用根據本發明實施例的圖像捕獲裝置捕獲狗的 圖像時的液晶面板的顯示示例的圖13(a) -13(c)包含示意性示出使用根據本發明實施例的圖像捕獲裝 置捕獲狗的圖像的情況的圖14(a) -14(c)包含示意性示出使用根據本發明實施例的圖像捕獲裝 置捕獲狗的圖像的情況的圖15是示出根據本發明實施例的圖像捕獲裝置所執行的被捕獲圖像記 錄處理的過程的流程圖16是示出作為根據本發明實施例的圖像捕獲裝置所執行的、被捕獲圖 像記錄處理的過程的一部分的目標對象一企測處理的過程的流程圖17是示出作為根據本發明實施例的圖像捕獲裝置所執行的、目標對象 檢測處理的過程的 一部分的確定處理的過程的流程圖18是示出根據本發明實施例的圖像捕獲裝置所執行的被捕獲圖像記 錄處理的過程的流程圖19包含示意性示出在根據本發明實施例的目標對象檢測字典數據庫 中存儲的目標對象檢測字典的圖2OA和20B是示出當使用根據本發明實施例的圖像捕獲裝置捕獲狗的 圖像時的液晶面板的顯示示例的圖21 (a)和21 (b)包含示意性示出使用根據本發明實施例的圖像捕獲裝 置捕獲狗的圖像的情況的圖22 (a)和22 (b)包含示意性示出使用根據本發明實施例的圖像捕獲裝 置捕獲狗的圖像的情況的圖2 3是示出根據本發明實施例的圖像捕獲裝置所執行的被捕獲圖像記 錄處理的過程的流程圖24是示意性示出根據本發明實施例的另一音頻存儲單元中存儲的細 節的圖25(a) -25(c)包含示意性示出使用根據本發明實施例的圖像捕獲裝 置捕獲狗的圖像的情況的圖;以及
圖26是示出根據本發明實施例的圖像捕獲裝置所執行的被捕獲圖像記 錄處理的過程的流程圖。
具體實施例方式
現在參考附圖詳細描述本發明的實施例。
圖1是示出根據本發明實施例的圖像捕獲裝置1 00的示例性結構的框圖。
圖像捕獲裝置100包含鏡頭lll、圖像拾取單元112、系統控制單元120、 存儲單元13Q、外部接口 (1/F)單元140、記錄單元15Q、音頻存儲單元160、 操作輸入單元170、顯示單元180、音頻輸出單元190以及相機控制單元200。 例如,圖像捕獲裝置IOO可由可捕獲景物的圖像、生成圖像數據、通過執行 該圖像數據的圖像分析來提取特征量、并且使用已提取的特征量來施加各種 類型的圖像處理的數碼相機來實施。
鏡頭111是采集從景物反射的光的多個鏡頭(縮放鏡頭、聚焦鏡頭等)的 組件。從景物反射的入射光通過這些鏡頭并被引至圖像拾取單元112。
圖像拾取單元112包含具有電快門功能的圖像拾取元件(未示出)以及處 理該圖像拾取元件的輸出信號并生成被捕獲圖像的信號處理部分(未示出)。 即,在圖像拾取單元112中,經由鏡頭111進入的景物的光學圖像形成在圖 像拾取元件的圖像拾取表面上。在這種情況下,圖像拾取元件執行圖像捕獲 操作,并且信號處理部分執行被捕獲圖像信號的信號處理,由此生成被捕獲 圖像。所生成的被捕獲圖像被提供至并保存在存儲單元130中。相機控制單 元200順序地確定生成被捕獲圖像中使用的相機參數(圖像捕獲參數)。
相機控制單元200在系統控制單元120的控制下以及基于經由存儲單元 130從圖像拾取單元112提供的被捕獲圖像來控制圖像拾取單元112 。參考圖 2詳細描述相機控制單元200。
系統控制單元120控制整個圖像捕獲裝置100。例如,系統控制單元120 根據用戶所輸入的、并由操作輸入單元170接受的操作來執行控制。此外, 例如,系統控制單元120控制顯示在顯示單元180上的菜單屏幕等的顯示; 將被捕獲圖像記錄至記錄單元150或從記錄單元150讀取被捕獲圖像;以及 經由外部1/F單元14Q與外部計算機和網絡通信。在圖像捕獲操作期間監控 時,系統控制單元120執行控制操作以在顯示單元180上顯示圖像拾取單元 112所生成的被捕獲圖像。當設置了指定目標對象自動圖像捕獲模式時,系 統控制單元120基于是否已檢測到指定的對象來執行以下控制從音頻輸出 單元190輸出與音頻存儲單元160中存儲的音頻信息相對應的聲音的輸出控 制(音效的回放控制),以及在記錄單元150中記錄被捕獲圖像的記錄控制。這里所說的指定目標對象自動圖像捕獲模式是這樣的圖像捕獲模式當在被 捕獲圖像中檢測到用戶所指定的目標對象時,輸出與指定的目標對象有關的
音頻信息相對應的聲音,并記錄該檢測時得到的被捕獲圖像。參考圖13、 14
等詳細描述指定目標對象自動圖像捕獲模式。
存儲單元130是將被捕獲圖像等臨時保存在圖像捕獲裝置100的系統中 的主存儲單元,并且例如由動態隨機存取存儲器(DRAM)來實施。即,主要經 由存儲單元130來執行圖像捕獲裝置100中的元件之間的被捕獲圖像的交換。
外部I/F單元140是包含諸如通用串行總線(USB)端子之類的輸入/輸出 端的外部接口 ,并且提供用于建立與外部計算機或網絡的連接的接口 。
記錄單元150在系統控制單元l20的控制下記錄圖像拾取單元UO所生 成的被捕獲圖像。此外,記錄單元150在系統控制單元120的控制下讀取所 記錄的被捕獲圖像并將被捕獲的圖像提供至系統控制單元120。例如,可以 使用諸如閃存之類的記錄介質作為記錄單元150。可替代地,可提前將記錄 單元150包含在圖像捕獲裝置100中,或將其可拆卸地連接至圖像捕獲裝置 100。
音頻存儲單元160存儲音頻信息的各種條目。在系統控制單元120的控 制下,從音頻輸出單元190輸出與存儲在音頻存儲單元160中的音頻信息相 對應的聲音。參考圖6詳細描述音頻存儲單元160。
操作輸入單元170是提供在外殼外面的、諸如快門按鍵171 (示出在圖3A 和3B等之中)之類的外部操作構件。當接收到用戶所輸入的操作時,操作輸 入單元17Q將根據已接受操作的信號輸出至系統控制單元120。
顯示單元180是在系統控制單元120的控制下顯示各種圖像的顯示單元。 例如,顯示單元180顯示例如,圖像拾取單元112所生成的被捕獲圖像; 從記錄單元150讀取的被捕獲圖像;以及提供至用戶的菜單屏幕(如,圖7中 所示的"用于為自動圖像捕獲指定目標對象的菜單"屏幕)。
音頻輸出單元190在系統控制單元120的控制下輸出與存儲在音頻存儲 單元160中的音頻信息相對應的聲音。例如,可由揚聲器實施音頻輸出單元 190。
圖2是示出根據本發明實施例的相機控制單元200的示例性功能結構的 框圖。除了相機控制單元200的示例性功能結構之外,圖2還示出了包含不 同于圖1中所示的鏡頭111和外部1/F單元140的元件的結構。相機控制單元20Q包含序列控制單元210、相機參數控制單元220、目標對象檢測單元 230以及存儲單元I/F 240。經由存儲單元I/F 240執行存儲單元130與相機 參數控制單元220之間以及存儲單元130和目標對象檢測單元230之間的被 捕獲圖像的交換。
序列控制單元210由來自于系統控制單元120的圖像捕獲待機命令來激 活,并且保持可以記錄圖像拾取單元112所生成的被捕獲圖像的狀態。在該 圖像捕獲待機狀態下,圖像拾取單元112所生成的被捕獲圖像被順序地存儲 在存儲單元130中。例如,以1/60秒的間隔來順序地更新存儲在存儲單元 130中的被捕獲圖像。序列控制單元210控制相機參數控制單元220以基于 存儲在存儲單元130中的當前被捕獲圖像(圖像拾取單元112當前生成的被捕 獲圖像)來確定相機參數。此外,序列控制單元210控制目標對象檢測單元 230以在存儲于存儲單元130中的當前被捕獲圖像中檢測用戶使用操作輸入 單元170所指定的目標對象。當從目標對象檢測單元230輸出指示已檢測到 指定的目標對象的目標對象檢測信息時,序列控制單元210將記錄被捕獲圖 像的指令輸出至圖像拾取單元112,并且執行被捕獲圖像的記錄控制。同時, 序列控制單元210將指示已檢測到指定的目標對象的信息輸出至系統控制單 元120。當輸出指示已檢測到指定的目標對象的信息時,系統控制單元120 輸出與指定的目標對象有關的音頻信息,并且在記錄單元150中記錄當前被 捕獲的圖像。
當被序列控制單元210觸發時,相機參數控制單元經由存儲單元I/F 240獲得存儲在存儲單元13Q中的當前被捕獲圖像,評估當前被捕獲圖像, 并且確定諸如快門速度、曝光以及白平衡之類的相機參數。相機參數控制單 元220使用已確定的相機參數來執行圖像拾取單元112的圖像捕獲控制。當 已設置了指定目標對象自動圖像捕獲模式時,如果在當前被捕獲圖像中檢測 到指定的目標對象,那么相機參數控制單元220基于指定的目標對象及當前 被捕獲圖像的評估來確定諸如快門速度、曝光以及白平衡之類的相機參數。 例如,當指定了狗的時候,如果4企測到狗的臉部,那么基于被捕獲圖像中的 檢測到的狗的臉部的位置和尺寸來確定對于狗的臉部的最優相機參數。
當被序列控制單元210觸發時,目標對象檢測單元230經由存儲單元I/F 240獲得存儲在存儲單元13Q中的當前被捕獲圖像,在當前被捕獲圖像中檢 測用戶使用操作輸入單元170所指定的目標對象,并且,如果檢測到指定的目標對象,那么將包含被捕獲圖像中的被檢測目標對象的位置和尺寸以及指
示該目標對象的等級(degree)的評分的目標對象檢測信息輸出至序列控制單 元210。例如,可通過使用矩形特征的檢測器執行目標對象的檢測(例如,參 見曰本未審查專利申請公開號2005-157679)。參考圖4詳細描述目標對象檢 測單元230。
圖3A和3B是示出根據本發明實施例的圖像捕獲裝置100的外觀的透視 圖。圖3A示出圖像捕獲裝置100的正面的外觀(即,將鏡頭lll的表面指向 景物)。圖3B示出圖像捕獲裝置100的背面的外觀(即,將液晶面板181的表 面指向攝像者)。
圖像捕獲裝置100包含鏡頭111、快門按鍵171、液晶面板181以及音 頻輸出單元190。雖然圖像捕獲裝置100包含諸如電源開關之類的另一操作 構件作為操作輸入單元170,但是其附圖和描述被省略。由于鏡頭lll和音 頻輸出單元190與圖1中所示的那些相同,因此將相同的附圖標記賦予那些 元件,并且省略其詳細描述。圖像捕獲裝置100的外殼中包含了包括在鏡頭 111中的鏡頭的一些或所有組件以及音頻輸出單元190。
液晶面板180是顯示例如由圖像拾取單元112所生成的被捕獲圖像的液 晶面板。此外,液晶面板181可以是顯示各種選擇按鍵的觸摸面板。利用觸 摸面板,可以通過例如使用手指觸摸這些選擇按鍵的區域來輸入操作。即, 液晶面板181對應于圖1中所示的顯示單元180和操作輸入單元170。參考 圖7詳細描述這些選擇按鍵的顯示示例。
快門按鍵171是當記錄被捕獲圖像時待由攝像者按下的按鍵。當攝像者 使用圖像捕獲裝置100來執行通常的圖像捕獲操作(所謂的拍攝圖片)時,在 核實顯示在液晶面板181上的景物的圖像之后,攝像者按下快門按鍵171。 當按下快門按鍵171時,根據快門按鍵171的按下的信號被提供至系統控制 單元120。當提供了根據快門按鍵171的按下的信號時,系統控制單元120 在記錄單元150中記錄在已按下根據快門按鍵171的按下的信號時所獲得的 被捕獲圖像。當已設置指定目標對象自動圖像捕獲模式時,如果按下快門按 鍵171,那么系統控制單元120將開始檢測指定的目標對象的操作的指令供 給相機控制單元200。
圖4是示出根據本發明實施例的目標對象檢測單元230的示例性功能結 構的框圖。目標對象檢測單元230包含圖像獲取單元231、圖像縮小單元232、圖像提取單元233、目標對象檢測字典數據庫300、目標對象檢測字典 存儲器235、目標對象確定單元236以及確定結果輸出單元237。
圖像獲取單元231經由存儲單元I/F 240獲取存儲在存儲單元130中的 被捕獲圖像,并且將所獲取的被捕獲圖像輸出至圖像縮小單元232。
圖像縮小單元232通過以預定的比例來順序地縮小從圖像獲取單元231 輸出的被捕獲圖像而生成不同大小的多個圖像,并且順序地將已生成圖像輸 出至圖像提取單元233。參考圖9詳細描述被捕獲圖像的縮小。
圖像提取單元233逐圖像地從輸出自圖像縮小單元232的每個圖像中順 序地提取預定區域內的圖像,并且將所提取的圖像輸出至目標對象確定單元 236。參考圖8和9詳細描述圖像的提取。
目標對象檢測字典數據庫300是存儲多個目標對象檢測字典的數據庫, 以用于使用目標對象檢測單元236來對輸出自圖像提取單元233的圖像執行 目標對象確定處理。所存儲的目標對象檢測字典被順序地提供至目標對象檢 測字典存儲器235。參考圖5詳細描述這些目標對象檢測字典。
目標對象檢測字典存儲器235是存儲目標對象檢測字典數據庫300中存 儲的目標對象檢測字典之中的一個目標對象檢測字典的工作存儲器。目標對 象檢測字典存儲器235將所存儲的目標對象檢測字典的細節提供至目標對象 確定單元236。
目標對象確定單元236執行這樣的目標對象確定處理其使用存儲在目 標對象檢測字典數據庫300中的目標對象檢測字典來確定從圖像提取單元 2 3 3輸出的圖像是否包含目標對象。目標對象確定單元2 36將確定結果輸出 至確定結果輸出單元237。例如,將被捕獲圖像中的被檢測目標對象的位置 和尺寸以及指示該目標對象的等級的評分輸出作為確定結果。在目標對象確 定處理中,由序列控制單元210來指示用戶使用操作輸入單元170所指定的 目標對象,并且使用與用戶指定的目標對象有關的目標對象檢測字典。在目 標對象檢測字典數據庫300中存儲的目標對象檢測字典之中,指定的目標對 象檢測字典被順序地提供至目標對象檢測字典存儲器2 3 5 。在對象檢測字典 存儲器235中,每次存儲一個目標對象檢測字典。使用存儲在目標對象檢測 字典存儲器235中的一個目標對象檢測字典順序地執行目標對象確定處理。 具體地,目標對象確定單元236提取輸出自圖像提取單元233的圖像的亮度 值,并且使用已提取的亮度值以及目標對象檢測字典來執行目標對象確定處理。參考圖10A 10C詳細描述目標對象確定單元236所執行的目標對象確定處理。
當從目標對象確定單元236輸出的確定結果指示從圖像提取單元233輸 出的圖像包含目標對象時,確定結果輸出單元2 37將指示已在捕獲圖像中檢 測到目標對象的目標對象檢測信息輸出至序列控制單元210。例如,目標對 象檢測信息包含被捕獲圖像中的被檢測目標對象的位置和尺寸以及指示該目 標對象的等級的評分。
圖5包含示意性示出在根據本發明實施例的目標對象檢測字典數據庫 300中存儲的目標對象^r測字典的圖。以下描述涉及檢測例如狗的臉部和貓 的臉部作為目標對象的情況。圖5示出目標對象檢測字典的示例,即狗檢 測字典310,用于確定圖像提取單元233提取的圖像是否包含狗的臉部;以 及貓檢測字典320,用于確定圖像提取單元233提取的圖像是否包含貓的臉 部。這些目標對象檢測字典是用于目標對象確定單元236對圖像提取單元233 提取的圖像執行使用矩形特征的目標對象確定處理的確定信息的條目。以下 描述主要涉及狗檢測字典310。然而,除了存儲在貓檢測字典320的各個條 目中的值是不同的這點之外,可將相同的應用于貓檢測字典320。
在狗檢測字典310中,存儲了類型311、位置(x、 y)312、寬度(w)313、 高度(h)314、閾值(9)315、符號(p)315以及權重(oc)317的t個組合。
在類型311中,存儲了用于目標對象確定處理中的矩形特征的類型。矩 形特征由彼此相鄰的兩個矩形構成。通過位置312,確定了矩形特征的位置。 通過寬度313和高度314,確定了矩形特征的尺寸。參考圖10A 10C詳細描 述矩形特征。
在位置312中,存儲了被確定圖像中的矩形特征的位置。例如,在位置 312中,存儲了在提取的圖像位于x-y坐標(平面坐標)系統的情況下的圖像 提取單元233所提取的圖像中的矩形特征的坐標點(x、 y)。
在寬度313中,存儲了被確定圖像中的矩形特征的寬度值。 在高度314中,存儲了被確定圖像中的矩形特征的高度值。 在閾值315中,存儲了關于包含在構成矩形特征的兩個矩形之一中的像 素的亮度值的總和與包含在另 一個矩形中的像素的亮度值的總和之間的差值 的閾值。
在符號316中,存儲了用于獲取弱假設h(i)的值('T,或"-1"),所述弱假200910126912.2
說明書第13/32頁
設h (i)用于計算指示目標對象的等級的評分。
在權重317中,存儲了用于計算指示目標對象的等級的評分的權重。參
考圖10A ~ 10C詳細描述使用這些值執行的、指示目標對象的等級的評分的計算。
在使用諸如AdaBoost之類的機器學習算法所學習的組合之中,使用前 1000至2000個最有效的組合來設置這些值。這樣,由于目標對象^r測字典 是相同的格式,因此可使用一種算法來執行多個確定處理。確定處理中使用 的目標對象檢測字典是保留關于確定準則的數據(而不保留那樣的圖像)的確 定信息,所述確定準則用于確定被確定圖像是否包含目標對象。因此,可以 減小存儲容量,并且可以快速執行確定處理。
圖6是示意性示出根據本發明實施例的音頻存儲單元160中存儲的細節 的圖。在音頻存儲單元160中,彼此相關聯地存儲了目標對象161和音頻信 息162。
目標對象161是可被指定為其圖像將被自動捕獲的目標對象的目標對 象。例如,將"狗,,或"貓,,存儲為目標對象161。
音頻信息162是用于從音頻輸出單元190輸出聲音的音頻信息。參考圖 6,將與"狗,,相關聯地存儲的音頻信息表示為"bow-wow",并且將與"貓" 相關聯地存儲的音頻信息表示為"meow-meow"。例如,當目標對象才企測單元 230檢測到目標對象161中存儲的目標對象時,從音頻輸出單元190輸出對 應于與被檢測目標對象相關聯地存儲的音頻信息的聲音。
圖7是示出根據本發明實施例的液晶面板181上顯示的菜單屏幕的示例 的圖。"用于為自動圖像捕獲指定目標對象的菜單"屏幕是用于指定其圖像將 被自動捕獲的目標對象的菜單屏幕。該菜單屏幕包含"狗"指定按鍵331、"貓" 指定按鍵332、"狗/貓"指定按鍵333以及"關閉"指定按鍵334。
"狗"指定按鍵331是當將狗指定為其圖像將被自動捕獲的目標對象時 所按下的按鍵。"貓"指定按鍵332是當將貓指定為其圖像將被自動捕獲的目 標對象時所按下的按鍵。"狗/貓"指定按鍵333是當將狗或貓指定為其圖像 將被自動捕獲的目標對象時所按下的按鍵。即,當按下"狗/貓"指定按鍵 333時,當在被捕獲圖像中檢測到狗或貓時執行自動圖像捕獲。"關閉"指定 按鍵334是當關閉圖7中所示的"用于為自動圖像捕獲指定目標對象的菜單" 屏幕時所按下的按鍵。在本發明的該實施例中,雖然在液晶顯示面板181上顯示了如7中所示 的"用于為自動圖像捕獲指定目標對象的菜單"屏幕,但是當用戶執行按下
"狗,,指定按鍵331、"貓,,指定按鍵332以及"狗/貓"指定按鍵333之一 的選擇操作時,設置了指定目標對象自動圖像捕獲模式,在該模式中,根據 已按下的指定按鍵的目標對象的圖像將被自動捕獲。當已設置了指定目標對 象自動圖像捕獲模式時,如果用戶按下快門按鍵171,則開始檢測指定的目 標對象的操作。當在被捕獲圖像中檢測到指定的目標對象時,輸出與被檢測 目標對象有關的聲音,并且記錄被捕獲圖像。即,自動地執行了捕獲包含指 定的目標對象的圖像。
接下來,現在參考附圖詳細描述檢測目標對象的目標對象檢測方法。
圖8包含示出提取由根據本發明實施例的目標對象確定單元236對其執 行目標對象確定處理的圖像的圖像提取方法的相無要的圖。圖8的(a)部分示出 其尺寸已被圖像縮小單元232縮小的圖像400。圖8的(b)部分示出在從圖像 400提取要對其執行目標對象確定處理的圖像的情況下執行的圖像提取方法 的概要。由圖像提取單元233執行提取該圖像。
圖8的部分(a)中所示的圖像400是通過縮小用作景物的狗(其位于在其 后具有山峰的草地之上)的被捕獲圖像而得到的圖像。如圖8的(b)部分中所 示,為了從該圖像400中提取將對其執行目標對象確定處理的圖像,將提取 框401置于圖像400的上方的左手角,并且提取包含在提取框401內的圖像。 其后,將提取框401以向右的方向(由箭頭411 ~ 416指示的方向)移動一個像 素,并且提取包含在提取框401內的圖像。類似地,每次將提取框以向右的 方向順序地移動一個像素,并且順序地提取包含在提取框內的圖像。當將提 取框移至提取框402的位置(其位于圖像400的右邊緣處)并且提取了包含在 提取框402內的圖像時,提取框向下移動一個像素并且然后移至圖像400的 左邊緣。然后,在提取了剛移至圖像400的左邊緣的提取框內所包含的圖像 之后,提取框每次以向右的方向順序地移動一個像素,并且順序地提取包含 在提取框內的圖像。自該點向前,順序地提取包含在提取框內的圖像。當將 提取框移動至提取框404的位置(其位于圖像400的右下邊緣)并且提取了包 含在提取框404內的圖像時,結束從圖像400提取待對其執行目標對象確定 處理的圖像的處理。
圖9包含示出提取由根據本發明實施例的目標對象確定單元236對其執行目標對象確定處理的圖像的圖像提取方法的概要的圖。圖9的(a)部分 (e) 部分示出通過使用圖像縮小單元232執行縮小處理而順序獲得的圖像421 ~ 425。對于圖9的(a)部分 (e)部分,左側的圖像示出放置提取框430的第一 位置,而右側的圖像示出放置提取框430的最終位置。提取框430從第一位 置至最終位置的移動與圖8的(b)部分中所示的那些相似。如圖9中所示,提 取框430的尺寸恒定,而與待從其提取圖像的圖像尺寸無關。執行圖像提取 處理,直至由使用圖像縮小單元232執行縮小處理而獲得的圖像的尺寸變得 小于提取框430為止。
參考附圖詳細描述使用目標對象檢測字典對被確定圖像執行確定處理的 示例。
圖IOA是示出根據本發明實施例確定的圖像的圖,而圖IOB和IOC是示 出確定處理中使用的矩形特征的圖。圖10A示出圖像提取單元233提取的并 且待確定的被確定圖像450。圖IOB和10C示出確定處理中使用的兩種類型 的矩形特征。在該示例中,圖10A中所示的被確定圖像450的上方的左手角 用作原點(origin),而水平和垂直方向分別用作x軸和y軸。將描述使用狗 檢測字典310(示出在圖5中)來對被確定圖像450執行確定處理的情況。在 該確定處理中,將描述分別使用了圖IOB和10C中所示的兩種類型的矩形特 征的示例。
圖10A中所示的被確定圖像450是由圖像提取單元233從通過使用圖像 縮小單元232縮小圖像拾取單元112所生成的被捕獲圖像而獲得的圖像中提 取的圖像。被確定圖像450是以預定分辨率標準化的圖像。在該示例中,圖 像拾取單元112生成的被捕獲圖像具有例如320像素x 240像素的分辨率。 在這種情況下,作為標準化處理,例如,執行將該圖像轉換為具有48像素x 48像素的分辨率的圖像的標準化處理。排列在被確定圖像450上的矩形特征 460和470分別對應于圖10B和10C中所示的矩形特征460和470。
圖IOB和10C中所示的矩形特征460和470分別是每一個均由彼此相鄰 的兩個矩形(兩個矩形, 一個是黑色的,另一個是白色的)構成的矩形特征。 這些矩形特征460和470排列在被確定圖像450上,并且基于包含在該兩個 矩形區域中的亮度值之間的差值來對被確定圖像450進行確定。
具體地,將確定中使用的矩形特征460和470的類型存儲在狗檢測字典 310的類型311中。另外,將^^巨形特征460和470排列在^R確定圖^象450上的位置存儲在狗檢測字典310的位置312中。即,當將把矩形特性460排 列在被確定圖像450上時,排列矩形特征460以使得矩形特征460的上方的 左手角中的點461位于存儲在狗檢測字典310的位置312中的坐標點(x、 y) 的位置。將同樣的應用于矩形特征470。即,將矩形特征470排列在被確定 圖像450上以使得矩形特征470的上方的左手角中的點471位于存儲在狗檢 測字典310的位置312中的坐標點(x, y)的位置。
矩形特征460和470的尺寸基于存儲在狗檢測字典310的寬度313和高 度314中的值來確定。即,假設矩形特征460的寬度wl是存儲在狗檢測字典 310的寬度313中的值,而矩形特征460的高度hl是存儲在在狗檢測字典310 的高度314中的值。將相同的應用于矩形特征470。即,假設矩形特征470 的寬度w2是存儲在狗;險測字典310的寬度313中的值,而矩形特征470的高 度h2是存儲在在狗檢測字典310的高度314中的值。
這樣,對于這種已經確定了被確定圖像45Q中的位置和尺寸的矩形特征, 計算構成該矩形特征的兩個矩形的每一個中所包含的像素的亮度值的總和, 并且計算根據該兩個矩形所計算的亮度值的總和之間的差值作為特征量F (i), 其中i是指示狗檢測字典310中的記錄的值,并且l《i《t。將特征量F(i) 與狗檢測字典310的閾值315中存儲的閾值e (i)相比較,并且根據特征量F (i) 是否小于閾值e(i)以及存儲在符號316中的值p(i)(值p(i)為l或-1)來 計算弱假設h(i)。具體地,使用以下來計算弱假設(weak learner) h(i):
(1) 當值p(iHl時
如果特征量F(i)〈閾值e(i),那么弱假設h(i)-l;以及 如果特征量F(i)》閾值e(i),那么弱假設h(i)--1,以及
(2) 當值p(i)--l時:
如果特征量F(U〈閾值e(i),那么弱假設h(i卜-1;以及 如果特征量F(i)》閾值e(i),那么弱假設h(i卜l,以及。 其后,通過將所計算的弱假設h(i)乘以值a(i)(其存儲在權重317中)來 計算h(i)a(i)。從狗檢測字典310的第一行至第t行重復執行這些計算,并且 計算h(i)a(i)的總和作為評分S。具體地,使用以下來計算評分S:<formula>formula see original document page 22</formula>
基于使用公式(1)計算的評分S,確定了狗的正面是否包含在被確定圖像450中。具體地,如果評分SX),那么確定了被確定圖像450中包含狗的正 面。相反,如果評分<0,那么確定了被確定圖像450中不包含狗的正面。 接下來描述具體的計算方法。
例如,假設基于存儲在狗檢測字典310的第一行中的值所確定的矩形特 征是如圖10A中所示的矩形特征460。即,狗4企測字典310的第一行中類型 311中存儲的矩形特征的類型是圖10B中所示的矩形特征460。基于狗檢測字 典310的第一行中的位置312、寬度313以及高度314中存儲的值,確定圖 10A中所示的矩形特征46G的位置和尺寸。類似地,假設基于存儲在狗檢測 字典310的第二行中的值所確定的矩形特征是如圖10A中所示的矩形特征 470。即,狗;^測字典310的第二行中類型311中存儲的矩形特征的類型是圖 10C中所示的矩形特征470。基于狗檢測字典310的第二行中的位置312、寬 度313以及高度314中存儲的值,確定圖10A中所示的矩形特征470的位置 和尺寸。
首先,將用于進行確定的評分S設置為0,并且執行使用狗檢測字典310 的第一行中所存儲的值的操作。具體地,計算構成矩形特征46G的兩個矩形 462和463的每一個中所包含的亮度值的總和,所述矩形特征460基于狗抬r 測字典310的第一行中的類型311、位置312、寬度313以及高度314中存儲 的值而確定。當由A(l)表示矩形462的區域中所包含的亮度值的總和且由B(l) 表示矩形463的區域中所包含的亮度值的總和時,計算根據各區域所計算的 總和之間的差值作為特征量F (1):
F(l)-A(l)-B(l) (2)
其后,將所計算的特征量F(1)與狗檢測字典310的第一行中的閾值315 中存儲的闊值e(i)相比較,并且根據特征量F(l)是否小于閾值e(i)以及狗檢 測字典310的第一行中的符號316中所存儲的值p(l)來計算弱假設h(l)。使 用上述的公式計算弱假設h (1)。
其后,通過將所計算的弱假設h(l)乘以值a(l)(其存儲在狗檢測字典310 的第一行的權重317中)來計算h(l)a(l)。將所計算的h(l)a(l)累加至評分S。
其后,使用狗檢測字典310的第二行中存儲的值來重復上述操作。具體 地,對于構成矩形特征470 (其基于狗檢測字典310的第二行中的類型311、 位置312、寬度313以及高度314中存儲的值而確定)的兩個矩形472和473, 計算矩形472的區域中所包含的亮度值的總和A(2)以及矩形473的區域中所包含的亮度值的總和B (2),并且使用以下等式計算特征量F (2): F(2)=A(2)-B(2) (3)
其后,將所計算的特征量F(2)與狗檢測字典310的第二行中的閾值315 中存儲的閾值e(2)相比較,并且根據特征量F(2)是否小于閾值e(2)以及狗檢 測字典310的第二行中的符號316中所存儲的值p(2)來計算弱假設h(2)。
其后,通過將所計算的弱假設h (2)乘以a(2)值(其存儲在狗檢測字典310 的第二行的權重317中)來計算h(2)a(2)。將所計算的h(2)a(2)累加至評分S。
其后,使用狗檢測字典310的第三行至第t行中存儲的值來重復上述操 作。在完成使用狗檢測字典310的第t行中所存儲的值的操作之后,確定評 分S的值是否大于等于零。
例如,當使用上述機器學習算法執行學習所獲得的正采樣顯示已成功地 檢測到狗的臉部,而負采樣顯示未檢測到狗的臉部時,如果完成使用狗檢測 字典310的第一至第t行中所存儲的值的操作之后的評分S的值大于或等于 零,那么確定了被確定圖像包含狗的臉部。將同樣的應用于其它目標對象檢 測字典。例如,當使用貓檢測字典320進行確定而獲得的正采樣顯示已成功 地檢測到貓的臉部時,如果評分S的值大于或等于零,那么確定了被確定圖 像包含貓。
在本發明的該實施例中,將評分與零相比較的例子描述為使用目標對象 檢測字典的確定。然而,可以使用除了零之外的值進行確定。即,可適當地 調整與評分S相比較的值。
通過將被確定圖像調整為具有相同分辨率并且通過使用用于進行確定的 具體類型的矩形特征,可同時使用多個目標對象檢測字典,并且可使用相同 的算法來確定多個目標對象。在本例中,已描述了使用兩種類型的矩形特征 之一的情況。然而,本發明的實施例也適用于使用一種類型或三種或更多種 類型的矩形特征的情況。
圖11包含示出根據本發明實施例的液晶面板181上顯示的被捕獲圖像的 示例的圖。圖11中所示的捕獲圖像480是與圖9中所示的圖像421 425相 對應的圖像。圖11的(a)部分示出目標對象檢測單元230執行狗檢測處理之 前的被捕獲圖像480,而圖11的(b)部分示出目標對象檢測單元230執行狗 檢測處理之后的被捕獲圖像480。如圖11的(b)部分中所示,當在液晶面板 181上顯示的被捕獲圖像480中檢測到狗時,將標記481置于檢測到的狗的臉部的位置處。
接下來,參考附圖詳細描述已設置指定目標對象自動圖像捕獲模式的情 況下的被捕獲圖像的記錄。
圖12A和12B是示出當使用根據本發明實施例的圖像捕獲裝置100捕獲 狗的圖像時的液晶面板181的顯示示例的圖。圖12A示出液晶面板181顯示 未朝著圖像捕獲裝置100的鏡頭111看的狗的圖像的狀態。圖12B示出液晶 面板181顯示朝著圖像捕獲裝置100的鏡頭111看的狗的圖像的狀態。在圖 12B中所示的情況下,被捕獲的圖像包含狗的臉部的正面。所以,將標記500 置于在被捕獲圖像中檢測到的狗的臉部的周圍,并且記錄被捕獲圖像。
在本發明的該實施例中,當在被捕獲圖像中檢測到狗的臉部并且記錄了 被捕獲圖像時,從音頻輸出單元190輸出對應于與狗相關聯地存儲在音頻存 儲單元160中的音頻信息的聲音"bow-wow",由此促使狗進一步朝著鏡頭111 看。例如,在通過用戶按下圖7中所示的"用于為自動圖像捕獲指定目標對 象的菜單"屏幕上的"狗"指定按4A 331來設置指定目標對象自動圖像捕獲 模式的情況下,如果按下快門按鍵171,那么從音頻輸出單元190輸出對應 于與狗相關聯地存儲在音頻存儲單元160中的音頻信息的聲音"bow-wow"。 另外,可以當在被捕獲圖像中檢測到狗的時候從音頻輸出單元19 0輸出與該 音頻信息對應的聲音"bow-wow",并且記錄被捕獲圖像。參考圖13和"詳 細描述被捕獲圖像的記錄。
圖13和14包含示意性示出使用根據本發明實施例的圖像捕獲裝置100 捕獲狗的圖像的情況的圖。在圖13和14的(a)部分中,為了捕獲躺在地板上 的狗510的圖像,將圖像捕獲裝置100固定至三腳架101以使得可將圖像捕 獲裝置100安排為面向狗510。然而,狗510的臉部未直接面向鏡頭111。以 下描述涉及這樣的示例在通過用戶按下圖7中所示的"用于為自動圖像捕 獲指定目標對象的菜單"屏幕上的"狗"指定按鍵331來設置指定目標對象 自動圖像捕獲模式的情況下,由用戶按下快門按鍵171。
圖13示出這樣的示例當檢測到狗510的臉部時,從音頻輸出單元190 輸出對應于與狗相關聯地存儲在音頻存儲單元160中的音頻信息的聲音
"bow-wow,,,并且記錄尋皮捕獲圖Y象。即,如圖13的(a)部分中所示,當通過 手指102按下快門按鍵171時,目標對象檢測單元230開始在被捕獲圖像中 檢測狗的狗檢測處理。在已設置了指定目標對象自動圖像捕獲模式的情況下,如果按下了快門按鍵171,那么直至檢測到狗510的臉部為止,將不會記錄 被捕獲圖像。如圖13的(b)部分中所示,當目標對象檢測單元230檢測到狗 510的臉部時,從音頻輸出單元190輸出與該音頻信息對應的聲音"bow-冊w"。 隨后,如圖13的(c)部分中所示,在從音頻輸出單元190輸出與該音頻信息 對應的聲音"bow-wow,,時記錄被捕獲圖像。可以幾乎同步地執行從音頻輸出 系統190輸出聲音與記錄被捕獲圖像。可替代地,自從音頻輸出單元190輸 出聲音時經過預定時間之后,可以記錄被捕獲圖像。
狗的臉部的檢測未必如人的臉部的檢測那樣精確。所以,如圖13的(b) 部分中所示,即使當狗510朝向圖像捕獲裝置100并且檢測到狗510的臉部 時,在狗510的眼睛朝向鏡頭111時狗510可能也未必面向前方。在該示例 中,如圖13的部分(b)中所示,當檢測到狗510的臉部時,輸出對應于與狗 相關聯地存儲的音頻信息的聲音"bow-wow",由此將狗510的注意力吸引至 圖像捕獲裝置100。在將狗510的臉部引向鏡頭111的時刻,記錄被捕獲圖 像。因此,為了記錄不能理解用戶給出的指令的狗510的臉部正面的被捕獲 圖像,可以在將狗510的臉部引至圖像捕獲裝置100的適當時間(timing)處 記錄被捕獲圖像。
圖14示出這樣的示例當通過手指102按下快門按4定171時且當檢測到 狗510的臉部時,從音頻輸出單元190輸出對應于與狗相關聯地存儲在音頻 存儲單元160中的音頻信息的聲音"bow-w。w"。即,如圖14的部分(a)中所 示,當通過手指102按下快門按鍵171時,從音頻輸出單元190輸出對應于與 指定的狗相關聯地存儲在音頻存儲單元160中的音頻信息的聲音"bow-wow"。 同時,目標對象檢測單元230開始在被捕獲圖像中檢測狗的狗檢測處理。由 于除了在按下快門按鍵171時從音頻輸出單元190輸出對應于音頻信息的聲 音"bow-wow"這點之外,該示例與圖l3中所示的示例均相同,因此省略其 描述。因此,為了記錄不能理解用戶給出的指令的狗510的臉部正面的被捕 獲圖像,即使當狗510的臉部為被引向前方時,通過輸出對應于與狗相關聯 的音頻信息的聲音"bow-wow"來吸引狗510的注意力也有助于將狗510的臉 部引向圖像捕獲裝置100。即,通過在兩個階段輸出與音頻信息對應的聲音 "bow-wow",可以在適當的時間處記錄被捕獲圖像。
如圖13和14中所示,通過在記錄被捕獲圖像時輸出對應于與狗相關聯 的音頻信息的聲音"bow-wow,,,可以吸引狗510的注意力,并且可以向用戶通知記錄了被捕獲圖像的事實。
在按下圖14的部分(a)中所示的快門按鍵171的時候所輸出的聲音可能
與在檢測到狗的時候輸出的聲音相同,或者可能比檢測到狗之時所輸出的更
長。例如,可以重復聲音"bow-wow"某個時間_險。可替代地,可以將與狗有 關的音頻信息的兩個不同條目(如,高的"bow-wow"和低的"bow-wow")存 儲在音頻存儲單元160中。這樣,可以使得在按下快門按鍵171的時候所輸 出的聲音(圖14的(a)部分中所示)與檢測到狗的時候所輸出的聲音(圖14的 (b)部分中所示)不同。通過在兩個階段輸出不同的聲音,可以進一步吸引狗 的注意力。
現在,參考附圖描述根據本發明實施例的圖像捕獲裝置100的操作。
圖15是示出根據本發明實施例的圖像捕獲裝置10 0所執行的被捕獲圖像 記錄處理的過程的流程圖。該過程用于在^r測到用戶所指定的目標對象的情 況下自動記錄被捕獲圖像。
首先,確定是否已設置了指定目標對象自動圖像捕獲模式(步驟S901)。 即,是否已按下圖7中所示的"用于為自動圖像捕獲指定目標對象的菜單" 屏幕上的"狗"指定按鍵331、"貓,,指定按鍵332以及"狗/貓,,指定按鍵 3 3 3中的任意一個。當已設置了指定目標對象自動圖像捕獲模式(步驟S901 中的是),確定是否按下了快門按鍵171 (步驟S902)。當按下了快門按鍵171 時(步驟S902中的是),圖像拾取單元112開始生成被捕獲圖像(步驟S903), 并且目標對象檢測單元230對所生成的被捕獲圖像執行目標對象檢測處理 (步驟S920)。參考圖16詳細描述目標對象檢測處理。當尚未設置指定目標 對象自動圖像捕獲模式時(步驟S901中的否),或是當未按下快門按鍵ni時 (步驟S9 02中的否),終止被捕獲圖像記錄處理的操作。
其后,確定目標對象檢測單元230是否已經在圖像拾取單元112生成的 被捕獲圖像中檢測到指定的目標對象(步驟S904)。當已在圖像拾取單元112 生成的被捕獲圖像中檢測到指定的目標對象時(步驟S904中的是),從音頻輸 出單元190輸出對應于與被檢測目標對象相關聯地存儲的音頻信息的聲音 (步驟S905)。其后,將當前被捕獲的圖像記錄在記錄單元150中(步驟S906)。 當按下圖7中所示的"用于為自動圖像捕獲指定目標對象的菜單"屏幕上的 "狗/貓,,指定按鍵333時,如果目標對象檢測單元230檢測到狗的臉部或貓 的臉部,那么輸出對應于與檢測到的狗或貓相關聯地存儲的音頻信息的聲音(步驟S905),并且將當前被捕獲的圖像記錄在記錄單元150中(步驟S906)。 本例圖解這樣的情況當在被捕獲圖像中檢測到指定的動物(狗或貓)時,輸 出被檢測到的動物的聲音并且記錄當前被捕獲的圖像。可替代地,可以當在 被捕獲的圖像中檢測到指定的動物時記錄當前的被捕獲的圖像,并且可在記 錄時輸出檢測到的動物的聲音。因此,可以在適當的時間(其為動物的臉部被 引向鏡頭111的時刻)可靠地記錄被捕獲的圖像,并且可立即向用戶通知記錄 了被捕獲圖像的事實。
相反,當在圖像拾取單元112生成的被捕獲圖像中未檢測到指定的目標 對象時(步驟S904中的否),重復目標對象4企測處理(步驟S903和S920)。
圖16是示出作為根據本發明實施例的圖像捕獲裝置100所執行的、被捕 獲圖像記錄處理的過程的一部分的目標對象^f全測處理的過程(圖15中所示的 步驟S920中的過程)的流程圖。
首先,獲得存儲單元130中存儲的當前被捕獲的圖像(步驟S921)。然后, 將提取框置于所獲得的被捕獲圖像的上方的左手角(步驟S922),并且獲得提 取框內包含的圖像(步驟S923)。然后,在存儲在目標對象^r測字典數據庫300 中的多個目標對象檢測字典之中取得與指定的目標對象有關的一個目標對象 檢測字典,并且將其存儲在目標對象檢測字典存儲器235中(步驟S924)。然 后,使用存儲在目標對象檢測字典存儲器235中的目標對象檢測字典,對提 取框內的已提取圖像執行確定處理(步驟S940)。參考圖17詳細描述確定處 理。
然后,確定提取框內的已提取圖像中是否包含目標對象(步驟S925)。當 確定提取框內的已提取圖像中包含目標對象時(步驟S925中的是),將指示已 檢測到目標對象的目標對象檢測信息輸出作為確定結果(步驟S934)。當未確 定提取框內的已提取圖像中包含目標對象時(步驟S925中的否),確定在目標 對象檢測字典數據庫30Q中存儲的多個目標對象檢測字典之中是否存在與指 定的目標對象有關的任何其它目標對象檢測字典(步驟S926)。當存在與指定 的目標對象有關的另 一 目標對象檢測字典時(步驟S926中的是),流程返回步 驟S924,并且重復目標對象確定處理(步驟S924、 S940和S925)。例如,當 已按下圖7中所示的"用于為自動圖像捕獲指定目標對象的菜單"屏幕上的 "狗/貓"指定按鍵333時,只要已執行了使用狗檢測字典310的確定處理, 那么就執行使用貓檢測字典320的確定處理。當已按下圖7中所示的"用于為自動圖像捕獲指定目標對象的菜單"屏幕上的"狗"指定按4建331或"貓"
指定按鍵332時,不存在與指定的目標對象有關的其它目標對象檢測字典。
當不存在與指定的目標對象有關的其它目標對象檢測字典時(步驟S926 中的否),確定已對其執行目標對象檢測處理的圖像是否小于提取框(步驟 S927)。當確定已對其執行目標對象檢測處理的圖像小于提取框時(步驟S927 中的是),就不再需要進一步縮小已對其執行目標對象檢測處理的圖像以及執 行目標對象4企測處理。所以,將指示尚未4企測到目標對象的無目標對象4企測 信息輸出作為確定結果(步驟S933)。
當已對其執行目標對象檢測處理的圖像不小于提取框時(步驟S927中的 否),確定提取框是否位于放置該提取框的圖像的右邊緣。當提取框未位于右 邊緣時(步驟S928中的否),將提取框以向右的方向在該圖像中移動一個像素 (步驟S929),并且流程返回步驟S923。相反,當提取框位于圖像的右邊緣時 (步驟S928中的是),確定提取框是否位于放置該提取框的圖像的底部邊緣 (步驟S930)。當提取框未位于圖像的底部邊緣時(步驟S930中的否),將提 取框以向下的方向在該圖像中移動一個像素,并且然后將其置于該圖像的左 邊緣處(步驟S931),流程返回步驟S923。當提取框位于圖像的底部邊緣時(步 驟S930中的是),以預定的因子縮小提取框被置于其下方右手角的圖像(步驟 S932)。在已縮小該圖像之后,將提取框置于該圖像的上方的左手角(步驟 S922)。
在本示例中,已描述了當確定目標對象將包含在被確定圖像中時,確定 了在當前被捕獲圖像中檢測到目標對象,而無需對將要確定的另一圖像執行 確定處理。可替代地,即使當確定被確定圖像中包含目標對象時,也可重復 確定處理直至被確定圖像變得小于提取框為止,并且,基于該確定結果,可 確定當前被捕獲圖像中包含目標對象。當指定了多個目標對象時,可重復執 行使用與所有指定的目標對象有關的目標對象檢測字典的確定處理,并且, 基于該確定結果,可確定已經在當前被捕獲圖像中檢測到該目標對象。
圖17是示出作為根據本發明實施例的圖像捕獲裝置100所執行的、目標 對象檢測處理的過程的一部分的確定處理的過程(圖16中所示的步驟S940中 的過程)的流程圖
首先,將評分S初始化為"0"(步驟S941),并且將變量i初始化為"1" (步驟S942)。然后,基于目標對象檢測字典存儲器235中存儲的目標對象檢測字典的第i行中存儲的類型311、位置312、寬度313以及高度314中存儲 的值,確定已在提取框內提取的被確定圖像上的矩形特征,并且計算構成該 矩形特征的兩個矩形的區域內所包含的亮度值的總和A (i)和B (i)(步驟 S943)。然后,計算已計算的總和A(i)和B(i)之間的差值作為特征量F(i)(步 驟S944)。
然后,確定目標對象檢測字典存儲器235中存儲的目標對象檢測字典的 第i行中的符號316的值是否為"p(i)=l"(步驟S945)。當"p(i)=l"時(步 驟S945中的是),確定已計算的特征量F(i)是否小于目標對象檢測字典存儲 器235中存儲的目標對象檢測字典的第i行中的閾值315中存儲的閾值 e(i)(步驟S946)。當已計算的特征量F(i)低于閾值e(i)時(步驟S946中的 是),計算出弱假設h(i)4(步驟S947)。相反,當已計算的特征量F(i)不低 于閾值e(i)時(步驟S946中的否),計算出弱假設h (i)=-l (步驟S948)。
當目標對象檢測字典存儲器235中存儲的目標對象檢測字典的第i行中 的符號316的值不是"p(i)=l"時(步驟S945中的否),符號316的值為 "p(i)=-1"。在這種情況下,確定已計算出的特征量F(i)是否低于閾值 e(i)(步驟S949)。當已計算出的特征量F(i)低于閾值e(i)時,計算出弱假設 h (i) =-1 (步驟S950)。相反,當已計算出的特征量F (i)不低于閾值e (i)時(步 驟S949中的否),計算出弱假設h(i卜-1(步驟S951)。
隨后,將目標對象檢測字典存儲器235中存儲的目標對象檢測字典的第 i行中的權重317中存儲的a(i)值乘以已計算出的弱假設h(i),并且將由該 乘法得到的乘積h(i)a(i)累加至評分S(步驟S952)。
然后,將"1"累加至變量i (步驟S953 ),并且確定變量i是否大于或 等于t(步驟S954 )。當確定變量i不大于t時(步驟S"4中的否),尚未完 成使用目標對象檢測字典存儲器235中存儲的目標對象檢測字典的每一行中 的值的確定處理。因此,流程返回步驟S943,重復使用該相同的目標對象檢 測字典的確定處理(步驟S943 步驟S953)。相反,當變量i大于t時(步驟 S954中的是),完成了使用目標對象檢測字典存儲器235中存儲的目標對象 檢測字典的每一行中的值的確定處理。因此,流程進入步驟S955,并且確定
評分S的值是否大于或等于零(步驟S955)。
當評分S的值大于或等于零時(步驟S955中的是),確定被確定圖像包含 目標對象(步驟S956)。相反,當評分S的值低于零時(步驟S955中的否),確定被確定圖像不包含目標對象(步驟S957)。
圖18是示出根據本發明實施例的圖像捕獲裝置100所執行的被捕獲圖像 記錄處理的過程的流程圖。除了增加了步驟S961中的過程這點之外,通過修 改圖15中所示的部分過程得到該過程,并且與圖15中所示的過程類似。因此, 除了步驟S961之外,省略該過程的詳細描述。
當已設置了指定目標對象自動圖像捕獲模式時(步驟S901中的是),如果 按下了快門按鍵171(步驟S902中的是),那么輸出對應于與指定的目標對象 相關聯地存儲的音頻信息的聲音(步驟S961)。當已按下圖7中所示的"用于 為自動圖像捕獲指定目標對象的菜單"屏幕上的"狗/貓"指定按鍵333時, 可同時地輸出或交替地輸出對應于與狗或貓相關聯地存儲的音頻信息條目的 聲音。可替代地,可以僅輸出聲音中的一種。
上面的描述涉及這樣的示例當已按下圖7中所示的"用于為自動圖像 捕獲指定目標對象的菜單"屏幕上的"狗"指定按鍵331時,在檢測到狗的 臉部的正面的情況下,輸出與關于狗的音頻信息對應的聲音。在這種情況下 例如,即使在將狗的臉部的正面引向圖像捕獲裝置IOO之前,如果將狗的臉 部的正面以某種角度引向圖像捕獲裝置100,那么可以想象的是,輸出與音 頻信息對應的聲音增大了將狗的臉部的正面引向圖像捕獲裝置100的可能 性。在以下描述中,將描述這樣的示例當檢測到狗的臉部或貓的臉部的側 面或正面時,輸出與關于凈皮^r測目標對象的音頻信息相對應的聲音。
圖19包含示意性示出在根據本發明實施例的目標對象檢測字典數據庫 300中存儲的目標對象檢測字典的圖。在下面描述的本示例中,目標對象檢 測字典數據庫300存儲狗的正面^^測字典601、貓的正面一企測字典602、狗的 側面檢測字典6 0 3以及貓的側面檢測字典6 04 。狗的正面檢測字典6 01是用 于檢測狗的正面的目標對象檢測字典。貓的正面檢測字典602是用于檢測貓 的正面的目標對象檢測字典。狗的側面檢測字典603是用于檢測狗的側面的 目標對象檢測字典。貓的正面檢測字典604是用于檢測貓的側面的目標對象 檢測字典。因為除了存儲在各條目中的值是不同的這點之外,狗的正面檢測 字典601、貓的正面檢測字典602、狗的側面檢測字典603以及貓的側面檢測 字典604與圖5中所示的狗;險測字典310及貓^f全測字典320均相同,因此省 略其具體描述。
例如,當已通過按下圖7中所示的"用于為自動圖像捕獲指定目標對象的菜單"屏幕上的"狗"指定按鍵:331設置了指定目標對象自動圖像捕獲模
式時,可以使用狗的正面檢測字典601及狗的側面4企測字典603來檢測狗的
臉部的正面和側面。
圖20A和20B是示出當使用根據本發明實施例的圖像捕獲裝置100捕獲 狗的圖像時的液晶面板181的顯示示例的圖。圖20A示出液晶面板181顯示 狗的臉部的側面的圖像的狀態。圖20B示出液晶面板181顯示狗的臉部的正 面的圖像的狀態。在圖20A中所示的情況下,被捕獲圖像包含狗的側面。所 以,將標記611置于被捕獲圖像中檢測到的狗的臉部的周圍,并且從視頻輸 出單元190輸出與音頻信息對應的聲音"bow-wow"。在圖20B中所示的情況 下,被捕獲圖像包含狗的正面。所以,將標記612置于被捕獲圖像中檢測到 的狗的臉部的周圍,并且乂人^L頻輸出單元190輸出與音頻信息對應的聲音 "bow-wow"。參考圖21和22詳細描述被捕荻圖像的記錄。
圖21和22包含示意性示出使用根據本發明實施例的圖像捕獲裝置100 捕獲狗的圖像的情況的圖。在圖21的(a)部分中,為了捕獲躺在地板上的狗 510的圖像,將圖像捕獲裝置100固定至三腳架101以使得將圖像捕獲裝置 100安排為面向狗510。然而,狗510的臉部被引向與鏡頭111相反的方向。 以下描述涉及這樣的示例在已通過用戶按下圖7中所示的"用于為自動圖 像捕獲指定目標對象的菜單"屏幕上的"狗"指定按鍵331設置了指定目標 對象自動圖像捕獲模式的情況下,用戶按下快門按鍵171。
如圖21的(a)部分中所示,當通過手指102按下快門按鍵171時,目標 對象檢測單元230開始在被捕獲圖像中檢測狗的狗檢測處理。在已設置了指 定目標對象自動圖像捕獲模式的情況下,如果按下了快門按鍵l71,那么直 至檢測到狗510的臉部為止,將不會記錄被捕獲圖像。如圖21的(b)部分中 所示,當目標對象檢測單元230檢測到狗510的臉部的側面時,從音頻輸出 單元190輸出與音頻信息對應的聲音"bow-wow"。當檢測到狗510的臉部的 側面時,僅輸出與音頻信息對應的聲音"bow-wow,,,而不記錄被捕獲圖像。 如圖22的(a)部分中所示,當目標對象檢測單元230檢測到狗510的臉部的 正面時,從音頻輸出單元190輸出與音頻信息對應的聲音"bow-wow"。隨后, 如圖22的(b)部分中所示,在已從音頻輸出單元190輸出與音頻信息對應的 聲音"bow-wow,,之后,立即記錄被捕獲圖像。
這樣,當檢測到狗510的臉部的側面時,可以想象的是,狗510將開始把其臉部引向鏡頭lll。在檢測時,通過輸出與關于狗的音頻信息相對應的
聲音"bow-wow"來將狗510的注意力吸引至鏡頭111,可以增大狗510將其 臉部引向鏡頭111的可能性。在檢測時,當檢測到狗510的臉部的正面時, 輸出與關于狗的音頻信息相對應的聲音"bow-wow",因而進一步吸引狗510 的注意力,并且促使狗510將其臉部進一步引向鏡頭111。然后,記錄被捕 獲圖像。這樣,在兩個階段(即,當檢測到狗的臉部的側面時以及當檢測到狗 的臉部的正面時)輸出與關于狗的音頻信息相對應的聲音"bow-wow"。所以, 可進一步將狗510的注意力吸引至鏡頭111,并且可增大狗510將其臉部引 向鏡頭111的可能性。
如圖14中所示,可以在音頻存儲單元160中存儲關于狗的音頻信息的兩 個不同條目(如,高的"bow-wow,,和低的"bow-wow,,)。這才羊,可以Y吏得沖企 測到狗的臉部的側面的時候所輸出的聲音與檢測到狗的臉部的正面的時候所 輸出的聲音不同。通過以這種方式在兩個階段處輸出不同的聲音,可以進一 步吸引狗510的注意力。
圖2 3是示出根據本發明實施例的圖像捕獲裝置100所執行的被捕獲圖像 記錄處理的過程的流程圖。本過程是通過修改圖15中所示的部分過程而得到 的,并且除了代替步驟S904和S905提供了步驟S971和S974并且進一步添 加了步驟S972和S973中的過程這點之外,其均與圖15中所示的過程類似。 因此,除了步驟S971 ~ S974中的過程之外,省略該過程的具體描述。
對圖像拾取單元112生成的被捕獲圖像執行目標對象檢測處理(S920)。 確定目標對象檢測單元230是否已經在圖像拾取單元112生成的被捕獲圖像 中檢測到指定的目標對象的正面(步驟S971)。當在圖像拾取單元112生成的 被捕獲圖像中未檢測到指定的目標對象的正面時(步驟S971中的否),確定目 標對象檢測單元230是否已經在圖像拾取單元ll2生成的被捕獲圖像中檢測 到指定的目標對象的側面(步驟S972)。當已經在圖像拾取單元112生成的被 捕獲圖像中檢測到指定的目標對象的側面時(步驟S972中的是),從音頻輸出 單元190輸出對應于與已檢測到其側面的被檢測指定對象相關聯地存儲的音 頻信息的聲音(步驟S973)。流程返回步驟S903。相反,當在圖像拾取單元 112生成的被捕獲圖像中未檢測到指定的目標對象的側面時(步驟S972中的 否),流程返回步驟S903。
當在圖像拾取單元112生成的被捕獲圖像中已檢測到指定的目標對象的正面時(步驟S971中的是),從音頻輸出單元190輸出對應于與已檢測到其正 面的被^r測指定對象相關聯地存儲的音頻信息的聲音(步驟S974),并且在記 錄單元150中記錄當前被捕獲圖像(步驟S906)。
以上描述涉及這樣的示例為了在記錄被捕獲圖像時吸引目標對象的注 意力,輸出與關于被檢測目標對象的音頻信息相對應的聲音,并且記錄被捕 獲的圖像。通過以這種方式輸出與關于指定的目標對象的音頻信息相對應的 聲音,可以吸引目標對象的注意力,并且可向用戶通知已經記錄了被捕獲圖 像的事實。例如,如果可以給出與所記錄的被捕獲圖像是否模糊相一致的通 知,那么已接收到該通知的用戶可以迅速確定例如是否需要再次捕獲圖像。 以下描述涉及這樣的示例在記錄被捕獲圖像時,通過根據被捕獲圖像是否 模糊來輸出與音頻信息的不同條目相對應的聲音,來向用戶通知所記錄的被 捕獲圖像是否模糊。
圖24是示意性示出根據本發明實施例的音頻存儲單元700中存儲的細節 的圖。在本示例中,將描述圖像捕獲裝置100包含音頻存儲單元700 (而不是 音頻存儲單元160)的情況。在音頻存儲單元700中,將目標對象701和音頻 信息702彼此相關聯地存儲。
目標對象701是可被指定為其圖像將被自動捕獲的目標對象的目標對 象。例如,將"狗"或"貓"存儲為目標對象701。目標對象701對應于圖6 中所示的目標對象161。
音頻信息702是用于從音頻輸出單元190輸出聲音的音頻信息。將音頻 信息的兩個條目(一個用于"模糊圖像",另一個用于"非模糊圖像")與目標 對象相關聯地存儲。參考圖24,例如,將用于與"狗"相關聯地存儲的"非 模糊圖像"的音頻信息表示為"bow-wow",而將用于與"狗"相關聯地存儲 的"模糊圖像"的音頻信息表示為"ki-yi"。將用于與"貓"相關聯地存儲 的"非模糊圖像"的音頻信息表示為"meow-meow",而將用于與"貓"相關 聯地存儲的"模糊圖像"的音頻信息表示為"fft-fft"。在本示例中,將描 述這樣的情況當檢測目標對象時,將用于"非模糊圖像"的音頻信息用作 基于其輸出聲音的音頻信息。
圖25包含示意性示出使用根據本發明實施例的圖像捕獲裝置100捕獲狗 的圖像的情況的圖。除了在記錄被捕獲圖像時根據被捕獲圖像是否是模糊的 來輸出與音頻信息的不同條目相對應的聲音(其示出在圖25的(c)部分中)這點之外,圖25中所示的示例與圖13中所示的示例均相同。所以,將詳細描 述圖25的(c)部分,而省略其它部分的詳細描述。
如圖25的(b)部分中所示,當目標對象;f企測單元230 ;險測到狗510的臉 部時,從音頻輸出單元190輸出與用于"非模糊圖像"的音頻信息相對應的 聲音"bowiow"。隨后,如圖25的(c)部分中所示,在已經從音頻輸出單元 190輸出對應于該音頻信息的聲音"bowiow"之后,立即記錄被捕獲圖像。 在記錄被捕獲圖像時,確定被捕獲圖像是否模糊。如圖25的(c)部分中所示, 當確定被捕獲圖像模糊時,從音頻輸出單元190輸出與用于"模糊圖像"的 音頻信息相對應的聲音"ki-yi"。例如,通過使用相機參數控制單元220評 估經由存儲單元I/F 240從存儲單元130得到的當前被捕獲圖像,可以確定 被捕獲圖像是否模糊。即,當在當前被捕獲圖像的頻率分量之中存在更多的 相對高頻分量時,確定被捕獲圖像不模糊。當在當前被捕獲圖像的頻率分量 之中存在較少的相對高頻分量時,確定被捕獲圖像模糊。
當檢測狗的臉部時,輸出與用于"非模糊圖像"的音頻信息相對應的聲 音"bowiow"。在記錄被捕獲圖像時,當確定被捕獲圖像模糊時,輸出與用 于"模糊圖像,'的音頻信息相對應的聲音"ki-yi",從而迅速地向用戶通知 這樣的事實盡管已經記錄了狗510的臉部的正面的被捕獲圖像,但是被捕 獲圖像模糊。通過根據圖像是否模糊來輸出與關于目標對象的音頻信息相對 應的聲音(而不是輸出捕獲圖像時所輸出的通常的快門聲音),圖像捕獲變得 更加有趣。可替代地,除了執行確定被捕獲圖像是否模糊,還可執行被捕獲 圖像的評估,并且可根據被捕獲圖像的評估結果輸出與音頻信息對應的聲音。 例如,計算指示聚焦水平(focus level)的評估值、指示圖像捕獲裝置100距 離指定的目標對象的接近程度的評估值以及指示被捕獲圖像中景物的亮度的 評估值。可將這些評估值用作評估結果。例如,當所有這些評估值都為高時, 可輸出對應于該音頻信息的聲音"bow-wow"。當這些評估值中的任何一個為 低時,可輸出對應于該音頻信息的聲音"ki-yi"。
圖26是示出根據本發明實施例的圖像捕獲裝置1QQ所執行的被捕獲圖像 記錄處理的過程的流程圖。本過程是通過修改圖15中所示的部分過程而得到 的,并且除了代替步驟S905提供了步驟S981并且進一步添加了步驟S982 ~ S984中的過程這點之外,其均與圖15中所示的過程類似。因此,除了步驟 S981 ~ S984中的過程之外,省略該過程的詳細描述。確定目標對象檢測單元230是否已經在圖像拾取單元112生成的被捕獲
圖像中檢測到指定的目標對象(步驟S904)。當已在圖像拾取單元112生成的被捕獲圖像中檢測到指定的目標對象時(步驟S904中的是),從音頻輸出單元190輸出對應于與被檢測目標對象相關聯地存儲的用于"非模糊圖像"的音頻信息的聲音(步驟S981)。
確定記錄單元150中記錄的當前被捕獲圖像是否模糊(步驟S982)。當確定記錄單元150中記錄的當前被捕獲圖像模糊時(步驟S982中的是),從音頻輸出單元190輸出對應于與被檢測目標對象相關聯地存儲的用于"模糊圖像"的音頻信息的聲音(步驟S983)。相反,當確定記錄單元150中記錄的當前被捕獲圖像不模糊時(步驟S982中的否),從音頻輸出單元19 0輸出對應于與被檢測目標對象相關聯地存儲的用于"非模糊圖像"的音頻信息的聲音(步驟S984)。
如上面已描述的那樣,在本發明的實施例中,例如,由于在檢測動物臉部時記錄不理解用戶指令的動物的被捕獲圖像,因此,可以在適當的時間(其為將動物臉部引向鏡頭111的時刻)記錄被捕獲圖像。通過在檢測動物臉部時輸出與關于動物的音頻信息相對應的聲音,可以將動物的注意力吸引至圖像捕獲裝置IOO。所以,可以在將動物臉部進一步引向鏡頭111的時刻記錄被捕獲圖像。因此,為了記錄動物臉部的正面的被捕獲圖像,可以在將動物臉部引向圖像捕獲裝置100的適當時間記錄被捕獲圖像。即,可適當地記錄不理解攝影者的指令的目標對象的被捕獲圖像。通過在記錄被捕獲圖像時輸出與關于動物的音頻信息相對應的聲音,可以吸引動物的注意力,并且向用戶通知記錄了被捕獲圖像的事實。通過在捕獲動物的圖像時輸出關于動物的聲音,可提供具有娛樂特征的圖像捕獲裝置。
由于將存儲在目標對象檢測字典數據庫300中的每一個目標對象檢測字典用作確定被捕獲圖像是否包含目標對象的確定信息,因此,可以轉換(switch)確定處理中使用的字典。所以,即使當指定多個目標對象,也可檢測該多個目標對象。例如,狗的眼睛具有較小的白色區域,因此通常難于識別狗的視線。因此,通常難于才企測狗的正面。所以,在本發明的實施例中,可以通過使用矩形特征執行確定處理來改善檢測難于檢測的目標對象的精度。
雖然本發明的實施例所圖解的圖示出了這樣的示例輸出與存儲在音頻存儲單元160中的音頻信息相對應的聲音一次或兩次,可以將該聲音重復輸出預定時間段。進一步,可由用戶設置輸出時間。可由用戶存儲音頻存儲單
元160中存儲的音頻信息。例如,用戶可以記錄他/她的狗或相同類型狗的叫聲,并且將已記錄叫聲存儲在音頻存儲單元160中。使用該叫聲,可以執行自動圖像捕獲。
雖然本發明的實施例已經描述了通過按下快門按鍵171 —次來記錄一個被捕獲圖像的示例,但是通過按下快門按鍵171 —次也可連續記錄多個(例如,六個)被捕獲圖像。可替代地,可以每當檢測目標對象時記錄被捕獲圖像,直至所記錄的被捕獲圖像的數量達到預定數量為止。
雖然已通過示例的方式在本發明的實施例中描述了將"狗"或"貓"用作目標對象,但是本發明的實施例也適用于將另 一種動物(諸如哺乳動物)用作目標對象的情況。本發明的實施例還適用于將嬰兒用作目標對象的情況。當將嬰兒用作目標對象時,可以使用呼叫該嬰兒的母親的語音作為關于該嬰兒的音頻信息。
為了增加檢測目標對象的精度,例如,可以為每種類型的目標對象提供目標對象檢測字典。例如,在狗的情況下,可提供用于檢測在日本常見的狗的臉部(例如,可可粉褐色(微黃褐色)的shiba inu("小柴犬")的臉部)的目標對象檢測字典、用于檢測"chihuahua"的目標對象檢測字典等。
雖然本發明的實施例中已描述了將存儲在目標對象檢測字典數據庫3 0 0中的每一個目標對象檢測字典用作用以確定被捕獲圖像是否包含目標對象的確定信息的示例,但是也可采用確定被捕獲圖像是否包含目標對象的另一確定處理。例如,可以執行使用這樣的確定單元的確定處理該確定單元采用被確定圖像中的兩個點的亮度值之間的差值,而不采用矩形特征。
本發明的實施例適用于各種圖像捕獲裝置,諸如捕獲靜止或運動圖像的便攜式攝錄(像) 一體機(相機和記錄器)以及具有圖像捕獲功能的手機。
通過示例的方式圖解本發明的實施例以實現本發明。雖然實施例和下面將描述的權利要求書的特征之間存在對應,但是本發明不限于此,并且在不脫離本發明的精神及范圍的情況下可進行各種修改。
即,根據本發明的實施例,例如,圖像捕獲部件對應于圖像拾取單元112。例如,確定信息存儲部件對應于目標對象檢測字典數據庫3QQ。例如,操作接受部件對應于操作輸入單元170及液晶面板181。例如,目標對象纟企測部件對應于目標對象^r測單元230。例如,記錄控制部件對應于系統控制單元120。
根據本發明的另一實施例,例如,音頻信息存儲部件對應于音頻存儲單元160。例如,音頻輸出控制部件對應于系統控制單元120。
根據本發明的另一實施例,例如,音頻信息存儲部件對應于音頻存儲單元160。例如,被捕獲圖像評估部件對應于相^L參數控制單元220。例如,音頻輸出控制部件對應于系統控制單元120。
根據本發明的另一實施例,例如,圖像捕獲控制部件對應于相機參數控制單元220。
根據本發明的另一實施例,例如,音頻信息存儲部件對應于音頻存儲單元160。例如,操作接受部件對應于操作輸入單元170及液晶面板181。例如,圖像捕獲部件對應于圖像拾取單元112。例如,目標對象檢測部件對應于目標對象檢測單元230。例如,音頻輸出控制部件對應于系統控制單元120。例如,記錄控制部件對應于系統控制單元120。
根據另一實施例,例如,捕獲圖像的步驟對應于步驟S903。例如,檢測目標對象的步驟對應于步驟S920。例如,控制記錄的步驟對應于步驟S906。
本發明的實施例中描述的過程可被看作為具有一 系列這些過程的方法,或可被看作為用于促使計算機執行一系列過程的程序,或作為具有在其上記錄的程序的記錄介質。
本領域的技術人員應該理解,依據設計要求及其它因素,只要其在所附權利要求書或其等效物的范圍之內,可以發生各種修改、組合、子組合及變更。
權利要求
1.一種圖像捕獲裝置,包括圖像捕獲部件,用于捕獲景物的圖像并且生成被捕獲圖像;確定信息存儲部件,用于存儲多條確定信息,每條確定信息用于確定被捕獲圖像是否包含多個目標對象的相應一個;操作接受部件,用于接受指定為其存儲了多條確定信息的多個目標對象的至少一個的指定操作;目標對象檢測部件,用于從存儲在確定信息存儲部件中的多條確定信息之中選擇與指定的目標對象有關的確定信息,并且使用所選擇的確定信息在被捕獲圖像中檢測指定的目標對象;以及記錄控制部件,用于促使記錄在檢測到指定的目標對象時所生成的被捕獲圖像。
2, 如權利要求1所述的圖像捕獲裝置,進一步包括 音頻信息存儲部件,用于與目標對象相關聯地存儲關于為其存儲了多條確定信息的多個目標對象中的每個的音頻信息;以及音頻輸出控制部件,用于在記錄控制部件促使記錄被捕獲圖像時,促使輸出對應于音頻信息存儲部件中與被檢測目標對象相關聯地存儲的音頻信息的聲音。
3. 如權利要求2所述的圖像捕獲裝置,其中,該目標對象是動物的臉 部,以及其中,該音頻信息表示該動物的叫聲。
4. 如權利要求2所述的圖像捕獲裝置,其中,該目標對象是嬰兒的臉 部,以及其中,該音頻信息表示呼叫該嬰兒的人的語音。
5. 如權利要求1所述的圖像捕獲裝置,進一步包括 音頻信息存儲部件,用于與目標對象相關聯地存儲關于為其存儲了多條確定信息的多個目標對象中的每個的音頻信息,所述音頻信息依據被捕獲圖 像的評估結果;被捕獲圖像評估部件,用于在記錄控制部件促使記錄被捕獲圖像時評估 被捕獲圖像;以及音頻輸出控制部件,用于根據被捕獲圖像評估部件得到的評估結果,促 使輸出對應于音頻信息的聲音。
6. 如權利要求1所述的圖像捕獲裝置,其中,操作接受部件接受在為 其存儲了多條確定信息的多個目標對象之中指定多個目標對象的指定操作, 以及其中,記錄控制部件促使記錄在^^測到指定的多個目標對象中的至少之 一時所生成的被捕獲圖像。
7. 如權利要求1所述的圖像捕獲裝置,其中,操作接受部件是觸摸板, 其顯示用于指定為其存儲了多條確定信息的多個目標對象的至少一個的指定按鍵。
8. 如權利要求1所述的圖像捕獲裝置,進一步包含圖像捕獲控制部 件,用于通過基于被檢測目標對象設置預定的圖像捕獲參數來執行圖像捕獲 控制。
9. 一種圖像捕獲裝置,包含音頻信息存儲部件,用于與目標對象相關聯地存儲關于多個目標對象中 的每個的音頻信息;操作接受部件,用于接受指定音頻信息存儲部件中存儲的多個目標對象中的至少一個的指定操作;圖像捕獲部件,用于捕獲景物的圖像并且生成被捕獲圖像;目標對象檢測部件,用于在被捕獲圖像中檢測指定的目標對象;音頻輸出控制部件,用于在檢測到指定的目標對象時,促使輸出對應于音頻信息存儲部件中與被檢測目標對象相關聯地存儲的音頻信息的聲音;以及記錄控制部件,用于在輸出與關于^皮;險測對象的音頻信息相對應的聲音 之后,促使記錄被捕獲圖像。
10. 如權利要求9所述的圖像捕獲裝置,其中,存儲在音頻信息存儲部件中的多個目標對象中的每一個均具有正面和側面,其中,目標對象檢測部件在被捕獲圖像中檢測指定的目標對象的正面或側面,其中,在檢測到指定的目標對象的正面或側面時,音頻輸出控制部件促 使輸出對應于音頻信息存儲部件中與其正面或側面被檢測的目標對象相關聯地存儲的音頻信息的聲音,以及其中,在檢測到指定的目標對象的正面時,當輸出與關于其正面被檢測 的目標對象的音頻信息相對應的聲音時,記錄控制部件促使記錄被捕獲圖像。
11. 如權利要求10所述的圖像捕獲裝置,其中,當在檢測到指定的目 標對象的側面之后檢測到指定的目標對象的正面時,音頻輸出控制部件促使 輸出與關于其正面凈皮;險測的目標對象的音頻信息相對應的聲音。
12. 如權利要求9所述的圖像捕獲裝置,其中,記錄控制部件促使記錄 緊接在輸出與關于被檢測目標對象的音頻信息相對應的聲音之后生成的被捕獲圖像。
13. 如權利要求9所述的圖像捕獲裝置,其中,在操作接受部件接受指 定操作時,音頻輸出控制部件促使輸出對應于音頻信息存儲部件中與指定的目標對象相關聯地存儲的音頻信息的聲音,而,在檢測到指定的目標對象時, 音頻輸出控制部件促使輸出對應于音頻信息存儲部件中與被檢測目標對象相 關聯地存儲的音頻信息的聲音。
14. 如權利要求9所述的圖像捕獲裝置,其中,音頻信息存儲部件存儲 關于多個目標對象的音頻信息的條目,其中,操作接受部件接受在存儲于音頻信息存儲部件中的多個目標對象 之中指定多個目標對象的指定操作,以及其中,在檢測到指定的多個目標對象中的至少之一時,音頻輸出控制部 件促使輸出對應于音頻信息存儲部件中與被檢測目標對象相關聯地存儲的音 頻信息的聲音。
15. —種用于圖像捕獲裝置的控制方法,該圖像捕獲裝置包含確定信 息存儲部件,其用于存儲多條確定信息,每條確定信息用于確定通過捕獲景 物的圖像而生成的被捕獲圖像是否包含多個目標對象的相應一個;以及操作 接受部件,用于接受指定為其存儲了多條確定信息的多個目標對象的至少一 個的指定操作,該方法包括以下步驟捕獲景物的圖像并且生成被捕獲的圖像;從存儲在確定信息存儲部件中的多條確定信息之中選擇與指定的目標對 象有關的確定信息,并且使用所選擇的確定信息在被捕獲圖像中檢測指定的 目標對象;以及促使記錄在檢測到指定的目標對象時所生成的被捕獲圖像。
16. —種用于促使計算機在圖像捕獲裝置中執行處理的程序,所述圖像捕獲裝置包含確定信息存儲部件,用于存儲多條確定信息,每條確定信息 用于確定通過捕獲景物的圖像所生成的被捕獲圖像是否包含多個目標對象的 相應一個;以及操作接受部件,用于接受指定為其存儲了多條確定信息的多 個目標對象的至少一個的指定操作;所述處理包含以下步驟 捕獲景物的圖像,并且生成被捕獲圖像;從存儲在確定信息存儲部件中的多條確定信息之中選擇與指定的目標對 象有關的確定信息,并且使用所選擇的確定信息在被捕獲圖像中檢測指定的 目標對象;以及促使記錄在檢測指定的目標對象時所生成的被捕獲圖像。
17. —種圖像捕獲裝置,包括圖像捕獲單元,其被配置為捕獲景物的圖像并且生成被捕獲圖像;確定信息存儲單元,其被配置為存儲多條確定信息,每條確定信息用于 確定被捕獲圖像是否包含多個目標對象的相應 一個;操作接受單元,其被配置為接受指定為其存儲了多條確定信息的多個目 標對象的至少 一 個的指定操作;目標對象檢測單元,其被配置為從存儲在確定信息存儲單元中的多條確 定信息之中選擇與指定的目標對象有關的確定信息,并且使用所選擇的確定 信息在被捕獲圖像中檢測指定的目標對象;以及記錄控制單元,其被配置為促使記錄在檢測到指定的目標對象時所生成 的被捕獲圖像。
18. —種圖像捕獲裝置,包含音頻信息存儲單元,其被配置為與目標對象相關聯地存儲關于多個目標對象中的每個的音頻信息;操作接受單元,其被配置為接受指定音頻信息存儲單元中存儲的多個目標對象中的至少一個的指定操作;圖像捕獲單元,其被配置為捕獲景物的圖像并且生成被捕獲圖像; 目標對象檢測單元,其被配置為在被捕獲圖像中檢測指定的目標對象; 音頻輸出控制單元,其被配置為在檢測到指定的目標對象時,促使輸出對應于音頻信息存儲單元中與被檢測目標對象相關聯地存儲的音頻信息的聲音;以及記錄控制單元,其被配置為在輸出與關于被檢測對象的音頻信息相對應 的聲音之后,促使記錄被捕獲圖像。
全文摘要
公開了圖像捕獲方法、其控制方法及程序。圖像捕獲裝置包含圖像捕獲單元,其捕獲景物的圖像并且生成被捕獲圖像;確定信息存儲單元,其存儲確定信息的條目,每條確定信息用于確定被捕獲圖像是否包含相應的一個目標對象;操作接受單元,其接受指定為其存儲了確定信息條目的至少一個目標對象的指定操作;目標對象檢測單元,其從存儲在確定信息存儲部件中的確定信息的條目之中選擇與指定的目標對象有關的確定信息,并且使用所選擇的確定信息在被捕獲圖像中檢測指定的目標對象;以及記錄控制單元,其促使記錄在檢測到指定的目標對象時所生成的被捕獲圖像。
文檔編號H04N5/238GK101527794SQ20091012691
公開日2009年9月9日 申請日期2009年3月5日 優先權日2008年3月5日
發明者小川要 申請人:索尼株式會社