圖像分割方法和裝置制造方法
【專利摘要】本發明提出一種圖像分割方法和裝置,該圖像分割方法包括:接收描述目標物體的動態移動過程的視頻圖像,獲取視頻圖像的全圖光流和背景光流,將所述視頻圖像中每個像素的位移與對應的背景像素的位移進行對比,獲得目標物體的前景區域;確定所述目標物體的個數;對上述目標物體進行視覺跟蹤和運動軌跡分析,以對所述目標物體進行跟蹤;根據所述特征點的幀間位移、幀間切割窗口相似度和跟蹤框尺度變換,對所述目標物體進行靜止判斷和圖像分割。本發明可以實現在對想要進行圖像識別和認識的物體進行識別的過程中,只需要拿取或搖晃目標物體即可快速獲得對目標物體的圖像分割,為下一步針對目標物體的圖像識別做準確的識別輸入。
【專利說明】圖像分割方法和裝置
【技術領域】
[0001]本發明涉及互聯網【技術領域】,尤其涉及一種圖像分割方法和裝置。
【背景技術】
[0002]在下一個互聯網風潮的人工智能領域,如何讓智能穿戴設備或者機器人用人類自然的交互方式進行識別和認知,成為當下研究的核心問題,這里創造自然的人機交互方式尤為重要。基于人工智能的設備和機器人在人類生活的各方各面發生著革命性的創新,人為干預的機器視覺和認知也應該通過新技術的手段變得更加便捷高效,因此需要更自然的方式去進行機器認知和圖像識別。
[0003]現在,對于圖像識別和機器視覺認知的輸入方式一般都采用先拍照再確定目標物體的方式,這種方式往往受限于取景內容的復雜度因而需要過多步驟,學習成本高,并且這種方式通常需要人工干預拍好的照片,例如:對拍好的照片進行圈劃和涂抹。另外,識別內容無法準確讓機器獲得從而導致識別精度較低,難以識別不規則形狀物體,操作極為不便,用戶體驗較差。
【發明內容】
[0004]本發明的目的旨在至少在一定程度上解決相關技術中的技術問題之一。
[0005]為此,本發明的第一個目的在于提出一種圖像分割方法。通過該方法,在對想要進行圖像識別和認識的物體進行識別的過程中,只需要拿取或搖晃目標物體即可快速獲得對目標物體的圖像分割,為下一步針對目標物體的圖像識別做準確的識別輸入。
[0006]本發明的第二個目的在于提出一種圖像分割裝置。
[0007]為了實現上述實施例,本發明第一方面實施例的圖像分割方法,包括:接收描述目標物體的動態移動過程的視頻圖像,獲取所述視頻圖像的全圖光流,估計所述視頻圖像中每個像素的位移,以及獲取所述視頻圖像的背景光流,估計所述視頻圖像中背景像素的位移;將所述視頻圖像中每個像素的位移與對應的背景像素的位移進行對比,獲得所述目標物體的前景區域;對所述目標物體的前景區域中的視頻圖像進行特征點提取,并通過計算提取的特征點的概率密度確定所述目標物體的個數;對所述目標物體進行視覺跟蹤和運動軌跡分析,以對所述目標物體進行跟蹤;根據所述特征點的幀間位移、幀間切割窗口相似度和跟蹤框尺度變換,對所述目標物體進行靜止判斷和圖像分割。
[0008]本發明實施例的圖像分割方法,接收描述目標物體的動態移動過程的視頻圖像之后,通過獲取全圖光流、背景光流進而確定目標物體的前景區域即目標物體,在目標物體的動態移動過程中,對目標物體進行跟蹤,對目標物體進行靜止判斷并分割出上述目標物體所在的圖像區域,從而可以實現在對想要進行圖像識別和認識的物體進行識別的過程中,只需要拿取或搖晃目標物體即可快速獲得對目標物體的圖像分割,為下一步針對目標物體的圖像識別做準確的識別輸入。
[0009]為了實現上述實施例,本發明第二方面實施例的圖像分割裝置,包括:接收模塊,用于接收描述目標物體的動態移動過程的視頻圖像;獲取模塊,用于獲取所述接收模塊接收的視頻圖像的全圖光流,估計所述視頻圖像中每個像素的位移,以及獲取所述接收模塊接收的視頻圖像的背景光流,估計所述視頻圖像中背景像素的位移;對比模塊,用于將所述視頻圖像中每個像素的位移與對應的背景像素的位移進行對比,獲得所述目標物體的前景區域;提取模塊,用于對所述對比模塊獲得的目標物體的前景區域中的視頻圖像進行特征點提取;確定模塊,用于通過計算所述提取模塊提取的特征點的概率密度確定所述目標物體的個數;跟蹤模塊,用于對所述目標物體進行視覺跟蹤和運動軌跡分析,以對所述目標物體進行跟蹤;分割模塊,用于根據所述特征點的幀間位移、幀間切割窗口相似度和跟蹤框尺度變換,對所述目標物體進行靜止判斷和圖像分割。
[0010]本發明實施例的圖像分割裝置,接收模塊接收描述目標物體的動態移動過程的視頻圖像之后,通過獲取全圖光流、背景光流進而確定目標物體的前景區域即目標物體,在目標物體的動態移動過程中,對目標物體進行跟蹤,對目標物體進行靜止判斷并分割出上述目標物體所在的圖像區域,從而可以實現在對想要進行圖像識別和認識的物體進行識別的過程中,只需要拿取或搖晃目標物體即可快速獲得對目標物體的圖像分割,為下一步針對目標物體的圖像識別做準確的識別輸入。
[0011]本發明附加的方面和優點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發明的實踐了解到。
【專利附圖】
【附圖說明】
[0012]本發明上述的和/或附加的方面和優點從下面結合附圖對實施例的描述中將變得明顯和容易理解,其中:
[0013]圖1為本發明圖像分割方法一個實施例的流程圖;
[0014]圖2為本發明圖像分割方法另一個實施例的示意圖;
[0015]圖3為本發明圖像分割裝置一個實施例的結構示意圖。
【具體實施方式】
[0016]下面詳細描述本發明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發明,而不能理解為對本發明的限制。相反,本發明的實施例包括落入所附加權利要求書的精神和內涵范圍內的所有變化、修改和等同物。
[0017]圖1為本發明圖像分割方法一個實施例的流程圖,如圖1所示,該圖像分割方法可以包括:
[0018]步驟101,接收描述目標物體的動態移動過程的視頻圖像,獲取視頻圖像的全圖光流,估計上述視頻圖像中每個像素的位移,以及獲取上述視頻圖像的背景光流,估計上述視頻圖像中背景像素的位移。
[0019]其中,接收描述目標物體的動態移動過程的視頻圖像可以為:接收通過攝像頭輸入的描述目標物體的動態移動過程的視頻圖像。
[0020]進一步地,接收描述目標物體的動態移動過程的視頻圖像之前,還可以接收用戶通過語音、觸摸屏或者動態傳感器輸入的圖像識別請求,以觸發接收上述視頻圖像的操作。
[0021]也就是說,本實施例中,帶有攝像頭的智能設備接收到用戶通過語音、觸摸屏或者動態傳感器輸入的圖像識別請求之后,開啟上述智能設備上的攝像頭,通過上述攝像頭攝取用戶拿取或移動目標物體的過程,即通過攝像頭接收描述用戶拿取或移動目標物體的視頻圖像,進而執行后續流程。
[0022]其中,上述帶有攝像頭的智能設備可以為帶有攝像頭的智能移動終端,或者帶有攝像頭的頭戴式穿戴設備,例如:谷歌眼鏡(Google Glass)、百度智能眼鏡(BaiduEye)等,或者帶有攝像頭的智能手表,或者帶有攝像頭視覺輸入的機器人,本實施例對此不作限定。
[0023]步驟102,將上述視頻圖像中每個像素的位移與對應的背景像素的位移進行對比,獲得上述目標物體的前景區域。
[0024]具體地,每個像素的位移描述的是“前景區域(目標物體)+背景區域(環境)”,背景像素的位移描述的是“背景區域(環境)”,對比二者之后,即可獲得目標物體的前景區域。采用的算法邏輯可以簡單表述為“(前景區域+背景區域)_背景區域=前景區域”。
[0025]步驟103,對上述目標物體的前景區域中的視頻圖像進行特征點提取,并通過計算提取的特征點的概率密度確定上述目標物體的個數。
[0026]步驟104,對上述目標物體進行視覺跟蹤和運動軌跡分析,以對上述目標物體進行跟蹤。
[0027]步驟105,根據上述特征點的幀間位移、幀間切割窗口相似度和跟蹤框尺度變換,對上述目標物體進行靜止判斷和圖像分割。
[0028]本實施例中,獲得對目標物體的圖像分割之后,就可以在此基礎上進行目標物體的圖像識別,然后通過上述帶有攝像頭的智能設備的音頻輸出通道將識別結果告知用戶,或者通過上述帶有攝像頭的智能設備的圖像輸出通道將識別結果告知給用戶,從而完成對于目標物體的識別過程。
[0029]上述實施例中,接收描述目標物體的動態移動過程的視頻圖像之后,通過獲取全圖光流、背景光流進而確定目標物體的前景區域即目標物體,在目標物體的動態移動過程中,對目標物體進行跟蹤,對目標物體進行靜止判斷并分割出上述目標物體所在的圖像區域,從而可以實現在對想要進行圖像識別和認識的物體進行識別的過程中,只需要拿取或搖晃目標物體即可快速獲得對目標物體的圖像分割,為下一步針對目標物體的圖像識別做準確的識別輸入。
[0030]圖2為本發明圖像分割方法另一個實施例的示意圖,從圖2可以看出,在第一人稱視角的手拿取物品,或用手自然搖晃物體時,本發明圖1所示實施例提供的方法,通過攝像頭捕捉手部的動態移動過程,通過獲取全圖光流、背景光流進而確定目標物體的前景區域,對目標物體進行跟蹤,對目標物體進行靜止判斷和圖像分割,從而分割出目標物體,即框選出用于識別的圖像。
[0031]圖3為本發明圖像分割裝置一個實施例的結構示意圖,本實施例中的圖像分割裝置可以實現本發明圖1所示實施例的流程,如圖3所示,該圖像分割裝置可以包括:接收模塊31、獲取模塊32、對比模塊33、提取模塊34、確定模塊35、跟蹤模塊36和分割模塊37 ;進一步地,上述圖像分割裝置還可以包括攝像頭38 ;
[0032]其中,接收模塊31,用于接收描述目標物體的動態移動過程的視頻圖像。本實施例中,接收模塊31,具體用于接收通過攝像頭38輸入的描述目標物體的動態移動過程的視頻圖像。進一步地,接收模塊31,還用于在接收描述目標物體的動態移動過程的視頻圖像之前,接收用戶通過語音、觸摸屏或者動態傳感器輸入的圖像識別請求,以觸發接收上述視頻圖像的操作。
[0033]也就是說,本實施例中,接收模塊31接收到用戶通過語音、觸摸屏或者動態傳感器輸入的圖像識別請求之后,開啟攝像頭38,通過上述攝像頭38攝取用戶拿取或移動目標物體的過程,即通過攝像頭38接收描述用戶拿取或移動目標物體的視頻圖像,進而執行后續流程。
[0034]獲取模塊32,用于獲取接收模塊31接收的視頻圖像的全圖光流,估計上述視頻圖像中每個像素的位移,以及獲取接收模塊31接收的視頻圖像的背景光流,估計上述視頻圖像中背景像素的位移。
[0035]對比模塊33,用于將上述視頻圖像中每個像素的位移與對應的背景像素的位移進行對比,獲得上述目標物體的前景區域。具體地,每個像素的位移描述的是“前景區域(目標物體)+背景區域(環境)”,背景像素的位移描述的是“背景區域(環境)”,對比模塊33對比二者之后,即可獲得目標物體的前景區域。對比模塊33采用的算法邏輯可以簡單表述為“(前景區域+背景區域)-背景區域=前景區域”。
[0036]提取模塊34,用于對對比模塊33獲得的目標物體的前景區域中的視頻圖像進行特征點提取;
[0037]確定模塊35,用于通過計算提取模塊34提取的特征點的概率密度確定目標物體的個數;
[0038]跟蹤模塊36,用于對上述目標物體進行視覺跟蹤和運動軌跡分析,以對上述目標物體進行跟蹤;
[0039]分割模塊37,用于根據上述特征點的幀間位移、幀間切割窗口相似度和跟蹤框尺度變換,對目標物體進行靜止判斷和圖像分割。
[0040]本實施例中,獲得對目標物體的圖像分割之后,就可以在此基礎上進行目標物體的圖像識別,然后通過上述圖像分割裝置的音頻輸出通道將識別結果告知用戶,或者通過上述圖像分割裝置的圖像輸出通道將識別結果告知給用戶,從而完成對于目標物體的識別過程。
[0041]本實施例中的圖像分割裝置可以為帶有攝像頭的智能設備,或者帶有攝像頭的智能設備的一部分,上述帶有攝像頭的智能設備可以為帶有攝像頭的智能移動終端,或者帶有攝像頭的頭戴式穿戴設備,例如:谷歌眼鏡(Google Glass)、百度智能眼鏡(BaiduEye)等,或者帶有攝像頭的智能手表,或者帶有攝像頭視覺輸入的機器人,本實施例對此不作限定。
[0042]上述圖像分割裝置中,接收模塊31接收描述目標物體的動態移動過程的視頻圖像之后,通過獲取全圖光流、背景光流進而確定目標物體的前景區域即目標物體,在目標物體的動態移動過程中,對目標物體進行跟蹤,對目標物體進行靜止判斷并分割出上述目標物體所在的圖像區域,從而可以實現在對想要進行圖像識別和認識的物體進行識別的過程中,只需要拿取或搖晃目標物體即可快速獲得對目標物體的圖像分割,為下一步針對目標物體的圖像識別做準確的識別輸入。
[0043]圖像識別是人工智能方向最重要的突破,而且具有相當廣泛且有價值的使用場景,是今后搜索領域的重中之重,本發明采用全新的人機交互方式,自然的用戶界面接口,比現有的先拍照再對目標物體進行圈劃涂抹的圖像識別方式更自然更便捷。對于智能穿戴設備上的圖像識別功能,自然的交互方式顯得尤為重要,本發明可以實現用戶“所拿起即可搜索獲得結果”,本發明所實現的交互方式和用戶體驗是一種相當大的區別于其他同類或相似類別產品的重要特性。
[0044]本發明提供的方法是各種可以進行第一視角做視覺圖像信息捕捉和處理的一切智能產品非常有可能會涉及并采用的方法,本發明提供的方法是從底層算法到表象人機交互方式都有可能會復制并立即采用到產品中的一個特性和技術支持,是作為穿戴式智能視覺產品進行手勢識別的一個基本技術支持。
[0045]本發明提供的方法對于其他一切基于圖像和視覺認知能力的人工智能產品,機器人的視覺認知同用戶人類的交互方式都具有革命性的體驗,例如:將一個物體拿到機器人面前舉起搖動進而讓其認知和識別判斷此物體。
[0046]需要說明的是,在本發明的描述中,除非另有說明,“多個”的含義是兩個或兩個以上。
[0047]流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括一個或更多個用于實現特定邏輯功能或過程的步驟的可執行指令的代碼的模塊、片段或部分,并且本發明的優選實施方式的范圍包括另外的實現,其中可以不按所示出或討論的順序,包括根據所涉及的功能按基本同時的方式或按相反的順序,來執行功能,這應被本發明的實施例所屬【技術領域】的技術人員所理解。
[0048]應當理解,本發明的各部分可以用硬件、軟件、固件或它們的組合來實現。在上述實施方式中,多個步驟或方法可以用存儲在存儲器中且由合適的指令執行系統執行的軟件或固件來實現。例如,如果用硬件來實現,和在另一實施方式中一樣,可用本領域公知的下列技術中的任一項或他們的組合來實現:具有用于對數據信號實現邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(Programmable Gate Array ;以下簡稱:PGA),現場可編程門陣列(Field ProgrammableGate Array ;以下簡稱:FPGA)等。
[0049]本【技術領域】的普通技術人員可以理解實現上述實施例方法攜帶的全部或部分步驟是可以通過程序來指令相關的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質中,該程序在執行時,包括方法實施例的步驟之一或其組合。
[0050]此外,本發明各個實施例中的各功能模塊可以集成在一個處理模塊中,也可以是各個模塊單獨物理存在,也可以兩個或兩個以上模塊集成在一個模塊中。上述集成的模塊既可以采用硬件的形式實現,也可以采用軟件功能模塊的形式實現。所述集成的模塊如果以軟件功能模塊的形式實現并作為獨立的產品銷售或使用時,也可以存儲在一個計算機可讀取存儲介質中。
[0051]上述提到的存儲介質可以是只讀存儲器,磁盤或光盤等。
[0052]在本說明書的描述中,參考術語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結合該實施例或示例描述的具體特征、結構、材料或者特點包含于本發明的至少一個實施例或示例中。在本說明書中,對上述術語的示意性表述不一定指的是相同的實施例或示例。而且,描述的具體特征、結構、材料或者特點可以在任何的一個或多個實施例或示例中以合適的方式結合。
[0053]盡管上面已經示出和描述了本發明的實施例,可以理解的是,上述實施例是示例性的,不能理解為對本發明的限制,本領域的普通技術人員在本發明的范圍內可以對上述實施例進行變化、修改、替換和變型。
【權利要求】
1.一種圖像分割方法,其特征在于,包括: 接收描述目標物體的動態移動過程的視頻圖像,獲取所述視頻圖像的全圖光流,估計所述視頻圖像中每個像素的位移,以及獲取所述視頻圖像的背景光流,估計所述視頻圖像中背景像素的位移; 將所述視頻圖像中每個像素的位移與對應的背景像素的位移進行對比,獲得所述目標物體的前景區域; 對所述目標物體的前景區域中的視頻圖像進行特征點提取,并通過計算提取的特征點的概率密度確定所述目標物體的個數; 對所述目標物體進行視覺跟蹤和運動軌跡分析,以對所述目標物體進行跟蹤; 根據所述特征點的幀間位移、幀間切割窗口相似度和跟蹤框尺度變換,對所述目標物體進行靜止判斷和圖像分割。
2.根據權利要求1所述的方法,其特征在于,所述接收描述目標物體的動態移動過程的視頻圖像包括: 接收通過攝像頭輸入的描述目標物體的動態移動過程的視頻圖像。
3.根據權利要求1-2任意一項所述的方法,其特征在于,所述接收描述目標物體的動態移動過程的視頻圖像之前,還包括: 接收用戶通過語音、觸摸屏或者動態傳感器輸入的圖像識別請求,以觸發接收所述視頻圖像的操作。
4.一種圖像分割裝置,其特征在于,包括: 接收模塊,用于接收描述目標物體的動態移動過程的視頻圖像; 獲取模塊,用于獲取所述接收模塊接收的視頻圖像的全圖光流,估計所述視頻圖像中每個像素的位移,以及獲取所述接收模塊接收的視頻圖像的背景光流,估計所述視頻圖像中背景像素的位移; 對比模塊,用于將所述視頻圖像中每個像素的位移與對應的背景像素的位移進行對t匕,獲得所述目標物體的前景區域; 提取模塊,用于對所述對比模塊獲得的目標物體的前景區域中的視頻圖像進行特征點提取; 確定模塊,用于通過計算所述提取模塊提取的特征點的概率密度確定所述目標物體的個數; 跟蹤模塊,用于對所述目標物體進行視覺跟蹤和運動軌跡分析,以對所述目標物體進行跟蹤; 分割模塊,用于根據所述特征點的幀間位移、幀間切割窗口相似度和跟蹤框尺度變換,對所述目標物體進行靜止判斷和圖像分割。
5.根據權利要求4所述的裝置,其特征在于,還包括:攝像頭; 所述接收模塊,具體用于接收通過所述攝像頭輸入的描述目標物體的動態移動過程的視頻圖像。
6.根據權利要求4-5任意一項所述的裝置,其特征在于, 所述接收模塊,還用于在接收描述目標物體的動態移動過程的視頻圖像之前,接收用戶通過語音、觸摸屏或者動態傳感器輸入的圖像識別請求,以觸發接收所述視頻圖像的操
bo -J I
【文檔編號】G06T7/20GK104408743SQ201410618207
【公開日】2015年3月11日 申請日期:2014年11月5日 優先權日:2014年11月5日
【發明者】顧嘉唯, 余軼南, 王睿, 余凱 申請人:百度在線網絡技術(北京)有限公司