本發明屬于視頻監控技術領域,具體而言,涉及一種基于深度學習和強化學習的行人重識別方法及系統。
背景技術:
為了識別不同視角的非重疊監控場景下的行人身份,行人重識別技術得到廣泛發展,尤其是在監控視頻領域。由于不同監控場景下同一行人存在背景、光照、朝向等差異大的問題,因此如何解決背景、光照、朝向等因素的影響,從而快速檢測行人并進行跟蹤是當前亟待解決的技術問題。
現有的行人重識別技術主要存在如下問題:
目前的研究主要集中在如何有更好地表達特征以及如何更好地進行距離度量學習上。特征表達多集中在行人外表,比如整體或者子區域的衣著顏色,紋理特征等,運用這些特征雖然在識別上帶來了提升,但對于衣著不對稱和朝向變化帶來的差異,現有的方法尚不夠好,對于正面和背面差異較大的重識別,常常會造成匹配失敗,帶來了較多識別誤差。
現有的基于朝向的行人重識別匹配策略多是專家系統式的決策。例如,匹配決策時,每個人都使用相同的朝向進行比對,在沒有相同朝向的情況下選擇相鄰或者過渡的朝向。這樣的決策方法依賴于人為設計,對充分考慮的朝向或外表情況可以有很好的效果,但行人外表,朝向的多樣性決定了匹配準則的復雜性,也說明了這種方法的不足。
三、基于無朝向信息的匹配方法:這種方法中所有圖片沒有朝向信息,其中包括很多中匹配方法,比如(1):首先計算probe和gallery中所有圖片的匹配距離/相似度,對于probe和gallery的每一個人(包括與其多張圖片匹配的距離),選擇類內距離最小的/相似度最大的值,再對所有類進行排序;(2):計算所有probe和gallery中圖像的可能組合得到所有匹配距離/相似度,將probe和gallery中同個人的所有距離/相似度求平均值,再進行排序。論文[1]在匹配過程中,從不同類別的圖片中選取所有可能的匹配組合,通過計算權重直方圖,最大化穩定的顏色區域等方法對距離進行加權歸一化,再應用了方法3(1),選取其中最小匹配距離。
四、主要關注在如何用更好的方法來提取行人的特征上,如CN201410070931.9公開了一種行人重識別特征提取方法,該方法先進行行人檢測和行人輪廓的提取,后根據人體對稱性把行人的輪廓分為頭部、左軀干、右軀干、左腿和右腿五個感興趣區域來提取特征。
技術實現要素:
為解決現有上述技術問題,本發明利用多任務的方法構建深度神經網絡實現一次操作提取行人行為特征及朝向信息,并對其進行整理,同時對決策進行強化訓練快速選擇最優的決策模型實現對待識別圖片的處理,完成行人的重識別。
本發明提供了一種基于深度學習和強化的行人重識別方法,其特征在于,包括如下步驟:
接收視頻獲取行人圖片,根據行人圖片獲取行人坐標信息,通過光流算法和行人坐標信息計算不同幀圖片中同一行人的運動方向得到行人朝向信息,并在標注行人身份信息后得到行人訓練數據集,行人訓練數據集包含行人的朝向信息據和身份標簽;
以行人訓練數據集為基礎,利用多任務學習方法構建并訓練深度神經網絡,獲得行人朝向和身份識別的雙任務模型;
按照朝向設置決策基,根據不同決策基的組合設定決策類別,按照朝向設置決策基,根據不同決策基的組合設定決策類別,將所有的決策類別建立為決策空間,并根據預設的強化學習模型對決策空間中決策類別進行訓練計算最優決策模型;
接收待識別行人圖片,調用雙任務模型獲得該行人的朝向信息后,調用最優決策模型獲得最優決策,查詢行人庫輸出對該行人識別的檢索結果。
進一步,所述利用多任務學習方法構建深度神經網包括分別構建數據輸入層、卷積層、批規范化層、非線性層、池化層、全連接層和softmax損耗層,其中,
數據輸入層,用于接收行人圖片,對行人圖片進行預處理;
卷積層,用于提取對預處理后的行人圖片的圖像特征;
批規范化層,用于對圖像特征進行規劃化處理;
非線性層,用于圖像特征或規范化處理的圖像特征進行非線性變換;
池化層,用于將圖像特征與行人進行映射操作;
全連接層,用于對圖像特征進行線性變換;
softmax損耗層,用于計算預測類別和標簽類別的誤差。
進一步,所述按照朝向設置決策基,根據不同決策基的組合設定決策類別,將所有的決策類別建立為決策空間,并根據預設的強化學習模型對決策空間中決策類別進行訓練計算最優決策模型包括
選擇決策基組成新的決策;
根據行人朝向訓練行人朝向數據集,獲取行人朝向匹配權重,根據匹配權重確定新的決策的種類;
利用強化學習算法函數對新的決策的種類進行訓練,獲取最優決策模型。
進一步,所述利用強化學習算法函數對決策種類計算訓練,獲取最優決策模型包括
選擇新的決策計算同一行人的行人圖片預設的行人重識別庫的相似度,判斷相似度是否大于閾值T;
如果相似度大于閾值T,計算該行人圖片的回報值R,統計該行人圖片的累積回報值V(S);
最大化折算累積回報函數最大化識別率對累積回報值V(S)進行計算獲取最優決策模型π*。
本發明還提供了一種基于深度學習的行人重識別系統,包括
合并數據標簽模塊,用于接收視頻獲取行人圖片,根據行人圖片獲取行人坐標信息,通過光流算法和行人坐標信息計算不同幀圖片中同一行人的運動方向得到行人朝向信息,并在標注行人身份信息后得到行人訓練數據集,行人訓練數據集包括行人的朝向信息和身份標簽;
行人朝向計算模塊,用于以行人訓練數據集為基礎,利用多任務學習方法構建并深度神經網絡,獲得行人朝向和身份識別的雙任務模型;
決策計算模塊,用于按照朝向設置決策基,根據不同決策基的組合設定決策類別,將所有的決策類別建立為決策空間,并根據預設的強化學習模型對決策空間中決策類別進行訓練計算最優決策模型;
識別模塊,用于接收待識別行人圖片,調用雙任務模型獲得該行人的朝向信息后,調用決策學習模型獲得最優決策,查詢行人庫輸出對該行人識別的檢索結果。
進一步,所述行人朝向計算模塊
構建子模塊,用于構建數據輸入層、卷積層、批規范化層、非線性層、池化層、全連接層和softmax損耗層。
進一步,所述決策計算模塊包括
決策設定子模塊,用于選擇決策基組成新的決策;
分類子模塊,用于根據行人朝向訓練行人朝向數據集,獲取行人朝向匹配權重,根據匹配權重計確定新的決策的種類;
強化訓練子模塊,用于利用強化學習算法函數對新的決策的種類進行訓練,獲取最優決策模型。
進一步,強化訓練子模塊包括
相似度計算單元,用于選擇新的決策計算同一行人的行人圖片預設的行人重識別庫的相似度,判斷相似度是否大于閾值T;
回報值計算單元,用于如果相似度大于閾值T,計算該行人圖片的回報值R,統計該行人圖片的累積回報值V(S);
最優決策計算單元,用于最大化折算累積回報函數最大化識別率對累積回報值V(S)進行計算獲取最優決策模型π*。
進一步,進一步,
V(S)=R1+γR2+γ2R3+…,其中,γ為衰減項。
進一步,
綜上,本發明包括如下有益效果:
1、采用深度神經網絡一次完成了行人行為特征的提取和朝向識別;
2、首次將強化學習應用于行人重識別中的朝向匹配策略學習上;
3、強化學習更高效地利用朝向信息做出匹配決策;
4、使用強化學習得到的決策模型能更充分地考慮不同的場景和數據,而且這種方法可以細化到每一類都具備決策差異,更好地做到具體問題具體決策。
附圖說明
為了更清楚地說明本申請實施例或現有技術中的技術方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明中記載的一些實施例,對于本領域普通技術人員來講,還可以根據這些附圖獲得其他的附圖。
圖1-2本發明所述的基于深度學習的行人重識別方法的流程示意圖;
圖3為本發明所述的基于深度學習的行人重識別方法中S103的示意圖;
圖4為本發明所述的基于深度學習的行人重識別系統的框圖結構示意圖。
具體實施方式
為了使本領域的技術人員更好地理解本發明的技術方案,下面將結合附圖對本發明作進一步的詳細介紹。
下面通過具體的實施例并結合附圖對本發明做進一步的詳細描述。
如圖1-2所示,一種基于深度學習的行人重識別方法,包括如下步驟:
S101、接收視頻獲取行人圖片,根據行人圖片獲取行人坐標信息,通過光流算法和行人坐標信息計算不同幀圖片中同一行人的運動方向得到行人朝向信息,并在標注行人身份信息后得到行人訓練數據集,行人訓練數據集包含行人的朝向信息據和身份標簽;
本發明的目的在于對行人進行重識別,對出現在攝像機視角1下的行人在攝像機視角2下進行重新識別的過程,該技術旨在識別不同視角的非重疊監控場景下行人的身份。因此本發明中接收的視頻包括多個攝像頭的視頻輸入流,每個攝像頭的角度可能不同,因此導致同一行人在攝像頭下的朝向不同,因此需要對接收的不同攝像頭視頻中的行人圖片中的行人按照一定的策略進行匹配,判斷該行人朝向并對行人加以區別。
S102、以行人訓練數據集為基礎,利用多任務學習方法構建并訓練深度神經網絡,獲得行人朝向和身份識別的雙任務模型;
多任務學習假設待學習的多個任務具有一定的相關性,可以結合在一起進行聯合訓練,提高特征的泛化性能和使用效率。多任務學習與單任務學習的深度模型的區別在于網絡的輸出部分,多任務學習的輸入和單任務學習的輸入數據相同,但同一批數據包含了多個任務的標簽,輸出為多個分類分支,每個分支處理單個多分類任務,這樣可以大大節約數據以及計算開支,實現數據和模型的高效復用,在模型的輸出部分為多個不同任務的分類器,如softmax,在訓練的時候,根據不同任務的重要性,分配不同的學習比重,使得模型更傾向于擬合復雜的分類任務。
S103、按照朝向設置決策基,根據不同決策基的組合設定決策類別,按照朝向設置決策基,根據不同決策基的組合設定決策類別,將所有的決策類別建立為決策空間,并根據預設的強化學習模型對決策空間中決策類別進行訓練計算最優決策模型;
具體的,四個朝向可以分為四種決策/動作(action)方法,這四種是最基本的決策,稱為決策基,本發明通過不同決策基的組合設定決策的類別。比如選擇其中兩個或多個決策基加權組合成新的決策。
S104、接收待識別行人圖片,調用雙任務模型獲得該行人的朝向信息后,調用最優決策模型獲得最優決策,查詢行人庫輸出對該行人識別的檢索結果。
在識別過程中,需要進行識別的圖片(用probe表示)可以是一張,也可以是多張。而識別過程中,待識別圖片(probe)需要匹配行人庫(用gallery表示)中的圖片從而找到該庫中的同一個人。gallery一般包含多個人/類別,每個類別可以有一張圖片,也可以有多張圖片。本發明通過行人朝向和身份識別的雙任務模型的設置對待識別的圖片(probe)進行處理獲取對行人重識別及朝向信息,通過調用最優決策計算模型對probe進行處理計算該行人與gallery中行人的匹配度從而確定該行人的身份,并將檢索結果進行輸出,達到對行人重識別的目的。
如圖2所示,本發明首先對行人圖片進行處理獲取行人朝向數據、行人識別數據,在將二者進行合并處理生成合并行人訓練數據集,該數據集包括行人朝向及行人標識。同時本發明利用創建的深度神經網絡對行人訓練數據集進行圖像特征提取、線性轉換、映射等處理最終對行人朝向的誤差計算提高對行人重識別預測結果的精確性,從而獲取待視頻圖片中行人的朝向。同時本發明利用強化學習模型對決策空間中決策進行計算選擇最優決策模型進而快速實現對待識別圖片中行人匹配決策的選擇,最終提高輸出對行人的識別結果。
進一步,所述利用多任務學習方法構建深度神經網包括分別構建數據輸入層、卷積層、批規范化層、非線性層、池化層、全連接層和softmax損耗層,
其中,
數據輸入層用于接收行人圖片,對行人圖片進行預處理;
卷積層,用于提取對預處理后的行人圖片的圖像特征;
批規范化層,用于對圖像特征進行規劃化處理;
非線性層,用于圖像特征或規范化處理的圖像特征進行非線性變換;池化層,用于將圖像特征與行人進行映射操作;
全連接層,用于對圖像特征進行線性變換;
softmax損耗層,用于計算預測類別和標簽類別的誤差。非線性層提升了神經網絡的非線性表征能力,從而神經網絡可以更好地表達復雜函數關系,從而可以提取更好的特征,圖像通過卷積和非線性等操作之后得到的是高維特征,通過全連接層方便了將所有特征信息扁平化線性化輸出,全連接層對比卷積層,是卷積層的特殊形式,現有的全連接層已經不是必要的層,比如現在廣泛使用的全卷積網絡,可以簡單地認為全連接層可以把高維的數據扁平化輸出,比如做一個10分類的任務可以在最后做一個輸出維度為10的全連接然后再連接上分類器。
進一步,如圖3所示S103包括
S1031、選擇決策基組成新的決策;
S1032、根據行人朝向訓練行人朝向數據集,獲取行人朝向匹配權重,根據匹配權重確定新的決策的種類;
S1033、利用強化學習算法函數對新的決策的種類進行訓練,獲取最優決策模型。
新的決策按照不同的方式可以分為兩類:
(1)一套權重作為一種決策類別:
如公式(1)所示,S為匹配相似度,Wpq是兩張匹配圖片朝向分為p和q的匹配權重,Spq為這兩張匹配圖片的相似度,p、q均可代表右面,背面,左面或正面中任意一面。這種方法將probe(待識別圖片,即在識別過程中,需要進行識別的圖片,可以是一張,也可以是多張)和gallery(庫中的圖片進行重識別,即在識別過程中,待識別圖片probe需要匹配庫中的圖片,找到庫中的同一個人,這個庫中的圖像用gallery表示。gallery一般包含多個人/類別,每個類別可以有一張圖片,也可以有多張圖片)所有存在的組合都會乘以相應的權重而利用起來。
(2)同一套權重但組合成多種決策類別:由決策基組成的新決策中,權重在不同的數據集上可以是不同的,比如,在數據集1上學習得到的權重中,相同朝向的權重很大,不同朝向的權重很小,而在數據集2上學習得到的權重中,相同朝向匹配的權重和不同朝向匹配的權重相差不大,這種現象可以直觀地理解為,數據集1不同朝向之間的差異巨大,導致不同朝向匹配的置信度差,而數據集2不同朝向之間的差異不太大。所以如果存在n種分布區別大的數據集,方法(1)則有n種新決策,而方法(2)在gallery中四種朝向都存在的情況下共有n*11種新決策,隨著數據集分布種類的增加,決策種類也大幅增加。在不同分布的數據集上用SVM訓練得到朝向匹配權重。這些決策充分考慮了數據集的具體情況,對不同數據集的不同行人的匹配決策有更強的靈活性。這種方法的決策空間可以衍生出C44+C34+C24=11種新決策,與方法(1)的區別在于,方法(1)會使用probe與gallery的所有組合,而方法(2)會根據不同的情況選擇相應的朝向組合進行加權。例如,在gallery中某個類包含了四個朝向,方法(1)會將probe與gallery中四個朝向的所有圖片進行組合,然后按照公式(1)得到最終相似度;方法(2)則會根據probe的朝向情況抽取兩個或者三個朝向組合加權和求取最終相似度,而不是所有存在的組合都利用,最終加快匹配速度。
進一步,S1033包括
選擇新的決策計算同一行人的行人圖片預設的行人重識別庫的相似度,判斷相似度是否大于閾值T;
如果相似度大于閾值T,計算該行人圖片的回報值R,統計該行人圖片的累積回報值V(S);
最大化折算累積回報函數最大化識別率對累積回報值V(S)進行計算獲取最優決策模型π*。
進一步,
V(S)=R1+γR2+γ2R3+…,其中,γ為衰減項。
進一步,
本發明通過設計強化學習算法中的回報(reward)函數R,在一次匹配過程中(一張probe與gallery中的所有類別),probe與gallery中的一類進行匹配,代理/動作者(agent)根據probe和gallery中的朝向情況在決策空間中選擇一個決策行動(action)A,若得到的相似度大于閾值T,并且所比對的probe和gallery為同一個類,則得到回報值R,循環遍歷所有probe進行匹配最終得到折算累積回報(discounted cumulative reward)V(s),如公式(2)所示,其中γ為衰減項。在本發明中,由于匹配過程不存在時序性,為離散隨機的匹配,故衰減項為1,即每個probe與gallery的匹配都是平行的,不需要衰減。
如圖4所示,本發明還提供了一種基于深度學習的行人重識別系統,包括合并數據標簽模塊10、行人朝向計算模塊20、決策計算模塊30、識別模塊40。
其中,
合并數據標簽模塊10,用于接收視頻獲取行人圖片,根據行人圖片獲取行人坐標信息,通過光流算法和行人坐標信息計算不同幀圖片中同一行人的運動方向得到行人朝向信息,并在標注行人身份信息后得到行人訓練數據集,行人訓練數據集包括行人的朝向信息和身份標簽;
本發明通過合并數據標簽模塊實現了對接收的視頻進行處理獲取行人的朝向及行人身份標簽,初步實現了對行人訓練數據集的生成,為構建深度神經網絡提供了素材,提高了深度神經網絡對行人中行人朝向及重識別的識別精度,不需要額外的設備對視頻進行處理即可實現,提高了行人重識別的效率,降低了行人重識別的成本。
光流算法在本發明中主要起跟蹤作用,光流算法有四個主要的步驟:1、選擇感興趣的目標,在本發明中就是行人;2、計算目標圖片中的特征點,比如SIFT角點;3、預測角點在下一幀的位置;4、根據不同幀相同的角點之間的變化規律對目標進行跟蹤。例如,在本發明中,通過利用光流算法跟蹤行人的軌跡可以得到行人的運動方向,從而可以判斷出行人的朝向信息(人不會反方向行走)。可以使用其它的跟蹤算法,但是光流算法簡單易用,再配合上已經標注的行人坐標的移動信息,可以得到更加可靠的行人朝向數據。
行人朝向計算模塊20,用于以行人訓練數據集為基礎,利用多任務學習方法構建并深度神經網絡,獲得行人朝向和身份識別的雙任務模型;
決策計算模塊30,用于按照朝向設置決策基,根據不同決策基的組合設定決策類別,將所有的決策類別建立為決策空間,并根據預設的強化學習模型對決策空間中決策類別進行訓練計算最優決策模型;
識別模塊40,用于接收待識別行人圖片,調用雙任務模型獲得該行人的朝向信息后,調用決策學習模型獲得最優決策,查詢行人庫輸出對該行人識別的檢索結果。
進一步,所述決策計算模塊包括
決策設定子模塊,用于選擇決策基組成新的決策;
分類子模塊,用于根據行人朝向訓練行人朝向數據集,獲取行人朝向匹配權重,根據匹配權重計確定決策種類;
強化訓練子模塊,用于利用強化學習算法函數對決策種類計算訓練,獲取最優決策模型。
強化訓練子模塊包括
相似度計算單元,用于選擇新的決策計算同一行人的行人圖片預設的行人重識別庫的相似度,判斷相似度是否大于閾值T;
回報值計算單元,用于如果相似度大于閾值T,計算該行人圖片的回報值R,統計該行人圖片的累積回報值V(S);
最優決策計算單元,用于最大化折算累積回報函數最大化識別率對累積回報值V(S)進行計算獲取最優決策模型π*。
進一步,所述合并數據標簽模塊包括
朝向子模塊,用于根據行人圖片獲取行人坐標信息,通過光流算法和行人坐標信息計算不同行人圖片中同一行人的運動方向得到行人朝向數據;
行人識別子模塊,用于對行人朝向數據進行清洗,對朝向數據中的行人進行標記。
進一步,所述決策計算模塊包括
決策空間建立子模塊,用于根據決策基建立決策空間;
決策強化計算子模塊,用于根據回報函數對決策空間計算,獲取最優決策模型。
更進一步,所述決策空間建立子模塊包括
決策設置單元,用于選擇決策基組成新的決策;
分類子單元,用于根據行人朝向權重的設置將新的決策按照進行分類。
更進一步,所述決策強化計算子模塊包括
相似度計算單元,用于選擇新的決策計算同一行人的行人圖片預設的行人重識別庫的相似度,判斷相似度是否大于閾值T;
回報值計算單元,用于如果相似度大于閾值T,計算該行人圖片的回報值R,統計該行人圖片的累積回報值V(S);
最優決策計算單元,用于最大化折算累積回報函數最大化識別率對累積回報值V(S)進行計算獲取最優決策模型π*。
以上只通過說明的方式描述了本發明的某些示范性實施例,毋庸置疑,對于本領域的普通技術人員,在不偏離本發明的精神和范圍的情況下,可以用各種不同的方式對所描述的實施例進行修正。因此,上述附圖和描述在本質上是說明性的,不應理解為對本發明權利要求保護范圍的限制。