基于距離預測信息的圖像視頻場景識別方法
【專利摘要】本發明提供一種基于距離預測信息的圖像視頻場景識別方法,所述方法至少包括:步驟一、采用已有的圖像訓練集訓練獲得距離預測模型,將所述距離預測模型應用于待預測的RGB圖像,獲取所述RGB圖像對應的距離預測信息,再從所述距離預測信息中提取距離特征;步驟二、采用已有的圖像視頻集訓練獲得特征分類器,利用所述特征分類器和所述距離特征進行預測,得到圖像視頻的場景類別。本發明的圖像視頻場景識別的方法,利用基于RGB圖像內容的距離預測信息,獲取表示距離預測信息及視覺顏色信息等圖像特征,再利用訓練的各種分類器,對待預測RGB圖像進行場景識別,提高了圖像視頻場景識別的能力。
【專利說明】
基于距離預測信息的圖像視頻場景識別方法
技術領域
[0001]本發明屬于信息技術領域,涉及一種圖像視頻場景識別方法,特別是涉及一種基于距離預測信息的圖像視頻場景識別方法。
【背景技術】
[0002]場景理解是計算機視覺領域的一個重要問題。圖像視頻場景識別作為場景理解的一個主要任務,是指利用圖像視頻中的視覺信息,自動對其進行處理和分析,并判斷出其中所帶有的特定場景。隨著過去幾十年來互聯網技術和大容量存儲技術的快速發展,大規模圖像視頻數據集陸續出現,各類場景識別方法被提出,其一般步驟包括:先對圖像視頻的視覺信息進行描述,也被稱為視覺特征提取;再使用已經獲取的針對不同場景的識別模型對上述視覺特征進行特征匹配和分類,最終得到圖像視頻場景識別的結果。
[0003]視覺特征大致包括底層視覺特征、中層視覺特征和基于學習的特征。底層視覺特征主要是對圖像視頻顏色、紋理等視覺信息的直接描述。中層視覺特征通常需要設計大量的視覺概念檢測器,或挑選出較有區分性的圖像區域,再利用概念檢測器的結果或圖像區域的特征連接構成中層特征表示。基于學習的特征通過訓練特征學習模型,例如深度神經網絡模型,將模型的輸出或中間結果作為特征表示。上述幾類視覺特征都是基于圖像視頻的視覺內容信息,而根據認知科學的研究,視覺畫面的距離信息或深度信息對人類識別所處的場景能夠起到重要的作用。
[0004]近年來,隨著以Kinect為代表的攝像機的出現,人們可以更加容易的獲取帶有距離信息的圖像視頻,這類圖像被稱為RGB-D圖像/視頻(RGB-D分別代表Red Green BlueDepth通道),而傳統攝像機獲取的不帶有距離信息的圖像也可稱為RGB圖像/視頻。基于RGB-D圖像的方法在姿態識別、圖像分割、物體檢測等任務上取得了性能的提升。在場景識別領域,使用基于RGB-D圖像訓練的模型也進一步提升了 RGB-D圖像的識別精度。但是,這類方法還有較大的局限性,包括:
[0005]1、方法的測試和使用是針對帶有距離信息的RGB-D圖像,而實際應用過程中,大多數攝像頭都只能采集RGB信息而不能獲取距離信息,這就限制了模型的可用性;
[0006]2、用于訓練模型的是RGB-D數據集,但RGB-D圖像視頻數據數量大大小于僅包含RGB信息的數據,這將影響到模型最終的識別效果。
【發明內容】
[0007]鑒于以上所述現有技術的缺點,本發明的目的在于提供一種基于距離預測信息的圖像視頻場景識別方法,用于解決現有技術中場景識別精度低、效果差的問題。
[0008]為實現上述目的及其他相關目的,本發明提供一種基于距離預測信息的圖像視頻場景識別方法,所述識別方法至少包括:
[0009]步驟一、采用已有的圖像訓練集訓練獲得距離預測模型,將所述距離預測模型應用于待預測的RGB圖像,獲取所述RGB圖像對應的距離預測信息,再從所述距離預測信息中提取距離特征;
[0010]步驟二、采用已有的圖像視頻集訓練獲得特征分類器,利用所述特征分類器和所述距離特征進行預測,得到圖像視頻的場景類別。
[0011]優選地,所述步驟一中,采用已有的RGB-D圖像訓練集訓練多尺度下的距離預測模型,并將所述多尺度下的距離預測模型合并得到最終的預測模型,利用最終的預測模型獲取所述RGB圖像對應的距離預測信息后,從所述距離預測信息中直接提取距離特征。
[0012]優選地,所述RGB-D圖像訓練集還包含一部分帶有距離標注信息的RGB圖像。
[0013]優選地,對獲取的所述距離預測信息進行數值變換,從變換后的距離預測信息中提取距離特征。
[0014]優選地,進行數值變化之前,將獲得所述距離預測信息結合待預測的RGB圖像生成新的RGB-D圖像,再將新的RGB-D圖像加入已有的RGB-D圖像訓練集,從而擴展已有的RGB-D
圖像訓練集。
[0015]優選地,所述步驟一中,采用全卷積神經網絡或者條件隨機場算法訓練獲得所述距離預測模型。
[0016]優選地,所述步驟一中,從所述距離預測信息中提取距離特征的方法為:直接提取RGB圖像上的全局統計信息和局部紋理信息,進而生成全局或局部的距離特征表示,或者使用基于全卷積神經網絡的機器學習的特征提取算法生成特征提取模型,進而生成深度信息圖像的高層語義距離特征表示。
[0017]優選地,所述步驟二中,所述特征分類器為SVM、神經網絡或者決策樹。
[0018]優選地,所述步驟二中,所述特征分類器包括距離特征分類器,利用所述距離特征分類器和所述距離特征進行預測,得到圖像視頻的場景類別。
[0019]優選地,所述步驟二中,所述特征分類器包括距離特征分類器和視覺特征分類器,先通過所述步驟一提取所述距離特征,同時從待預測的RGB圖像提取視覺特征,對所述距離特征,利用所述距離特征分類器進行預測,獲得所述距離特征的場景識別置信度,對所述視覺特征,利用所述視覺特征分類器進行預測,獲得所述視覺特征的場景識別置信度,最后融合距離特征的場景識別置信度和視覺特征景識別置信度,得到圖像視頻的場景類別。
[0020]優選地,所述特征分類器包括融合特征分類器,通過所述步驟一提取所述距離特征,同時從待預測的RGB圖像提取視覺特征,將所述距離特征和視覺特征進行融合,獲得融合后的圖像特征,再利用已有的圖像視頻集訓練獲得所述融合特征分類器,對所述融合后的圖像特征,利用所述融合特征分類器進行預測,得到圖像視頻的場景類別。
[0021]如上所述,本發明的基于距離預測信息的圖像視頻場景識別方法,所述方法至少包括:步驟一、采用已有的圖像訓練集訓練獲得距離預測模型,將所述距離預測模型應用于待預測的RGB圖像,獲取所述RGB圖像對應的距離預測信息,再從所述距離預測信息中提取距離特征;步驟二、采用已有的圖像視頻集訓練獲得特征分類器,利用所述特征分類器和所述距離特征進行預測,得到圖像視頻的場景類別。本發明的圖像視頻場景識別的方法,利用基于視覺內容的距離預測信息,獲取表示距離預測信息及視覺顏色信息等視覺特征,再利用訓練的各種分類器,對RGB圖像進行場景識別,提高了圖像視頻場景識別的能力。
【附圖說明】
[0022]圖1是本發明實施例一中的距離預測信息的特征表示的流程示意圖。
[0023]圖2是本發明實施例二中的距離預測信息的特征表示的流程示意圖。
[0024]圖3是本發明實施例三中場景識別的方法其中一種流程示意圖。
[0025]圖4是本發明實施例四中場景識別的方法另一種流程示意圖。
[0026]圖5是本發明實施例五中場景識別的方法再一種流程示意圖。
【具體實施方式】
[0027]以下通過特定的具體實例說明本發明的實施方式,本領域技術人員可由本說明書所揭露的內容輕易地了解本發明的其他優點與功效。本發明還可以通過另外不同的【具體實施方式】加以實施或應用,本說明書中的各項細節也可以基于不同觀點與應用,在沒有背離本發明的精神下進行各種修飾或改變。
[0028]請參閱附圖。需要說明的是,本實施例中所提供的圖示僅以示意方式說明本發明的基本構想,遂圖式中僅顯示與本發明中有關的組件而非按照實際實施時的組件數目、形狀及尺寸繪制,其實際實施時各組件的型態、數量及比例可為一種隨意的改變,且其組件布局型態也可能更為復雜。
[0029]實施例一
[0030]請參閱附圖1,該附圖為從距離預測信息中提取距離特征的流程示意圖,即為本發明基于距離預測信息的圖像視頻場景識別方法的步驟一,本實施例從距離預測信息中提取距離特征的的流程包括:
[0031]I)采用已有的圖像訓練集(或者訓練圖像集)訓練獲得距離預測模型。具體地,圖像訓練集由使用RGB-D攝像頭獲取的RGB-D圖像組成,每張圖像均包含各位置的距離信息。可選地,訓練圖像集還可以包含部分RGB圖像,這些圖像帶有少量距離標注信息,用于提升距離預測模型的精度。訓練距離預測模型以多個尺度下的圖像的RGB信息作為輸入,以RGB-D圖像的D通道上的深度信息和/或RGB圖像的距離標注作為擬合目標。例如,可以使用全卷積神經網絡(Fully Convolut1nal Neural Networks)訓練距離預測模型,也可以使用條件隨機場算法(Condit1nal Random Field)訓練模型。
[0032]2)使用距離預測模型對RGB圖像預測每個像素點的距離信息。具體地,給定一張RGB圖像,將其輸入距離預測模型,通過計算模型(距離預測模型)將預測每個像素點的距離
?目息O
[0033]3)結合RGB圖像與距離預測信息生成表示距離的特征。具體地,將生成的距離預測信息作為一張二維灰度圖像信息,提取其中帶有的信息。具體的提取方法可以分為兩類:直接提取灰度圖像上的全局統計信息和局部紋理信息,進而生成全局或局部的特征表示;使用基于機器學習的特征提取算法,如使用基于全卷積神經網絡(Convolut1nal NeuralNetworks)生成的特征提取模型,生成深度信息圖像的高層語義表示。
[0034]實施例二
[0035]請參閱附圖2,該附圖為從距離預測信息中提取距離特征的另一流程示意圖,也為本發明基于距離預測信息的圖像視頻場景識別方法的步驟一,本實施例從距離預測信息中提取距離特征的的流程包括:
[0036]I)采用已有的圖像訓練集(或者訓練圖像集)訓練獲得距離預測模型。該步驟與實施例一中的步驟I)相同。
[0037]2)使用距離預測模型對RGB圖像預測每個像素點的距離信息。該步驟與實施例一中的步驟2)相同。
[0038]3)使用預測的距離信息擴展RGB-D圖像訓練集。該步驟為可選步驟,其主要作用是利用步驟2)生成的距離預測信息結合原有圖像的RGB通道(可以是待預測的RGB圖像,也可以是待預測RGB圖像以外的、與待預測圖像帶有類似內容的其他RGB圖像),生成新的RGB-D圖像,并用于擴充步驟I)中的圖像訓練集,從而提高距離預測的精度。
[0039]4)對圖像的距離預測信息進行數值變換。該步驟的主要目的在于進一步挖掘距離信息的表示能力。例如,將每個像素點的深度預測信息直接量化到灰度圖像的數值區間,從而將其距離預測信息轉化為灰度圖像;再將灰度圖像通過著色的方法轉換為RGB信息,生成RGB圖像。又例如,結合圖像上物體的幾何分布信息,將預測的距離信息轉化為帶有更強分辨能力的信息,如圖像中每個像素點的角度信息、像素點對應物體離地高度信息、相對距離信息等,并將各類信息量化到圖像的數值區間,從而整合為一張新的RGB圖像。
[0040]5)結合RGB圖像與距離預測信息生成表示距離的特征(即從所述距離預測信息中提取距離特征)。利用步驟4生成的表征距離信息的RGB通道信息提取其中帶有的信息。具體的提取方法可以分為兩類:直接提取彩色圖像上的全局統計信息和局部紋理信息,進而生成全局或局部的特征表示;使用基于機器學習的特征提取算法,如使用全卷積神經網絡(Convolut1nal Neural Networks),生成深度信息圖像的高層語義表示。
[0041 ] 實施例三
[0042]請參閱附圖3,該附圖為本發明基于距離預測信息的圖像視頻場景識別方法的其中一種流程示意圖,識別方法的流程包括:
[0043]I)提取圖像距離特征(即距離預測信息中提取距離特征)。具體是,給定一張RGB圖像,然后使用實施例一或實施例二提供的流程提取出對應的圖像距離特征。
[0044]2)利用預訓練的距離特征分類器對該給定圖像進行場景識別,獲取場景識別結果。給定一個場景,使用帶該場景標注的RGB圖像數據集(即圖像視頻集),每張數據集圖像分別提取步驟I)的距離特征,再針對場景類別訓練距離特征分類器,例如,可以利用線性核函數的支撐向量機(Support Vector Machines)或隨機森林(Random Forest)。如果有多個場景類別,則分別訓練多個分類器(可以是SVM、神經網絡或者決策樹)。對于輸入圖像,利用訓練好的場景分類器進行分類,輸出為分類器對應場景類別的識別置信度,其中置信度最高的場景類別即為最終的圖像識別類別。
[0045]實施例四
[0046]請參閱附圖4,該附圖為本發明基于距離預測信息的圖像視頻場景識別方法的另一種流程示意圖,識別方法的流程包括:
[0047]I)提取圖像距離特征和圖像視覺特征。具體地,提取圖像距離特征與實施例三中步驟I)相同,另外,還需提取RGB圖像上的視覺特征,如顏色特征、紋理特征等。
[0048]2)對距離特征和視覺特征,分別利用預訓練的分類器對該給定圖像進行場景識另IJ,獲取各類特征對應的場景識別置信度。該步驟的分類器訓練與識別流程與實施例三中的步驟2)相同。具體地,對所述距離特征,利用所述距離特征分類器(可以是SVM、神經網絡或者決策樹)進行預測,獲得所述距離特征的場景識別置信度,對所述視覺特征,利用所述視覺特征分類器(SVM、神經網絡或者決策樹)進行預測,獲得所述視覺特征的場景識別置信度。
[0049]3)融合獲取的所有場景識別置信度,得到場景識別結果(即得到圖像視頻的場景類別)。對各類特征獲取的場景識別置信度,首先進行歸一化,例如,采用Soft-max歸一化方法。對歸一化后的置信度進行融合可以采用兩類方法:直接對置信度相加或相乘;或再訓練一個用于融合的分類器,將分類結果作為場景識別的結果。
[0050]實施例五
[0051]請參閱附圖5,該附圖為本發明基于距離預測信息的圖像視頻場景識別方法的再一種流程示意圖,識別方法的流程包括:
[0052]I)提取圖像距離特征和圖像視覺特征。該步驟與實施例四種的步驟I)相同。
[0053]2)對距離特征和視覺特征進行特征融合。首先對每個特征進行特征內歸一化,將所有特征串聯成一個更高維度的圖像特征。可選地,采用主成分分析(P r i n C i P a IComponent Analysis)等方法,對融合后的特征進行特征變換,得到維度更低的特征。
[0054]3)對融合后的圖像特征,利用預訓練的分類器(融合特征分類器)對該給定圖像進行場景識別,獲取場景識別結果(即得到圖像視頻的場景類別)。該步驟的分類器訓練與識別流程與實施例3中的步驟2)相同。
[0055]需要說明的是,所有實施例中,訓練距離特征分類器、視覺特征分類器以及融合特征分類器的方法均相同,只是訓練的參數不同而已。
[0056]上述實施例僅例示性說明本發明的原理及其功效,而非用于限制本發明。任何熟悉此技術的人士皆可在不違背本發明的精神及范疇下,對上述實施例進行修飾或改變。因此,舉凡所屬技術領域中具有通常知識者在未脫離本發明所揭示的精神與技術思想下所完成的一切等效修飾或改變,仍應由本發明的權利要求所涵蓋。
【主權項】
1.一種基于距離預測信息的圖像視頻場景識別方法,其特征在于,所述識別方法至少包括: 步驟一、采用已有的圖像訓練集訓練獲得距離預測模型,將所述距離預測模型應用于待預測的RGB圖像,獲取所述RGB圖像對應的距離預測信息,再從所述距離預測信息中提取距離特征; 步驟二、采用已有的圖像視頻集訓練獲得特征分類器,利用所述特征分類器和所述距離特征進行預測,得到圖像視頻的場景類別。2.根據權利要求1所述的基于距離預測信息的圖像視頻場景識別方法,其特征在于:所述步驟一中,采用已有的RGB-D圖像訓練集訓練多尺度下的距離預測模型,并將所述多尺度下的距離預測模型合并得到最終的預測模型,利用最終的預測模型獲取所述RGB圖像對應的距離預測信息后,從所述距離預測信息中直接提取距離特征。3.根據權利要求2所述的基于距離預測信息的圖像視頻場景識別方法,其特征在于:所述RGB-D圖像訓練集還包含一部分帶有距離標注信息的RGB圖像。4.根據權利要求2或3所述的基于距離預測信息的圖像視頻場景識別方法,其特征在于:對獲取的所述距離預測信息進行數值變換,從變換后的距離預測信息中提取距離特征。5.根據權利要求4所述的基于距離預測信息的圖像視頻場景識別方法,其特征在于:進行數值變化之前,將獲得所述距離預測信息結合待預測的RGB圖像生成新的RGB-D圖像,再將新的RGB-D圖像加入已有的RGB-D圖像訓練集,從而擴展已有的RGB-D圖像訓練集。6.根據權利要求1所述的基于距離預測信息的圖像視頻場景識別方法,其特征在于:所述步驟一中,采用全卷積神經網絡或者條件隨機場算法訓練獲得所述距離預測模型。7.根據權利要求1所述的基于距離預測信息的圖像視頻場景識別方法,其特征在于:所述步驟一中,從所述距離預測信息中提取距離特征的方法為:直接提取RGB圖像上的全局統計信息和局部紋理信息,進而生成全局或局部的距離特征表示,或者使用基于全卷積神經網絡的機器學習的特征提取算法生成特征提取模型,進而生成深度信息圖像的高層語義距離特征表示。8.根據權利要求1所述的基于距離預測信息的圖像視頻場景識別方法,其特征在于:所述步驟二中,所述特征分類器為SVM、神經網絡或者決策樹。9.根據權利要求1所述的基于距離預測信息的圖像視頻場景識別方法,其特征在于:所述步驟二中,所述特征分類器包括距離特征分類器,利用所述距離特征分類器和所述距離特征進行預測,得到圖像視頻的場景類別。10.根據權利要求1所述的基于距離預測信息的圖像視頻場景識別方法,其特征在于:所述步驟二中,所述特征分類器包括距離特征分類器和視覺特征分類器,先通過所述步驟一提取所述距離特征,同時從待預測的RGB圖像提取視覺特征,對所述距離特征,利用所述距離特征分類器進行預測,獲得所述距離特征的場景識別置信度,對所述視覺特征,利用所述視覺特征分類器進行預測,獲得所述視覺特征的場景識別置信度,最后融合距離特征的場景識別置信度和視覺特征景識別置信度,得到圖像視頻的場景類別。11.根據權利要求1所述的基于距離預測信息的圖像視頻場景識別方法,其特征在于:所述特征分類器包括融合特征分類器,通過所述步驟一提取所述距離特征,同時從待預測的RGB圖像提取視覺特征,將所述距離特征和視覺特征進行融合,獲得融合后的圖像特征,再利用已有的圖像視頻集訓練獲得所述融合特征分類器,對所述融合后的圖像特征,利用所述融合特征分類器進行預測,得到圖像視頻的場景類別。
【文檔編號】G06K9/62GK106096542SQ201610404156
【公開日】2016年11月9日
【申請日】2016年6月8日
【發明人】鄭瑩斌, 汪宏, 葉浩
【申請人】中國科學院上海高等研究院, 上海市信息技術研究中心