本公開涉及輻射成像安全檢查領域,特別地,涉及對集裝箱的自動檢查,以確定是否涉及偽報/瞞報。
背景技術:
智能查驗是安檢領域發展的熱點領域。在當前互聯網技術深入人心,云計算逐步進入各個行業的條件下,智能安檢愈發成為各國海關的焦點問題。安檢智能化既可以為客戶提供更快速便捷的服務,提高安檢效率,也在提高查獲率的同時給海關查驗人員更有價值的信息,是當前業界廠商提升產品價值的重要途徑之一。使用報關單/艙單數據(以下簡稱為報關單),并通過圖像處理、語義理解的方法實現圖單對比,并實現偽報、瞞報查驗是智能化方案中的一種手段。
但該技術目前仍在發展初期,手段并不成熟,算法或軟件系統還難于充分滿足用戶需求。例如利用報關單信息,采用圖像匹配的方式實現報關單對比。但是該技術過于理想化,事實上效果較差,難于適用于透視圖像中嚴重的非剛性形變、透視疊加等情況,也難于應用于大規模類別的實時處理。此外,在大數據推理條件下,使用圖像分類算法,可以實現報關單分析比對,它的局限在于對在大規模分類目情況下效果受限。
因此,現有的報關單對比算法效果受到多種因素的制約,例如大規模類目、類目區域差異性、新類目自學習、類內差異大、設備間性能差異、一箱多貨與透視重疊下的圖像區域區分等。現有技術的方法對此不做分析,難于在實際中滿足用戶需求。
技術實現要素:
鑒于現有技術中的一個或多個技術問題,本公開提出了一種檢查 貨物的方法和系統。
在本公開的一個方面,提出了一種檢查貨物的方法,包括步驟:獲得被檢查貨物的透射圖像和HSCODE;對所述透射圖像進行處理,得到感興趣區域;利用所述被檢查貨物的HSCODE從模型庫中檢索基于HSCODE所創建的模型;以及基于所述模型判斷所述感興趣區域是否包含有未在報關單中注明的貨物。
優選地,對所述透射圖像進行處理得到感興趣區域的步驟包括步驟:以所述被檢查貨物的HSCODE所代表的貨物種類作為監督值,對所述透射圖像進行有監督的圖像分割,得到至少一個分割區,作為感興趣區域。
優選地,基于所述模型判斷所述感興趣區域是否包含有未在所述報關單中注明的貨物的步驟包括:對各個分割區進行特征提取,得到各個分割區的紋理描述,形成特征向量;判斷所述模型中包括的各個模板與各個分割區的特征向量之間的相似度是否大于閾值;在至少一個分割區域的特征向量與所述模型的各個模板之間的相似度不大于閾值的情況下確定所述被檢查貨物中包含了報關單未注明的貨物。
優選地,利用所述被檢查貨物的HSCODE從模型庫中檢索基于HSCODE所創建的模型的步驟包括:從本地模型庫和/或云端模型庫中檢索所有與所述HSCODE的前預定位相對應的模型。
優選地,對所檢索到的模型進行排序,按照所排的順序判斷所述感興趣區域是否包含有未在報關單中注明的貨物,如果有至少一個分割區的特征向量與至少一個模型的模板之間的相似度不大于所述閾值,則確定所述被檢查貨物中包含了報關單未注明的貨物。
優選地,所述的方法還包括步驟:更新本地模型庫和/或云端模型庫中所有與所述HSCODE的前預定位相對應的模型。
優選地,在圖像中的邊緣處進行局部區域采樣,然后提取采樣點的多尺度頻域特征,根據所述多尺度頻域特征得到特征向量。
優選地,在所述報關單不包括HSCODE的情況下,根據所述報關單記載的貨物名稱來確定所述貨物的HSCODE。
優選地,每個模型中的模板包括特征向量,模板的數量被設為模板數,當模型中模板不夠該數量時,新樣本的特征向量直接作為模板 記錄;當模型中模板已達到該數量時,與模型匹配樣本的特征向量不作為模板,只增加與其相似度最高的模板的權值,而新樣本的特征向量與模型中的模板不匹配時,權重最小的模板被替換為新樣本的特征向量。
優選地,所述模型至少包括如下的信息:設備標識、HSCODE標識、模板最大數量、各個模板、各個模板權值、各個模板在歷史圖像庫中的唯一標識、相似度閾值。
在本公開的另一方面,提出了一種檢查貨物的系統,包括:掃描設備,獲得被檢查貨物的透射圖像和HSCODE;數據處理設備,對所述透射圖像進行處理,得到感興趣區域,利用所述被檢查貨物的HSCODE從模型庫中檢索基于HSCODE所創建的模型,以及基于所述模型判斷所述感興趣區域是否包含有未在報關單中注明的貨物。
利用上述方案,能夠發現集裝箱貨物圖像中,與物品申報的報關單數據不一致的區域,從而認為這個區域可能是偽報或瞞報。
附圖說明
為了更好的理解本公開,將根據以下附圖對本公開的實施例進行描述:
圖1A和圖1B示出了根據本公開實施例的貨物檢查系統的結構示意圖;
圖2是描述根據本公開實施例的貨物檢查方法的示意性流程圖;
圖3是描述根據本公開實施例的方案中創建和訓練HSCODE模型的方法的示意性流程圖;
圖4是描述根據本公開實施例的方案中使用創建的模型進行檢查的方法的示意性流程圖;
圖5是描述根據本公開實施例的方案中在線更新所創建的模型的示意性流程圖。
附圖沒有對實施例的所有電路或結構進行顯示。貫穿所有附圖相同的附圖標記表示相同或相似的部件或特征。
具體實施方式
下面將詳細描述本公開的具體實施例,應當注意,這里描述的實施例只用于舉例說明,并不用于限制本公開。在以下描述中,為了提供對本公開的透徹理解,闡述了大量特定細節。然而,對于本領域普通技術人員顯而易見的是:不必采用這些特定細節來實行本公開。在其他實例中,為了避免混淆本公開,未具體描述公知的電路、材料或方法。
在整個說明書中,對“一個實施例”、“實施例”、“一個示例”或“示例”的提及意味著:結合該實施例或示例描述的特定特征、結構或特性被包含在本公開至少一個實施例中。因此,在整個說明書的各個地方出現的短語“在一個實施例中”、“在實施例中”、“一個示例”或“示例”不一定都指同一實施例或示例。此外,可以以任何適當的組合和/或子組合將特定的特征、結構或特性組合在一個或多個實施例或示例中。此外,本領域普通技術人員應當理解,在此提供的附圖都是為了說明的目的,并且附圖不一定是按比例繪制的。這里使用的術語“和/或”包括一個或多個相關列出的項目的任何和所有組合。
圖1A和圖1B是根據本公開一個實施方式的檢查系統的結構示意圖。圖1A示出了檢查系統的俯視示意圖,圖1B示出了檢查系統的正視示意圖。如圖1A和圖1B所示,射線源110產生X射線,經過準直器120準直后,對移動的集裝箱卡車140進行安全檢查,由探測器150接收穿透卡車的射線,在諸如計算機之類的數據處理裝置160得到透射圖像。
根據本公開的實施例,在通過掃描得到集裝箱卡車140的透射圖像后,在數據處理裝置160對透射圖像進行處理,得到感興趣區域,利用被檢查貨物的HSCODE從模型庫中檢索基于HSCODE所創建的模型,以及基于所述模型判斷所述感興趣區域是否包含有未在報關單中注明的貨物。這樣,能夠自動檢查集裝箱貨物中是否存在偽報/瞞報問題。
本公開提出使用國際海關理事會制定的HSCODE(The Harmonization System中Code)作為貨物的唯一標識進行比對,即對每個HSCODE建立模型,模型中包含可描述該HSCODE對應的貨物圖像特征的特征空間。在一些實施例中,針對類目為多級層次性結構問題, 采用各級分別建模,比對時逐級匹配的策略。比如世界通用的HSCODE為6位編碼,后面的位數由各個國家自己定義。2013年中國海關進出口貨物常見的HSCODE中,二級(8位)編碼6341種,三級(10位)編碼6735種,總共13076個編碼。為滿足通用性,模型分三層即6位/8位/10位建立。假設物品為10位編碼“0123456789”,則匹配策略可以是:分別與6位模型“012345”、8為模型“012345678”、10位模型“0123456789”求匹配,以克服大規模類目、類目區域差異性、類內差異大的問題。
圖2是描述根據本公開實施例的貨物檢查方法的示意性流程圖。如圖2所示,在步驟S21,獲得被檢查貨物的透射圖像和HSCODE。例如利用如圖1A和圖1B所示的掃描設備獲得被檢查集裝箱的透射圖像,并且從報關單取得獲取的HSCODE。在報關單中沒有包含HSCODE的情況下,利用貨物的名稱確定相應的HSCODE。
在步驟S22,對所述透射圖像進行處理,得到感興趣區域。例如,為提取貨物區域,并盡量減少設備物理特性不一致對圖像造成的影響。首先,通過去除本底與空氣帶來的衰減、去除行/列條紋等圖像處理操作,實現歸一化。其次,通過二值化、邊緣提取、集裝箱邊緣檢測等操作,得到貨物區域。
在步驟S23,利用所述被檢查貨物的HSCODE從模型庫中檢索基于HSCODE所創建的模型。在步驟S24,基于所述模型判斷所述感興趣區域是否包含有未在報關單中注明的貨物。
本公開提出建立設備端模型(本地模型)與云端模型克服設備間的差異問題。云端模型來源于計算中心,在線更新并保持最完備的HSCODE類目,但它將設備差別進行歸一化,準確率較本地模型差。本地模型在設備端積累足夠量的歷史圖像后,在設備端產生,更符合該設備情況,但HSCODE類目少于云端。對于一個新設備,本身不具備本地模型,只能使用云端模型。在積累足夠圖像并訓練產生設備模型后,自動選擇本地模型而不是云端模型進行比對。注意,云端模型并不必須在線使用。它可以是離線或者采用定時同步的模式。
此外,對于待分析的圖像,在得到用戶指示后,將其特征更新到本地模型及云端模型,從而實現自學習功能。這個更新可能是新生成 相應的HSCODE模型,也可能是對當前模型的修改。
一箱多貨的問題是當前技術條件下難以完全解決的難題,只能在一定程度上得到比較可行的結果。準確的說,它是受到設備不一致性影響的,在報關單數據監督下的多義性復雜分割問題。比如,不同的設備下,報關單的數據形式給出了多個監督值(比如貨物有多少種,每種類型與單位重量等),圖像上的每個像素可能屬于多個貨物等。復雜性還體現在,上述因素出現的形式可能不一致,且并不準確。針對上述問題,可以采用有監督的紋理圖像分割算法來解決。
針對現有技術中的問題,本公開的技術方案提出以HSCODE為基準實現報關單對比,HSCODE模型具有層次結構,并可以采用本地/云端雙模型策略。此外,可以采用有監督的紋理圖像分割和區域紋理描述實現特征提取,以特征之間的距離作為相似度度量。也可以以最大差異化原則更新HSCODE模型,實現系統自學習功能。
以HSCODE為基準實現報關單對比。對于每個HSCODE建立各自的模型,從HSCODE的角度說,模型分為6位/8位/10位層次結構,從設備角度說,模型分為本地模型和云端模型。需要注意的是HSCODE對于報關單對比來說并非必要。比如報關單可能只有貨物名稱而沒有編號,那么一般的方法可以是名稱解析、文本檢索得到相應的歷史圖像,在歷史圖像中實現比對。優選的,對于不具備編碼的報關單,通過貨物名稱與HSCODE的映射得到HSCODE,從而找到對應的模型。為減小設備不一致性帶來的影響,訓練設備相關的本地模型。在不具備本地模型的情況下,使用設備無關的云端模型。云端模型持續更新,保持最多模型量。本地模型與云端模型無關,可以完全相同,也可以采用不同算法。
使用HSCODE貨物種類作為監督值,進行有監督的圖像分割,并在每個分割區域獲取區域紋理描述,即特征向量。HSCODE模型中保存多個歷史圖像的特征向量。特征向量之間的距離即為相似度。優選的,未知樣本特征與模型中多個向量(即模板)中最大相似度即為樣本與該HSCODE的相似度。注意,貨物圖像區域區分方式、特征提取方式有多種方法可以選擇,比如采用圖像列聚類的方式劃分區域,采用圖像特征patch及其統計量形成特征等。
上述模型可以具備自學習功能,包括在線的建立與更新。本公開采用最大差異化原則更新HSCODE模型。為了使得模型可控且減小樣本量不一致帶來的影響,每個模型中的特征被稱為“模板”,模板的數量被設為統一的“模板數”。當模型中模板不夠該數量時,新樣本的特征直接作為模板記錄;當模型中模板已達到該數量時,與模型匹配樣本不作為模板,只增加與其相似度最高的模板的權值,而新樣本與模型不匹配時,權重最小的模板將被替換為新樣本特征。由此,HSCODE中的模板將形成差異最大的一組模板,支撐該模型特征空間。注意,最大差異化原則可以采用多種在線學習方法實現。
該技術方案在具體實現時,涉及到訓練、使用、在線更新三個環節。訓練環節分為3個步驟:圖像歸一化與有效貨物區域獲取;有效區域特征提取;建立HSCODE模型。使用分5個步驟:圖像歸一化與有效貨物區域獲取;有監督的圖像分割;模型載入;區域特征提取;特征與模型匹配。在線更新是在確認樣本符合報關單的情況下,創建新模型或更新已有模型。
圖3是描述根據本公開實施例的方案中創建和訓練HSCODE模型的方法的示意性流程圖。如圖3所示,在步驟S31,獲得樣本圖像,然后在步驟S32進行圖像歸一化與有效貨物區域獲取。為了提取貨物區域并減少設備物理特性不一致對圖像造成的影響,可以首先,通過去除本底與空氣帶來的衰減、去除行/列條紋等圖像處理操作,實現歸一化,其次,通過二值化、邊緣提取、集裝箱邊緣檢測等操作,得到貨物區域。
在步驟S33,進行有效區域特征提取。優選的,可以選擇紋理統計特征,特別是基于邊緣采樣的紋理統計特征來描述一個區域。例如:i)為突出邊緣信息,在圖像中的邊緣處進行局部區域采樣;ii)為突出紋理特性,本公開采用texton提取采樣點的多尺度頻域特征;iii)為有效描述這些紋理特征的統計特性,采用fisher vector得到最終的特征向量。本領域的技術人員易于想到該算法的多種替代形式,比如使用各類角點檢測方法如HARRIS等代替邊緣采樣,或使用SIFT、HOG等描述子代替texton,或使用bag of words的其它形式比如SCSPM(Sparse Coding Spatial Pyramid Matching),或者采用Deep Learning方式如R-CNN(Regions with CNN features)得到特征向量。
需要注意的是,訓練環節中的特征提取與其他環節不同,首先提取圖像庫中圖像的所有texton特征,再根據所有texton訓練FisherVector所需要的概率字典模型。在得到概率字典模型后,再將各個圖像的texton轉化為Fisher Vector。對于使用和更新環節,概率字典模型已知,輸入圖像或區域可以直接得到Fisher Vector特征。由于FisherVector為公知算法,此處不再贅述。
另外,訓練一般模式為大量數據批處理。為保證模型準確性,這些數據中,僅有被認為是“無嫌疑”且只含一種貨物,即HSCODE只有一個的貨物圖像進入訓練環節。否則,需要人工標注屬于各個HSCODE的區域位置才能確保訓練樣本的正確性。
在步驟S34,取得與輸入的圖像相對應的報關單。在步驟S35,建立HSCODE模型。HSCODE模型分為本地模型和云端模型。云端模型根據大量歷史圖像訓練,并提供用戶使用。以本地文件形式,內置于不含歷史圖像的新產品中。本地模型在用戶積累較大量圖像(例如大于2萬幅)后離線訓練。云端模型采用實時和離線兩種更新方式,保持最大量的模型集合。本地模型更新時,同時更新云端模型。在本地模型與云端模型同時存在時,優先匹配本地模型。也可以配置為本地模型存在/模板足夠時,僅使用于本地模型。
HSCODE模型分為6位/8位/10位層次結構。優先匹配位數多的模型,即優先級10位>8位>6位。上述“優先匹配”意為:如一個區域匹配到10位模型A和8位模型B,則認為區域屬于模型A。
HSCODE模型的形式與特征提取算法有關。在本公開的實施例中,HSCODE模型由7個要素組成,即{設備號,HSCODE標識,模板最大數量,各個模板,各個模板權值,各個模板在歷史圖像庫中的唯一標識,相似度閾值}。各個元素的含義見下文。
設備號:表明此模型屬于哪個設備。如果是云端模型,則標識為“CLOUD”。
HSCODE標識:HSCODE編碼,可以是6/8/10位。
模板最大數量:這個值是所有模型一致的,但不同的設備可以配置本地模型的模板最大數量。這個值越大,貨物的不一致性描述越好, 但也會降低查準率。在實際應用中,10~20的取值即可得到較好效果。
各個模板:即與HSCODE對應的貨物區域紋理統計特征,本實施例中即為Fisher Vector。其數量最大為“模板最大數量”,維數由Fisher Vector概率字典模型確定。
各個模板權值:每個模板都有一個權值,這些權值的和為1。權值越大,則該模板越能代表HSCODE。權值越小,越可能被新樣本特征代替。
各個模板在歷史圖像庫中的唯一標識:各個模板都來源于真實的圖像,在將其特征記錄在模型中時,同時記錄其唯一標識比如流水號,艙單號等。應用軟件可以憑此標識找到對應的歷史圖像。
相似度閾值:特征與模板的距離大于等于此閾值,則說明匹配,否則為不匹配。這個值可以有3個來源:默認值,用戶設定值,自適應閾值。自適應閾值是在初始化之后,隨著模型的更新調整的,實施例見下文。
在步驟S33得到各個已知HSCODE的Fisher Vector特征后,如果特征數量少于既定的模板最大數量,則特征賦予同樣的權值,與其他必要信息同時記錄在HSCODE模型中。如果特征數量大于既定模板最大數量,可采用多種方式形成樣本空間。
圖4是描述根據本公開實施例的方案中使用創建的模型進行檢查的方法的示意性流程圖。
如圖4所示,在步驟S41,輸入被檢查貨物的圖像。例如利用掃描設備獲得被檢查貨物的透射圖像,然后在步驟S42,進行圖像歸一化與有效貨物區域提取。例如,為提取貨物區域,并減少設備物理特性不一致對圖像造成的影響。首先,通過去除本底與空氣帶來的衰減、去除行/列條紋等圖像處理操作,實現歸一化。其次,通過二值化、邊緣提取、集裝箱邊緣檢測等操作,得到貨物區域。
在步驟S43,取得圖像相對應的報關單,然后在步驟S44進行有監督的圖像分割。與一般圖像分割的區別在于,報關單給定了貨物種類數,即理想圖像中的類別編號應該不超過貨物種類。由此,可采用有監督的圖像分割算法得到不同貨物的區域。在一些實施例中,采用紋理分割方法實現貨物圖像分割。
在步驟S45,進行有效區域特征提取。該步驟與上述圖3中的步驟S33類似,因此這里不再重復描述。在步驟S46,進行模型載入。例如,根據HSCODE載入相應模型。由于HSCODE存在不同設備下的層級結構,可以有多種方式選擇載入的模型。比如可以是“最大載入模式”,即載入本地模型、云端模型中所有匹配該號碼前6、8、10位的模型,也可以是“最小載入模式”,僅載入本地模型中HSCODE號碼完全匹配的模型。在一些實施例中,將同一HSCODE下載入的模型按照優先級排列。
在步驟S47,進行特征與模型匹配。例如,在求得未知區域的Fisher Vector特征后,使用余弦距離度量特征和模板之間的距離,余弦距離值越大則相似度越大。本實施采用模型中各個模板與待匹配特征間最大相似度作為模板與模型間的相似度。
由于在步驟S46中模型按照優先級排列,在此步驟中遇到匹配模型及停止計算。注意,此步驟中,可獲得“相似度矩陣”,即以未知區域數為行、以HSCODE數為列的數值矩陣。一方面,一個區域可能匹配到多個HSCODE;另一方面,一個HSCODE也可能匹配到多個區域。這是透視圖像本身的多義性決定的,同時與分割、相似度度量等算法的性能有關。
若一個區域無法與任何一個已載入的模型匹配,則它為偽報或者瞞報。
另外,本實施例中HSCODE模型記錄了“模板在歷史圖像庫中的唯一標識”,作為匹配結果傳遞給應用程序。通過此標識,可以找到圖像區域與歷史圖像中最相近的圖像。
圖5是描述根據本公開實施例的方案中在線更新所創建的模型的示意性流程圖。更新環節實質上是模型的在線學習過程,可采用多種在線聚類算法實現,如在線K均值算法等。
如圖5所示,在步驟S501,獲得區域HSCODE。例如,在線更新的輸入為HSCODE和圖像區域。在步驟S502,進行模型載入。更新也可以有多種策略,比如可以是“最大更新模式”,即更新本地模型、云端模型中所有匹配該號碼前6、8、10位的模型,也可以是“最小更新模式”,僅更新本地模型中HSCODE號碼完全匹配的模型。
在步驟S501和S502,獲得圖像區域的HSCODE并進行模型載入。在步驟S505和S506,獲得有效貨物區域并對該區域進行特征提取。在步驟S503,如果模型中的模板數不夠既定值,則在步驟S504直接將特征添加為模板。如果模板數已達最大值,則在步驟S507進行匹配步驟。若匹配,在步驟S508增大被匹配的模板權值;若不匹配,則在步驟S509用該特征替換掉最小權值模板。之后在步驟S510歸一化權值,在步驟S511保存各個模型。
需要注意的是,模型不存在的情況是更新中的特例,此時產生新模型,其中僅包含1個特征,其權值為1。
另外,更新環節還會涉及到閾值的自適應調節。更新時若經過匹配步驟,則其中所有匹配值將以直方圖形式記錄。這個直方圖內容為所有正確匹配的分數分布。假設默認的風險布控指數為5%貨物需要人工查驗,則閾值自適應的調整到分數分布累積量達5%的位置,從而實現風險布控指導下的閾值自適應調整。
以上的詳細描述通過使用示意圖、流程圖和/或示例,已經闡述了檢查方法和系統的眾多實施例。在這種示意圖、流程圖和/或示例包含一個或多個功能和/或操作的情況下,本領域技術人員應理解,這種示意圖、流程圖或示例中的每一功能和/或操作可以通過各種結構、硬件、軟件、固件或實質上它們的任意組合來單獨和/或共同實現。在一個實施例中,本公開的實施例所述主題的若干部分可以通過專用集成電路(ASIC)、現場可編程門陣列(FPGA)、數字信號處理器(DSP)、或其他集成格式來實現。然而,本領域技術人員應認識到,這里所公開的實施例的一些方面在整體上或部分地可以等同地實現在集成電路中,實現為在一臺或多臺計算機上運行的一個或多個計算機程序(例如,實現為在一臺或多臺計算機系統上運行的一個或多個程序),實現為在一個或多個處理器上運行的一個或多個程序(例如,實現為在一個或多個微處理器上運行的一個或多個程序),實現為固件,或者實質上實現為上述方式的任意組合,并且本領域技術人員根據本公開,將具備設計電路和/或寫入軟件和/或固件代碼的能力。此外,本領域技術人員將認識到,本公開所述主題的機制能夠作為多種形式的程序產品進行分發,并且無論實際用來執行分發的信號承載介 質的具體類型如何,本公開所述主題的示例性實施例均適用。信號承載介質的示例包括但不限于:可記錄型介質,如軟盤、硬盤驅動器、緊致盤(CD)、數字通用盤(DVD)、數字磁帶、計算機存儲器等;以及傳輸型介質,如數字和/或模擬通信介質(例如,光纖光纜、波導、有線通信鏈路、無線通信鏈路等)。
雖然已參照幾個典型實施例描述了本公開,但應當理解,所用的術語是說明和示例性、而非限制性的術語。由于本公開能夠以多種形式具體實施而不脫離公開的精神或實質,所以應當理解,上述實施例不限于任何前述的細節,而應在隨附權利要求所限定的精神和范圍內廣泛地解釋,因此落入權利要求或其等效范圍內的全部變化和改型都應為隨附權利要求所涵蓋。