本發明涉及計算機,尤其涉及一種標注數據的校驗方法、裝置、設備、介質和程序產品。
背景技術:
1、近年來,深度學習技術發展迅速,推動了目標檢測領域不斷實現新的突破。獲取大量具有樣本多樣性的帶有準確標簽的訓練樣本數據來進行目標檢測模型的訓練,是目標檢測取得較好性能的關鍵。
2、在樣本數據的標注過程中發現,圖像中較為明顯的大目標,標注更為容易,標注的準確率也比較高,而圖像中的小目標,由于信息少,相對難以判定,因此容易產生標注不一致的問題。標注不一致指的是相同或者同類的數據在不同批次或者因為標注者的標注標準不同所產生的標注不準確的情況。標注不一致的問題會降低數據標注的質量,影響后期模型訓練的效果,這些不一致的數據不但無益于模型訓練與預測精度,甚至可能會導致錯誤的模型訓練結果,因此有必要對存在標注不一致問題的目標進行判斷區分。
3、現有技術采用人工校驗和自動校驗的方式來驗證數據標注的準確性,自動校驗的方式包括交叉驗證和多種順序檢測校驗,能夠在一定程度上能夠解決標注過程中出現的標注錯誤和標注不一致問題。然而,發明人發現現有技術至少存在如下問題:采用人工審核的校驗方式效率太低,而基于交叉驗證的自動校驗方式需要基于大量數據提前訓練模型,多種順序校驗的自動校驗方式只能局限于連續視頻幀,且上述方法中,并沒有關注小目標對象的標注和校驗的問題,難以提高對標注數據的校驗準確性。
技術實現思路
1、本發明實施例的目的是提供一種標注數據的校驗方法,其能夠針對標注數據存在的標注不一致的問題,自動實現對標注數據的校驗,有效提高數據標注的準確性。
2、為實現上述目的,本發明實施例提供了一種標注數據的校驗方法,包括:
3、獲取若干個標注數據集;其中,每一所述標注數據集中包括若干個預先標注有真實目標的標注數據;
4、將所述若干個標注數據集中的目標標注數據集作為訓練數據,訓練得到目標檢測模型;
5、根據所述目標檢測模型對所述若干個標注數據集中的非目標標注數據集進行目標檢測,得到目標檢測結果;
6、根據所述目標檢測結果,分別計算所述非目標標注數據集中第一目標類型和第二目標類型的檢測精度;其中,所述第一目標類型和所述第二目標類型是根據目標尺寸劃分得到的;
7、計算所述第一目標類型和第二目標類型的檢測精度之間的精度差值;
8、根據所述精度差值,校驗所述非目標標注數據集中的標注數據是否標注合格。
9、作為一種優選的實施方式,所述非目標標注數據集為至少兩個;
10、所述根據所述精度差值,校驗所述非目標標注數據集中的標注數據是否標注合格,包括:
11、計算同一目標檢測模型下兩個不同非目標標注數據集之間的精度差值的差值,作為第一差值;
12、根據所述第一差值的大小,校驗所述兩個不同的非目標標注數據集中的標注數據是否標注合格。
13、作為上述方案的改進,所述根據所述第一差值的大小,校驗所述兩個不同的非目標標注數據集中的標注數據是否標注合格,包括:
14、將所述第一差值與預設的第一差值閾值進行比較;
15、當所述第一差值小于等于所述預設的第一差值閾值時,確定所述兩個不同的非目標標注數據集中的標注數據均標注合格;
16、當所述第一差值大于所述預設的第一差值閾值時,確定所述兩個不同的非目標標注數據集中的標注數據存在標注不一致,則所述兩個不同的非目標標注數據集中的標注數據標注不合格。
17、作為另一種優選的實施方式,根據所述目標標注數據集訓練得到的所述目標檢測模型的數量為兩個,且兩個目標檢測模型的網絡結構相同但損失函數不同;
18、所述根據所述精度差值,校驗所述非目標標注數據集中的標注數據是否標注合格,包括:
19、計算同個非目標標注數據集在兩個不同的目標檢測模型下的精度差值的差值,作為第二差值;
20、根據所述第二差值的大小,校驗所述非目標標注數據集中的標注數據是否標注合格。
21、作為上述方案的改進,所述兩個目標檢測模型為第一目標檢測模型和第二目標檢測模型,所述第一目標檢測模型的損失函數為交叉熵損失函數;所述第二目標檢測模型的損失函數為focal?loss損失函數。
22、作為上述方案的改進,所述計算同個非目標標注數據集在兩個不同的目標檢測模型下的精度差值的差值,作為第二差值,包括:
23、根據所述同個非目標標注數據集在所述第二目標檢測模型下的精度差值和在所述第一目標檢測模型下的精度差值的差值,作為第二差值;
24、則所述根據所述第二差值的大小,校驗所述非目標標注數據集中的標注數據是否標注合格,包括:
25、將所述第二差值與預設的第二差值閾值進行比較;
26、當所述第二差值小于等于所述預設的第二差值閾值時,確定所述非目標標注數據集中的標注數據均標注合格;
27、當所述第二差值大于所述預設的第二差值閾值時,確定所述非目標標注數據集中的標注數據存在標注不一致,則所述非目標標注數據集中的標注數據標注不合格。
28、作為上述方案的改進,在所述根據所述精度差值,校驗所述非目標標注數據集中的標注數據是否標注合格之后,所述方法還包括:
29、當所述非目標標注數據集中的標注數據標注不合格時,分別計算所述非目標標注數據集中的每一所述標注數據在所述兩個不同的目標檢測模型下的損失值,作為第一損失值和第二損失值;
30、計算所述第一損失值和所述第二損失值的差值,作為第三差值;
31、對所述非目標標注數據集中的每一所述標注數據按照所述第三差值進行排序,并將排序在前預設數量的標注數據作為待重新審核的標注數據。
32、作為上述方案的改進,所述目標檢測結果包括所述非目標標注數據集中每一所述標注數據的預測目標;
33、則所述根據所述目標檢測結果,分別計算所述非目標標注數據集中第一目標類型和第二目標類型的檢測精度,包括:
34、將所述預測目標及對應的真實目標進行比較;
35、當所述預測目標及對應的真實目標相同時,確定為預測正確;否則確定為預測錯誤;
36、將每一所述預測目標的尺寸與預設的尺寸閾值進行比較;
37、當所述預測目標的尺寸大于所述尺寸閾值時,將所述預測目標對應的標注數據劃分為第一目標類型;否則劃分為第二目標類型;
38、根據所述第一目標類型中預測正確和預測錯誤的數量,計算所述第一目標類型的檢測精度;
39、根據所述第二目標類型中預測正確和預測錯誤的數量,計算所述第二目標類型的檢測精度。
40、本發明實施例還提供了一種標注數據的校驗裝置,包括:
41、數據集獲取模塊,用于獲取若干個標注數據集;其中,每一所述標注數據集中包括若干個預先標注有真實目標的標注數據;
42、檢測模型訓練模塊,損益將所述若干個標注數據集中的目標標注數據集作為訓練數據,訓練得到目標檢測模型;
43、目標檢測模塊,用于根據所述目標檢測模型對所述若干個標注數據集中的非目標標注數據集進行目標檢測,得到目標檢測結果;
44、檢測精度計算模塊,用于根據所述目標檢測結果,分別計算所述非目標標注數據集中第一目標類型和第二目標類型的檢測精度;其中,所述第一目標類型和所述第二目標類型是根據目標尺寸劃分得到的;
45、精度差值計算模塊,用于計算所述第一目標類型和第二目標類型的檢測精度之間的精度差值;
46、標注數據校驗模塊,用于根據所述精度差值,校驗所述非目標標注數據集中的標注數據是否標注合格。
47、本發明實施例還提供了一種標注數據的校驗設備,包括處理器、存儲器以及存儲在所述存儲器中且被配置為由所述處理器執行的計算機程序,所述處理器執行所述計算機程序時實現如上述任意一項所述的標注數據的校驗方法。
48、本發明實施例還提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質包括存儲的計算機程序,其中,在所述計算機程序運行時控制所述計算機可讀存儲介質所在設備執行如上述任意一項所述的標注數據的校驗方法。
49、本發明實施例還提供了一種計算機程序產品,所述計算機程序產品包括計算機程序或計算機指令,所述計算機程序或所述計算機指令被處理器執行時實現如上述任意一項所述的標注數據的校驗方法。
50、與現有技術相比,本發明公開的標注數據的校驗方法、裝置、設備、介質和程序產品,通過將目標劃分為大目標和小目標兩種目標類型,計算大、小目標在目標檢測模型下的檢測精度的精度差值,通過分析在單個目標檢測模型下不同的標注數據集之間的精度差值的差異,或者同一標注數據集在不同目標檢測模型下的精度差值的差異,能夠判斷是否存在小目標的標注不一致的情況,實現對標注數據集中的標注數據的標注合格性的分析,有利于篩選出標注一致性較差的標注數據并反饋給標注人員進行糾正,本發明實施例能夠自動實現對標注數據的校驗,有效提高數據標注的準確性,進一步提高采用標注數據集進行訓練的模型的精度。并且,本發明實施例具有較強的適應性,可以適用于絕大多數的目標檢測場景下的標注任務。