目標數據識別方法及裝置的制造方法
【技術領域】
[0001 ]本公開設及數據識別技術領域,尤其設及目標數據識別方法及裝置。
【背景技術】
[0002] 隨著信息技術的發展,數字化的信息正W驚人的速度增長,用戶需要花費大量的 時間和精力去閱讀和查找信息。為了提高效率,往往需要進行信息自動識別。在很多信息識 別任務中,需要進行目標數據識別,才能進行相應的處理。其中,目標數據識別可W包括確 定目標數據的數值和所屬類別。例如,在流量識別任務中,需要識別出數值及其類別,類別 可W有總流量、使用流量、剩余流量、超出流量等,確定運些數據后才能確定是否進行流量 不足提醒。
[0003] 相關技術中,人工對樣本信息中的樣本數據標注樣本數據標識,從而獲得樣本信 息模板,根據樣本信息模板對目標信息中的數據進行識別。其中,樣本數據標識是標識樣本 數據類別的標識。例如,樣本信息"閑時流量合計500MB,已使用200MB,剩余300MB",人工標 注獲得樣本信息模板:"閑時流量合計<LEI洲RE_T0TAL〉,已使用<LEI洲REJJSED〉,剩余< LEISURE_REMAI肥D〉"。但由于信息多樣化,人工需要標注的模板比較多,耗費大量的人力資 源,標注效率低。
【發明內容】
[0004] 本公開提供了目標數據識別方法及裝置,W解決相關技術中的標注效率較低的問 題。
[0005] 根據本公開實施例的第一方面,提供一種目標數據識別方法,所述方法包括:
[0006] 調用預設的信息訓練模型;其中,所述信息訓練模型包含樣本數據標識與樣本信 息模板的關聯關系;
[0007] 根據所述信息訓練模型對目標信息中的目標數據標注目標數據標識,獲得目標信 息模板;
[000引根據所述目標信息模板對待識別的目標信息中的目標數據進行識別。
[0009] 可選的,所述調用預設的信息訓練模型之前,還包括:
[0010] 獲取標注有樣本數據標識的樣本信息模板;
[0011] 根據所述樣本數據標識與所述樣本信息模板中除樣本數據標識外的其他信息的 關系,生成每個樣本數據標識對應的特征向量;
[0012] 采用序列標注算法對所述樣本信息模板、樣本數據標識及其對應的特征向量進行 訓練,獲得信息訓練模型。
[0013] 可選的,所述根據所述樣本數據標識與所述樣本信息模板中除樣本數據標識外的 其他信息的關系,生成每個樣本數據標識對應的特征向量,包括:
[0014] 對各樣本信息模板中除樣本數據標識外的其他信息進行分詞處理,獲得特征詞;
[0015] 計算所有樣本信息模板中每個特征詞對每個樣本數據標識的卡方值;
[0016] 從每個樣本數據標識對應的特征詞中,按卡方值從大到小篩選出預設個數的特征 詞,組成特征詞集合;
[0017] 從樣本信息模板中獲取樣本數據標識的上下文信息;
[0018] 根據所述特征詞集合中各特征詞與所述樣本數據標識的上下文信息的匹配關系, 生成所述樣本數據標識對應的特征向量,所述特征向量的維數與特征詞集合中特征詞個數 相同。
[0019] 可選的,采用W下公式計算所有樣本信息模板中每個特征詞對每個樣本數據標識 的卡方值:
[0021] 其中,Nij=Aij+Bij+Cij+Dij,Ki康示所有樣本信息模板中特征詞i對樣本數據標識j 的卡方值;Au表示所有樣本信息模板中與特征詞i相鄰的樣本數據標識為j的個數;Bu表示 所有樣本信息模板中與特征詞i相鄰的樣本數據標識不為j的個數;Cu表示所有樣本信息模 板中樣本數據標識為j的相鄰特征詞中沒有特征詞i的個數,Du表示所有樣本信息模板中樣 本數據標識不為j的相鄰特征詞中沒有特征詞i的個數。
[0022] 可選的,所述從樣本信息模板中獲取樣本數據標識的上下文信息,包括:
[0023] 從所述樣本信息模板中讀取與樣本數據標識相鄰的預設字符長度的信息,將所讀 取的信息確定為樣本數據標識的上下文信息;
[0024] 或,
[0025] 從所述樣本信息模板中讀取樣本數據標識所屬分句,將所述分句確定為樣本數據 標識的上下文信息。
[0026] 可選的,所述根據所述信息訓練模型對目標信息中的目標數據標注目標數據標 識,獲得目標信息模板,包括:
[0027] 根據所述特征詞集合中各特征詞與所述目標信息中目標數據的數值的上下文信 息的匹配關系,生成所述目標數據對應的特征向量;
[0028] 根據所述信息訓練模型、所述目標信息、所述目標數據的特征向量對所述目標數 據的目標數據標識進行預測;
[0029] 利用預測結果對所述目標信息進行回標,獲得標注有目標數據標識的目標信息模 板。
[0030] 可選的,所述生成所述目標數據對應的特征向量之前,還包括:
[0031 ]利用正則表達式識別出各初始信息中數據的數值;
[0032] 將所述數值替換為設定的通配符,獲得初始化信息模板;
[0033] 將所述初始化信息模板中信息相同的模板劃分為一類,并計算每類模板占總初始 化信息模板的比例;
[0034] 將所述比例大于設定篩選比例的初始化信息模板確定為目標信息。
[0035] 可選的,所述目標信息為目標通知類短信,所述目標信息模板為目標短信模板,所 述目標數據為目標通知類短信中的通知數據。
[0036] 根據本公開實施例的第二方面,提供一種目標數據識別裝置,所述裝置包括:
[0037] 信息訓練模型調用單元,用于調用預設的信息訓練模型;其中,所述信息訓練模型 包含樣本數據標識與樣本信息模板的關聯關系;
[0038] 目標信息模板確定單元,用于根據所述信息訓練模型對目標信息中的目標數據標 注目標數據標識,獲得目標信息模板;
[0039] 目標數據識別單元,用于根據所述目標信息模板對待識別的目標信息中的目標數 據進行識別。
[0040] 可選的,所述裝置還包括:
[0041 ]樣本信息模板獲取單元,用于獲取標注有樣本數據標識的樣本信息模板;
[0042] 特征向量生成單元,用于根據所述樣本數據標識與所述樣本信息模板中除樣本數 據標識外的其他信息的關系,生成每個樣本數據標識對應的特征向量;
[0043] 信息訓練模型確定單元,用于采用序列標注算法對所述樣本信息模板、樣本數據 標識及其對應的特征向量進行訓練,獲得信息訓練模型。
[0044] 可選的,所述特征向量生成單元包括:
[0045] 特征詞確定子單元,用于對各樣本信息模板中除樣本數據標識外的其他信息進行 分詞處理,獲得特征詞;
[0046] 卡方值計算子單元,用于計算所有樣本信息模板中每個特征詞對每個樣本數據標 識的卡方值;
[0047] 特征詞集合確定子單元,用于從每個樣本數據標識對應的特征詞中,按卡方值從 大到小篩選出預設個數的特征詞,組成特征詞集合;
[0048] 上下文信息獲取子單元,用于從樣本信息模板中獲取樣本數據標識的上下文信 息;
[0049] 第一特征向量生成子單元,用于根據所述特征詞集合中各特征詞與所述樣本數據 標識的上下文信息的匹配關系,生成所述樣本數據標識對應的特征向量,所述特征向量的 維數與特征詞集合中特征詞個數相同。
[0050] 可選的,所述卡方值計算子單元,用于:
[0052] 其中,Nij=Aij+Bij+Cij+Dij,Ki康示所有樣本信息模板中特征詞i對樣本數據標識j 的卡方值;Au表示所有樣本信息模板中與特征詞i相鄰的樣本數據標識為j的個數;Bu表示 所有樣本信息模板中與特征詞i相鄰的樣本數據標識不為j的個數;Cu表示所有樣本信息模 板中樣本數據標識為j的相鄰特征詞中沒有特征詞i的個數,Du表示所有樣本信息模板中樣 本數據標識不為j的相鄰特征詞中沒有特征詞i的個數。
[0053] 可選的,所述上下文信息獲取子單元包括:
[0054] 第一上下文信息獲取模塊,用于從所述樣本信息模板中讀取與樣本數據標識相鄰 的預設字符長度的信息,將所讀取的信息確定為樣本數據標識的上下文信息;
[0化5] 或,
[0056] 第二上下文信息獲取模塊,用于從所述樣本信息模板中讀取樣本數據標識所屬分 句,將所述分句確定為樣本數據標識的上下文信息。
[0057] 可選的,所述目標信息模板確定單元包括:
[0058] 第二特征向量生成子單元,用于根據所述特征詞集合中各特征詞與所述目標信息 中目標數據的數值的上下文信息的匹配關系,生成所述目標數據對應的特征向量;
[0059] 預測子單元,用于根據所述信息訓練模型、所述目標信息、所述目標數據的特征向 量對所述目標數據的目標數據標識進行預測;
[0060] 目標信息模板確定子單元,用于利用預測結果對所述目標信息進行回標,獲得標 注有目標數據標識的目標信息模板。
[0061 ]可選的,所述目標信息模板確定單元還包括:
[0062] 數值識別子單元,用于利用正則表達式識別出各初始信息中數據的數值;
[0063] 初始化信息模板確定子單元,用于將所述數值替換為設定的通配符,獲得初始化 信息模板;
[0064] 比例計算子單元,用于將所述初始化信息模板中信息相同的模板劃分為一類,并 計算每類模板占總初始化信息模板的比例;
[0065] 目標信息確定子單元,用于將所述比例大于設定篩選比例的初始化信息模板確定 為目標信息。
[0066] 根據本公開實施例的第=方面,提供一種目標數據識別裝置,包括:
[0067] 處理器;
[0068] 用于存儲處理器可執行指令的存儲器;
[0069] 其中,所述處理器被配置為:
[0070] 調用預設的信息訓練模型;其中,所述信息訓練模型包含樣本數據標識與樣本信 息模板的關聯關系;
[0071 ]根據所述信息訓練模型對目標信息中的目標數據標注目標數據標識,獲得目標信 息模板;
[0072] 根據所述目標信息模板對待識別的目標信息中的目標數據進行識別。
[0073] 本公開的實施例提供的技術方案可W包括W下有益效果:
[0074] 本公開中,可W利用少量的樣本信息模板預測出大量的目標信息模板,并利用目 標信息模板對待識別的目標信息中的目標數據進行識別,避免所有樣本都需要人工標注造 成的人力資源浪費,同時由于可W自動生成目標信息模板,提高了標注數據標識的效率。
[0075] 本公開中還提供了一種信息訓練模型確定的方法,首先獲取標注有樣本數據標識