專利名稱:一種未知惡意代碼的檢測方法
技術(shù)領(lǐng)域:
本發(fā)明屬于信息安全技術(shù)領(lǐng)域,尤其涉及一種未知惡意代碼的檢測方法。
背景技術(shù):
目前,惡意代碼在互聯(lián)網(wǎng)上無處不在,其傳播性、危害性、隱藏性等也在不斷提高, 從而使計(jì)算機(jī)惡意代碼檢測工作面臨著巨大的挑戰(zhàn)。現(xiàn)有的計(jì)算機(jī)惡意代碼檢測技術(shù)主要 有兩種,一種是基于特征碼的模式匹配技術(shù),另一種是基于惡意代碼行為規(guī)則的檢測技術(shù)?;谔卣鞔a的模式匹配技術(shù)是當(dāng)惡意代碼文件出現(xiàn)后由分析人員對(duì)其進(jìn)行人工 分析,提取出能唯一標(biāo)識(shí)此惡意代碼文件的特征碼,并將特征碼升級(jí)給惡意代碼特征碼庫, 然后將特征碼庫提供給用戶,用來查殺計(jì)算機(jī)程序中的惡意代碼?;趷阂獯a行為規(guī)則 的檢測技術(shù),是依據(jù)專家預(yù)先定義的一些惡意代碼行為規(guī)則來檢測惡意代碼。上述兩種檢 測方法的缺點(diǎn)是必須不斷更新惡意代碼數(shù)據(jù)庫,否則新類型的惡意代碼便可以繞過檢測。 另外,這兩種技術(shù)是一種事后檢測技術(shù),不能在新出現(xiàn)的惡意代碼執(zhí)行之前檢測到它,只有 當(dāng)惡意代碼出現(xiàn)后,由分析人員對(duì)其進(jìn)行特征提取并將其特征碼升級(jí)給特征數(shù)據(jù)庫,才可 以進(jìn)行檢測。然而在此期間,惡意代碼可以已經(jīng)得到運(yùn)行并造成破壞。
發(fā)明內(nèi)容
本發(fā)明的目的在于,針對(duì)目前惡意代碼檢測技術(shù)存在的不足,提出一種未知惡意 代碼的檢測方法,以同時(shí)包含惡意文件和非惡意文件的樣本集作為訓(xùn)練集,利用分類算法 訓(xùn)練分類器,然后利用訓(xùn)練好的分類器對(duì)未知文件進(jìn)行分類,以確定其是否為惡意代碼文 件。為了實(shí)現(xiàn)本發(fā)明的目的,本發(fā)明的提供的技術(shù)方案是,一種未知惡意代碼的檢測 方法,其特征是所述方法包括下列步驟步驟1 利用Byte n-grams方法提取訓(xùn)練集中的文件的特征向量;步驟2 采用局部線性嵌入算法對(duì)提取的訓(xùn)練集中的文件的特征向量進(jìn)行降維;步驟3 將降維后的特征向量作為輸入,利用核覆蓋學(xué)習(xí)算法訓(xùn)練核覆蓋分類器;步驟4 利用Byte n-grams方法提取測試集中的文件的特征向量;步驟5 采用局部線性嵌入算法對(duì)提取的測試集中的文件的特征向量進(jìn)行降維;步驟6 將降維后的結(jié)果輸入核覆蓋分類器進(jìn)行分類,對(duì)分類結(jié)果進(jìn)行統(tǒng)計(jì)后,確 定測試集中的文件是否含有惡意代碼。所述采用局部線性嵌入算法對(duì)特征向量進(jìn)行降維具體包括步驟21 將特征向量作為樣本點(diǎn),利用K近鄰方法尋找每個(gè)樣本點(diǎn)的K個(gè)近鄰點(diǎn), 其中K為設(shè)定值;步驟22 利用公式
權(quán)利要求
1.一種未知惡意代碼的檢測方法,其特征是所述方法包括下列步驟 步驟1 利用Byte n-grams方法提取訓(xùn)練集中的文件的特征向量;步驟2 采用局部線性嵌入算法對(duì)提取的訓(xùn)練集中的文件的特征向量進(jìn)行降維; 步驟3 將降維后的特征向量作為輸入,利用核覆蓋學(xué)習(xí)算法訓(xùn)練核覆蓋分類器; 步驟4 利用Byte n-grams方法提取測試集中的文件的特征向量; 步驟5 采用局部線性嵌入算法對(duì)提取的測試集中的文件的特征向量進(jìn)行降維; 步驟6 將降維后的結(jié)果輸入核覆蓋分類器進(jìn)行分類,對(duì)分類結(jié)果進(jìn)行統(tǒng)計(jì)后,確定測 試集中的文件是否含有惡意代碼。
2.根據(jù)權(quán)利要求1所述的一種未知惡意代碼的檢測方法,其特征是所述采用局部線性 嵌入算法對(duì)特征向量進(jìn)行降維具體包括步驟21 將特征向量作為樣本點(diǎn),利用K近鄰方法尋找每個(gè)樣本點(diǎn)的K個(gè)近鄰點(diǎn),其中 K為設(shè)定值;NK步驟22 利用公式mins(fF) = ;^;=1構(gòu)造出每個(gè)樣本點(diǎn)Xi的局部重建權(quán)值矩陣,其中|>/ =1,N為樣本點(diǎn)的個(gè)數(shù);步驟23 由每個(gè)樣本點(diǎn)Xi的局部重建權(quán)值矩陣及其近鄰點(diǎn)計(jì)算其低維輸出值。 所述步驟23中,樣本點(diǎn)Xi的低維輸出Ji滿足如下映射條件N/=1Kχ-Σ^·;=1,且I^i =0,丄=/,其中ι是HiXm的單位矩陣,mi=l N i=i是降維后的維數(shù)。
3.根據(jù)權(quán)利要求1所述的一種未知惡意代碼的檢測方法,其特征是所述步驟3具體包括步驟31 在樣本點(diǎn)構(gòu)成的樣本空間中,構(gòu)造覆蓋領(lǐng)域系;步驟32 對(duì)覆蓋領(lǐng)域進(jìn)行融合,將屬于同類的覆蓋領(lǐng)域融合成特征空間的一個(gè)球面; 步驟33:構(gòu)造出融合曲面f(x),對(duì)每一個(gè)樣本點(diǎn)Xi計(jì)算f (Xi)的值,如果f(Xi)的值大 于零,則該樣本點(diǎn)Xi代表不含惡意代碼的文件;如果f (Xi)的值小于零,則該樣本點(diǎn)Xi代表 含有惡意代碼的文件。
全文摘要
本發(fā)明公開了信息安全技術(shù)領(lǐng)域中的一種未知惡意代碼的檢測方法,能夠在不更新惡意代碼庫的情況下對(duì)文件中的惡意代碼進(jìn)行事前檢測。該方法包括利用Byte n-grams方法提取訓(xùn)練集中的文件的特征向量;采用局部線性嵌入算法對(duì)提取的訓(xùn)練集中的文件的特征向量進(jìn)行降維;將降維后的特征向量作為輸入,利用核覆蓋學(xué)習(xí)算法訓(xùn)練核覆蓋分類器;再利用Byte n-grams方法提取測試集中的文件的特征向量;采用局部線性嵌入算法對(duì)提取的測試集中的文件的特征向量進(jìn)行降維;將降維后的結(jié)果輸入核覆蓋分類器進(jìn)行分類,對(duì)分類結(jié)果進(jìn)行統(tǒng)計(jì)并確定測試集中的文件是否含有惡意代碼。本發(fā)明提高了文件的檢測速度,實(shí)現(xiàn)了惡意代碼的事前準(zhǔn)確檢測。
文檔編號(hào)G06F21/00GK102142068SQ20111007652
公開日2011年8月3日 申請(qǐng)日期2011年3月29日 優(yōu)先權(quán)日2011年3月29日
發(fā)明者李元誠, 李盼 申請(qǐng)人:華北電力大學(xué)