專利名稱::基于特征值比對的內容分析方法
技術領域:
:本發明是關于一種基于特征值比對的內容分析方法,特別是關于一種利用部分文件比對技術以提供快速及精確的內容分析方法。
背景技術:
:現有的機密防護系統,在內容分析中采用的部分文件比對方法,必須面臨機密辨識率與系統效能的兩難需求。較精確的機密辨識功能就會產生最多的數據比對作業而造成系統效能的沖擊,反之若是追求內容分析的執行效能則難以兼顧機密數據的辨識率。且因為部分文件比對技術所處理的是指數成長的復雜度問題,當機密樣本數據或目標文件長度增加時,系統效能就會面臨急速惡化的困境。有鑒于機密防護技術在信息安全領域的應用日益廣泛,誠然需要一個較佳的內容分析方法,以達成機密防護系統于辨識率及效能方面的需求。由此可見,上述現有方式仍有諸多不足,實非良好的設計,而亟待加以改良。
發明內容本發明的目的即在于提供一種既快速又精確的內容分析方法,是以切割特征值數據空間的方法改進大型文件的比對效能與正確性,并依據目標檔案的長度進行文件比對參數的調整,從而達成機密辨識率與系統效能的兩難需求,且由于字符內碼分布的特性,本發明在中文與英文檔案互相比對的作業中更能大幅減少比對次數,而改善內容分析的效能與正確性。可達成上述發明目的的一種基于特征值比對的內容分析方法,至少包括文件特征建構流程,將欲防護的機密文件利用文件特征建構功能,進行特征值的分區計算,并建構出相應的文件特征檔案;特征值加載流程,將各區特征值加載至所屬的數據結構中;文件特征比對流程,利用文件特征比對功能將加載的文件特征數據向目標文件進行指定長度的數據內容比對,以判斷文件是否包含機密數據。本發明于建構機密文件的特征值時根據各資料區塊所算出的字碼統計值,分區儲存特征值于所屬的特征檔案中,之后于文件比對階段再依各資料區塊的字碼統計值進行分區比對;如此可在大數據量的內容分析作業中,尤其是中文與英文檔案互相比對的情況下大幅減少比對次數而改善系統的效能,同時因為在特征值比對作業中加上字碼統計值的區別,使得特征雜湊值的沖突機率進一步降低,而能提高內容分析的正確率。另外在文件特征的比對作業中,本發明也依據目標文件的長度調整數據比對之重迭參數,使得數據量較小的比對作業有較精確的機密辨識率,而數據量大的比對作業則可改善系統的執行效能。本發明的基于特征值比對的內容分析方法,與其它現有技術相互比較時,更具備下列的優點本發明可改進文件內容分析作業的效能,尤其在中文與英文檔案互相比對時更能大幅減少比對次數而提高執行效率。本發明可提高機密數據的辨識正確率,減少將文件誤判為含有機密的情形。本發明于數據量小的比對作業中具有精確的機密辨識率,而在數據量大的比對作業則提高執行效能。圖1為本發明基于特征值比對的內容分析方法的流程示意圖;圖2為該基于特征值比對的內容分析方法的文件特征建構流程圖;以及圖3為該基于特征值比對的內容分析方法的文件特征比對流程圖。具體實施例方式以下通過具體實施例來說明本發明。實施例1:請參閱圖l,為本發明基于特征值比對的內容分析方法的流程示意圖,先在欲防護的機密文件(1)利用文件特征建構功能(2)進行特征值的計算,并建構出相應的文件特征檔案(3)。在機密防護作業的內容分析階段,加載特征值(4)至相對應的數據結構以后,即可利用文件特征比對功能(5)依此文件特征數據向目標文件(6)進行指定長度的數據內容比對。若有符合特征比對的數據則為包含機密的檔案,可以讓防護系統進行政策所指定的相關防護動作,否則即可判定為不含機密的文件。請參閱圖2,為本發明基于特征值比對的內容分析方法的文件特征建構流程圖,其步驟包括a.設定數據的讀取終點之后進行機密文件的循序讀取;b.排除空格符以組成一個固定長度的資料區塊并且計算字碼統計值;在這里所謂的空格符系指space,tab,換行符號等字符,屬于與文件機密不相關的數據;當讀取至區塊長度時,其字碼統計值也已計算完成,此一數值是統計資料區塊內的每一字符內碼值的分布,其計算方法為<table>tableseeoriginaldocumentpage5</column></row><table>上述的內碼條件值是基于中/英文字碼分布的范圍而選定,以利于中/英文件的分區比對;c.完成數據區塊的讀取后即利用雜湊算法計算此區塊的特征值,可采用CRC40算法進行雜湊運算,以滿足系統對于正確率與效能的雙重需求;d.依據字碼統計值將CRC40雜湊值寫至不同的特征檔案,以區塊長度設為64Bytes的系統為例,可采用如下的分割方式IF字碼統計值<56THEN寫出CRC40值至特征文件1;ELSEIF字碼統計值>55且<60寫出CRC40值至特征文件2;ELSEIF字碼統計值>59且<90寫出CRC40值至特征文件3;ELSEIF字碼統計值>89且<105寫出CRC40值至特征文件4;ELSEIF字碼統計值>104且<110寫出CRC40值至特征文件5;ELSEIF字碼統計值>109且<115寫出CRC40值至特征文件6;ELSEIF字碼統計值>114且<120寫出CRC40值至特征文件7;ELSEIF字碼統計值>119且<130寫出CRC40值至特征文件8;ELSEIF字碼統計值>129寫出CRC40值至特征文件9;上述條件值的選定是考慮中文字內碼的分布范圍較廣且本發明的應用環境以中文為主,因此特征檔案的劃分是在中文碼范圍采取較細的切割而英文碼范圍采取較寬的切割;當系統內定的數據區塊長度不為64Bytes時,這些條件值自然會因字碼統計值的變動而不同;另外如果系統要求更精細或更粗略的英文及中文碼范圍的切割方式,也會產生不同的條件值和檔案的切割數量;e.完成此一特征值分區寫文件的作業后,將字碼統計值重置為零,并依系統內定的步進參數設定下一個讀取位置,所謂的步進參數是決定每一個取樣數據區塊的重迭程度,重迭量愈多可得到愈高的機密辨識率,但系統效能則受拖累;重復上述b.至e.的處理步驟直至讀取終點才結束。請參閱圖3,為本發明基于特征值比對的內容分析方法的文件特征比對流程圖,其步驟包括a.設定目標文件的讀取終點,亦即文件數據末端減去數據區塊長度的位置;b.依據目標文件的長度設定數據重迭參數,當文件長度小于某一內定值時采用最大的重迭參數值,以便在不影響系統效能的狀況下進行最精確的比對作業;c.進行目標文件的特征建構步驟,包含循序讀取、排除空格符、計算字碼統計值、達區塊長度后計算數據雜湊值等處理步驟;d.依據字碼統計值設定所屬的特征數據比對區及其終點;e.進入特征值循序比對的作業,如果在特征數據區發現相同的CRC40雜湊值,即可判定為包含機密信息而傳回TRUE值;否則重置字碼統計值,并依重迭參數設定下一個讀取位置,再檢查是否已讀至終點位置;如果已經比對至讀取終點仍未發現相同的雜湊值則可判定為不含機密信息,傳回FALSE值,否則繼續進行下一數據區塊的比對作業。如此本發明利用切割特征值數據空間的方法改進了大數據量的比對效能,且因在特征值比對作業中加上字碼統計值的區別,使得雜湊值沖突的情形進一步減少,從而提高內容分析的正確率。上列詳細說明是針對本發明的可行實施例的具體說明,該實施例并非用以限制本發明的專利范圍,凡未脫離本發明的等效實施或變更,均應包含于本發明的專利范圍中。權利要求一種基于特征值比對的內容分析方法,其特征在于至少包括文件特征建構流程,將欲防護的機密文件利用文件特征建構功能,進行特征值的分區計算,并建構出相應的文件特征檔案;特征值加載流程,將各區特征值加載至所屬的數據結構中;文件特征比對流程,利用文件特征比對功能將加載的文件特征數據向目標文件進行指定長度的數據內容比對,以判斷文件是否包含機密數據。2.如權利要求1所述的基于特征值比對的內容分析方法,其特征在于所述文件特征建構流程,處理步驟包括a.設定數據的讀取終點、循序讀取機密文件的內容;b.排除空格符、組成一個固定長度的數據區塊;c.計算資料區塊的字碼統計值;d.利用雜湊算法計算數據區塊的特征值;e.依據字碼統計值將雜湊值寫至不同的特征檔案;f.重置字碼統計值,并設定下一個讀取位置;g.重復步驟b.至f.,直至讀取終點才結束。3.如權利要求2所述的基于特征值比對的內容分析方法,其特征在于所述特征檔案是在中文碼范圍采取較細的切割而英文碼范圍采取較寬的切割而劃分的。4.如權利要求2所述的基于特征值比對的內容分析方法,其特征在于所述字碼統計值的計算,其處理步驟包括a.排除空格符、組成一個固定長度的數據區塊;b.依據字符的內碼值范圍對字碼統計值進行累計運算;c.于文件特征建構階段依據字碼統計值將特征值分區寫至所屬檔案;d.于文件特征比對階段依據字碼統計值分區比對特征值。5.如權利要求4所述的基于特征值比對的內容分析方法,其特征在于所述內碼值范圍基于中/英文字碼分布的范圍而選定。6.如權利要求1所述的基于特征值比對的內容分析方法,其特征在于所述文件特征比對流程,處理步驟包括a.設定目標文件的讀取終點;b.依據目標文件的長度設定數據重迭參數;c.循序讀取目標文件的內容;d.排除空格符、組成一個固定長度的數據區塊;e.計算資料區塊的字碼統計值;f.利用雜湊算法計算數據區塊的特征值;g.依據字碼統計值設定所屬的特征數據比對區及其終點;h.特征值的分區循序比對,以判斷文件是否包含機密數據;i.重置字碼統計值,并依數據重迭參數設定下一個讀取位置;j.重復步驟c.至i.,直至讀取終點或發現機密數據才結束。7.如權利要求6所述的基于特征值比對的內容分析方法,其特征在于所述數據重迭參數在目標文件長度小于某一內定值時采用最大的重迭參數值,以便在不影響系統效能的狀況下進行最精確的比對作業。8.如權利要求6所述的基于特征值比對的內容分析方法,其特征在于所述字碼統計值的計算,其處理步驟包括a.排除空格符、組成一個固定長度的數據區塊;b.依據字符的內碼值范圍對字碼統計值進行累計運算;c.于文件特征建構階段依據字碼統計值將特征值分區寫至所屬檔案;d.于文件特征比對階段依據字碼統計值分區比對特征值。9.如權利要求8所述的基于特征值比對的內容分析方法,其特征在于所述內碼值范圍基于中/英文字碼分布的范圍而選定。全文摘要本發明公開了一種基于特征值比對的內容分析方法,先在欲防護的機密文件進行特征值的計算,并建構出相應的數據特征檔案,之后在機密防護作業的內容分析階段,利用此文件特征數據向可疑文件進行固定長度的數據內容比對;若有符合特征比對的數據則為包含機密的檔案,可以讓防護系統進行政策所指定的相關防護動作,否則即可判定為不含機密的文件;本發明是基于機密防護領域的部份文件比對技術加以改良,利用切割數據空間的方法提升大型檔案的比對效能與精確度,并依據目標文件的長度進行數據比對時相關參數的調整,從而達成機密辨識率與系統效能的兩難需求。文檔編號G06F17/22GK101699428SQ200910209248公開日2010年4月28日申請日期2009年10月27日優先權日2009年10月27日發明者劉燦雄,張保忠,張明哲,徐克華申請人:中華電信股份有限公司