文件分類裝置及方法
【技術領域】
[0001]本發明涉及文件分類存儲領域,特別是涉及一種文件分類裝置及方法。
【背景技術】
[0002]傳統的文件分類方法通常是按照文件的擴展名進行分類,將文件擴展名作為分類特征,根據待分類的擴展名稱將具有相同擴展名的所有文件歸為一類。這種文件分類方法是一種粗分類方法。
[0003]在實現過程中,發明人發現傳統技術中至少存在如下問題:使用傳統的文件分類方法只能夠對文件的屬性進行分類,如能夠區別該文件為音頻文件或者文本文件,卻難以實現對文件的內容進行區分。此外,在科技領域中,無法根據文件的內容對其學科領域、涉及的主題進行分類,如區分該文件是關于電子器件還是關于電力輸變等內容。
【發明內容】
[0004]基于此,有必要針對基于文件的內容進行分類的問題,提供一種文件分類裝置及方法。
[0005]為了實現上述目的,本發明技術方案的實施例為:
[0006]—方面,提供了一種文件分類裝置,包括處理器:
[0007]處理器包括處理單元;
[0008]處理單元根據以分類級別進行分類存儲的名詞詞匯對待分類文件中的文件詞匯進行標引;對文件詞匯進行統計分析獲得文件主題詞,并根據以分類級別進行分類存儲的主題詞匯檢索文件主題詞所屬的類別;還基于標引的結果和類別來確定待分類文件的最終類別。
[0009]另一方面,提供了一種文件分類方法,包括以下步驟::
[0010]調用以分類級別進行分類存儲的名詞詞匯對待分類文件中的文件詞匯進行標弓I ;
[0011]對文件詞匯進行統計分析獲得文件主題詞;
[0012]調用以分類級別進行分類存儲的主題詞匯檢索文件主題詞對應的分類級別以確定待分類文件的類別;
[0013]基于標引的結果以及類別確定待分類文件的最終類別。
[0014]上述技術方案具有如下有益效果:
[0015]本發明提供的文件分類裝置及方法,通過處理器根據名詞存儲器中的名詞詞匯對文件詞匯進行標引,并根據主題詞匯檢索文件主題詞在主題詞存儲器中所在的類別;并基于標引的結果以及所在的類別來確定文件的最終類別。所以克服了傳統文件分類方法只能依據文件的屬性對文件進行分類的問題,進而實現依據文件的內容對文件進行區分并確定文件的最終類別,使用戶能夠按照文件的內容靈活精確地對文件進行分類。
【附圖說明】
[0016]通過附圖中所示的本發明的優選實施例的更具體說明,本發明的上述及其它目的、特征和優勢將變得更加清晰。在全部附圖中相同的附圖標記指示相同的部分,且并未刻意按實際尺寸等比例縮放繪制附圖,重點在于示出本發明的主旨。
[0017]圖1為本發明文件分類裝置實施例1的結構示意圖;
[0018]圖2為本發明文件分類裝置實施例1的具體結構示意圖;
[0019]圖3為本發明文件分類方法實施例1的流程圖。
【具體實施方式】
[0020]為了便于理解本發明,下面將參照相關附圖對本發明進行更全面的描述。附圖中給出了本發明的首選實施例。但是,本發明可以以許多不同的形式來實現,并不限于本文所描述的實施例。相反地,提供這些實施例的目的是使對本發明的公開內容更加透徹全面。
[0021]需要說明的是,當一個元件被認為是“連接”另一個元件,它可以是直接連接到另一個元件并與之結合為一體,或者可能同時存在居中元件。本文所使用的術語“相連接”、“統計分析”、“類別”以及類似的表述只是為了說明的目的。
[0022]除非另有定義,本文所使用的所有的技術和科學術語與屬于本發明的技術領域的技術人員通常理解的含義相同。本文中在本發明的說明書中所使用的術語只是為了描述具體的實施例的目的,不是旨在于限制本發明。本文所使用的術語“及/或”包括一個或多個相關的所列項目的任意的和所有的組合。
[0023]本發明文件分類裝置實施例1:
[0024]圖1為本發明文件分類裝置實施例1的結構示意圖,如圖1所示,本發明文件分類裝置,包括處理器30,其具體結構如圖2所示:
[0025]處理器30包括處理單元310 ;
[0026]處理單元310,根據以分類級別進行分類存儲的名詞詞匯對待分類文件中的文件詞匯進行標引;對文件詞匯進行統計分析獲得文件主題詞,并根據以分類級別進行分類存儲的主題詞匯檢索文件主題詞所屬的類別;還基于標引的結果和類別來確定待分類文件的最終類別。
[0027]其中,名詞詞匯包含主題詞匯;文件主題詞為處理單元310對文件詞匯出現的頻率和權重進行統計分析獲得的權重最大的詞匯。
[0028]在其中一個實施例中,處理器30還包括與處理單元310相連接的主題詞存儲器320和名詞存儲器330。
[0029]主題詞存儲器320存儲以分類級別進行分類存儲的主題詞匯;
[0030]名詞存儲器330存儲以分類級別進行分類存儲的名詞詞匯;
[0031]另外,本發明文件分類裝置還包括和處理器30相連接的文件存儲器20 ;在其中一個實施例中,還包括和處理器30相連的終端10。
[0032]其中,終端10,用于接收外部信號,并將外部信號轉換為指示信號發送給處理器30,以及接收處理器30反饋的分類數據并顯示;亦用于存儲待分類的文件,并將文件發送給處理器30以進行分類處理。
[0033]處理器30,用于根據指示信號查找讀取文件存儲器20中儲存對應的分類數據并反饋給終端10 ;并用于對文件進行分類處理并發送給文件存儲器;
[0034]文件存儲器20,用于儲存經處理器30分類處理已確定最終類別的文件以及文件的分類數據。
[0035]其中,終端10可以但不限于是服務器終端、移動終端及/或計算機終端。分類數據則包括:文件分類數據和索引數據。而索引數據進一步包括:文件存放位置、科學領域、文件名稱及/或文件類別。
[0036]利用本發明提供的文件分類裝置的實施例1,通過處理器根據名詞詞匯對文件詞匯進行標引,并根據主題詞匯檢索文件主題詞所在的類別;并基于標引的結果以及所在的類別來確定文件的最終類別。所以克服了傳統文件分類方法只能依據文件的屬性對文件進行分類的問題,進而實現依據文件的內容對文件進行區分并確定文件的最終類別,使用戶能夠按照文件的內容靈活精確地對文件進行分類。
[0037]圖2為本發明文件分類裝置實施例1的具體結構示意圖,如圖2所示,處理器30包括連接主題詞存儲器320和名詞存儲器330的處理單元310 ;
[0038]主題詞存儲器320,用于存儲以分類級別進行分類存儲的主題詞匯;在具體實施例中,主題詞存儲器320中放置有科技文獻中常用的若干關鍵主題詞匯,如電力行業中的交流電、電力輸變等主題詞匯。這些主題詞匯均按照一定結構、一定類別進行分類設置并存儲。如將若干主題詞匯分成八個大類,每個大類下再設置若干小類,在每個類別下又可以設置若干主題詞匯。
[0039]名詞存儲器330,用于存儲以分類級別進行分類存儲的名詞詞匯;在具體實施例中,名詞存儲器330包含有若干名詞詞匯,如電力類、電子類和/或機械類等科技領域中常用的名詞詞匯。由于名詞存儲器330中包含若干科技領域中的詞匯,一般所述主題詞存儲器320中的主題詞匯均會在該名詞存儲器330中出現,即該名詞存儲器330中的詞匯中至少包含有該主題詞存儲器320中的主題詞匯。
[0040]處理單元310,則根據名詞詞匯對待分類文件中的文件詞匯進行標引,以及對文件詞匯進行統計分析獲得文件主題詞,并根據主題詞匯檢索文件主題詞在主題詞存儲器320中所在的類別;并基于標引的結果以及所在的類別來確定待分類文件的最終類別。
[0041]為便于說明本發明的主旨,下面提供一具體實施例:
[0042]由于詞匯本身的不確定性,詞間存在著語義上的相似性,所以傳統技術中簡單地使用主題詞匯檢索的方法進行文件分類的缺點主要表現在以下幾個方面:
[0043]a)對于同一對象,不同的人可能會使用不同的詞匯進行描述;
[0044]b) 一個變形詞往往與原詞具有相同的語義,一般人不會刻意區分;
[0045]c)同一個詞在不同的應用領域,可能會表達完全不同的語義;
[0046]d)同一個詞在同一應用領域,不同的描述詞類可能使其具有不同的語義。
[0047]針對這些情況,處理單元310采用如下方法對文件進行分類:
[0048]首先,針對不同領域的待分類文件,使用各自的、與該領域相對應的名詞存儲器330中分類別存儲的名詞詞匯進行標引,這樣就避免了同一詞匯在不同的應