一種詞典數(shù)據(jù)表的生成及應用方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,特別涉及一種詞典數(shù)據(jù)表的生成方法和裝置,以及一種詞典數(shù)據(jù)表的應用方法和裝置。
【背景技術(shù)】
[0002]隨著信息技術(shù)的飛速發(fā)展,當今社會進入了信息爆炸時代,人們越來越多地借助網(wǎng)絡(luò)來尋找自己需要的信息,因此,檢索成為人們工作、生活不可或缺的一部分。
[0003]人們通常使用搜索引擎來進行檢索,搜索引擎是指根據(jù)一定的策略、運用特定的計算機程序從互聯(lián)網(wǎng)上搜集信息,在對信息進行組織和處理后,為用戶提供檢索服務,將與用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)。
[0004]現(xiàn)有技術(shù)中,搜索引擎在對信息進行組織和處理時,會直接存儲信息內(nèi)容本身,以地點為例,如果地點是北京,則在地點字段中保存文字北京,這樣需要大量的存儲空間,并且在后續(xù)提供檢索服務時,檢索速度較慢。
【發(fā)明內(nèi)容】
[0005]本發(fā)明提供一種詞典數(shù)據(jù)表的生成方法和裝置,以及一種詞典數(shù)據(jù)表的應用方法和裝置,用以實現(xiàn)節(jié)約資源存儲空間的目的。
[0006]本發(fā)明提供一種詞典數(shù)據(jù)表的生成方法,包括:
[0007]從元數(shù)據(jù)表中提取至少一條數(shù)據(jù)資源信息,其中,各條數(shù)據(jù)資源信息包括數(shù)據(jù)資源發(fā)布者,數(shù)據(jù)資源發(fā)布時間,數(shù)據(jù)資源的屬性,數(shù)據(jù)資源中的人物、地點、機構(gòu),數(shù)據(jù)資源的關(guān)鍵詞中的一項或多項;
[0008]對于所述各條數(shù)據(jù)資源信息,計算該條數(shù)據(jù)資源信息中各項信息的詞匯的hash值;
[0009]根據(jù)該條數(shù)據(jù)資源信息中各項信息的詞匯的hash值,查找該條數(shù)據(jù)資源信息中各項信息的詞匯在詞典表中的標識,其中,所述詞典表的數(shù)據(jù)項架構(gòu)包括詞的標識、詞的hash值以及詞本身;
[0010]在詞典數(shù)據(jù)表中存儲所述各條數(shù)據(jù)資源信息中各項信息的詞匯在詞典表中的標識,以實現(xiàn)在所述詞典數(shù)據(jù)表中存儲所述各條數(shù)據(jù)資源信息。
[0011]在本發(fā)明一實施例中,當所述各條數(shù)據(jù)資源信息包括數(shù)據(jù)資源中的人物、地點、機構(gòu)中的一項或多項時,所述從元數(shù)據(jù)表中提取至少一條數(shù)據(jù)資源信息,包括:
[0012]從元數(shù)據(jù)表中提取各條數(shù)據(jù)資源的標題和/或摘要;
[0013]對所述各條數(shù)據(jù)資源的標題和/或摘要進行分詞處理,得到分詞結(jié)果;
[0014]從所述分詞結(jié)果中提取所述各條數(shù)據(jù)資源中的人物、地點、機構(gòu)中的一項或多項。
[0015]在本發(fā)明一實施例中,當所述各條數(shù)據(jù)資源信息包括數(shù)據(jù)資源中的人物、地點、機構(gòu)中的一項或多項時,所述從元數(shù)據(jù)表中提取至少一條數(shù)據(jù)資源信息,包括:
[0016]從元數(shù)據(jù)表中提取各條數(shù)據(jù)資源的關(guān)鍵詞;
[0017]利用預設(shè)的人物、地點、機構(gòu)的詞源庫,從所述各條數(shù)據(jù)資源的關(guān)鍵詞中提取所述各條數(shù)據(jù)資源中的人物、地點、機構(gòu)中的一項或多項。
[0018]本發(fā)明還提供一種詞典數(shù)據(jù)表的應用方法,包括:
[0019]從詞典數(shù)據(jù)表中取出至少一條數(shù)據(jù)資源信息;
[0020]從所述數(shù)據(jù)資源信息中選取多個詞的標識;
[0021 ] 對于所述多個詞中的每兩個詞,在詞語關(guān)聯(lián)表中查找該兩個詞的標識是否存在;
[0022]若不存在,則初始該兩個詞的關(guān)聯(lián)深度值至初始值,并將該兩個詞的標識以及關(guān)聯(lián)深度值作為詞語關(guān)聯(lián)表的數(shù)據(jù)項進行存儲。
[0023]在本發(fā)明一實施例中,所述對于所述多個詞中的每兩個詞,在詞語關(guān)聯(lián)表中查找該兩個詞的標識是否存在之后,還包括:
[0024]若存在,則將該兩個詞的關(guān)聯(lián)深度值加上第一預設(shè)數(shù)值。
[0025]本發(fā)明還提供一種詞典數(shù)據(jù)表的生成裝置,包括:
[0026]提取模塊,用于從元數(shù)據(jù)表中提取至少一條數(shù)據(jù)資源信息,其中,各條數(shù)據(jù)資源信息包括數(shù)據(jù)資源發(fā)布者,數(shù)據(jù)資源發(fā)布時間,數(shù)據(jù)資源的屬性,數(shù)據(jù)資源中的人物、地點、機構(gòu),數(shù)據(jù)資源的關(guān)鍵詞中的一項或多項;
[0027]計算模塊,用于對于所述各條數(shù)據(jù)資源信息,計算該條數(shù)據(jù)資源信息中各項信息的詞匯的hash值;
[0028]第一查找模塊,用于根據(jù)該條數(shù)據(jù)資源信息中各項信息的詞匯的hash值,查找該條數(shù)據(jù)資源信息中各項信息的詞匯在詞典表中的標識,其中,所述詞典表的數(shù)據(jù)項架構(gòu)包括詞的標識、詞的hash值以及詞本身;
[0029]第一存儲模塊,用于在詞典數(shù)據(jù)表中存儲所述各條數(shù)據(jù)資源信息中各項信息的詞匯在詞典表中的標識,以實現(xiàn)在所述詞典數(shù)據(jù)表中存儲所述各條數(shù)據(jù)資源信息。
[0030]在本發(fā)明一實施例中,當所述各條數(shù)據(jù)資源信息包括數(shù)據(jù)資源中的人物、地點、機構(gòu)中的一項或多項時,所述提取模塊還用于:
[0031]從元數(shù)據(jù)表中提取各條數(shù)據(jù)資源的標題和/或摘要;
[0032]對所述各條數(shù)據(jù)資源的標題和/或摘要進行分詞處理,得到分詞結(jié)果;
[0033]從所述分詞結(jié)果中提取所述各條數(shù)據(jù)資源中的人物、地點、機構(gòu)中的一項或多項。
[0034]在本發(fā)明一實施例中,當所述各條數(shù)據(jù)資源信息包括數(shù)據(jù)資源中的人物、地點、機構(gòu)中的一項或多項時,所述提取模塊還用于:
[0035]從元數(shù)據(jù)表中提取各條數(shù)據(jù)資源的關(guān)鍵詞;
[0036]利用預設(shè)的人物、地點、機構(gòu)的詞源庫,從所述各條數(shù)據(jù)資源的關(guān)鍵詞中提取所述各條數(shù)據(jù)資源中的人物、地點、機構(gòu)中的一項或多項。
[0037]本發(fā)明還提供一種詞典數(shù)據(jù)表的應用裝置,包括:
[0038]選取模塊,用于從詞典數(shù)據(jù)表中取出至少一條數(shù)據(jù)資源信息;以及從所述數(shù)據(jù)資源信息中選取多個詞的標識;
[0039]第二查找模塊,用于對于所述多個詞中的每兩個詞,在詞語關(guān)聯(lián)表中查找該兩個詞的標識是否存在;
[0040]處理模塊,用于若所述第二查找模塊在詞語關(guān)聯(lián)表中未查找到該兩個詞的標識,則初始該兩個詞的關(guān)聯(lián)深度值至初始值,并將該兩個詞的標識以及關(guān)聯(lián)深度值作為詞語關(guān)聯(lián)表的數(shù)據(jù)項進行存儲。
[0041]在本發(fā)明一實施例中,所述處理模塊還用于:
[0042]若所述第二查找模塊在詞語關(guān)聯(lián)表中查找到該兩個詞的標識,則將該兩個詞的關(guān)聯(lián)深度值加上第一預設(shè)數(shù)值。
[0043]本發(fā)明實施例的一些有益效果可以包括:
[0044]本發(fā)明實施例中,從元數(shù)據(jù)表中提取至少一條數(shù)據(jù)資源信息,對于各條數(shù)據(jù)資源信息,計算該條數(shù)據(jù)資源信息中各項信息的詞匯的hash(哈希)值。隨后根據(jù)該條數(shù)據(jù)資源信息中各項信息的詞匯的hash值,查找該條數(shù)據(jù)資源信息中各項信息的詞匯在詞典表中的標識。進而在詞典數(shù)據(jù)表中存儲各條數(shù)據(jù)資源信息中各項信息的詞匯在詞典表中的標識,以實現(xiàn)在詞典數(shù)據(jù)表中存儲所述各條數(shù)據(jù)資源信息。由此,本發(fā)明通過存儲數(shù)據(jù)資源信息的詞匯的標識代替數(shù)據(jù)資源信息本身,可以節(jié)約資源存儲空間。進一步,由于詞典數(shù)據(jù)表中存儲了數(shù)據(jù)資源信息的詞匯的標識,因而可以利用該標識進行后續(xù)的查找工作,相比于現(xiàn)有技術(shù)中查找數(shù)據(jù)資源信息本身,可以提高查找速度。
[0045]本發(fā)明的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過在所寫的說明書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來實現(xiàn)和獲得。
[0046]下面通過附圖和實施例,對本發(fā)明的技術(shù)方案做進一步的詳細描述。
【附圖說明】
[0047]附圖用來提供對本發(fā)明的進一步理解,并且構(gòu)成說明書的一部分,與本發(fā)明的實施例一起用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的限制。在附圖中:
[0048]圖1為本發(fā)明一實施例中詞典數(shù)據(jù)表的生成方法的流程圖;
[0049]圖2為本發(fā)明一實施例提供的元數(shù)據(jù)表中的一條原始數(shù)據(jù)資源;
[0050]圖3為本發(fā)明一實施例提供的詞典表的結(jié)構(gòu)字段示意圖;
[0051]圖4為本發(fā)明一實施例提供的詞典數(shù)據(jù)表的結(jié)構(gòu)字段示意圖;
[0052]圖5為本發(fā)明一實施例中詞典數(shù)據(jù)表的應用方法的流程圖;
[0053]圖6為本發(fā)明一實施例中詞典數(shù)據(jù)表的生成裝置的結(jié)構(gòu)示意圖;以及
[0054]圖7為本發(fā)明一實施例中詞典數(shù)據(jù)表的應用裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0055]以下結(jié)合附圖對本發(fā)明的優(yōu)選實施例進行說明,應當理解,此處所描述的優(yōu)選實施例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明。
[0056]圖1所示為本發(fā)明一實施例中詞典數(shù)據(jù)表的生成方法的流程圖,該方法包括以下步驟 S11-S14:
[0057]步驟S11,從元數(shù)據(jù)表中提取至少一條數(shù)據(jù)資源信息,其中,各條數(shù)據(jù)資源信息包括數(shù)據(jù)資源發(fā)布者,數(shù)據(jù)資源發(fā)布時間,數(shù)據(jù)資源的屬性,數(shù)據(jù)資源中的人物、地點、機構(gòu),數(shù)據(jù)資源的關(guān)鍵詞中的一項或多項。
[00