一種結合歷史數據的異構處理大數據檢索的方法
【技術領域】
[0001] 本發明涉及大數據技術領域,尤其涉一種結合歷史數據的異構處理大數據檢索的 方法。
【背景技術】
[0002] 作為云計算領域的一種新型數據管理模式一一大數據,對數據管理的關鍵和瓶頸 在于:隨著存儲規模的擴大,如何提高數據的加載效率和檢索率。然而,由于大數據是隨著 云計算的超級計算能力而產生的,它具有以下三個特征:
[0003] 規模大:即數據量大,超過了人們的想象,普通一個社交網絡。如Facebook-天的 數據量達到逾500TB新數據。
[0004] 數據異構性:大數據中的數據類型有很大的差異。
[0005] 價值密度低:在大數據中,以我們有利用價值的數據只是其中的極小的一部分。最 典型的例子是視頻監控。
[0006] 如何有效、快速、準確地找到人們所需要的信息,使之成為重要資源,已是信息時 代人們的重要需求,面對海量的信息資源,信息檢索技術發揮著越來越重要的作用。然而, 現有的數據庫管理系統不同,數據存儲系統的部署平臺不同,使得數據資源在物理上和邏 輯上都存在異構。眾多的異構資源系統彼此之間的不兼容,資源對象和內容缺乏關聯,信息 資源的多樣性和異構性,導致了信息資源獲取不便,難以共享的信息和狀態。
[0007] 從1998年起,斯坦福大學的Paepeke就提出了異構數據的互操作問題。Paepeke 認為,異構數據庫檢索技術是未來的信息檢索主流的方向,目標是為了實現異構數據資源 共享,對語義結構和體系結構不同的信息檢索的主流方向,目標是實現異構數據的信息共 享,從而對不同的語義結構和體系結構的信息建立起相互操作的連接。
[0008] 因此,聯合各個異構數據資源,實現不同數據資源之間的數據轉換,消除異構,從 中檢索出指定的數據是亟待解決的重要問題。本文針對當前信息領域的數據異構的存儲情 況,廣大用戶群和用戶急需實現的信息檢索、信息共享和信息通信的要求,在考慮如何解決 數據源異構性的問題上,結合分詞技術,利用已有檢索歷史數據的方法,大大地提高大數據 的查全率和查準率。在此,把此技術命名為結合歷史數據的異構處理大數據檢索方法。
[0009] 中間件技術最早在1992年由Wiederhold提出,圖1中所示原理結構示意圖,之后 許多的數據集成領域的專家對數據集成的中間件進行很深入的研宄。典型的數據集成中間 件使用XML數據模型構造出全局的數據模式,通過各個數據源和包裝器的交互,在全局數 據模式的基上,當用戶向中間件發出查詢請求時,中間件將用戶的請求轉換成各種數據源 可以處理的子查詢請求,從各個支流中取出數據后,在各自數據源中進行合并處理,最后生 成用戶全局查詢的最終結果返回。在此模式中,可以一定程度上解決了結構化數據、半結構 化數據和非結構化數據上的并存問題。
[0010] 雖然可以處理半結構化和非結構化的數據,但在處理非結構化數據中,效率十分 低下。在此類數據集成中間件數據的效率較低,在進行整合的過程中不排除有污染數據進 入,并且,現有的數據集成中間件一般注重于全局查詢的處理和優化,對數據的純度和檢索 結果的查準率較低。在此模式中,對中間件的硬件要求和流量處理花銷較大。
【發明內容】
[0011] 本文提出的結合歷史數據的異構處理大數據檢索方法,是在保證數據檢索的查全 率和查準率的情況下,有效地解決了大數據中數據異構性的問題,并且極大地提高了檢索 的效率,是一種新型的大數據搜索方法。
[0012] 為了解決上述問題,本發明提出了一種結合歷史數據的異構處理大數據檢索的方 法,包括如下步驟:
[0013] 接收用戶輸入的關鍵字句;
[0014] 基于關鍵字句向Web服務器中的歷史記錄表中進行檢索;
[0015] 判斷所述歷史記錄表中是否有本次搜索的關鍵字句,如果有則直接從Web服務器 中取出結果;如果沒有本次搜索的關鍵字句,則采用元搜索引擎到數據庫服務器中進行分 布式搜索;
[0016] 將最終的搜索結果反饋給用戶。
[0017] 所述接收用戶輸入的關鍵字句之前還包括:
[0018] Web服務器基于歷史用戶檢索請求,將相關用戶檢索的歷史數據存儲在本地空間。
[0019] 所述接基于關鍵字句向Web服務器中的歷史記錄表中進行檢索包括:
[0020] 利用基于改進的整詞二分詞典的快速分詞法,把用戶檢索時的請求語句劃分成各 個獨立的詞后,向Web服務器中的歷史記錄表中進行檢索。
[0021] 所述Web服務器中的歷史記錄表存儲有〈關鍵字,時間點〉這兩個關鍵的屬性。
[0022] 所述如果有則直接從Web服務器中取出結果包括:
[0023] 歷史檢索中有本次搜索的關鍵字,則就直接從Web服務器中取出結果,再搜索歷 史記錄表中時間點后的新數據,兩個數據加起來,得到全部數據的搜索結果。
[0024] 實施本發明實施例,有效地解決了大數據源中異構性的問題;查準率和查全率非 常高;避免重復搜索。
【附圖說明】
[0025] 為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現 有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以 根據這些附圖獲得其它的附圖。
[0026] 圖1是現有技術中的基于中間件技術的搜索系統結構示意圖;
[0027] 圖2是本發明實施例中的異構處理大數據檢索的系統結構示意圖;
[0028] 圖3是本發明實施例中的結合歷史數據的異構處理大數據檢索的方法流程圖;
[0029] 圖4是本發明實施例中的部分匹配流程示意圖。
【具體實施方式】
[0030] 下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基于 本發明中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他 實施例,都屬于本發明保護的范圍。
[0031] 本文提出的結合歷史數據的異構處理大數據檢索方法,是在保證數據檢索的查全 率和查準率的情況下,有效地解決了大數據中數據異構性的問題,并且極大地提高了檢索 的效率,是一種新型的大數據搜索方法。
[0032] 所以,本文著重處理以下兩點問題:如何解決大數據源的異構性;如何在保證數 據檢索的查全率和查準率的前提下,提高檢索效率。
[0033] 大數據的傳輸模式如圖2中如示,用戶發求請求到Web服務器,Web服務器根據請 求,在部分或全部的數據庫服務器上提交查詢語句,接著數據庫服務器從各地的數據中查 到想要的數據,接著逆向返回到用戶中去。本文使用的結合歷史數據的異構處理大數據檢 索方法主要針對數據庫服務器和Web服務器這兩個部分。
[0034] 結合歷史數據的異構處理大數據檢索方法具體的實現方法如下:Web服務器中開 辟一塊足夠大的空間,當用戶檢索一條關鍵字的得到的結果,會存入該空間中,以備下次檢 索時再次利用結果。用戶檢索時,肯定要輸入關鍵字或關鍵句,利用基于改進的整詞二分詞 典的快速分詞法,把用戶檢索時的請求語句劃分成各個獨立的詞后,向Web服務器中的歷 史記錄表中進行檢索。Web服務器中的歷史記錄表必需存儲〈關鍵字,時間點〉這兩個關鍵 的屬性。根據檢索到結果的三種模式,可以判斷檢索的結果一部分是否可以直接來自Web 服務器的結果。若歷史檢索中沒有本次搜索的關鍵字,則我們就利用元搜索引擎進行分布 式搜索;若歷史檢索中有本次搜索的關鍵字,則就直接從Web服務器中取出結果,再搜索歷 史記錄表中時間點后的新數據,兩個數據加起來,得到全部數據的搜索結果。結合歷史數據 的異構處理大數據檢索方法的搜索流程如圖3所示。
[0035] 結合歷史數據的異構處理大數據檢索方法可以分成兩個處理部分:
[0036] 分詞部分;異構部分。
[0037] TB (terabyte):太字節,是計算