本發明屬于數據挖掘領域,涉及一種基于多樣性的地理空間興趣點檢索方法。
背景技術:
:近年來,由于移動設備(如智能手機)上全球定位系統GPS的普及,基于位置的服務(LBS)得到了學術界和工業界的廣泛關注。很多基于位置的服務都得到了普及和應用,帶給了用戶位置相關的檢索體驗。現有的LBS系統采用關鍵詞檢索的方式幫助用戶從空間數據庫中找到位置相關的結果。具體來說,假設空間數據庫中有一組興趣點(POI點),其中每個POI點都包含位置信息和一定的文本信息。給定用戶的位置和一組查詢關鍵詞,LBS系統返回從空間和文本上都與查詢相關的POI點。但是現在大多數的LBS系統只是從數據庫中直接抽取分數排名前k條的信息,為了彌補沒有全面的考慮空間位置的不足,本發明提出一種對文本和空間都進行削弱的算法,使得到最終結果盡可能的包含每一個方向上。該技術引入了元組集合(ObjectSummaries,縮寫為OS),它是在包含位置信息和一定的文本信息的空間數據庫中生成的基于空間位置和文本的信息元組的集合。一個OS可以是以包含給定文本信息和空間位置的數據元組為根,以空間位置和文本的信息的相鄰節點為它的子孫節點的樹形結構。為了生成OS,一是要擁有關于查詢數據主體(DataSubjects,縮寫為DS)信息的關系,把這個關系簡寫為RDS,即是樹形結構的根;另一個需要與RDS鏈接的關系,也就是生成RDS的子孫。對于每個RDS來說都能夠形成一個DS模式圖,也就是GDS。此技術是根據生成的OS來不斷地進行剪枝優化最終得出重要的信息。一個完整的OS中可能有成千上萬條元組信息,將這些信息全部列舉出來不但會消耗更多的時間,而且對用戶在其中選取對自己來說有用的信息也是非常困難的,所以選擇選取k條最有用的元組信息;對輸入的自然數k,將在整個的OS中運用算法(詳見步驟3.3)得到k條較全面的信息,為了避免多條相似的信息重復出現,使這k條信息能夠在最大限度上呈現給用戶更多樣化的信息,使用戶能夠更全面的了解信息,本發明引入空間多樣性和文本與空間所占權重兩種權衡信息重要性的方法。這種方法不僅能夠大大減少時間的消耗,提高返回信息的效率,而且能夠滿足用戶對搜索信息的多樣化需求,使得到的空間位置點不僅僅只偏向某一方位。技術實現要素:本發明的目的在于提供一種基于多樣性的地理空間興趣點檢索方法,對用戶所輸入的位置點或位置點與關鍵詞的組合,運用算法得到前k個空間位置,再根據文本與空間位置所占的權重返回給用戶k條最全面的信息。為實現上述目的,本發明采用的技術方案為基于多樣性的地理空間興趣點檢索方法,以期要得到前k個空間位置,方法的實現步驟如下:步驟一:對于給定的位置點或位置點與關鍵詞的組合進行初始化排序;步驟1.1:收集并整理數據集,構建數據關系。這時定義有向圖G(V,E),其中V(v1,...,vn)是節點(頂點)集,這里的節點代表各類信息,E是代表邊(弧)的集合,E={<vi,vj>|vi,vj∈V},<vi,vj>表示從vi到vj的一條邊(弧),v1,...,vn代表有向圖中的任意節點,這里n為自然數;步驟1.2:通過以下公式來計算R中每個節點vi的分數:DF(vi)=[fs(vi)*ds(vi)]as*[ft(vi)*dt(vi)]at*[fg(vi)*dg(vi)]ag(1)其中fs(.),ft(.),fg(.)分別為社會(social)參數,文本(textual)參數以及地理(geographical)參數的分數,ds(.),dt(.),dg(.)分別為對應的多樣性分數,as、at、ag的和為1,用于控制每個參數影響。通過以下公式來計算多樣性分數:其中ss(vi,vj)是vi和vjsocial參數的不同,使用Jaccard距離計算同上,計算dt(.)和dg(.)的值。綜上,迭代計算出數據集中各個節點的分數,并且選擇節點中分數最高的節點v0。步驟二:根據選擇的分數最高的節點所在的地理位置對其他節點進行地理空間的削弱;步驟2.1:根據步驟一中選擇的分數最高的節點對其他頂點進行關聯關系的削弱的同時也進行地理空間的削弱,假設分數最高節點v0的位置點到初始位置點p的距離為d(p,v0),初始位置點到其他節點的距離為d(p,vi),v0到其他節點的距離為d(v0,vi),則通過以下公式來計算地理空間值:從公式3中可知,d(v0,vi)即v0到其他節點的距離越大,所求的地理空間值越大,說明節點vi與已選擇的節點距離越大,兩個節點在空間上的方向也就不同。綜上,依次計算出所選節點到其余剩余節點的地理空間值di。步驟三:當不滿足結束條件時,選擇新節點;步驟3.1:假設對關聯關系削弱后的結果為a,文本所占權重為α,則剩余節點削弱后的文本值為a×α;步驟3.2:假設對空間所占權重為β,其中α+β=1,則剩余節點削弱后的空間值為d×β;步驟3.3:通過以下公式來計算剩余節點對文本和空間進行削弱后的分數:DF′(vi)=DF(vi)×(a×α+d×β)(4)綜上,計算出R中剩余節點通過對文本和空間的削弱后的新的分數,再從中選出分數最高的節點。所以選出k個結果的過程為:1.)初始化隊列Hk為空,輸入位置點或位置點與關鍵詞的組合;2.)根據輸入信息,構建數據關系;3.)計算每一個節點的分數;4.)得到分數最高的節點加入Hk中,l=1;5.)當l<k時轉6.),否則轉9.);6.)根據已所選的節點進行關聯關系的削弱,并計算di值;7.)根據文本和空間的削弱和所占權重,計算新的分數;8.)得到分數最高的節點加入Hk中,l++,轉5.);9.)返回隊列Hk;此時返回的Hk即所需的將要檢索到的k條信息。經實驗結果證明,本方法得到的實驗效果顯著。附圖說明圖1為本發明方法的實施流程圖。圖2為檢索結果信息的空間位置示意圖具體實施方式下面結合相關附圖1-2對本發明所涉及的方法進行解釋和闡述:步驟一:對于給定的位置點或位置點與關鍵詞的組合進行初始化排序;根據公式(1)計算數據集各個節點的初始值。假設給定位置點為“天安門廣場”,關鍵詞為“大學”,k=5,根據公式計算初始分數,結果如表1所示:表113個節點的初始化分數節點分數中央戲劇學院9.5中央音樂學院9北京財貿職業學院8.7北京師范大學北校區8.1中國佛學院7.5中國協和醫科大學護理學院7.3中國伊斯蘭教經學院6北京教育學院宣武分院5.8北京交通大學5.3北京工業大學5中央財經大學4.6中國中醫科學院3中國政法大學2步驟二:根據選擇的分數最高的節點所在的地理位置對其他節點進行地理空間的削弱;步驟2.1:根據步驟一中選擇的分數最高的節點對其他頂點進行關聯關系的削弱;選取分數最高的節點“中央戲劇學院”,根據“中央戲劇學院”與其他節點的關聯關系進行削弱,結果如表2所示。步驟2.2:計算出各節點的空間值;根據“天安門廣場”到各節點的距離(如表3所示)和“中央戲劇學院”到剩余節點的距離(如表4所示)可以計算出各節點的空間值,其中表2根據“中央戲劇學院”與其他節點的關聯關系削弱結果節點關聯關系削弱中央音樂學院0.255北京財貿職業學院0.538北京師范大學北校區0.435中國佛學院0.856中國協和醫科大學護理學院0.801中國伊斯蘭教經學院0.756北京教育學院宣武分院0.522北京交通大學0.373北京工業大學0.689中央財經大學0.617中國中醫科學院0.493中國政法大學0.345表3“天安門廣場”到節點的距離節點距離(km)中央戲劇學院3.69中央音樂學院3.27北京財貿職業學院3.08北京師范大學北校區3.78中國佛學院3.22中國協和醫科大學護理學院2.08中國伊斯蘭教經學院3.30北京教育學院宣武分院3.23北京交通大學7.05北京工業大學7.87中央財經大學7.84中國中醫科學院4.65中國政法大學7.78表4“中央戲劇學院”到剩余節點的距離節點距離(km)中央音樂學院5.40北京財貿職業學院2.24北京師范大學北校區1.18中國佛學院5.72中國協和醫科大學護理學院3.09中國伊斯蘭教經學院6.58北京教育學院宣武分院6.90北京交通大學5.53北京工業大學9.66中央財經大學1.97中國中醫科學院5.80中國政法大學5.39步驟三:當不滿足結束條件時,選擇新節點假設文本和空間所占的權重值α=β=0.5,所以根據式(1)、(2)、(3)求得新的分數,例如DF’(中央音樂學院)=9×(0.5×0.255+0.5×0.729)=4.428,DF’(北京財貿職業學院)=8.7×(0.5×0.538+0.5×0.331)=3.780結果如表5所示:表5選擇“中央戲劇學院”節點后新的分數結果節點分數中央音樂學院4.428北京財貿職業學院3.780北京師范大學北校區2.402中國佛學院6.315中國協和醫科大學護理學院5.034中國伊斯蘭教經學院5.091北京教育學院宣武分院4.405北京交通大學2.353北京工業大學3.813中央財經大學1.812中國中醫科學院1.782中國政法大學0.185根據表5的結果得到分數最高的節點“中國佛學院”,現在得到了兩個節點“中央戲劇學院”和“中國佛學院”,因為2<k=5,繼續根據算法求得4個節點。在選擇“中國佛學院”后剩余節點的新的分數結果如表6所示:表6選擇“中國佛學院”節點后新的分數結果節點分數中央音樂學院1.242北京財貿職業學院2.767北京師范大學北校區1.546中國協和醫科大學護理學院4.367中國伊斯蘭教經學院1.392北京教育學院宣武分院1.821北京交通大學1.320北京工業大學2.926中央財經大學1.242中國中醫科學院1.295中國政法大學0.477根據表6的結果得到分數最高的節點“中國協和醫科大學護理學院”,剩余節點的新的分數結果如表7所示:表7選擇“中國協和醫科大學護理學院”節點后新的分數結果節點分數中央音樂學院0.738北京財貿職業學院0.876北京師范大學北校區0.843中國伊斯蘭教經學院1.027北京教育學院宣武分院1.216北京交通大學0.725北京工業大學1.719中央財經大學0.806中國中醫科學院0.520中國政法大學0.256根據表7的結果得到分數最高的節點“北京工業大學”,剩余節點的新的分數結果如表8所示:表8選擇“北京工業大學”節點后新的分數結果節點分數中央音樂學院0435北京財貿職業學院0.493北京師范大學北校區0.523中國伊斯蘭教經學院0.613北京教育學院宣武分院0.580北京交通大學0.394中央財經大學0.645中國中醫科學院0.261中國政法大學0.136根據表8的結果得到分數最高的節點“中央財經大學”,現在l=5=k,即得到5條信息,“中央戲劇學院”,“中國佛學院”,“中國協和醫科大學護理學院”,“北京工業大學”,“中央財經大學”其具體空間位置如圖2所示:圖2為檢索結果信息的空間位置示意圖。根據圖2可以看出檢索到的5條信息覆蓋了“天安門廣場”周邊的各方向,沒有局限某一個方向。當前第1頁1 2 3