專利名稱:一種基于gpu多序列比對算法的社交網絡關聯搜索方法
技術領域:
本發明屬于社交網絡應用領域,更具體地,涉及ー種GPU平臺下實現基于多序列比對算法的社交網絡關聯搜索方法。
背景技術:
在社交網絡中,存在著名的“六度分割(Six degrees of Separation) ”理論,即世界上任何兩個個體,最多通過六個個體即可建立聯系,亦稱之為“小世界(Small World)”理論。隨著社交網絡的不斷發展,對個體間關聯路線的研究日漸成為社交網絡應用的研究熱點,即模擬驗證“六度分割”理論,探索社交網絡中任意兩個體如何構建路線,建立關聯關系。現階段,社交網絡中個體間關聯度的判定一般根據個體基本信息計算得出,不具有全面性和擴展性。同時,隨著社交網絡的發展,尋求個體間關聯路線成為ー種社交需求, 不僅需要得到任意兩個個體的關聯度數據,還要捜索其構建關聯的最優路線。經調研得出,目前尚未形成ー套成熟的算法體系(即社交網絡關聯搜索)研究個體間如何構建聯系。在生物信息學領域,多序列比對算法被證實能有效尋找生物序列同源性關系,可推廣應用于尋找其他個體或事物之間的聯系。多序列比對算法的基本處理過程分為三個基本階段序列兩兩比對構建距離矩陣(Smith-Waterman算法);根據距離矩陣構建關聯進化路線指導樹(Neighbor-Joining算法);循環重構進化指導樹,完成所有序列比對(Profile-Profile算法)。通過三個階段的處理,可找出基因庫中兩序列間進化路線及親緣遠近關系。將該算法思想進行改進并推廣應用于社交網絡中,可探索個體間關聯路線,尋找任意兩個體構建關聯關系的路徑。與此同時,隨著社交網絡的日益發展和用戶數量不斷増加,海量數據管理變得困難,數據操作的復雜性越來越高,傳統的CPU無法達到準確快速獲取個體關聯路線搜索的目的。
發明內容
針對現有技術的缺陷,本發明的目的在于提供一種基于GPU多序列比對算法的社交網絡關聯搜索方法,g在解決在GPU上實現社交網絡關聯搜索、任意指定社交網絡中兩個體并快速高效搜索出個體間最優關聯路線的問題。為實現上述目的,本發明提供了一種基于GPU多序列比對算法的社交網絡關聯搜索方法,包括以下步驟(I)CPU對個體網頁進行網絡爬蟲,以提取社交網絡中的個體特征信息向量(T1,T2, T3J ,Tn);(2) CPU過濾所述個體特征信息向量(T1, T2, T3, , Tn)中的冗余特征信息,以生成統ー個體特征信息向量庫CPU對所述個體特征信息向量(T1, T2, T3, , Tn)的特征屬性進行語義分析,以得出所述個體特征向量對應的特征屬性集{Pp p2,p3,...,PJ ;CPU對所述特征屬性集{Pi,P2,P3,...,Pn}的屬性元素進行模擬訓練,計算所述屬性元素對個體間關聯度的貢獻因子,并得出與所述特征屬性集{Pi,p2,p3,... ,PJ對應的特征貢獻因子分數集{Si,S2, S3, , SJ ;CPU根據網絡聚焦算法,對所述特征貢獻因子分數集{Si,S2, S3, , SJ進行模擬評估處理,計算得出貢獻因子分數閾值Smin,Sfflax);設置計數器C,并初始化c=l;CPU判斷所述特征貢獻因子分數集以,S2, S3, , SJ中的元素S。是否在所述貢獻因子分數閾值(smin, S-)范圍內;若元素S。在貢獻因子分數閾值(Smin,Sfflax)范圍內,則保留S。,并保留與S。對應的屬性P。;判斷c是否大于等于n;若c大于等于n,則CPU得出統ー特征貢獻因子分數集{Si,S2,S3,. . . ,Sj和統ー標準的特征屬性集(PUijPU2jPU3, , PUJ,并根據統ー標準的特征屬性集(PUijPU2jPU3, ,PUJ對個體特征信息向量(TpT2J3,. . . ,Tn)進行批量過濾處理,以得到與統ー標準特征屬性集(PU1, PU2, PU3, , PUJ對應的統ー個體特征信息向量(TU1, TU2, TU3, , TUm),井形成統ー個體特征信息向量庫;CPU將統ー特征信息向量(TU1, TU2, TU3. . .,TUm)和統ー特征貢獻因子分數集(S1,
S2,S3, , SJ 傳入 GPU ;(3)GPU根據所述統ー個體特征信息向量庫計算社交網絡個體距離矩陣和矯正距離矩陣GPU根據所述統ー特征貢獻因子分數集以,S2, S3, , SJ計算社交網絡中兩兩個體間的距離,并構成社交網絡個體距離矩陣D ;GPU獲取社交網絡中個體的總數C,設置計數器k,并初始化為k = C,且設置社交網絡的個體集合為(E^E2J3, -,EJ ;GPU根據多序列比對算法,對社交網絡個體距離矩陣D進行關聯計算,即對某ー個體距離值和其他所有個體距離值進行關聯處理,以得出更能真實反映個體間距離的矯正距尚矩陣M ;(4) GPU根據所述矯正距離矩陣M,構建社交網絡關聯路線指導樹GPU將所有個體的結點構成星形初始樹;GPU根據星形初始樹遍歷矯正距離矩陣M,以找出矯正距離矩陣M中最大的元數據對應的兩個個體;GPU根據找到的兩個個體生成虛擬父結點,并計算虛擬父結點到兩個個體結點的 距離;GPU根據所述計算方法計算出虛擬父結點到兩個個體結點的距離后,將被合并的兩個個體結點去除,并計算新的結點集合對應的距離矩陣和矯正距離矩陣;設置k = k_l,即每合并兩個結點生成一個新結點后,結點個體集合{Ei,E2,E3,…,Ej中結點個數減I ;判斷k是否小于等于2;
若k小于等于2,則進入步驟(5);(5) GPU遍歷所述社交網絡關聯路線指導樹,以確定最優關聯路線GPU查找社交網絡關聯路線指導樹中待搜索的源個體及目標個體,并建立源個體和目標個體之間的關聯路線;GPU根據 關聯路線進行最短路徑優先計算,以篩選出最短的關聯路線,即得出社交網絡中源個體和目標個體間最優關聯路徑。本發明的方法還包括步驟若元素S。不在貢獻因子分數閾值(Smin,S_)范圍內,則從特征貢獻因子分數集(S1, S2, S3, , SJ中將S。去除,并從特征屬性集(P1, P2, P3,,PJ中將與S。對應的P。去除。本發明的方法還包括步驟若c不大于等于n,則c = c+1,并返回所述CPU判斷所述特征貢獻因子分數集{Si,S2,S3,. . . ,SJ中的元素Sii否在所述貢獻因子分數閾值(smin,Smax)范圍內的步驟。本發明的方法還包括步驟若k不小于等于2,則GPU計算所述新的虛擬父結點到除所述被合并的兩個個體的結點以外所有結點的距離,以構成新的距離矩陣,GPU計算新的距離矩陣對應的矯正距離矩陣。GPU根據所述統ー特征貢獻因子分數集以,S2, S3, , SJ計算社交網絡中兩兩個體間的距離,并構成社交網絡個體距離矩陣D的步驟具體包括GPU根據統ー特征貢獻因子分數集以,S2, S3, , SJ遍歷統一特征信息向量(TU1, TU2, TU3. . .,TUm),以判斷統ー特征信息向量中的特征元數據的屬性條件是否相同,若屬性條件相同,則累加特征向量中特征元數據對應的貢獻因子分數,否則進行下一個特征元數據的比較。通過本發明所構思的以上技術方案,與現有技術相比,具有以下的技術效果(I)本發明基于GPU平臺實現社交網絡關聯搜索,充分利用GPU適合處理大量密集型數據的優勢,將多序列比對算法解決關聯捜索問題進行并行化,利用GPU完成矩陣及關聯路線指導樹的形成和遍歷等復雜耗時操作,解決了社交網絡數據量大和操作復雜性所帯來的耗時長問題。(2)與現階段社交網絡僅根據個體基本信息判斷其親密度相比,本發明加入了個體間交互信息提取及統計訓練的社交網絡模型,能更真實更全面反映個體間親密度,并以GTO平臺下并行化的快速多序列比對算法為基礎,探索個體間是如何產生關聯的,即實現最優關聯路線搜索,具有真實性和全面性。
圖I為本發明基于GPU多序列比對算法的社交網絡關聯搜索方法的流程圖。圖2為本發明方法中構建關聯路線指導樹的流程圖。
具體實施例方式為了使本發明的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本發明進行進ー步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,并不用于限定本發明。以下首先對本發明的技術術語進行解釋和說明
個體間關聯度個體間關聯關系的強弱程度。貢獻因子是個體特征信息向量中向量元素對應的屬性對個體間關聯關系強弱程度的一種數值表達。如圖I所示,本發明基于GPU多序列比對算法的社交網絡關聯搜索方法包括如下步驟(I)CPU根據網絡聚焦爬蟲算法對個體網頁進行網絡爬蟲,以提取社交網絡中的個體特征信息向量(TijT2jT3, ... ,Tn) 在社交網絡中,通常通過爬蟲算法提取頁面信息,獲取個體信息數據,若社交網絡數據庫公開,則可通過調用數據庫直接獲取該社交網絡中個體特征信息,但通常社交網絡涉及隱私保護,數據庫信息并非公開化。本發明不僅提取個體基本信息,還根據語義分析提取個體間交互信息,因此需要定向抓取相關網頁資源,即聚焦爬蟲技術;網絡聚焦爬蟲是ー個自動提取網頁的程序,涵蓋了網頁數據抽取、機器學習、數據挖掘、語義理解等技術,從社交網絡中若干個個體頁面URL開始,根據網頁分析算法,基于給定的目標數據模式,選擇性地訪問與此數據模式相關的數據信息及網頁相關的鏈接,為面向選擇的用戶查詢提供數據資源。本發明根據網絡聚焦爬蟲技術,采用基于網頁內容的分析算法,獲取個體頁面的基本信息及與其他個體間的交互信息,從而形成個體特征信息向量(T1, T2, T3, , Tn),此時將存儲該社交網絡中所有對象的個體信息向量數據,形成該社交網絡個體特征信息向量庫。(2) CPU過濾個體特征信息向量(T1, T2, T3, , Tn)中的冗余特征信息,以生成統一個體特征信息向量庫由于在個體特征信息向量中,不是每個特征元數據均能反映個體間關聯關系,SP存在冗余特征信息,并且大量特征數據會造成內存浪費和數據操作困難,故需對CPU中個體特征信息向量進行過濾處理,去除冗余信息,以在GPU上形成的統ー標準的特征信息向量模型。本步驟具體包括以下子步驟(2. DCPU根據語義分析模型對個體特征信息向量(T1, T2, T3, , Tn)中的每個特征元數據進行屬性語義分析,以得出個體特征向量對應的特征屬性集(P1, P2, P3, ...,PnI。其中,特征屬性集中的屬性Pi與特征信息向量中的特征Ti對應;(2. 2) CPU根據社交網絡中信息過濾模型,將相關信息即特征貢獻因子分數放入等待抓取的信息隊列,對每個屬性進行統計訓練模擬,計算得出特征屬性集(P1, P2, P3,,PnI中每個屬性的個體關聯貢獻因子,形成特征貢獻因子分數集{Si,S2, S3, , SJ ;(2.3)CPU根據網絡聚焦算法,對(2.2)中形成的特征貢獻因子分數集(S1, S2,
S3,...,SJ進行模擬評估處理,計算得出貢獻因子分數閾值Smin,Sfflax);(2. 4)設置計數器C,并初始化c = l;(2. 5)CPU判斷特征貢獻因子分數集{Si,S2,S3, …,SJ中的元素S。是否在貢獻因子分數閾值(smin, Smax)范圍內若元素S。在貢獻因子分數閾值(Smin,Sfflax)范圍內,則保留S。,并保留與S。對應的屬性P。,并進入步驟(2. 6),否則執行步驟(2. 7);(2. 6)判斷c是否大于等于n ;若c大于等于n,則CPU得出統ー特征貢獻因子分數集{Si,S2,S3,. . . ,Sj和統ー標準的特征屬性集(PUijPU2jPU3, , PUJ,并根據統ー標準的特征屬性集(PUijPU2jPU3, ,PUJ對個體特征信息向量(TpT2J3,. . . ,Tn)進行批量過濾處理,以得到與統ー標準特征屬性集(PU1, PU2, PU3, , PUJ對應的統ー個體特征信息向量(TU1, TU2, TU3, , TUm),井形成統ー個體特征信息向量庫,然后進入步驟(2.9);否則,執行步驟(2.8);(2. 7)從特征貢獻因子分數集(S1, S2, S3, , SJ中將S。去除,并從特征屬性集(P1, P2, P3, , PJ中將與S。對應的P。去除;(2. 8)設置 c = c+1,并返回步驟(2. 5);(2. 9) CPU將統ー特征信息向量(TU1, TU2, TU3. .,TUm)和統ー特征貢獻因子分數集(SpS25S3,...,SJ 傳入 GPU;(3) GPU根據統ー個體特征信息向量庫計算社交網絡個體距離矩陣和矯正距離矩 陣由于社交網絡中兩個體間距離通過兩個體間的特征信息向量距離來衡量,故本發明通過計算兩兩個體的統ー特征信息向量間的距離來代表個體間距離。本步驟具體包括以下子步驟(3. DGPU根據步驟⑵中得出的統ー特征貢獻因子分數集以,S2, S3, , Sj計算社交網絡中兩兩個體間的距離,并構成社交網絡個體距離矩陣D,具體為GPU根據統ー特征貢獻因子分數集以,S2,S3,...,SJ遍歷統一特征信息向量(TU1, TU2, TU3.,TUm),以判斷統ー特征信息向量中的特征元數據的屬性條件是否相同,若屬性條件相同,則累加特征向量中特征元數據對應的貢獻因子分數,否則進行下一個特征元數據的比較。
具體實施方式
舉例說明如下:設有個體Ei (TUi1, TUi2, TUi3. ..,TUim)和個體Ej (TUjljTUj2, TUj3. . .,TUjm),Ei和Ej間距離Su初始化為O。首先,對統ー特征模型向量中的特征值進行遍歷比較,若TUi1和TUj1特征值相同,則累積加分Sij,否則,處理下一特征元數據,直至完成所有特征元數據遍歷比較,即得出個體Ei和個體之間距離分數值Su。按照以上實施方法,對社交網絡中所有統ー個體特征信息向量進行兩兩比對,SP可得出個體距離矩陣D,其中兩個體特征信息向量間距離分數和Sij即為距離矩陣D中距離元素值。由于所有距離矩陣中Su和Sm距離值相等,即該矩陣具有対稱性,為減少存儲空間,在CUDA中以上三角形式存儲距離矩陣;(3. 2) GPU獲取社交網絡中個體的總數C,設置計數器k,并初始化為k = C,且設置社交網絡的個體集合為(EpE2J3,…,Ek};(3. 3)GPU根據多序列比對算法,對社交網絡個體距離矩陣D進行關聯計算,即對某一個體距離值和其他所有個體距離值進行關聯處理,以得出更能真實反映個體間距離的矯正距離矩陣M,具體計算方法如公式(I)和(2)所示M (EiEj) = d (Ei Ej) - [ (r (Ei) +r (Ej) ] / (C-2)(I)r (Ei) = d (Ei E1)+d (Ei E2)+d (Ei E3)+d (Ei Ek) (2)其中d(EiEj)代表距離矩陣D中代表兩個體距離的矩陣元,即個體Ei與個體Ej間的距離Su,r (Ei)為距離矩陣D中所有非Ei個體到Ei的距離和。(4)根據步驟(3. 3)計算得出的矯正距離矩陣M,構建社交網絡關聯路線指導樹如圖2所示,本步驟具體包括以下子步驟
(4. I) GPU將所有個體的結點構成星形初始樹;(4. 2) GPU根據星形初始樹遍歷矯正距離矩陣M,以找出矯正距離矩陣M中最大的元數據對應的兩個個體根據公式⑴和⑵計算得出的矯正距離矩陣M可知,M中距離值越大,兩個體親密度越大。在GPU上多個線程并行遍歷矯正距離矩陣M,找出距離值最大的兩個體,設遍歷得出社交網絡的個體集合(E1, E2, E3,…,EJ中最大的元數據對應的兩個個體為Ei和Ej,即距離最近的兩個結點;(4. 3)GPU根據找到的兩個個體生成虛擬父結點,并計算虛擬父結點到兩個個體結點的距離
在星形樹中將結點Ei和合井,生成新的虛擬根結點N1插入星形樹,完成關聯路線指導樹的第一次重構,并用如下公式(3)和(4)計算虛擬根結點N1與Ei和的聯系,即N1與Ei和Ej的距離值。D(EiN1) =CKEi Ej)/2+[r (Ej)-r (Ei) ]/2 (C-2)(3)D (EjN1) = d (EiEj) -D (EiN1)(4)其中D(EiN1)代表被去除的結點Ei到新的虛擬結點N1的距離,d(EiEj)為距離矩陣D中代表兩個體距離的矩陣元,r (Ei)為距離矩陣D中所有非Ei個體到Ei的距離之和;(4. 4)GPU根據步驟(4. 3)所述計算方法計算出虛擬父結點到兩個個體結點的距離后,將被合并的兩個個體結點去除,并計算新的結點集合對應的距離矩陣和矯正距離矩陣GPU將(4. 3)中被合并的結點Ei和Ej從最初的社交網絡個體集合(EnE2J3,…,EJ中去除,并加入新結點N1,得出新結點集合,并重新計算新結點集合中兩兩結點間距離,計算得出新結點集合對應的距離矩陣D(1),其中需重新計算新結點N1到個體集合(E1, E2,E3,…,EJ中去除Ei和的其他所有結點的距離,步驟(4. 3)所述虛擬結點NX到新個體集合中其他結點距離計算方法如公式(5)所示D(EmN1) =CKEi Em)+d (EjEm)-d (EiEj)/2(5)其中Ei和Ej為被去除結點,N1為新生成虛擬結點,Em為矩陣D中除Ei和Ej以外的結點,D(Em N1)代表虛擬結點到個體集合取,E2, E3,…,EJ中去除Ei和的其他結點的距離,d(EiEj)代表距離矩陣D中代表兩個體距離的矩陣元;再按照公式(I)和⑵計算距離矩陣D(1)對應的矯正距離矩陣M(1);(4.5)設置k = k_l,即每合并兩個結點生成一個新結點后,結點個體集合(EpE2,E3,…,Ek}中結點個數減I ;(4.6)判斷k是否小于等于2,若k大于2,則重復子步驟(4.2)-(4.4);否則進入步驟(5);(5)GPU遍歷步驟(4)得出的社交網絡關聯路線指導樹,以確定最優關聯路線,具體包括以下子步驟(5. I) GPU查找社交網絡關聯路線指導樹中待搜索的源個體及目標個體,并建立源個體和目標個體之間的關聯路線;根據關聯路線指導樹的構建步驟和原理可知,指導樹中每個虛擬根結點的兩個子結點均為親密度最高的兩個個體,若指定該社交網絡中任意源個體和目標個體,從源個體出發,對社交網絡關聯路線指導樹進行層次遍歷及深層遍歷,直至掃描出目標個體并建立關聯路線為止;(5. 2)GPU根據關聯路線進行最短路徑優先計算,以篩選出最短的關聯路線,即得出社交網絡中源個體和目標個體間最優關聯路徑;首先在GPU上實現最短路徑優先算法,即將最短路徑優先算法并行化,本發明中采用基于Bellman-Ford-Moore的并行方案,在考慮算法并行實現的各種優化策略的同時,考慮了如何進行大規模圖的數據分割問題,解決在顯存空間有限情況下,求解大規模圖的最短路徑問題。然后利用此并行后的最短路徑優先算法對(5. I)所述關聯路線進行處理,得出該社交網絡中源個體和目標個體間最優關聯路徑。本領域的技術人員容易理解,以上所述僅為本發明的較佳實施例而已,并不用以限制本發明,凡在本發明的精神和原則之內所作的任何修改、等同替換和改進等,均應包含 在本發明的保護范圍之內。
權利要求
1. 一種基于GPU多序列比對算法的社交網絡關聯搜索方法,其特征在于,包括以下步驟 (1)CPU對個體網頁進行網絡爬蟲,以提取社交網絡中的個體特征信息向量(T1,T2,T3,…,Tn); (2)CPU過濾所述個體特征信息向量(T1, T2,T3, ...,Tn)中的冗余特征信息,以生成統一個體特征信息向量庫 CPU對所述個體特征信息向量(T1, T2, T3,, Tn)的特征屬性進行語義分析,以得出所述個體特征向量對應的特征屬性集{P1; P2,P3,...,PJ ; CPU對所述特征屬性集{P1; P2, P3,, PJ的屬性元素進行模擬訓練,計算所述屬性元素對個體間關聯度的貢獻因子,并得出與所述特征屬性集(PpP2J3,... ,PJ對應的特征貢獻因子分數集; CPU根據網絡聚焦算法,對所述特征貢獻因子分數集{S1; S2, S3,, SJ進行模擬評估處理,計算得出貢獻因子分數閾值smin,Smax); 設置計數器C,并初始化c = I ; CPU判斷所述特征貢獻因子分數集{S1; S2, S3, , SJ中的元素S。是否在所述貢獻因子分數閾值(smin, Smax)范圍內; 若元素S。在貢獻因子分數閾值(Smin,Smax)范圍內,則保留S。,并保留與S。對應的屬性Po; 判斷C是否大于等于η ; 若C大于等于η,則CPU得出統ー特征貢獻因子分數集{S1; S2, S3,, SJ和統ー標準的特征屬性集{PU1; PU2, PU3, , PUJ,并根據統ー標準的特征屬性集{PU1; PU2, PU3, ,PUJ對個體特征信息向量(TpT2J3,... ,Tn)進行批量過濾處理,以得到與統ー標準特征屬性集{PU1;PU2,PU3, ,PUJ對應的統ー個體特征信息向量(TU1, TU2, TU3, , TUm),井形成統ー個體特征信息向量庫; CPU將統ー特征信息向量(TU1, TU2, TU3. . .,TUm)和統ー特征貢獻因子分數集{S1; S2,S3, , SJ 傳入 GPU ; (3)GPU根據所述統ー個體特征信息向量庫計算社交網絡個體距離矩陣和矯正距離矩陣 GPU根據所述統ー特征貢獻因子分數集{S1; S2, S3, , SJ計算社交網絡中兩兩個體間的距離,并構成社交網絡個體距離矩陣D ; GPU獲取社交網絡中個體的總數C,設置計數器k,并初始化為k = C,且設置社交網絡的個體集合為(EijE27E3, -,EJ ; GPU根據多序列比對算法,對社交網絡個體距離矩陣D進行關聯計算,即對某一個體距離值和其他所有個體距離值進行關聯處理,以得出更能真實反映個體間距離的矯正距離矩陣M; (4)GPU根據所述矯正距離矩陣M,構建社交網絡關聯路線指導樹 GPU將所有個體的結點構成星形初始樹; GTO根據星形初始樹遍歷矯正距離矩陣M,以找出矯正距離矩陣M中最大的元數據對應的兩個個體;GPU根據找到的兩個個體生成虛擬父結點,并計算虛擬父結點到兩個個體結點的距離; GPU根據所述計算方法計算出虛擬父結點到兩個個體結點的距離后,將被合并的兩個個體結點去除,并計算新的結點集合對應的距離矩陣和矯正距離矩陣; 設置k = k-l,即每合并兩個結點生成一個新結點后,結點個體集合{E1;E2,E3,…,Ek}中結點個數減I ; 判斷k是否小于等于2; 若k小于等于2,則進入步驟(5); (5)GPU遍歷所述社交網絡關聯路線指導樹,以確定最優關聯路線 GPU查找社交網絡關聯路線指導樹中待搜索的源個體及目標個體,并建立源個體和目標個體之間的關聯路線; GPU根據關聯路線進行最短路徑優先計算,以篩選出最短的關聯路線,即得出社交網絡中源個體和目標個體間最優關聯路徑。
2.根據權利要求I所述的社交網絡關聯搜索方法,其特征在于,還包括步驟 若元素S。不在貢獻因子分數閾值(Smin,Smax)范圍內,則從特征貢獻因子分數集{S1; S2,S3, ...,SJ中將S。去除,并從特征屬性集(P1, P2, P3, ...,PJ中將與S。對應的P。去除。
3.根據權利要求I所述的社交網絡關聯搜索方法,其特征在于,還包括步驟 若c不大于等于n,則c = c+1,并返回所述CPU判斷所述特征貢獻因子分數集{S1; S2,S3,,SJ中的元素S。是否在所述貢獻因子分數閾值(Sfflin, Smax)范圍內的步驟。
4.根據權利要求I所述的社交網絡關聯搜索方法,其特征在于,還包括步驟 若k不小于等于2,則GPU計算所述新的虛擬父結點到除所述被合并的兩個個體的結點以外所有結點的距離,以構成新的距離矩陣; GPU計算新的距離矩陣對應的矯正距離矩陣。
5.根據權利要求I所述的社交網絡關聯搜索方法,其特征在干,所述GPU根據所述統ー特征貢獻因子分數集(SpS2A3,...;)計算社交網絡中兩兩個體間的距離,并構成社交網絡個體距離矩陣D的步驟具體包括GPU根據統ー特征貢獻因子分數集{S1; S2, S3,,SJ遍歷統一特征信息向量(TU1, TU2, TU3. . .,TUm),以判斷統ー特征信息向量中的特征元數據的屬性條件是否相同,若屬性條件相同,則累加特征向量中特征元數據對應的貢獻因子分數,否則進行下一個特征元數據的比較。
全文摘要
本發明公開了一種基于GPU多序列比對算法的社交網絡關聯搜索方法,包括以下步驟CPU對個體網頁進行網絡爬蟲,以提取社交網絡中的個體特征信息向量,CPU過濾個體特征信息向量中的冗余特征信息,以生成統一個體特征信息向量庫,GPU根據統一個體特征信息向量庫計算社交網絡個體距離矩陣和矯正距離矩陣,GPU根據矯正距離矩陣構建社交網絡關聯路線指導樹,GPU遍歷社交網絡關聯路線指導樹,以進行最優關聯路線搜索。本發明充分利用GPU適合處理大量密集型數據的優勢,將多序列比對算法解決關聯搜索問題進行并行化,利用GPU完成矩陣及關聯路線指導樹的形成和遍歷等復雜耗時操作,解決了社交網絡數據量大和操作復雜性所帶來的耗時長問題。
文檔編號G06F17/30GK102651030SQ20121010052
公開日2012年8月29日 申請日期2012年4月9日 優先權日2012年4月9日
發明者馮曉文, 張瓊瑤, 鄭然 , 金海 , 陳漢華 申請人:華中科技大學