基于屬性拓撲的博客數據的形式概念計算方法
【專利摘要】本發明公開了一種基于屬性拓撲的博客數據的形式概念計算方法。該方法將博客數據的形式背景進行屬性拓撲表示,通過加入全局起點和全局終點以及相關邊將博客數據的屬性拓撲退化為一個具有起點和終點的圖;通過條件約束和計算規則的限定,對固有排序的屬性節點重復進行搜索和回溯來完成路徑的遍歷;在對全局起點和全局終點之間的所有路徑進行遍歷的過程中得到博客數據所有的形式概念。本發明將屬性拓撲構造成一個完整的整體,避免了屬性拓撲的分解過程,體現了算法的完整性。同時在路徑的遍歷過程中獲得形式概念的直觀計算過程,可視性較好。
【專利說明】基于屬性拓撲的博客數據的形式概念計算方法
【技術領域】
[0001]本發明涉及形式概念分析領域,尤其涉及基于屬性拓撲的博客數據的形式概念計
算方法。
【背景技術】
[0002]博客是以自由、開放和共享為文化特征,通過圖文音象等表現形式,圍繞個人網絡存在的五大功能,提供存取讀寫、組織溝通、評價交換等服務的一種社會化個人服務模式。它并不是純粹的技術創新,但確是一種逐漸演變的網絡應用,一種形式的變化。博客的全民性,讓它的傳播方式成為所有人對所有人的傳播。然而,博客并不如表面般繁榮,當博客毫不掩飾地在大眾面前喧鬧的時候,接踵而來的問題使得博客亂了方寸。博客參與者的盲目性導致了博客行為過程中的迷茫與厭倦;由于進入的零門檻和缺少監管,徹底顛覆互聯網既有模式的博客,變成了新的信息垃圾場。博客正遭受低俗膚淺成風、網絡侵權等因素的困擾。
[0003]作為數據分析與知識處理的有力工具,形式概念分析以數學化的概念和概念層次為基礎,已經應用在眾多領域,如數據挖掘、知識發現、網絡搜索、軟件工程、語義分析等,并仍然具有很大的潛在應用價值。
[0004]作為國際形式概念分析的研究熱點,形式概念的計算以及概念格的生成是許多學者研究的重點。經過國內外學者多年的研究,目前已經從不同角度提出多種形式概念的計算及概念格生成算法。這些算法主要可以分為三大類:批處理算法、漸進式算法和并行算法。批量算法的思想是首先生成所有的概念,然后根據它們之間的前驅-后繼關系生成邊,完成概念格的構造。漸進式算法的思想是先初始化概念格為空,然后將當前要插入的對象和現有概念格中的所有概念進行交運算,根據交的結果不同來更新每個概念。并行算法主要思想是將形式背景拆分為子形式背景構造子格后再進行相應的合并運算。
[0005]但是經典的概念格計算普遍復雜而且不能直觀的表示形式概念中各個屬性間的關聯性和關聯強度。形式背景的屬性拓撲表示法是一種新型的表示形式背景的方法。與傳統表示方法不同,屬性拓撲表示以屬性為頂點,屬性對間的包含關系為權值,以加權圖的形式對形式背景進行刻畫,將屬性間的耦合關系和耦合強度直觀的表現在拓撲圖上。形式背景的屬性拓撲表示方法為形式背景的表示提供了全新的思路。其次,屬性拓撲圖不但簡單直觀的表現出各個屬性之間的關聯及其關聯強度,而且與形式背景一一對應。
[0006]基于這種全新的表示方法,張濤等人提出了利用屬性拓撲圖計算形式概念的方法,該方法分別以屬性拓撲的各頂層屬性為中心,根據屬性拓撲中與之連線數由少到多的順序,依次作各自的屬性子拓撲。然后利用以頂層屬性為核心的子拓撲中屬性對象的關聯及關聯強度,對子拓撲中可能的對象集進行整理運算,以此得到所有的外延,與相應內涵形成子拓撲中的所有概念。最終得到所有子拓撲中的概念,即該形式背景下的所有概念。利用屬性拓撲求形式概念的方法為概念的計算提供了新的思路。其次,該方法使概念的計算簡便易于操作。[0007]但是屬性子拓撲將原有拓撲整體割裂,不適于可視化分析。其次,該方法邏輯性較差,不適用大規模數據形式背景的形式概念計算。
【發明內容】
[0008]本發明的目的在于為了克服上述的不足之處,提供一種基于屬性拓撲的博客數據的形式概念計算方法。該方法首先將屬性拓撲退化為具有固定起點和終點的圖,在此基礎上,通過條件約束和計算規則的限定,利用可視化全局路徑搜索無冗余、無遺漏地得到該拓撲下的所有形式概念。該方法將屬性拓撲構造成一個完整的整體,避免了屬性拓撲的分解過程,體現了算法的完整性。同時在路徑的遍歷過程中獲得形式概念的直觀計算過程,可視性較好。該方法通過對博客數據的形式概念計算,對博客信息資源進行了科學的整合和發掘,對斑駁繁雜的博客信息進行了 “過濾”,為博客使用者迅速發現對自己有利和感興趣的博客內容以及了解博客作者的相關信息提供了理論依據,有利于摒棄無用信息,可以促進博客文化的科學管理和博客健康、有序的發展。
[0009]本發明是通過以下技術方案實現的:一種基于屬性拓撲的博客數據的形式概念計算方法,其內容包括以下步驟:
[0010]1、形式背景的屬性拓撲表示
[0011]從圖論的角度看,屬性拓撲表示是關于屬性間關系的加權圖表示,因此在存儲上可以借鑒圖的存儲方式,對屬性拓撲進行鄰接矩陣描述;
[0012]形式背景K: = (G, M, I)中,定義T= (V, Edge)為屬性拓撲的鄰接矩陣,其中V =M為拓撲的頂點集合,Edge為拓撲中邊的權值集合;
[0013]屬性拓撲的鄰接矩陣表達式如下所示:
[0014]
【權利要求】
1.一種基于屬性拓撲的博客數據的形式概念計算方法,其特征在于:該方法內容包括如下步驟: 1)形式背景的屬性拓撲表示 從圖論的角度看,屬性拓撲表示是關于屬性間關系的加權圖表示,因此在存儲上可以借鑒圖的存儲方式,對屬性拓撲進行鄰接矩陣描述; 形式背景K: = (G, M, I)中,定義T= (V, Edge)為屬性拓撲的鄰接矩陣,其中V = M為拓撲的頂點集合,Edge為拓撲中邊的權值集合; 屬性拓撲的鄰接矩陣表達式如下所示:
2.根據權利要求1所述的一種基于屬性拓撲的博客數據的形式概念計算方法,其特征在于:在步驟6)的Step5中,所述節點搜索的約束條件判斷步驟包括如下內容:(a)判斷條件Vii e/-, } Edge (m, Xi) Φ Φ,orEdge (Xi, m) Φ Φ,滿足則轉至步驟(b);否則,轉至步驟(g); (b)判斷條件當前遍歷屬性m為伴生屬性,滿足則轉至步驟(c);否則,轉至步驟(g); (C)判斷條件Ο/η )?Ξ/,滿足則轉至步驟(d);否則,轉至步驟(g); (d)判斷條件Pm=Φ,滿足則轉至步驟(e);否則,轉至步驟(g); (e)判斷條件VP;"^P\Pr c:1, orl H Pi"1 = Φ ;滿足則轉至步驟(f),否則,轉至步驟(g); (f)判斷條件g(I)n g(m) Φ Φ,滿足則說明m滿足節點搜索條件;不滿足則轉至步驟(g); (g)m不滿足節點搜索條件。
3.根據權利要求1所述的一種基于屬性拓撲的博客數據的形式概念計算方法,其特征在于:在步驟6)的Step6中,所述路徑和數據更新的步驟包括如下內容: (a)路徑更新P = PA {m},同時 =ZPH g(m), = I U {m}; (b)判斷條件ZP' = Edge (Last (I),m),滿足則對原拓撲中Last (I)與m之間的邊(單向邊或者雙向邊)進行移除;否則,原拓撲保持不變; (C)判斷條件Z P' =Z P,滿足則轉至步驟(d);否則,轉至步驟(e); (d)將生成的二元組(ZP', )替代集合C中的元素(As,Bs)并令Mark (Last (I))=I ;其中,As =Z P, s ^ I, Last(.)是有序集合的最后一個元素; (e)將生成的二元組(ZP', )加入到集合C中,即C = C U KZP', )}。
4.根據權利要求1所述的一種基于屬性拓撲的博客數據的形式概念計算方法,其特征在于:在步驟6)的Step9中,所述節點回溯的步驟包括如下內容:
(a)Mark(Last(I)) =1,1 = 1-Last (I); (b)判斷條件Mark(Last (I)) =0,不滿足則轉至步驟(c);否則,轉至步驟(d);
(C) V = Last (I), I = 1-Last (I), Mark (v) = 0,轉至步驟(b);
(d)m = Next (v)。
【文檔編號】G06F17/30GK104036013SQ201410288698
【公開日】2014年9月10日 申請日期:2014年6月25日 優先權日:2014年6月25日
【發明者】張濤, 李慧, 魏昕宇 申請人:燕山大學