一種挖掘知識圖譜的方法及裝置制造方法
【專利摘要】本發明公開了一種挖掘知識圖譜的方法及裝置,屬于計算機領域。所述方法包括:根據社區用戶的社區原始數據、所述社區用戶的用戶屬性、所述社區用戶屬于的主題論壇或所述社區用戶屬于的即時通信工作的聊天群,對所述社區用戶進行聚類并形成社區用戶圈子,所述社區原始數據包括所述社區用戶對其他社區用戶的關注度信息和所述社區用戶與所述其他社區用戶共同關注的話題個數;根據所述社區用戶圈子包括的社區用戶產生的用戶行為數據,創建所述社區用戶圈子的知識圖譜。所述裝置包括:聚類模塊和創建模塊。本發明能夠提高搜索關聯詞匯的精度。
【專利說明】一種挖掘知識圖譜的方法及裝置
【技術領域】
[0001] 本發明涉及計算機領域,特別涉及一種挖掘知識圖譜的方法及裝置。
【背景技術】
[0002] 隨著搜索引擎技術的快速發展,目前搜索引擎中出現了知識圖譜,用戶在搜索引 擎中輸入關鍵詞,搜索引擎根據該關鍵詞從知識圖譜中搜索出與該關鍵詞相關聯的關聯詞 匯給用戶。
[0003] 其中,事先需要挖掘知識圖譜來供搜索引擎使用,目前現有技術的提供了一種挖 掘知識圖譜的方法,可以為:對文獻庫中包括的每篇文獻進行分析,分析出文獻中包括的各 詞匯之間的關聯性,根據各詞匯之間的關聯性構建一個知識圖譜。如此,當用戶向搜索引擎 輸入一個關鍵詞時,搜索引擎會從該知識圖譜中搜索出該關鍵詞的關聯詞匯。
[0004] 在實現本發明的過程中,發明人發現現有技術至少存在以下問題:
[0005] 不同詞匯在不同的人群中具有的含義可能不同,某人群的用戶搜索出的關聯詞匯 更希望搜索出的是該人群對應的詞匯,而目前該人群的對應的詞匯都沉沒在搜索的大量關 聯詞匯中,搜索關聯詞匯的精度不高。
【發明內容】
[0006] 為了提高搜索關聯詞匯的精度,本發明提供了一種挖掘知識圖方法及裝置。所述 技術方案如下:
[0007] -種挖掘知識圖譜的方法,所述方法包括:
[0008] 根據社區用戶的社區原始數據、所述社區用戶的用戶屬性、所述社區用戶屬于的 主題論壇或所述社區用戶屬于的即時通信工作的聊天群,對所述社區用戶進行聚類并形成 社區用戶圈子,所述社區原始數據包括所述社區用戶對其他社區用戶的關注度信息和所述 社區用戶與所述其他社區用戶共同關注的話題個數;
[0009] 根據所述社區用戶圈子包括的社區用戶產生的用戶行為數據,創建所述社區用戶 圈子的知識圖譜。
[0010] 一種挖掘知識圖譜的裝置,所述裝置包括:
[0011] 聚類模塊,用根據社區用戶的社區原始數據、所述社區用戶的用戶屬性、所述社區 用戶屬于的主題論壇或所述社區用戶屬于的即時通信工作的聊天群,對所述社區用戶進行 聚類并形成社區用戶圈子,所述社區原始數據包括所述社區用戶對其他社區用戶的關注度 信息和所述社區用戶與所述其他社區用戶共同關注的話題個數;
[0012] 創建模塊,用于根據所述社區用戶圈子包括的社區用戶產生的用戶行為數據,創 建所述社區用戶圈子的知識圖譜。
[0013] 在本發明實施例中,根據該社區用戶的社區原始數據、用戶屬性、屬于的主題論壇 或屬于的即時通信工作的聊天群,對該社區用戶進行聚類并形成社區用戶圈子,根據該社 區用戶圈子包括的社區用戶產生的用戶行為數據,創建該社區用戶圈子的知識圖譜。如此, 當某一社區用戶圈子的社區用戶需要搜索關鍵詞的關聯詞匯時,可以到該社區用戶圈子對 應的知識圖譜中搜索出該社區用戶圈子對應的關聯詞匯,提高搜索關聯詞匯的精度。
【專利附圖】
【附圖說明】
[0014] 圖1是本發明實施例1提供的一種挖掘知識圖譜的方法流程圖;
[0015] 圖2是本發明實施例2提供的一種挖掘知識圖譜的方法流程圖;
[0016] 圖3是本發明實施例3提供的一種挖掘知識圖譜的方法流程圖;
[0017] 圖4是本發明實施例4提供的一種挖掘知識圖譜的裝置結構示意圖。
【具體實施方式】
[0018] 為使本發明的目的、技術方案和優點更加清楚,下面將結合附圖對本發明實施方 式作進一步地詳細描述。
[0019] 實施例1
[0020] 參見圖1,本發明實施例提供了一種挖掘知識圖譜的方法,包括:
[0021] 步驟101 :根據社區用戶的社區原始數據、社區用戶的用戶屬性、社區用戶屬于的 主題論壇或社區用戶屬于的即時通信工作的聊天群,對社區用戶進行聚類并形成社區用戶 圈子;
[0022] 其中,該社區原始數據包括社區用戶對其他社區用戶的關注度信息和該社區用戶 與其他社區用戶共同關注的話題個數。
[0023] 步驟102 :根據該社區用戶圈子包括的社區用戶產生的用戶行為數據,創建該社 區用戶圈子的知識圖譜。
[0024] 在本發明實施例中,根據社區用戶的社區原始數據、用戶屬性、屬于的主題論壇或 屬于的即時通信工作的聊天群,對社區用戶進行聚類并形成社區用戶圈子,根據該社區用 戶圈子包括的社區用戶產生的用戶行為數據,創建該社區用戶圈子的知識圖譜。如此,當某 一社區用戶圈子的社區用戶需要搜索關鍵詞的關聯詞匯時,可以到該社區用戶圈子對應的 知識圖譜中搜索出該社區用戶圈子對應的關聯詞匯,提高搜索關聯詞匯的精度。
[0025] 實施例2
[0026] 參見圖2,本發明實施例提供了一種挖掘知識圖譜的方法,包括:
[0027] 步驟201 :獲取社區用戶的社區原始數據,該社區原始數據包括社區用戶對其他 社區用戶的關注度信息和社區用戶與其他社區用戶共同關注話題的個數;
[0028] 具體地,獲取社區用戶對其他社區用戶的關注度信息和社區用戶與其他社區用戶 共同關注話題的個數。
[0029] 其中,社區用戶對其他社區用戶的關注度信息包括:社區用戶的收聽信息、社區用 戶轉發其他社區用戶發布的內容的轉發次數、社區用戶評論其他社區用戶發布的內容的評 論次數、社區用戶發送信息給其他社區用戶的信息發送次數和/或社區用戶發送私信給其 他社區用戶的私信發送次數。
[0030] 其中,社區用戶的收聽信息包括該社區用戶收聽的其他社區用戶的身份標識。
[0031] 其中,在本發明實施例中,社區服務器中存儲有社區包括的每個社區用戶的收聽 信息、每個社區用戶轉發其他社區用戶的社區的轉發次數、每個社區用戶評論其他社區用 戶發布的內容的評論次數、每個社區用戶發送信息給其他社區用戶的信息發送次數、每個 社區用戶發送私信給其他社區用戶的私信發送次數以及每個社區用戶關注的社區話題。
[0032] 所以,在本發明實施例中,對于任一個社區用戶,可以從社區服務器中獲取該社區 用戶的收聽信息、該社區用戶轉發其他社區用戶發布的內容的轉發次數、該社區用戶評論 其他社區用戶發布的內容的評論次數、該社區用戶發送信息給其他社區用戶的信息發送次 數、該社區用戶發送私信給其他社區用戶的私信發送次數和/或該社區用戶關注的社區話 題,根據該社區用戶關注的社區話題和其他社區用戶關注的社區話題,獲取該社區用戶和 其他社區用戶共同關注的社區話題。
[0033] 步驟202 :根據社區用戶對其他社區用戶的關注度信息,計算社區用戶對其他社 區用戶的關注度分數;
[0034] 其中,社區用戶對其他社區用戶的關注度分數包括:社區用戶對其他社區用戶的 收聽信息分數、社區用戶轉發評論其他社區用戶發布的內容的轉發評論分數、社區用戶發 送信息給其他社區用戶的信息發送分數和/或社區用戶發送私信給其他社區用戶的私信 發送分數。
[0035] 其中,根據社區用戶的收聽信息,計算社區用戶對其他社區用戶的收聽信息分數, 可以為:
[0036] 根據社區用戶收聽其他社區用戶的收聽信息和公式(1),計算社區用戶對其他社 區用戶的收聽分數;
[0037]
【權利要求】
1. 一種挖掘知識圖譜的方法,其特征在于,所述方法包括: 根據社區用戶的社區原始數據、所述社區用戶的用戶屬性、所述社區用戶屬于的主題 論壇或所述社區用戶屬于的即時通信工作的聊天群,對所述社區用戶進行聚類并形成社區 用戶圈子,所述社區原始數據包括所述社區用戶對其他社區用戶的關注度信息和所述社區 用戶與所述其他社區用戶共同關注的話題個數; 根據所述社區用戶圈子包括的社區用戶產生的用戶行為數據,創建所述社區用戶圈子 的知識圖譜。
2. 如權利要求1所述的方法,其特征在于,所述根據所述社區用戶的社區原始數據對 所述社區用戶進行聚類并形成社區用戶圈子,包括: 根據所述社區用戶的社區原始數據,計算所述社區用戶對其他社區用戶的親密度分 數,所述親密度分數用于標識所述社區用戶對其他社區用戶的親密程度; 根據所述社區用戶對其他社區用戶的親密度分數,對所述社區用戶進行聚類并形成社 區用戶圈子。
3. 如權利要求2所述的方法,其特征在于,所述根據所述社區用戶的社區原始數據,計 算所述社區用戶對其他社區用戶的親密度分數,包括: 根據所述社區用戶對所述其他社區用戶的關注度信息,計算所述社區用戶對所述其他 社區用戶的關注度分數; 根據所述社區用戶與所述其他社區用戶共同關注的話題個數,計算所述社區用戶與所 述其他社區用戶之間的關注熱點分數; 根據所述社區用戶對所述其他社區用戶的關注度分數和所述社區用戶與所述其他社 區用戶之間的關注熱點分數,計算所述社區用戶對所述其他社區用戶的親密度分數。
4. 如權利要求2所述的方法,其特征在于,所述根據所述社區用戶對其他社區用戶的 親密度分數,對所述社區用戶進行聚類并形成社區用戶圈子,包括: 掃描社區用戶; 根據所述掃描的社區用戶對除所述掃描的社區用戶以外的其他社區用戶的親密度分 數和所述其他社區用戶對所述掃描的社區用戶的親密度分數,計算所述掃描的社區用戶與 所述其他社區用戶之間的用戶距離; 選取與所述掃描的社區用戶的之間的用戶距離小于預設用戶距離門限的社區用戶,將 所述掃描的社區用戶與所述選取的社區用戶聚類成一個社區用戶圈子。
5. 如權利要求2所述的方法,其特征在于,所述根據所述社區用戶對其他社區用戶的 親密度分數,對所述社區用戶進行聚類并形成社區用戶圈子,包括: 掃描社區用戶,將其他社區用戶形成第一用戶集合,根據所述掃描的社區用戶對所述 第一用戶集合包括的社區用戶的親密度分數和所述第一用戶集合包括的社區用戶對所述 掃描的社區用戶的親密度分數,計算所述掃描的社區用戶與所述第一用戶集合包括的社區 用戶之間的用戶距離; 從第一用戶集合中選取與所述社區用戶之間的用戶距離最小的社區用戶,將所述社區 用戶和所述選取的社區用戶組成第二用戶集合,獲取第一用戶集合包括的未選擇的社區用 戶與所述第二用戶集合的邊數,選取與所述第二用戶集合的邊數最多的社區用戶,統計所 述邊數最多的社區用戶的個數; 如果所述統計的個數不為零,則將所述邊數最多的社區用戶添加到所述第二用戶集合 中,計算所述第二用戶集合包括的任一社區用戶與所述第二用戶集合包括的其他社區用戶 之間的邊數,選取邊數最少的社區用戶,如果所述邊數最少的社區用戶的個數小于二分之 一的所述統計的個數,則將所述邊數最少的社區用戶從所述第二用戶集合中排除; 對所述第二用戶集合包括的社區用戶的個數進行判斷,如果所述第二用戶集合包括的 社區用戶的個數大于或等于預設第一閾值且小于或等于預設第二閾值,將所述第二用戶集 合包括的社區用戶聚類形成社區用戶圈子。
6. 如權利要求1所述的方法,其特征在于,所述根據所述社區用戶圈子包括的社區用 戶產生的用戶行為數據,創建所述社區用戶圈子的知識圖譜,包括: 從所述社區用戶圈子包括的每個社區用戶產生的用戶行為數據中將同一主題的用戶 行為數據形成文檔; 對形成的每個文檔進行挖掘,得到所述社區用戶圈子的知識圖譜。
7. 如權利要求6所述的方法,其特征在于,所述根據形成的每個文檔,采用挖掘知識圖 譜算法進行挖掘,得到所述社區用戶圈子的知識圖譜,包括: 對形成的每個文檔包括的數據進行分詞,并將所述每個文檔包括的分詞分別組成每個 文檔的特征向量; 根據所述每個文檔的特征向量,對所述每個文檔進行聚類,將同一話題的文檔聚為一 個文檔聚類; 對所述每個文檔聚類包括的文檔進行挖掘,得到所述社區用戶圈子的知識圖譜。
8. -種挖掘知識圖譜的裝置,其特征在于,所述裝置包括: 聚類模塊,用于根據社區用戶的社區原始數據、所述社區用戶的用戶屬性、所述社區用 戶屬于的主題論壇或所述社區用戶屬于的即時通信工作的聊天群,對所述社區用戶進行聚 類并形成社區用戶圈子,所述社區原始數據包括所述社區用戶對其他社區用戶的關注度信 息和所述社區用戶與所述其他社區用戶共同關注的話題個數; 創建模塊,用于根據所述社區用戶圈子包括的社區用戶產生的用戶行為數據,創建所 述社區用戶圈子的知識圖譜。
9. 如權利要求8所述的裝置,其特征在于,所述聚類模塊包括: 第一計算單元,用于根據所述社區用戶的社區原始數據,計算所述社區用戶對其他社 區用戶的親密度分數,所述親密度分數用于標識所述社區用戶對其他社區用戶的親密程 度; 聚類單元,用于根據所述社區用戶對其他社區用戶的親密度分數,對所述社區用戶進 行聚類并形成社區用戶圈子。
10. 如權利要求9所述的裝置,其特征在于,所述第一計算單元包括: 第一計算子單元,用于根據所述社區用戶對所述其他社區用戶的關注度信息,計算所 述社區用戶對所述其他社區用戶的關注度分數; 第二計算子單元,用于根據所述社區用戶與所述其他社區用戶共同關注的話題個數, 計算所述社區用戶與所述其他社區用戶之間的關注熱點分數; 第三計算子單元,用于根據所述社區用戶對所述其他社區用戶的關注度分數和所述社 區用戶與所述其他社區用戶之間的關注熱點分數,計算所述社區用戶對所述其他社區用戶 的親密度分數。
11. 如權利要求9所述的裝置,其特征在于,所述聚類單元包括: 第四計算子單元,用于掃描社區用戶;根據所述掃描的社區用戶對除所述掃描的社區 用戶以外的其他社區用戶的親密度分數和所述其他社區用戶對所述掃描的社區用戶的親 密度分數,計算所述掃描的社區用戶與所述其他社區用戶之間的用戶距離; 聚類子單元,用于選取與所述掃描的社區用戶的之間的用戶距離小于預設用戶距離門 限的社區用戶,將所述掃描的社區用戶與所述選取的社區用戶聚類成一個社區用戶圈子。
12. 如權利要求9所述的裝置,其特征在于,所述聚類單元包括: 掃描子單元,用于掃描社區用戶,將其他社區用戶形成第一用戶集合,根據所述掃描的 社區用戶對所述第一用戶集合包括的社區用戶的親密度分數和所述第一用戶集合包括的 社區用戶對所述掃描的社區用戶的親密度分數,計算所述掃描的社區用戶與所述第一用戶 集合包括的社區用戶之間的用戶距離; 統計子單元,用于從第一用戶集合中選取與所述社區用戶之間的用戶距離最小的社區 用戶,將所述社區用戶和所述選取的社區用戶組成第二用戶集合,獲取第一用戶集合包括 的未選擇的社區用戶與所述第二用戶集合的邊數,選取與所述第二用戶集合的邊數最多的 社區用戶,統計所述邊數最多的社區用戶的個數; 排除子單元,用于如果所述統計的個數不為零,則將所述邊數最多的社區用戶添加到 所述第二用戶集合中,計算所述第二用戶集合包括的任一社區用戶與所述第二用戶集合包 括的其他社區用戶之間的邊數,選取邊數最少的社區用戶,如果所述邊數最少的社區用戶 的個數小于二分之一的所述統計的個數,則將所述邊數最少的社區用戶從所述第二用戶集 合中排除; 第一聚類子單元,用于對所述第二用戶集合包括的社區用戶的個數進行判斷,如果所 述第二用戶集合包括的社區用戶的個數大于或等于預設第一閾值且小于或等于預設第二 閾值,將所述第二用戶集合包括的社區用戶聚類形成社區用戶圈子。
13. 如權利要求8所述的裝置,其特征在于,所述創建模塊包括: 形成單元,用于從所述社區用戶圈子包括的每個社區用戶產生的用戶行為數據中將同 一主題的用戶行為數據形成文檔; 挖掘單元,用于對形成的每個文檔進行挖掘,得到所述社區用戶圈子的知識圖譜。
14. 如權利要求13所述的裝置,其特征在于,所述挖掘單元包括: 分詞子單元,用于對形成的每個文檔包括的數據進行分詞,并將所述每個文檔包括的 分詞分別組成每個文檔的特征向量; 第二聚類子單元,用于根據所述每個文檔的特征向量,對所述每個文檔進行聚類,將同 一話題的文檔聚為一個文檔聚類; 挖掘子單元,用于對所述每個文檔聚類包括的文檔進行挖掘,得到所述社區用戶圈子 的知識圖譜。
【文檔編號】G06F17/30GK104102635SQ201310112407
【公開日】2014年10月15日 申請日期:2013年4月1日 優先權日:2013年4月1日
【發明者】程剛 申請人:騰訊科技(深圳)有限公司