基于拓撲網絡的大數據分析方法
【技術領域】
:
[0001]本發明涉及網絡技術領域,具體地說是一種能夠有效提高檢索準確度和全面性、降低漏檢率的基于拓撲網絡的大數據分析方法。
【背景技術】
:
[0002]隨著信息技術的高度發展,人們積累的數據量日益增長,如何從海量數據中快速的獲得有效數據成為當務之急。大數據是指無法再當前條件下使用常規的工具對數據內容進行檢索和管理的數據集,其具有數據量大、數據類型繁多、價值密度低、處理速度快等特點。目前檢索時,用戶通常希望能快速的從已有資料中獲得自己需要的東西,這就涉及一個準確率和速度的問題,現階段的數據檢索方法例如KD-tree,M-tree等在數據維度小于10維時能夠取得良好的效果,但對于大數據系統不適用。另外,網絡檢索過程中,用戶越來越多的追求快速獲得相同或相似的結果,現有的檢索方法在近似檢索中受到局限。
【發明內容】
:
[0003]本發明針對現有技術中存在的缺點和不足,提出了一種能夠有效提尚檢索準確度和全面性、降低漏檢率的基于拓撲網絡的大數據分析方法。
[0004]本發明通過以下措施達到:
[0005]一種基于拓撲網絡的大數據分析方法,其特征在于包括以下步驟:
[0006]步驟1:從數據庫中抽取樣本數據進行預處理,先對每個樣本數據賦唯一的id編號,并設定對該樣本數據的檢索類型Ti,然后根據樣本數據歸屬的數據檢索類型對樣本數據進行初步分類;
[0007]步驟2:設定檢索順序,即獲取所述樣本數據的id編號以及檢索類型;
[0008]步驟3:建立檢索子模型,按照不同的檢索順序依次將樣本數據送入多個檢索子模型中;
[0009]步驟4:檢索子模型對輸入的樣本數據進行運算,同時判斷本次輸入的樣本數據是否有外部參數,外部參數指用于向該樣本數據的變量傳遞數據的參數,如果具有外部參數,則調用該外部參數后執行當前檢索子模型,其中當具有外部參數時,首先對外部參數進行一致化處理,然后提取處理后的外部參數,將其與預先存儲的購買詞進行相關性匹配,獲得預先存儲的相關詞與檢索需求數據之間至少一個相關性數據源,對所獲的相關性數據構建網絡拓撲圖,并通過檢索子模型在數據庫中基于網絡拓撲圖進行挖掘;
[0010]步驟5:輸出檢索結果。
[0011]本發明步驟4中每一個檢索需求數據域預先存儲的相關詞之間形成的相關性數據源作為網絡拓撲圖的一條邊,并對每條邊根據相關性大小分配權值,從而完成網絡拓撲圖的構建。
[0012]本發明步驟4中檢索子模型可以采用加權平均法處理模型、卡爾曼濾波處理模型、統計決策處理模型以及神經網絡處理模型。
[0013]本發明可以對數據進行多次重復分析處理,通過數據融合的方法融合多次輸出結果,獲得準確率更高的分析結果。
[0014]本發明與現有技術相比,采用高效的優化方法和抽樣方法,使得大數據集合在存儲和運算挖掘過程中更高效,具有漏檢率低、檢索全面等顯著的優點。
[0015]具體的實施方式:
[0016]下面對本發明作進一步的說明。
[0017]本發明提出了一種基于拓撲網絡的大數據分析方法,其特征在于包括以下步驟:
[0018]步驟1:從數據庫中抽取樣本數據進行預處理,先對每個樣本數據賦唯一的id編號,并設定對該樣本數據的檢索類型Ti,然后根據樣本數據歸屬的數據檢索類型對樣本數據進行初步分類;
[0019]步驟2:設定檢索順序,即獲取所述樣本數據的id編號以及檢索類型;
[0020]步驟3:建立檢索子模型,按照不同的檢索順序依次將樣本數據送入多個檢索子模型中;
[0021]步驟4:檢索子模型對輸入的樣本數據進行運算,同時判斷本次輸入的樣本數據是否有外部參數,外部參數指用于向該樣本數據的變量傳遞數據的參數,如果具有外部參數,則調用該外部參數后執行當前檢索子模型,其中當具有外部參數時,首先對外部參數進行一致化處理,然后提取處理后的外部參數,將其與預先存儲的購買詞進行相關性匹配,獲得預先存儲的相關詞與檢索需求數據之間至少一個相關性數據源,對所獲的相關性數據構建網絡拓撲圖,并通過檢索子模型在數據庫中基于網絡拓撲圖進行挖掘;
[0022]步驟5:輸出檢索結果。
[0023]本發明步驟4中每一個檢索需求數據域預先存儲的相關詞之間形成的相關性數據源作為網絡拓撲圖的一條邊,并對每條邊根據相關性大小分配權值,從而完成網絡拓撲圖的構建。
[0024]本發明步驟4中檢索子模型可以采用加權平均法處理模型、卡爾曼濾波處理模型、統計決策處理模型以及神經網絡處理模型。
[0025]本發明可以對數據進行多次重復分析處理,通過數據融合的方法融合多次輸出結果,獲得準確率更高的分析結果。
[0026]本發明與現有技術相比,采用高效的優化方法和抽樣方法,使得大數據集合在存儲和運算挖掘過程中更高效,具有漏檢率低、檢索全面等顯著的優點。
【主權項】
1.一種基于拓撲網絡的大數據分析方法,其特征在于包括以下步驟: 步驟1:從數據庫中抽取樣本數據進行預處理,先對每個樣本數據賦唯一的id編號,并設定對該樣本數據的檢索類型Ti,然后根據樣本數據歸屬的數據檢索類型對樣本數據進行初步分類; 步驟2:設定檢索順序,即獲取所述樣本數據的id編號以及檢索類型; 步驟3:建立檢索子模型,按照不同的檢索順序依次將樣本數據送入多個檢索子模型中; 步驟4:檢索子模型對輸入的樣本數據進行運算,同時判斷本次輸入的樣本數據是否有外部參數,外部參數指用于向該樣本數據的變量傳遞數據的參數,如果具有外部參數,則調用該外部參數后執行當前檢索子模型,其中當具有外部參數時,首先對外部參數進行一致化處理,然后提取處理后的外部參數,將其與預先存儲的購買詞進行相關性匹配,獲得預先存儲的相關詞與檢索需求數據之間至少一個相關性數據源,對所獲的相關性數據構建網絡拓撲圖,并通過檢索子模型在數據庫中基于網絡拓撲圖進行挖掘; 步驟5:輸出檢索結果。
2.根據權利要求1所述的一種基于拓撲網絡的大數據分析方法,其特征在于步驟4中每一個檢索需求數據域預先存儲的相關詞之間形成的相關性數據源作為網絡拓撲圖的一條邊,并對每條邊根據相關性大小分配權值,從而完成網絡拓撲圖的構建。
3.根據權利要求1所述的一種基于拓撲網絡的大數據分析方法,其特征在于步驟4中檢索子模型可以采用加權平均法處理模型、卡爾曼濾波處理模型、統計決策處理模型以及神經網絡處理模型。
4.根據權利要求1所述的一種基于拓撲網絡的大數據分析方法,其特征在于還包括對數據進行多次重復分析處理,通過數據融合的方法融合多次輸出結果,獲得準確率更高的分析結果。
【專利摘要】本發明涉及網絡技術領域,具體地說是一種能夠有效提高檢索準確度和全面性、降低漏檢率的基于拓撲網絡的大數據分析方法,其特征在于包括從數據庫中抽取樣本數據進行預處理,設定檢索順序,建立檢索子模型,索子模型對輸入的樣本數據進行運算,當具有外部參數時,構建網絡拓撲圖并通過檢索子模型在數據庫中基于網絡拓撲圖進行挖掘,本發明與現有技術相比,采用高效的優化方法和抽樣方法,使得大數據集合在存儲和運算挖掘過程中更高效,具有漏檢率低、檢索全面等顯著的優點。
【IPC分類】G06F17-30
【公開號】CN104731851
【申請號】CN201410783095
【發明人】劉焰龍, 殷晉
【申請人】蕪湖樂銳思信息咨詢有限公司
【公開日】2015年6月24日
【申請日】2014年12月16日