本發明涉及大數據分析,特別是涉及一種超高維數據的精度矩陣估計方法、設備及存儲介質。
背景技術:
1、當前的大數據分析領域,尤其是基因組學、金融建模和社交網絡分析,研究人員經常面臨從超高維數據集中估計精確矩陣的挑戰。這些數據集的特征在于變量數量遠遠超過樣本數量,體現了“維數災難”,使得計算復雜且大大影響模型估計的穩定性和準確性。在資源有限和嚴格的計算時間要求下,如何有效、準確地估計精確矩陣對于推動科學研究和技術創新至關重要。
2、傳統方法如圖形lasso(graphical?lasso)及其變種雖然理論深厚且廣泛應用于各種統計模型,但在超高維數據環境下依然存在實際局限。這些方法往往需要大量計算資源,包括較長的計算時間和顯著的內存使用,在變量數極多時,其估計結果的穩定性和準確性受到影響。
3、現有的r語言軟件包如glasso和huge在某些特定情境下表現出色,尤其是在變量數中等或計算資源要求不高時。然而,當面對極高維數據(如基因表達分析或復雜網絡模型)時,這些方法常遇到收斂緩慢、結果不穩定或估計精度不足的問題。
技術實現思路
1、本發明實施例旨在提供一種超高維數據的精度矩陣估計方法、設備及存儲介質,以解決現有技術中超高維數據的精度矩陣估計存在計算時間長、資源消耗多、估計結果不穩定或精度不足等問題。
2、為解決上述技術問題,本發明實施例提供以下技術方案:
3、根據本發明的一方面,提供一種超高維數據的精度矩陣估計方法,所述方法包括:
4、獲取個樣本數據形成維度為的樣本矩陣,其中,每一所述樣本數據包括個變量的觀測值,且遠大于;
5、計算所述樣本矩陣的樣本協方差矩陣,根據所述樣本協方差矩陣得到所述樣本矩陣的總體協方差矩陣估計;
6、基于所述總體協方差矩陣估計對所述個變量進行總相關強度統計和分組,得到顯著相關變量子集和非顯著相關變量子集;
7、確定所述顯著相關變量子集對應的第一近似精度矩陣和所述非顯著相關變量子集對應的第二近似精度矩陣,根據所述第一近似精度矩陣和所述第二近似精度矩陣得到所述個樣本數據的估計精度矩陣。
8、可選地,所述根據所述樣本協方差矩陣得到所述樣本矩陣的總體協方差矩陣估計包括:
9、對所述樣本協方差矩陣基于下式進行自適應閾值處理,得到所述樣本矩陣的總體協方差矩陣估計:
10、
11、其中,為自適應閾值。
12、可選地,所述自適應閾值的計算公式如下:
13、
14、其中,為常數,是變量間去均值乘積的方差估計。
15、可選地,所述基于所述總體協方差矩陣估計對所述個變量進行總相關強度統計和分組,得到顯著相關變量子集和非顯著相關變量子集包括:
16、基于所述總體協方差矩陣估計,統計所述個變量中每一變量與其他變量的總相關強度;
17、將所述總相關強度大于或等于預設的相關強度閾值的變量篩選出來形成顯著相關變量子集,將所述總相關強度小于所述相關強度閾值的變量篩選出來形成非顯著相關變量子集。
18、可選地,所述個樣本數據的估計精度矩陣=。
19、可選地,所述第一近似精度矩陣的計算方法為:
20、從所述樣本矩陣中篩選出所述顯著相關變量子集中各變量對應的列形成第一子樣本矩陣;
21、計算所述第一子樣本矩陣的第一子樣本協方差矩陣;
22、使用預設的正則化方法對所述第一子樣本協方差矩陣進行正則化處理,得到所述第一近似精度矩陣。
23、可選地,所述第二近似精度矩陣的計算方法為:
24、從所述樣本矩陣中篩選出所述非顯著相關變量子集中各變量對應的列形成第二子樣本矩陣;
25、計算所述第二子樣本矩陣的第二子樣本協方差矩陣;
26、計算所述第二子樣本協方差矩陣的逆矩陣,并提取所述逆矩陣的對角元素,得到所述第二近似精度矩陣。
27、可選地,所述第二近似精度矩陣為零矩陣。
28、根據本發明的另一方面,提供一種計算機設備,包括存儲器、處理器及存儲在存儲器上運行的計算機程序,所述處理器執行所述程序時實現上述所述的超高維數據的精度矩陣估計方法的步驟。
29、根據本發明的再一方面,提供一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,當所述計算機程序被處理器執行時,所述處理器執行上述任一項所述方法的步驟。
30、本發明實施例的有益效果是:區別于現有技術的情況,本發明實施例中,提供了一種超高維數據的精度矩陣估計方法,使用協方差列篩選方法在超高維數據中識別出顯著相關變量子集,并對這些子集應用塊對角正則化方法得到到估計精度矩陣。本發明的方法,不僅大幅減少了模型復雜性和計算負荷,而且還保持了模型的精確性和穩定,可適應于各種超高維數據分析領域。與現有的r語言包相比,本發明提供的超高維數據的精度矩陣估計方法能顯著提高計算速度。
1.一種超高維數據的精度矩陣估計方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述根據所述樣本協方差矩陣得到所述樣本矩陣的總體協方差矩陣估計包括:
3.根據權利要求2所述的方法,其特征在于,所述自適應閾值的計算公式如下:
4.根據權利要求1所述的方法,其特征在于,所述基于所述總體協方差矩陣估計對所述個變量進行總相關強度統計和分組,得到顯著相關變量子集和非顯著相關變量子集包括:
5.根據權利要求1所述的方法,其特征在于,所述個樣本數據的估計精度矩陣=。
6.根據權利要求1至5任一項所述的方法,其特征在于,所述第一近似精度矩陣的計算方法為:
7.根據權利要求6所述的方法,其特征在于,所述第二近似精度矩陣的計算方法為:
8.根據權利要求6所述的方法,其特征在于,所述第二近似精度矩陣為零矩陣。
9.一種計算機設備,包括存儲器、處理器及存儲在存儲器上運行的計算機程序,其特征在于,所述處理器執行所述程序時實現權利要求1-8任一項所述的超高維數據的精度矩陣估計方法的步驟。
10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質存儲有計算機程序,當所述計算機程序被處理器執行時,所述處理器執行如權利要求1-8任一項所述方法的步驟。