本發明涉及通信,尤其涉及一種數據處理方法、裝置及設備。
背景技術:
1、隨著無線通信技術的迅速發展,移動通信網絡已經成為現代社會不可或缺的基礎設施。為保證網絡性能的穩定與優化,網絡參數的合理調整顯得至關重要。隨著通信系統的不斷升級和創新,針對無線接入網ran的參數調整和優化成為了確保網絡效率與用戶體驗的關鍵環節。
2、在移動通信網絡配置管理的標準實踐中,通常由專家基于領域知識給出參數調整建議和方法。這種方法依賴于經驗豐富的網絡工程師或專家,他們根據對網絡特性、拓撲結構以及通信環境的深刻理解,人工手動調整配置參數,以優化網絡性能和用戶體驗。通過結合領域知識和實地經驗,網絡專家們能夠精確地調整各個參數,以應對不同的通信場景和實際需求。但是,這種手動調整的方法在面向日益龐大的無線場景下變得越發繁瑣且耗時和高成本。
3、此外,隨著通信網絡規模的不斷擴大,依賴于網絡專家進行手動調整的技術方案存在著高度依賴個體經驗的問題,可能會導致調整策略的不一致性和不穩定性。
4、另外,在無線參數調整的場景中,調整后效果指標變化存在遲滯性。受無線用戶群體的生活規律和作息節律等因素,參數時序特征較明顯。在進行參數調整后,數據會同時受到參數調整和時序特性的影響,較難直接和瞬時地反應調整效果。考慮如何對調整前后數據綜合建模,更準確地獲取調整參數所帶來的影響是一個難點。
5、由上,現有技術中主要采用人工方式來進行無線接入網參數的調整,這導致調整步驟繁瑣且成本高的問題,且現有調整方式還存在調整效果遲滯性的問題。
技術實現思路
1、本發明的目的在于提供一種數據處理方法、裝置及設備,以解決現有技術中無線接入網參數調整方案存在步驟繁瑣、實現成本高、效果遲滯性的問題。
2、為了解決上述技術問題,本發明實施例提供一種數據處理方法,包括:
3、獲取無線接入網參數調整的參考數據;
4、根據所述參考數據,獲取各個時間步的三元組信息;所述三元組信息包括:預期回報信息、無線接入網狀態信息和可調參數信息;
5、按照時間步順序,將所述三元組信息構成輸入序列;
6、利用決策變換器dt模型,根據所述輸入序列,得到所述可調參數信息對應的參數調整值。
7、可選的,所述根據所述參考數據,獲取三元組信息,包括:
8、將所述參考數據,劃分為dt模型對應的狀態數據、動作數據和獎勵數據;
9、將所述狀態數據作為無線接入網狀態信息、所述動作數據作為可調參數信息,以及,根據所述獎勵數據構建所述預期回報信息。
10、可選的,所述根據所述獎勵數據構建所述預期回報信息,包括:
11、采用第一方式,根據所述獎勵數據構建所述預期回報信息;
12、其中,所述第一方式包括:將當前獎勵值至最后一個獎勵值進行求和作為當前時間步對應的預期回報信息;所述當前獎勵值是指所述當前時間步對應的獎勵值,所述最后一個獎勵值是指最后一個時間步對應的獎勵值。
13、可選的,還包括:
14、采用第二方式,根據所述輸入序列,構建等效輸入序列;所述第二方式包括:將至少兩個相鄰時間步的三元組信息進行求和平均處理;
15、所述利用決策變換器dt模型,根據所述輸入序列,得到所述可調參數信息對應的參數調整值,包括:
16、利用決策變換器dt模型,根據所述等效輸入序列,得到所述可調參數信息對應的參數調整值。
17、可選的,還包括:
18、采集無線接入網參數調整的離線數據;
19、利用所述離線數據,訓練所述dt模型。
20、可選的,在訓練所述dt模型的過程中,目標情況下采用目標損失函數;
21、其中,所述目標情況為所述可調參數信息對應的預設取值空間是連續的情況,所述目標損失函數為取均方誤差作為誤差的損失函數;
22、或者,所述目標情況為所述預設取值空間是離散的情況,所述目標損失函數為取交叉熵作為誤差的損失函數。
23、本發明實施例還提供了一種數據處理裝置,包括:
24、第一獲取模塊,用于獲取無線接入網參數調整的參考數據;
25、第二獲取模塊,用于根據所述參考數據,獲取各個時間步的三元組信息;所述三元組信息包括:預期回報信息、無線接入網狀態信息和可調參數信息;
26、第一處理模塊,用于按照時間步順序,將所述三元組信息構成輸入序列;
27、第二處理模塊,用于利用決策變換器dt模型,根據所述輸入序列,得到所述可調參數信息對應的參數調整值。
28、可選的,所述根據所述參考數據,獲取三元組信息,包括:
29、將所述參考數據,劃分為dt模型對應的狀態數據、動作數據和獎勵數據;
30、將所述狀態數據作為無線接入網狀態信息、所述動作數據作為可調參數信息,以及,根據所述獎勵數據構建所述預期回報信息。
31、可選的,所述根據所述獎勵數據構建所述預期回報信息,包括:
32、采用第一方式,根據所述獎勵數據構建所述預期回報信息;
33、其中,所述第一方式包括:將當前獎勵值至最后一個獎勵值進行求和作為當前時間步對應的預期回報信息;所述當前獎勵值是指所述當前時間步對應的獎勵值,所述最后一個獎勵值是指最后一個時間步對應的獎勵值。
34、可選的,還包括:
35、第三處理模塊,用于采用第二方式,根據所述輸入序列,構建等效輸入序列;所述第二方式包括:將至少兩個相鄰時間步的三元組信息進行求和平均處理;
36、所述利用決策變換器dt模型,根據所述輸入序列,得到所述可調參數信息對應的參數調整值,包括:
37、利用決策變換器dt模型,根據所述等效輸入序列,得到所述可調參數信息對應的參數調整值。
38、可選的,還包括:
39、第一采集模塊,用于采集無線接入網參數調整的離線數據;
40、第一訓練模塊,用于利用所述離線數據,訓練所述dt模型。
41、可選的,在訓練所述dt模型的過程中,目標情況下采用目標損失函數;
42、其中,所述目標情況為所述可調參數信息對應的預設取值空間是連續的情況,所述目標損失函數為取均方誤差作為誤差的損失函數;
43、或者,所述目標情況為所述預設取值空間是離散的情況,所述目標損失函數為取交叉熵作為誤差的損失函數。
44、本發明實施例還提供了一種數據處理設備,包括:處理器;
45、所述處理器,用于獲取無線接入網參數調整的參考數據;
46、根據所述參考數據,獲取各個時間步的三元組信息;所述三元組信息包括:預期回報信息、無線接入網狀態信息和可調參數信息;
47、按照時間步順序,將所述三元組信息構成輸入序列;
48、利用決策變換器dt模型,根據所述輸入序列,得到所述可調參數信息對應的參數調整值。
49、可選的,所述根據所述參考數據,獲取三元組信息,包括:
50、將所述參考數據,劃分為dt模型對應的狀態數據、動作數據和獎勵數據;
51、將所述狀態數據作為無線接入網狀態信息、所述動作數據作為可調參數信息,以及,根據所述獎勵數據構建所述預期回報信息。
52、可選的,所述根據所述獎勵數據構建所述預期回報信息,包括:
53、采用第一方式,根據所述獎勵數據構建所述預期回報信息;
54、其中,所述第一方式包括:將當前獎勵值至最后一個獎勵值進行求和作為當前時間步對應的預期回報信息;所述當前獎勵值是指所述當前時間步對應的獎勵值,所述最后一個獎勵值是指最后一個時間步對應的獎勵值。
55、可選的,所述處理器還用于:
56、采用第二方式,根據所述輸入序列,構建等效輸入序列;所述第二方式包括:將至少兩個相鄰時間步的三元組信息進行求和平均處理;
57、所述利用決策變換器dt模型,根據所述輸入序列,得到所述可調參數信息對應的參數調整值,包括:
58、利用決策變換器dt模型,根據所述等效輸入序列,得到所述可調參數信息對應的參數調整值。
59、可選的,所述處理器還用于:
60、采集無線接入網參數調整的離線數據;
61、利用所述離線數據,訓練所述dt模型。
62、可選的,在訓練所述dt模型的過程中,目標情況下采用目標損失函數;
63、其中,所述目標情況為所述可調參數信息對應的預設取值空間是連續的情況,所述目標損失函數為取均方誤差作為誤差的損失函數;
64、或者,所述目標情況為所述預設取值空間是離散的情況,所述目標損失函數為取交叉熵作為誤差的損失函數。
65、本發明實施例還提供了一種數據處理設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的程序;所述處理器執行所述程序時實現上述的數據處理方法。
66、本發明實施例還提供了一種可讀存儲介質,其上存儲有程序,該程序被處理器執行時實現上述的數據處理方法中的步驟。
67、本發明的上述技術方案的有益效果如下:
68、上述方案中,所述數據處理方法通過獲取無線接入網參數調整的參考數據;根據所述參考數據,獲取各個時間步的三元組信息;所述三元組信息包括:預期回報信息、無線接入網狀態信息和可調參數信息;按照時間步順序,將所述三元組信息構成輸入序列;利用決策變換器dt模型,根據所述輸入序列,得到所述可調參數信息對應的參數調整值;能夠支持利用模型自動實現無線接入網參數調整,避免人工方式導致的無線接入網參數調整方案存在步驟繁瑣且實現成本高的問題;此外,通過按照時間步順序根據包含預期回報信息的三元組信息構建dt模型的輸入序列,能夠保留參考數據的原始序列信息,并且更好地適應網絡調整后的長期收益以應對效果遲滯性問題,進而便于利用模型獲取更好的決策效果,很好的解決現有技術中無線接入網參數調整方案存在步驟繁瑣、實現成本高、效果遲滯性的問題。