本發明涉及無線網絡,尤其涉及一種針對智能工廠毫米波網絡平均信息年齡的優化調度方法。
背景技術:
1、毫米波網絡憑借其超高速率、低延遲和高容量的特性,能夠顯著提升工業自動化和智能制造的效率,同時毫米波通信技術也是下一代6g網絡技術的研究重點。毫米波通信可以支持高精度的實時數據傳輸。此外,毫米波網絡還能夠支持大量工業物聯網設備的接入和數據交換,促進工廠全面數字化和智能化轉型。毫米波網絡利用先進的波束成形(beamforming)技術,通過定向傳輸將信號聚焦在特定方向上,從而提高信號質量和覆蓋范圍。這種定向傳輸技術能夠有效減少干擾和能量損失,使得信號能夠在高密度和復雜環境中穩定傳輸。波束成形技術可以確保接入網內的設備和傳感器始終保持高效、可靠的通信,支持實時數據傳輸和精準控制,提升智能制造系統的整體性能和靈活性。
2、為了有效優化工業毫米波網絡中的信息傳輸效率,現有研究主要集中于延遲最小化和帶寬分配。然而,這些方法通常沒有充分考慮信息的實時性和更新頻率,導致在實際應用中信息年齡(age?of?information,aoi)較高,無法滿足工業4.0對實時性和精確控制的需求。此外,傳統優化方法在面對高動態和復雜環境時,往往因動作空間指數爆炸問題而無法實現有效的調度。深度強化學習因其強大的決策能力和自適應性,成為解決此類問題的理想選擇。深度強化學習能夠通過不斷迭代學習,找到最優的調度策略,從而有效應對大規模和高復雜度的工業環境,最終實現系統加權平均信息年齡的最小化。
技術實現思路
1、為解決上述技術問題,本發明提出了針對智能工廠毫米波網絡平均信息年齡的優化調度方法,采用基于深度強化學習的算法,將系統模型建模為馬爾可夫決策過程,從而求解長期加權平均信息年齡波束調度優化問題,通過多次訓練迭代,找到最優的調度策略,可以實現高效實時的數據傳輸。
2、為實現上述目的,本發明提供了針對智能工廠毫米波網絡平均信息年齡的優化調度方法,包括:
3、構建使用定向傳輸天線的智能工廠毫米波網絡模型以及傳輸模型系統;
4、定義最小化系統的長期加權平均信息年齡波束調度優化問題;
5、將所述智能工廠毫米波網絡模型以及傳輸模型系統建模為馬爾可夫決策過程,確定系統所處馬爾可夫過程的狀態空間、動作空間以及獎勵函數;
6、采集智能工廠毫米波網絡整個系統內t個時隙的參數信息,構建基于神經網絡的智能調度網絡,通過與環境進行交互,調整所述智能調度網絡的網絡參數;
7、訓練所述智能調度網絡,直至達到性能要求,根據訓練好的智能調度網絡,采集節點的系統狀態,選擇最優策略進行調度。
8、優選地,所述智能工廠毫米波網絡模型包括基站及若干接收節點,所述基站用于向信號范圍內的接收節點傳輸數據文件,所述基站側面裝配有定向天線,所述定向天線用于將數據文件傳輸給信號范圍內的接收節點;所述傳輸模型為扇形天線模型,所述扇形天線模型的發射天線采用單個射頻鏈的模擬波束成形技術,以集中發射信號的強度,在任意方向上調整波束寬度和波束長度,用于將波束覆蓋一個節點子集。
9、優選地,定義最小化所述系統的長期加權平均信息年齡波束調度優化問題,包括:
10、分別定義單個節點信息年齡的更新方式、整個系統的長期加權平均信息年齡,獲得所述優化問題;
11、其中,定義所述單個節點信息年齡的更新方式的方法為:
12、
13、式中,表示波束組在t時隙開始傳輸,為指示變量表示節點在時隙所要傳輸的剩余時隙數,為節點i在時隙t+1的信息年齡值,為傳輸波束組所需要的時隙數,表示節點在時隙所要傳輸的剩余時隙數,為節點i在時隙t的信息年齡值,為被選定傳輸的波束組;
14、定義所述整個系統的長期加權平均信息年齡的方法為:
15、
16、式中,為各個節點的權重參數,為整個系統的長期加權平均信息年齡,為時間段的總長度,為節點總數,i為接收節點。
17、優選地,所述優化問題表示為:
18、
19、式中,表示可選波束組的總個數,j為波束組的索引;
20、在每個時隙做出決策,目標為最小化長期加權平均信息年齡,其中約束1表示每個時隙中只能有一個波束組進行傳輸,約束2表示如果波束組在時隙進行傳輸,則波束組內的所有節點在該時隙內必須沒有剩余時隙需要傳輸。
21、優選地,將系統模型建模為馬爾可夫決策過程,確定系統所處馬爾可夫過程的狀態空間、動作空間以及獎勵函數,包括:
22、確認包含各節點在時隙t時的信息年齡,以及各節點在時隙所要傳輸的剩余時隙數,定義所述馬爾可夫過程的狀態空間為二元組;
23、將所述馬爾可夫過程的動作空間表示在時隙t調度傳輸波束組或者等待其他波束組傳輸完成;
24、將所述馬爾可夫過程的獎勵函數定義為時隙t中所有節點加權信息年齡之和的負值。
25、優選地,所述狀態空間為:
26、
27、式中,為狀態空間,為指示變量表示接收節點在時隙所要傳輸的剩余時隙數,為節點i在t時隙的信息年齡,i為接收節點;
28、所述動作空間為:
29、
30、其中,表示波束組在t時隙開始傳輸,特別地,當時,對應的表示不傳輸波束,為動作空間,表示可選波束組的總個數,j為波束組的索引;
31、所述獎勵函數包括瞬時獎勵和累積獎勵,其中,所述瞬時獎勵為:
32、
33、式中,為t時隙的瞬時獎勵,為節點的總個數,為各個接收節點的權重參數,為節點i在時隙t的信息年齡值;
34、所述累積獎勵為:
35、
36、式中,為從0時隙直至t時隙的累積獎勵,t為整個時間段的長度,l為時隙的索引,為累積折扣因子,為第l時隙的即時獎勵。
37、優選地,所述智能調度網絡包括actor子網絡和critic子網絡,所述actor子網絡和critic子網絡采用相同的狀態輸入層,若干全連接層作為隱藏層,并使用relu函數作為激活函數;其中,所述actor子網絡輸出表示策略的概率值向量,記為,actor子網絡用于擬合狀態到動作的映射,即策略,對應actor子網絡根據不同系統狀態做出策略的過程,其維度與動作空間的大小相等;所述critic子網絡輸出為當前狀態值函數的估計值,用于評估從當前狀態執行動作得到的預期回報;
38、在所述actor子網絡后連接有掩碼mask模塊,所述掩碼mask模塊用于保證選取的動作都為合法,將actor的概率結果乘以一個用于約束的掩碼向量,獲得概率向量,所述概率向量經過約束處理后保留下合法動作的概率值,約束條件為:如果當前時隙有波束組未傳輸完畢占據信道,則同一時隙內不能調度傳輸其他波束組。
39、優選地,調整所述智能調度網絡的網絡參數,包括:
40、在每個時隙t的開始,將系統狀態輸入所述actor子網絡得到約束后的概率值向量,并通過采樣選取一個動作;
41、環境在時隙t采取決策并得到瞬時獎勵,根據t時隙的系統狀態和采取的動作,依據狀態轉移概率得到下一個系統狀態;
42、然后將所述系統狀態輸入所述critic子網絡獲得狀態值函數的估計值;將時隙t的五元組<?>作為一條經驗存入經驗回放緩存,用于后續網絡的訓練;
43、處理完成后步入下個時隙,重復此過程,直至達到最大時隙數t;
44、完成一輪交互后,計算優勢函數,并且分別計算actor子網絡和critic子網絡的損失函數,并且更新網絡參數。
45、優選地,通過反向傳播方法分別計算所述actor子網絡和critic子網絡的梯度,更新所述網絡參數,具體為:
46、
47、其中,和分別為actor子網絡的學習率和critic子網絡的學習率,和分別為actor子網絡損失函數關于網絡參數的梯度和critic子網絡損失函數關于網絡參數的梯度,為actor網絡的參數,為critic網絡的參數。
48、優選地,選擇所述最優策略進行調度的方法為:
49、
50、式中,為基于訓練好的參數的策略,表示在時隙選擇的最優波束組調度策略,為選取出t時刻使得策略值最大的值,表示波束組在t時隙開始傳輸。
51、與現有技術相比,本發明具有如下優點和技術效果:
52、(1)本發明針對智能工廠毫米波網絡的實時性通信需求,通過預先處理優化的波束降低調度的復雜度,并進一步使用基于深度強化學習的方法以應對算法調度的動作空間指數增長的問題,保證了高實時的數據有效傳輸。
53、(2)本發明具有較強的通用性和實用性,可以自適應地應對智能工廠毫米波網絡的動態系統狀態,實現數據的實時穩定傳輸,提高系統的安全性和穩定性。