本發明屬于電力-算力協同調控,特別提出一種考慮大模型訓練負載靈活性的電網調度方法及裝置。
背景技術:
1、雙碳目標與能源雙控背景下電力系統調節能力匱乏,亟需跳出電源側邊界,挖掘利用需求側蘊含的巨大靈活性,保證能量供需實時平衡。另一方面,以gpt-4和sora為代表的大模型技術帶動了人工智能新一輪的迅猛發展,激發各行各業建立專屬大模型提升改善現有工作流。由于數據和模型參數體量龐大,大模型訓練負載需要大量gpu(graphicsprocessing?unit,圖形處理器)計算資源支撐,能耗遠超傳統人工智能模型訓練負載,構成電力系統不可忽視的一類新型電力負荷。因此,有必要挖掘大模型訓練負載作為電力負荷的靈活性,利用gpu計算集群的靈活調節能力,提升新能源利用率,保障新型電力系統的低碳可靠運行。然而,大模型訓練負載對時延要求高,如何在動態調整gpu集群能耗的同時不影響訓練任務的完成時間,成為挖掘利用大模型訓練負載靈活性關鍵的技術難點之一。
技術實現思路
1、本發明的目的是為克服已有技術的不足之處,提出一種考慮大模型訓練負載靈活性的電網調度方法及裝置。本發明充分挖掘大模型訓練負載作為需求側新型電力負荷的調節空間,提升新能源利用率,保障電網的安全可靠運行。
2、本發明第一方面實施例提出一種考慮大模型訓練負載靈活性的電網調度方法,包括:
3、獲取gpu單元的基準工作時鐘頻率,所述基準工作時鐘頻率使得所述gpu單元在執行大模型訓練任務時單次迭代所需能耗最小;
4、基于所述基準工作時鐘頻率,確定用于構建gpu集群的所述gpu單元的數量;
5、基于所述gpu單元在不同工作時鐘頻率下完成大模型訓練任務時單次迭代的平均功率和時間,分別建立所述gpu集群的功率模型和性能評估模型;
6、建立考慮大模型訓練負載靈活性的電網調度模型,其中,所述電網調度模型的約束條件考慮每個gpu集群的所述功率模型和所述性能評估模型;
7、求解所述電網調度模型,得到電網的最優調度方案及gpu集群的動態調控方案。
8、在本發明的一個具體實施例中,所述方法還包括:
9、獲取gpu單元在不同工作時鐘頻率下完成大模型訓練任務時單次迭代的時間、平均功率和能耗;具體步驟如下:
10、1)從該gpu單元中單臺gpu支持的工作時鐘頻率范圍內等間隔地選取n個工作時鐘頻率,將該n個工作時鐘頻率按照從小到大的順序排列后組成工作時鐘頻率集合;
11、2)令i=1;
12、3)從步驟1)得到的工作時鐘頻率集合中選取第i個工作時鐘頻率作為當前工作時鐘頻率;
13、4)在當前工作時鐘頻率下,對該gpu單元啟動批大小為nb、迭代次數為nr的大模型訓練任務;
14、訓練時,以設定的采樣頻率fs獲取該gpu單元內所有gpu的功率量測值;其中,在當前工作時鐘頻率下,記第k臺gpu在第j次量測時的功率量測值為記在當前工作時鐘頻率下gpu單元完成nr次迭代的時間為ti,則每臺gpu的量測值總數ns=tifs;
15、則在當前工作時鐘頻率下,得到gpu單元完成單次迭代的時間、平均功率及能耗,表達式分別如下:
16、
17、ei=tipi
18、其中,ti表示在第i個工作時鐘頻率下gpu單元完成單次迭代的時間,pi表示在第i個工作時鐘頻率下gpu單元完成單次迭代的平均功率,ei表示在第i個工作時鐘頻率下gpu單元完成單次迭代的能耗,ng為gpu單元中的gpu總數;
19、5)對i進行判定:
20、若i小于n,則令i=i+1,然后重新返回步驟3);
21、若i大于等于n,則工作時鐘頻率集合中所有工作時鐘頻率遍歷完畢,得到gpu單元在該集合中每個工作時鐘頻率下完成單次迭代的時間ti、平均功率pi及能耗ei。
22、在本發明的一個具體實施例中,所述方法還包括:
23、在工作時鐘頻率集合中確定gpu單元的基準工作時鐘頻率其中n0為基準工作時鐘頻率在工作時鐘頻率集合中的序號:
24、
25、在本發明的一個具體實施例中,所述確定用于構建gpu集群的所述gpu單元的數量,包括:
26、1)令大模型訓練時每nb條數據更新一次參數,gpu單元每次計算nb條數據,則大模型訓練所需的gpu單元數量
27、其中[]為取整操作,k為單次更新所需計算輪數;
28、2)將gpu單元數量擴充為個,gpu集群建立完畢;
29、其中,為在基準工作時鐘頻率下gpu單元完成一次迭代所需時間,tn為在工作時鐘頻率集合中最高工作時鐘頻率下gpu單元完成一次迭代所需時間;該gpu集群的基準狀態為表示個gpu單元工作在基準時鐘頻率下。
30、在本發明的一個具體實施例中,所述分別建立所述gpu集群的功率模型和性能評估模型,包括:
31、1)建立gpu集群的功率模型,表達式如下:
32、
33、其中,fg表示gpu集群的工作時鐘頻率,表示gpu集群在工作時鐘頻率fg下完成大模型訓練任務時單次迭代的的平均功率;
34、該功率模型的一次項系數αp和常數項βp計算表達式分別如下:
35、
36、其中,為工作時鐘頻率集合中所有工作時鐘頻率的平均值,為工作時鐘頻率集合中各工作時鐘頻率對應的gpu單元完成單次迭代的平均功率的均值;
37、
38、2)建立gpu集群的性能評估模型,表達式如下:
39、
40、其中,表示gpu集群在工作時鐘頻率fg下完成大模型訓練任務時單次迭代的時間;
41、該性能評估模型的一次項系數αv和常數項βv計算表達式分別如下:
42、
43、其中,為工作時鐘頻率集合中各工作時鐘頻率下gpu單元完成單次迭代所需時間的倒數的平均值:
44、
45、在本發明的一個具體實施例中,所述建立考慮大模型訓練負載靈活性的電網調度模型,包括:
46、1)建立考慮大模型訓練負載靈活性的電網調度模型的目標函數,表達式如下:
47、
48、其中,cop是調控周期內電網的總發電成本;和分別是是火電機組u的發電成本的二次項系數、一次項系數和常數項,gth,u,t是火電機組u在第t時段的出力;
49、2)建立考慮大模型訓練負載靈活性的電網調度模型的約束條件,包括:
50、功率平衡約束:
51、
52、其中,是第c個gpu集群第t時段的工作時鐘頻率,ln,t是第t時段除gpu集群外的其他負荷;
53、gpu集群的計算量約束:
54、
55、其中,為第c個gpu集群的基準工作時鐘頻率;
56、火電機組出力約束:
57、
58、其中,gth,u和分別為火電機組u的出力下限和上限;
59、gpu集群工作時鐘頻率約束:
60、
61、其中,和分別是第c個gpu集群中gpu所支持的最低工作時鐘頻率和最高工作時鐘頻率;
62、光伏電站出力約束:
63、
64、其中,gpv,v,t為光伏電站v在第t時段的出力,為光伏電站v的出力上限;
65、風力電站出力約束:
66、
67、其中,gwind,w,t是風力電站w在第t時段的出力,為風力電站w的出力上限。
68、在本發明的一個具體實施例中,所述方法還包括:
69、求解所述考慮大模型訓練負載靈活性的電網調度模型,得到gth,u,t,gpv,v,t,gwind,w,t的最優解作為電網的最優調度方案,以及的最優解作為各gpu集群在調控周期內的最優工作時鐘頻率序列,其中取距離各時段最近的可調頻率點作為該時段各gpu集群的目標工作時鐘頻率,即為gpu集群的動態調控方案;,其中,c=1,2,…,nc,nc為gpu集群總數。
70、本發明第二方面實施例提出一種考慮大模型訓練負載靈活性的電網調度裝置,包括:
71、基準工作時鐘頻率獲取模塊,用于獲取gpu單元的基準工作時鐘頻率,所述基準工作時鐘頻率使得所述gpu單元在執行大模型訓練任務時單次迭代所需能耗最小;
72、gpu集群構建模塊,用于基于所述基準工作時鐘頻率,確定用于構建gpu集群的所述gpu單元的數量;
73、gpu集群模型構建模塊,用于基于所述gpu單元在不同工作時鐘頻率下完成大模型訓練任務時單次迭代的平均功率和時間,分別建立所述gpu集群的功率模型和性能評估模型;
74、電網調度模型構建模塊,用于建立考慮大模型訓練負載靈活性的電網調度模型,其中,所述電網調度模型的約束條件考慮每個gpu集群的所述功率模型和所述性能評估模型;
75、優化模塊,用于求解所述電網調度模型,得到電網的最優調度方案及gpu集群的動態調控方案。
76、本發明第三方面實施例提出一種電子設備,包括:
77、至少一個處理器;以及,與所述至少一個處理器通信連接的存儲器;
78、其中,所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被設置為用于執行上述一種考慮大模型訓練負載靈活性的電網調度方法。
79、本發明第四方面實施例提出一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲計算機指令,所述計算機指令用于使所述計算機執行上述一種考慮大模型訓練負載靈活性的電網調度方法。
80、本發明的特點及有益效果:
81、本發明通過構建模型訓練負載的gpu集群基準工作狀態并建立gpu集群的功率模型和性能評估模型,進而考慮大模型訓練負載靈活性的電網調度模型并求解,以得到電網的最優調度方案及gpu集群的動態調控方案。本發明在訓練任務完成時間不超過基準狀態下,通過動態調控gpu集群的功率曲線,配合以風、光為代表的新能源出力,實現電力系統的低碳可靠運行。本發明充分挖掘大模型訓練負載作為需求側新型電力負荷的調節空間,提升新能源利用率,保障電網的安全可靠運行。