本申請涉及電力市場交易,尤其涉及一種連續日內電力市場交易建模方法及計算機程序產品。
背景技術:
1、近年來,可再生能源的整合不斷增加,影響著電力市場的發展。這一趨勢引發了大量研究,探討可再生能源對現代短期電力市場的影響,尤其是在整合可再生能源(res)方面的作用。目前,電力市場面臨著res不可預測性的挑戰,而對于交易者來說,根據更新更準確的res預測值制定交易策略,這對降低可再生能源不確定性帶來的風險至關重要。在連續日內(cid)電力市場中,交易者能夠在短時間內預測可再生能源,并根據更準確的預測選擇交易策略。
2、在連續日內電力市場中,現有的建模方法主要是將交易問題進行建模,并通過基于動態規劃和基于深度強化學習的方法求解最優策略,這些方法在能源交易和cid交易市場中得到了廣泛應用。
3、然而,在cid市場中,由于可再生能源預測誤差始終存在且隨著預測時間范圍增加而增加,導致了對實際res值的預測與實際值之間存在較大差異。因此,可能會對尋找最優策略造成影響。
技術實現思路
1、本申請的目的在于提供一種連續日內電力市場交易建模方法及計算機程序產品,以解決現有技術中存在的現有建模方法難以應對連續日內電力市場中的預測誤差從而影響獲得最優策略的技術問題。本申請提供的諸多技術方案中的優選技術方案所能產生的諸多技術效果詳見下文闡述。
2、為實現上述目的,本申請提供了以下技術方案:
3、本申請的第一方面提供了連續日內電力市場交易建模方法,包括:
4、根據包括連續日內電力市場的市場狀態、儲能商狀態、可再生能源狀態的系統狀態以及擾動因子,構建狀態保守馬爾可夫決策模型,其中所述擾動因子根據可再生能源的預測誤差確定;
5、基于所述狀態保守馬爾可夫決策模型,通過狀態保守策略優化框架構建智能體,其中所述智能體包括行動者網絡和評論家網絡;
6、對所述智能體進行訓練,更新所述評論家網絡的網絡參數和所述行動者網絡的網絡參數,直至期望累積獎勵波動小于預設百分比時收斂,以獲取使所述狀態保守馬爾可夫決策模型的期望累積獎勵最大時的最優策略。
7、在一些實施例中,所述方法還包括:基于以系統狀態為中心的擾動閾值構建狀態集,所述狀態集通過如下公式表示:
8、,
9、其中,表示所述狀態集,表示狀態空間,為所述擾動因子,∞范數用于度量真實系統狀態和所述系統狀態之間的距離,所述真實系統狀態包括可再生能源實際的輸出功率。
10、在一些實施例中,所述狀態保守馬爾可夫決策模型的系統目標為在所述狀態集下,尋找最優策略以最大化所述期望累積獎勵。
11、在一些實施例中,所述期望累積獎勵通過狀態保守獎勵和折扣因子獲取,其中所述狀態保守獎勵通過以下公式獲取:
12、,
13、其中,為基于所述真實系統狀態在時間步長t選擇的動作。
14、在一些實施例中,在所述對所述智能體進行訓練之前,所述方法包括:利用所述智能體進行采樣,獲取四元組并存儲在經驗回放池中,其中所述經驗回放池中的四元組作為所述智能體訓練的訓練集。
15、在一些實施例中,所述對所述智能體進行訓練,包括:
16、從所述經驗回放池中采樣批次大小為n的四元組;
17、將狀態輸入至所述行動者網絡的目標行動者網絡,所述目標行動者網絡根據策略輸出對應的動作,其中所述動作被添加一個高斯噪聲;
18、將所述動作以及對應的四元組輸入至所述評論家網絡中,并計算所述評論家網絡的損失函數的損失值和所述行動者網絡的損失函數的損失值。
19、在一些實施例中,所述評論家網絡基于對應的狀態和動作計算狀態保守q值函數的估計值,所述評論家網絡的目標評論家網絡用于輸出目標q值;所述計算所述評論家網絡的損失函數的損失值,包括:將所述狀態保守q值函數的估計值與所述目標q值進行比較,以計算所述評論家網絡的損失函數的損失值。
20、在一些實施例中,所述目標q值通過以下公式計算:
21、,
22、其中,是指目標狀態保守值函數,為折扣因子。
23、在一些實施例中,所述目標狀態保守值函數通過以下公式獲取:
24、,
25、其中,為所述目標評論家網絡,為所述狀態集。
26、本申請的第二方面提供了一種計算機程序產品,所述計算機程序產品存儲在數據載體上并且設計用于執行如上所述的連續日內電力市場交易建模方法。
27、實施本申請上述技術方案中的一個技術方案,具有如下優點或有益效果:本申請在構建狀態保守馬爾可夫決策模型時,通過引入擾動因子使得在建模的過程中能夠充分考慮可再生能源的預測誤差,也即使得模型能夠在系統狀態擾動的情況下,減少可再生能源的預測誤差對期望累積獎勵的影響;同時,利用狀態保守策略優化框架對狀態保守馬爾可夫決策模型進行求解,能夠更加準確地尋找使期望累積獎勵最大化的最優策略。相較于現有技術中交易問題的優化目標僅為最大化期望累積獎勵,本申請能夠最大化當可再生能源的預測誤差較大的情況時的期望累積獎勵,由此能夠在可再生能源預測出現誤差時依舊能夠保持較高的收益,減少受到的影響。
1.一種連續日內電力市場交易建模方法,其特征在于,包括:
2.根據權利要求1所述的連續日內電力市場交易建模方法,其特征在于,所述方法還包括:基于以系統狀態為中心的擾動閾值構建狀態集,所述狀態集通過如下公式表示:
3.根據權利要求2所述的連續日內電力市場交易建模方法,其特征在于,所述狀態保守馬爾可夫決策模型的系統目標為在所述狀態集下,尋找最優策略以最大化所述期望累積獎勵。
4.根據權利要求2所述的連續日內電力市場交易建模方法,其特征在于,所述期望累積獎勵通過狀態保守獎勵和折扣因子獲取,其中所述狀態保守獎勵通過以下公式獲取:
5.根據權利要求2所述的連續日內電力市場交易建模方法,其特征在于,在所述對所述智能體進行訓練之前,所述方法包括:利用所述智能體進行采樣,獲取四元組并存儲在經驗回放池中,其中所述經驗回放池中的四元組作為所述智能體訓練的訓練集。
6.根據權利要求5所述的連續日內電力市場交易建模方法,其特征在于,所述對所述智能體進行訓練,包括:
7.根據權利要求6所述的連續日內電力市場交易建模方法,其特征在于,所述評論家網絡基于對應的狀態和動作計算狀態保守q值函數的估計值,所述評論家網絡的目標評論家網絡用于輸出目標q值;所述計算所述評論家網絡的損失函數的損失值,包括:將所述狀態保守q值函數的估計值與所述目標q值進行比較,以計算所述評論家網絡的損失函數的損失值。
8.根據權利要求7所述的連續日內電力市場交易建模方法,其特征在于,所述目標q值通過以下公式計算:
9.根據權利要求8所述的連續日內電力市場交易建模方法,其特征在于,所述目標狀態保守值函數通過以下公式獲取:
10.一種計算機程序產品,其特征在于,所述計算機程序產品存儲在數據載體上并且設計用于執行按權利要求1-9任一項所述的連續日內電力市場交易建模方法。