本發明涉及一種機械學習裝置、電動機控制裝置以及機械學習方法,特別涉及學習電動機控制中的電流增益參數的最優化的機械學習裝置、具備機械學習裝置的電動機控制裝置以及機械學習方法。
背景技術:
作為通過逆變器對電動機進行可變速控制的情況下的電流控制系統,已知PI(比例積分)控制,作為其調整項目,有比例增益函數和積分增益函數(例如日本特開2000-184785號公報。以下稱為“專利文獻1”)。
專利文獻1記載的電流控制增益調整方法是PI控制的比例增益的調整,比較單相交流的電流指令信號和電流檢測信號的波形,測量電流檢測信號波形的延遲相位或延遲時間,判定檢測延遲是否比預先設定的目標延遲相位或延遲時間大,進行在檢測延遲大時增大比例增益,在檢測延遲小時減小比例增益的調整。
在現有技術中,根據物理常數等計算并設定適當的電流增益參數。另外,在現有技術中,由于電感因電流而變動等的理由,最優值和計算值稍微存在差值(偏差)。因此,一邊改變參數一邊觀察階躍響應或頻率響應而由人進行微調整。
這樣的現有技術難以說是最優的,另外存在調整花費時間、勞力(工夫)這樣的問題。進而,電動機的物理常數有個體差異,因此真正最優的參數也由于個體而不同,每個個體的參數的最優化更加麻煩,存在不現實的問題。
技術實現要素:
本發明的目的在于:提供一種機械學習裝置、具備機械學習裝置的電動機控制裝置以及機械學習方法,通過機械學習而對電流增益參數進行最優化,由此能夠提高電動機的響應性、改善進給不穩、提高精度。
本發明的一個實施例的機械學習裝置對與電動機控制中的電流增益參數的調整相關聯的條件進行學習,該機械學習裝置具備:狀態觀測部,其取得電流控制環路的積分增益函數和比例增益函數,并且取得實際電流,觀測由與階躍狀的轉矩指令對應的實際電流的過沖量、下沖量、以及上升時間中的至少一個、積分增益函數、比例增益函數構成的狀態變量;學習部,其依照由狀態變量構成的訓練數據集,學習與電流增益參數的調整相關聯的條件。
本發明的其他實施例的機械學習裝置對與電動機控制中的電流增益參數的調整相關聯的條件進行學習,該機械學習裝置具備:狀態觀測部,其取得電流控制環路的積分增益函數和比例增益函數,并且取得實際電流,觀測由與由不同頻率的正弦波的組構成的轉矩指令對應的實際電流的振幅比和根據相位延遲量計算出的頻帶時間中的至少一個、積分增益函數、比例增益函數構成的狀態變量;學習部,其依照由狀態變量構成的訓練數據集,學習與電流增益參數的調整相關聯的條件。
本發明的一個實施例的電動機控制裝置具備上述機械學習裝置和電動機控制部,其中,電動機控制部具備輸入轉矩指令的轉矩指令輸入部,電動機控制裝置還具備:意圖決定部,其根據由學習部依照訓練數據集學習的結果,對當前的狀態變量的輸入進行響應,決定積分增益函數和比例增益函數的變更。
本發明的一個實施例的機械學習方法對與電動機控制中的電流增益參數的調整相關聯的條件進行學習,其中,包括以下步驟:取得電流控制環路的積分增益函數和比例增益函數,并且取得實際電流,觀測由與階躍狀的轉矩指令對應的實際電流的過沖量、下沖量、以及上升時間中的至少一個、積分增益函數、比例增益函數構成的狀態變量;依照由狀態變量構成的訓練數據集,學習與電流增益參數的調整相關聯的條件。
本發明的其他實施例的機械學習方法對與電動機控制中的電流增益參數的調整相關聯的條件進行學習,其中,包括以下步驟:取得電流控制環路的積分增益函數和比例增益函數,并且取得實際電流,觀測由與由不同頻率的正弦波的組構成的轉矩指令對應的實際電流的振幅比和根據相位延遲量計算出的頻帶時間中的至少一個、積分增益函數、比例增益函數構成的狀態變量;依照由狀態變量構成的訓練數據集,學習與電流增益參數的調整相關聯的條件。
附圖說明
根據與附圖關聯的以下的實施方式的說明,能夠進一步了解本發明的目的、特征和優點。
圖1是本發明的實施例的機械學習裝置的結構圖。
圖2A是表示不調整電流增益的情況下的電流的時間性變化的圖表。
圖2B是表示調整電流增益的情況下的電流的時間性變化的圖表。
圖3是本發明的實施例的電動機控制裝置的結構圖。
圖4A是表示伴隨著轉矩指令的增加,積分增益函數單調減少、比例增益函數單調增加的情況下的電流增益參數(積分增益、比例增益)和轉矩指令之間的關系的圖表。
圖4B是表示學習后的積分增益函數或比例增益函數相對于轉矩指令的增減而大幅度變化的情況下的電流增益參數(積分增益、比例增益)和轉矩指令之間的關系的圖表。
圖5是用于說明本發明的實施例的機械學習裝置的動作步驟的流程圖。
圖6是用于說明本發明的實施例的電動機控制裝置的動作步驟的流程圖。
具體實施方式
以下,參照附圖,說明本發明的機械學習裝置、電動機控制裝置以及機械學習方法。
圖1是本發明的實施例的機械學習裝置的結構圖。圖3是本發明的實施例的電動機控制裝置的結構圖。
本發明的實施例的機械學習裝置1是學習與電動機控制中的電流增益參數的調整相關聯的條件的機械學習裝置1,具備狀態觀測部2、學習部3。
狀態觀測部2取得電流控制環路的積分增益函數和比例增益函數,并且取得實際電流,觀測由與階躍狀的轉矩指令對應的實際電流的過沖量、下沖量、以及上升時間中的至少一個、積分增益函數以及比例增益函數構成的狀態變量。
學習部3依照由狀態變量構成的訓練數據集,學習與電流增益參數的調整相關聯的條件。
本發明的實施例的機械學習裝置1通過機械學習(強化學習)對電動機控制的電流增益參數(積分增益、比例增益)進行最優化。在此,最優的積分增益、比例增益根據轉矩指令而不同,因此對將轉矩指令作為自變量的積分增益函數、比例增益函數進行最優化。
本發明的另一個實施例的機械學習裝置1`學習與電動機控制中的電流增益參數的調整相關聯的條件,具備狀態觀測部2`、學習部3`。
在上述的本發明的實施例的機械學習裝置1中,利用了階躍響應,但對于頻率響應也可以同樣,因此能夠將過沖和上升時間置換為輸出/輸入的振幅比和頻帶。因此,在本發明的另一個實施例的機械學習裝置1`中,狀態觀測部2`取得電流控制環路的積分增益函數和比例增益函數,并取得實際電流,觀測由與由不同頻率的正弦波的組構成的轉矩指令對應的實際電流的振幅比和根據相位延遲量計算出的頻帶時間中的至少一個、積分增益函數、比例增益函數構成的狀態變量。
學習部3`依照由狀態變量構成的訓練數據集,學習與電流增益參數的調整相關聯的條件。
學習部3、3`在學習中使用的訓練數據集并不限于針對一個電動機取得。即,學習部3、3`也可以依照對多個電動機取得的訓練數據集而學習條件。
本發明的實施例的機械學習裝置1優選還具備:回報計算部4,其根據存儲在訓練數據集中的狀態變量中的過沖量、下沖量以及上升時間,計算回報;函數更新部5,其根據回報,更新用于從當前的狀態變量調整電流增益參數的函數。例如,如圖2B所示,在滿足過沖小的情況、下沖小的情況、或上升時間短的情況中的至少任意一個條件的情況下,考慮增加回報。
但是,例如如圖4B所示,在學習后的積分增益函數或比例增益函數相對于轉矩指令的增減大幅度地變化的情況下,在響應特性良好的情況下,還與噪聲等相關聯,并不理想。因此,在這樣的情況下,優選減少回報。
本發明的其他實施例的機械學習裝置1`優選還具備:回報計算部4`,其根據存儲在訓練數據集中的狀態變量中的振幅比、相位延遲量,計算回報;函數更新部5`,其根據回報,更新用于從當前的狀態變量調整電流增益參數的函數。
另外,如果響應性過高,則針對干擾容易振動。因此,也可以根據相對于振蕩的富余的程度,決定增加還是減少回報。具體地說,例如在將比例增益固定,并使積分增益成倍時,確認階躍響應是否振動、以及頻率響應的振幅比是否超過允許值(這也是振蕩)。這時,也可以如果不振動則判斷為有富余而增加回報,如果振動則判斷為沒有富余而減少回報。
因此,在上述機械學習裝置1、1`中,回報計算部4、4`也可以進而根據相對于電流的震蕩的富余而計算回報。
進而,如圖4A所示,基本上伴隨著轉矩指令的增加,積分增益函數單調減少,比例增益函數單調增加。因此,也可以如果積分增益函數的斜率為正或低于閾值則減少回報,如果比例增益函數的斜率為負或高于閾值則減少回報。
因此,在上述機械學習裝置1、1`中,回報計算部4、4`也可以進而根據積分增益函數的斜率和比例增益函數的斜率計算回報。
函數更新部5、5`優選使用所謂的Q學習進行強化學習。Q學習是在某狀態(環境)s下學習選擇行為a的價值(行為的價值)Q(s,a)的方法。在某狀態(環境)s時,選擇Q(s,a)最高的行為a作為最優的行為。函數更新部5、5`使用下述的式(1)更新函數(行為價值函數Q(st,at))。
在此,Q(st,at)是行為價值函數,st是時刻t的狀態(環境),at是時刻t的行為,α是學習系數,rt+1是回報,γ是折扣率。行為價值函數表示回報的期待值。附加了max的項是在狀態(環境)st+1下選擇了Q值最高的行為a的情況下的Q值乘以γ所得的結果。
已知以0<α,γ≤1下定學習系數和折扣率,但在此,如果為了簡化而將學習系數和折扣率設為1,則如下述的式(2)所示那樣表示。
該更新式表示如果行為a引起的下一環境狀態下的最優的行為的價值Q(st+1,max at+1)比狀態(環境)s下的行為a的價值Q(st,at)大,則增大Q(st,at),相反,如果比狀態(環境)s下的行為a的價值Q(st,at)小,則減小Q(st,at)。即,使某狀態(環境)下的行為的價值接近它引起的下一狀態下的最優的行為的價值。
在本實施例中,存儲在訓練數據集中的狀態變量中的積分增益函數和比例增益函數對應于狀態(環境),決定積分增益函數和比例增益函數的變化量即Δ積分增益函數和Δ比例增益函數,并根據Δ積分增益函數和Δ比例增益函數設定新的積分增益函數和比例增益函數對應于行為。學習部3、3`通過使用了回報的學習,來更新((積分增益函數,比例增益函數)、(Δ積分增益函數,Δ比例增益函數),行為價值Q)的表(以下稱為“行為價值表”)。
本發明的實施例的電動機控制裝置7具備機械學習裝置1、1`以及電動機控制部6。電動機控制部6具備輸入轉矩指令的轉矩指令輸入部8。機械學習裝置1、1`具備:意圖決定部9,其根據由學習部3、3`依照訓練數據集進行學習的結果,對當前的狀態(環境)的輸入進行響應,決定積分增益函數和比例增益函數的變更。
意圖決定部9也可以以1-ε的概率選擇行為價值Q增大的行為(Δ積分增益函數,Δ比例增益函數),以ε的概率進行隨機選擇(ε-greedy法)。
可以根據電動機的繞組電阻值以及電感值來計算存儲在行為價值表中的行為價值的初始值。通常,在學習開始時存儲在行為價值表中的行為價值的初始值是隨機值。因此,可以取得電動機的繞組電阻、電感,適當地賦予初始值,提高學習的效率。
在難以將行為價值全部存儲為表并逐次更新的情況下,也可以組合使用了多層神經網絡的深層學習來更新行為價值Q。已知深層學習作為削減Q學習的巨大計算量的手段是有用的。
如圖3所示,電動機控制部6中的狀態有因行為而間接地變化的狀態、因行為而直接地變化的狀態。因行為而間接地變化的狀態包含每個步長的過沖量、下沖量、以及上升時間。因行為而直接地變化的狀態包含積分增益函數和比例增益函數。
學習部3、3`構成為依照由當前的狀態變量構成的追加的訓練數據集,再學習條件來進行更新。
也可以構成為機械學習裝置1、1`經由網絡與電動機控制部6連接,狀態觀測部2、2`經由網絡取得當前的狀態變量。
優選機械學習裝置1、1`存在于云服務器中。
電動機控制部6具備轉矩指令輸入部8(轉矩步長指示器)。狀態觀測部2、2`具備電流傳感器21以及用于取得積分增益函數和比例增益函數的通信單元22。也可以將機械學習裝置1、1`內置于電動機控制部6中。
接著,說明本發明的實施例的機械學習方法。在圖5中表示用于說明本發明的實施例的機械學習裝置的動作步驟的流程圖。本發明的實施例的機械學習方法對與電動機控制中的電流增益參數的調整相關聯的條件進行學習,包括:取得電流控制環路的積分增益函數和比例增益函數,并且取得實際電流,觀測由與階躍狀的轉矩指令對應的實際電流的過沖量、下沖量、上升時間中的至少一個、積分增益函數、比例增益函數構成的狀態變量,依照由狀態變量構成的訓練數據集,學習與電流增益參數的調整相關聯的條件。
本發明的其他實施例的機械學習方法,對與電動機控制中的電流增益參數的調整相關聯的條件進行學習,該機械學習方法包括:取得電流控制環路的積分增益函數和比例增益函數,并且取得實際電流,觀測由與由不同頻率的正弦波的組構成的轉矩指令對應的實際電流的振幅比和根據相位延遲量計算出的頻帶時間中的至少一個、積分增益函數、比例增益函數構成的狀態變量,依照由狀態變量構成的訓練數據集,學習與電流增益參數的調整相關聯的條件。
在圖5中表示用于說明本發明的實施例的機械學習裝置的動作步驟的流程圖。首先,在步驟S101中,取得電流控制環路的積分增益函數和比例增益函數,并且取得實際電流,觀測由與階躍狀的轉矩指令對應的實際電流的過沖量、下沖量、以及上升時間中的至少一個、積分增益函數、比例增益函數構成的狀態變量。或者,也可以在步驟S101中,取得電流控制環路的積分增益函數和比例增益函數,并且取得實際電流,觀測由與由不同頻率的正弦波的組構成的轉矩指令對應的實際電流的振幅比和根據相位延遲量計算出的頻帶時間中的至少一個、積分增益函數、比例增益函數構成的狀態變量。
接著,在步驟S102中,依照由狀態變量構成的訓練數據集,學習與電流增益參數的調整相關聯的條件。
接著,說明使用了本發明的實施例的電動機控制裝置電動機驅動系統的機械學習方法。在圖6中表示用于說明本發明的實施例的電動機控制裝置的動作步驟的流程圖。首先,在步驟S201中,開始學習。
接著,在步驟S202中,設定積分增益函數和比例增益函數。
接著,在步驟S203中,輸入步長指令。例如,一邊如10%、20%、……那樣逐漸地增加一邊輸入轉矩指令。
接著,在步驟S204中,采樣電流,并變換為轉矩指令的每個大小的過沖量等。例如,一邊按照10%的刻度增加轉矩指令,一邊將采樣的電流變換為各轉矩指令下的過沖量(OS量)、下沖量(US量)、上升時間(Rise Time)。
接著,在步驟S205中,計算回報。在此,回報并不限于決定為0或1的情況。即,根據相對于過沖量單調減少的函數、相對于下沖量單調增加的函數、相對于上升時間單調減少的函數來計算。例如,既可以賦予與積分增益函數、比例增益函數全體對應的一個回報,也可以對步長的每個大小設為一個回報。這是將積分增益函數、比例增益函數最優化為函數、還是個別地對每個轉矩指令的積分增益和比例增益進行最優化的不同。具體地說,可以按照10%的刻度,如果是10步長則增減10種回報。
接著,在步驟S206中,更新行為價值表。
接著,在步驟S207中,根據更新后的行為價值表,決定Δ積分增益函數和Δ比例增益函數。通過重復以上的步驟S202~S207,能夠最優化積分增益函數和比例增益函數。
在以上的說明中,說明了使用電流環路的增益參數的例子,但對于速度環路的增益參數也可以同樣。在該情況下,需要將轉矩指令置換為速度指令。
如以上說明的那樣,根據本發明的實施例的機械學習裝置和具備機械學習裝置的電動機控制裝置和機械學習方法,通過還考慮到電動機的個體差異的電流增益參數的最優化,能夠提高電動機的響應性,改善進給不穩,提高精度,削減調整的工時。
根據本發明,可以提供一種機械學習裝置、具備機械學習裝置的電動機控制裝置以及機械學習方法,其通過機械學習來對電流增益參數進行最優化,由此能夠提高電動機的響應性,改善進給不穩以及提高精度。