一種可擴展智能圖形圖像處理的加速裝置和方法
【專利摘要】本發明公開了一種可擴展智能圖像處理加速裝置和加速方法,所述加速裝置包括智能圖像處理單元和智能圖像處理驅動單元,其中,所述智能圖像處理驅動單元,用于對智能圖像處理單元進行配置,包括根據原始數據、需執行的任務以及所采用的圖像處理算法生成具體配置信息,并將所述配置信息傳送給智能圖像處理單元;所述智能圖像處理單元,用于加載圖像處理算法,并根據所述配置信息執行智能圖像處理,并對其進行加速。
【專利說明】
一種可擴展智能圖形圖像處理的加速裝置和方法
技術領域
[0001]本發明涉及圖形圖像處理的技術領域,具體涉及一種可擴展智能圖形圖像處理的加速裝置和加速方法。
【背景技術】
[0002]目前圖像信息的處理已經越來越成為與人們生活緊密相關的基礎技術,圖像中所包含的巨大信息量也成為人工智能技術領域的研究重點。從手機中的圖像增強、美顏功能,到基于PC的圖像內容的分類與理解,都離不開針對圖像的密集運算。但目前的計算方案在硬件成本及功耗需求上都非常高。
[0003]目前的圖像信息處理計算方案主要基于CPU,GPU,或DSP處理器來實現,單純的CPU已經無法滿足復雜的圖像處理及人工智能算法處理性能要求,而像GPU,DSP這樣的處理器單元都是從傳統的計算平臺演進而來,并且在設計中需要考慮一定的通用性,這就使它們無法成為一個專注于人工智能的圖像處理算法的最優加速方案。同時,人工智能分析算法又有其自身的特點并不斷發展,無論從計算的要求本身,到對原始數據與中間結果的存取與讀寫,都會導致不同于傳統平臺的計算性能與帶寬瓶頸,并且所需的功耗也會很高,這都要求專注于視覺計算的新方法與新裝置。視覺計算的核心是圖像的處理與其中信息的提取,針對視覺計算核心需求而設計的方法與裝置有非常大的價值。
[0004]此外,在進行智能圖形圖像處理時,例如神經網絡運算,運算處理速度與數據的內存讀寫效率直接反應出整個系統的實際算法處理能力,二者的匹配程度會直接影響到系統的性能與功耗。在不同算法的數據運算與讀寫要求下,如
[0005]何確保數據的吞吐不會形成瓶頸,以實現系統運算處理能力的完全發揮并確保系統整體能效的最大化,一直是系統設計的核心技術難題。
【發明內容】
[0006]鑒于上述問題,提出了本發明實施例以便提供一種克服上述問題或者至少部分地解決上述問題的一種可擴展的智能圖形圖像處理的加速裝置和方法。
[0007]為了解決上述問題,本發明公開了一種可擴展智能圖像處理加速裝置,其特征在于:包括智能圖像處理單元和智能圖像處理驅動單元。所述智能圖像處理驅動單元,用于對智能圖像處理單元進行配置,包括根據原始數據、需執行的任務以及所采用的圖像處理算法生成具體配置信息,并將所述配置信息傳送給智能圖像處理單元;所述智能圖像處理單元,用于加載圖像處理算法,并根據所述配置信息執行智能圖像處理,并對其進行加速。
[0008]本發明還公開了一種基于可擴展智能圖像處理加速裝置的加速方法,其特征在于:所述可擴展智能圖像處理加速裝置包括智能圖像處理單元和智能圖像處理驅動單元,所述加速方法具體包括如下步驟:步驟101,所述智能圖像處理驅動單元根據原始數據、需執行的圖像處理任務以及所采用的圖像處理算法生成具體配置信息;步驟102,所述智能圖像處理單元加載圖像處理算法,并根據所述具體配置信息設置加速處理過程;步驟103,向所述智能圖像處理單元輸入所述原始數據,并執行智能圖像的加速處理;步驟104,輸出加速處理后的結果。
[0009]其中,所述原始數據包括圖像數據、圖像處理算法的參數數據以及算法代碼描述數據。
[0010]本發明包括以下優點:
[0011]本發明通過采用智能圖像處理驅動單元對智能圖像處理單元進行具體配置的方法,能夠低成本、低功耗、高效率的實現對智能圖形圖像處理的加速。
[0012]本發明通過統一運算核心子模塊的多核可擴展設計,能夠更好的滿足不同計算密度下的性能升級。
[0013 ]本發明通過引入自適應幀內存壓縮子模塊和自適應統一行緩存子模塊,在適配各種圖像塊壓縮算法的同時,極大的減少了運算過程中對內存訪問的帶寬需求與延遲,在提升性能的同時降低了功耗。
【附圖說明】
[0014]圖1是本發明實施例中一種可擴展智能圖形圖像處理加速裝置的結構示意圖;
[0015]圖2是本發明實施例中一種基于可擴展智能圖形圖像處理加速裝置的加速方法的流程圖;
[0016]圖3是本發明另一實施例中加速處理過程的流程圖。
【具體實施方式】
[0017]為使本發明的上述目的、特征和優點能夠更加明顯易懂,下面結合附圖和【具體實施方式】對本發明作進一步詳細的說明。
[0018]參照圖1,示出了本發明的一種可擴展的智能圖像處理加速裝置的結構示意圖,該加速裝置包括智能圖像處理單元I和智能圖像處理驅動單元2。智能圖像處理單元I,用于執行智能圖形圖像的處理,并對其進行加速。智能圖像處理驅動單元2,用于對智能圖像處理單元I進行配置,包括根據原始數據、需執行的任務以及所采用的圖像處理算法生成具體配置信息,并將該配置信息傳送給智能圖像處理單元I。
[0019]其中,該原始數據為當前圖形圖像處理操作過程中的操作對象,包括圖像信息、格式與尺寸等原始圖像數據以及圖像處理算法的參數數據(例如神經網絡參數等),還可以進一步包括算法代碼描述數據,其可通過圖像采集設備采集、網絡傳輸、本地存儲、本地運算等方式獲取,加速系統對原始數據的來源并無特殊要求。
[0020]該智能圖像處理單元I接收從智能圖像處理驅動單元2傳送的具體配置信息,然后加載圖像處理算法,并根據該具體配置信息設定原始數據的讀取操作、數據的壓縮/解壓縮操作、具體的緩存操作、內部行緩存數據的更新操作、數據的運算操作以及數據流的傳送等。更進一步地,該智能圖像處理單元I包括控制邏輯子模塊101,自適應幀內存壓縮子模塊102,自適應統一行緩存子模塊303,以及一個或多個統一運算核心子模塊104。
[0021]控制邏輯子模塊101,被設置為依據智能圖像處理驅動單元2生成的具體配置信息,控制自適應幀內存壓縮子模塊102對原始數據進行讀取與壓縮/解壓縮操作,控制自適應統一行緩存子模塊103按照預定模式組織內部緩存數據以供統一運算核心子模塊104操作處理,并控制各統一運算核心子模塊104按照預定的邏輯或邏輯組合對內部緩存數據進行運算。同時,控制邏輯子模塊101還可以進一步地控制智能圖像處理單元與外部的數據交換。
[0022]自適應幀內存壓縮子模塊102,被設置為接收該原始數據,并根據控制邏輯子模塊101發送的控制信號對該原始數據進行解壓縮后填入自適應統一行緩存子模塊103的行緩存中。
[0023]自適應統一行緩存子模塊103,被設置為根據控制邏輯子模塊101發送的控制信號緩存自適應幀內存壓縮子模塊102解壓縮后的數據或者由統一運算核心子模塊104返回的中間結果,并生成操作數據,以求最大限度的減少智能圖像處理單元的外部讀寫行為,減少帶寬需求與延遲。
[0024]一個或多個統一運算核心子模塊104,被設置為加載圖像處理算法,并根據控制邏輯子模塊101發送的控制信號執行對自適應統一行緩存子模塊103中操作數據的邏輯或邏輯組合運算,將運算結果作為中間結果寫回到自適應統一行緩存子模塊103中,或經由自適應幀內存壓縮子模塊102將運算結果輸出智能圖像處理單元。其中,統一運算核心子模塊104為多核可擴展結構,能夠根據運算需要增加該子模塊的數量以進一步提升數據處理能力。
[0025]當執行任務無法一次被執行完畢時,智能圖像處理驅動單元2將該執行任務劃分為一個或多個子任務,并生成各子任務的具體配置信息,控制邏輯子模塊101接收配置信息后,生成控制信號并發送至自適應幀內存壓縮子模塊102和自適應統一行緩存子模塊103。例如,在圖像識別處理中,如果圖像數據過大,可以將一個圖像劃分為多個圖像塊,然后依次對各個圖像塊進行識別處理。再例如,在神經網絡算法中,也可以根據神經網絡層數的數量,依次對各層或者多層進行處理。此時統一運算核心子模塊104生成的運算結果被寫回到自適應統一行緩存子模塊103中時,該運算結果作為中間結果,并依次執行下一個子任務。當執行任務可以一次被執行完畢時,統一運算核心子模塊104生成的運算結果經由自適應幀內存壓縮子模塊102被輸出智能圖像處理單元I。
[0026]作為一優選實施例,在自適應統一行緩存子模塊103的存儲空間滿足待處理圖像和某特定算法參數的緩存要求時,通過只讀取待處理圖像一次來保證最佳的數據存取效能;而當自適應統一行緩存子模塊103的存儲空間無法滿足待處理圖像和某特定算法參數的緩存要求時,可根據算法特點調節是否需要多次讀取待處理圖像,以實現在系統資源有限的情況下數據處理性能的完全發揮,保證系統的整體效能最優。
[0027]以下,以執行任務為神經網絡算法為例做進一步說明。
[0028]假設某一神經網絡算法定義的網絡結構中,某一中間層共有N個AXA大小的待處理圖像單元作為輸入智能圖像處理單元I的圖像數據,其中每個圖像單元數據為M Bytes,則該層待處理圖像的總大小為M X NX A XA Bytes。對應的參數矩陣為X個,作為輸入智能圖像處理單元I的參數數據,其中每個參數矩陣的大小為B X B,并且每個參數的大小為YBytes,則該層參數矩陣的大小為X XYXBXB Bytes。自適應統一行緩存子模塊103可根據四種不同的狀態來決定行緩存策略,以實現系統性能的最大化:
[0029]狀態一:當自適應統一行緩存子模塊103的存儲空間大于圖像數據與參數數據的總大小MX NXA XA+X X Y X B X B Bytes時,所有待處理的圖像數據與對應的參數矩陣數據可完全被緩存在自適應統一行緩存子模塊103內,此時所有待處理圖像與對應的參數矩陣數據運算后的結果將作為統一運算核心子模塊的最終運算結果輸出。
[0030]狀態二:當自適應統一行緩存子模塊103的存儲空間大于圖像數據的大小MXNXAXA Bytes而小于參數數據的大小XXYXBXB Bytes時,可以將所有待處理圖像數據和部分參數矩陣數據緩存在自適應統一行緩存子模塊103中,此時所有待處理圖像與已緩存的參數矩陣運算并輸出該部分結果,同時自適應統一行緩存子模塊103中已緩存的已使用完的參數矩陣不斷被未緩存的參數矩陣替換,并繼續同樣的運算處理,以保證處理流程不被打斷。當所有待處理圖像數據與各部分參數矩陣數據均運算完畢后,各部分結果一起作為統一運算核心子模塊的最終運算結果輸出。
[0031]狀態三,當自適應統一行緩存子模塊的存儲空間小于圖像數據的大小MXNXAXABytes而大于參數數據的大小XXYXBXB Bytes時,可以將部分待處理圖像數據和全部參數矩陣數據緩存在自適應統一行緩存子模塊103中,此時被緩存的部分待處理圖像數據與全部參數矩陣運算并輸出該部分運算的中間結果,同時自適應統一行緩存子模塊103中緩存的已完成運算的待處理圖像數據不斷被未緩存的待處理圖像數據替換,并繼續同樣的運算處理,以保證處理流程不被打斷,新的運算結果與之前輸出的中間結果再進行累加,直至所有待處理圖像數據全部完成運算,最后得到的累加結果將作為統一運算核心子模塊的最終運算結果輸出。
[0032]狀態四:當自適應統一行緩存子模塊103的存儲空間小于圖像數據的大小MXNXAXA Bytes,并且也小于參數數據的大小XXYXBXB Bytes時,可以將部分待處理圖像和部分參數矩陣數據緩存在自適應統一行緩存子模塊103中,此時被緩存的部分待處理圖像先與已緩存的參數矩陣運算并輸出該部分的中間結果,同時自適應統一行緩存子模塊103中緩存的已完成運算的待處理圖像數據不斷被未緩存的待處理圖像數據替換,以保證處理流程不被打斷,新的運算結果與之前輸出的中間結果進行累加,直至所有待處理圖像全部完成運算,最后得到的累加結果就是該部分緩存參數矩陣對應的運算結果。此后繼續緩存新的參數矩陣數據以替換已使用的參數矩陣數據,再重復前述過程直至所有參數矩陣數據完成全部運算,此時獲取全部最終結果。需要注意的是,由于每一個參數矩陣需要與所有待處理圖像進行運算,上述過程如果改為先替換自適應統一行緩存子模塊103中未被緩存的參數矩陣數據,再替換自適應統一行緩存子模塊103中未被緩存的圖像數據也可實現,只是此時中間結果需要長時間被存放在自適應統一行緩存子模塊103的外部,會消耗額外的存儲空間。
[0033]參照圖2,示出了本發明實施例中一種基于可擴展智能圖像處理加速裝置的加速方法的流程圖,該可擴展智能圖像處理加速裝置包括智能圖像處理單元I和智能圖像處理驅動單元2,該加速方法具體包括如下步驟:
[0034]步驟101,智能圖像處理驅動單元2根據原始數據、需執行的圖像處理任務以及所采用的圖像處理算法生成具體配置信息。其中原始數據包括圖像數據和參數數據。
[0035]步驟102,智能圖像處理單元I加載圖像處理算法,并根據具體配置信息設置加速處理過程。
[0036]更進一步的,通過控制邏輯子模塊根據所述具體配置信息生成控制信號,該控制信號用于設置原始數據的讀取操作、數據的壓縮/解壓縮操作、具體的緩存操作、內部行緩存數據的更新操作、數據的運算操作以及數據流的傳送。
[0037]步驟103,向所述智能圖像處理單元輸入所述原始數據,并執行智能圖像的加速處理。
[0038]步驟104,輸出加速處理后的結果。
[0039]如圖3所示,作為一優選實施例,上述步驟103中的該加速處理進一步包括:
[0040]子步驟1031:通過自適應幀內存壓縮子模塊對原始數據進行解壓縮操作,并將解壓縮后的數據填入到填入自適應統一行緩存子模塊103中,進行行緩存。
[0041 ]子步驟1032:通過自適應統一行緩存子模塊按照預定模式組織內部緩存數據,生成操作數據。
[0042]子步驟1033:通過一個或多個統一運算核心子模塊104執行對操作數據的邏輯運算或邏輯組合運算,并將運算結果作為中間結果寫回到自適應統一行緩存子模塊103中,或經由自適應幀內存壓縮子模塊102輸出該運算結果。
[0043]其中,統一運算核心子模塊104為多核可擴展結構,能夠根據運算需要增加該子模塊的數量以進一步提升數據處理能力。因此,智能圖像處理單元支持多核心可擴展,通過改變其運算核心的數目與相關配置可以實現處理性能的提升。
[0044]此外,數據的輸出不一定在所有操作執行完畢后,一般情況下,對于數據吞吐量大的算法操作,處理完成一部分則輸出該部分。但本發明的該方法會盡可能利用緩存中的數據以避免中間結果的重復讀寫。
[0045]輸出的加速處理后的數據可作為完整算法的處理結果,也可作為后續算法部分的原始數據繼續參與運算。
[0046]在本發明中,該裝置和方法不但可以對傳統的圖像處理算法進行加速,也可以對智能圖像處理算法、如神經網絡算法進行加速,尤其是針對深度神經網絡算法,具有明顯的加速處理效果;在算法及性能要求不斷發展變化的過程中,通過對緩存處理的配置以及運算單元的多核可擴展設計,可以靈活的適應各種復雜算法的變化,大大提升處理性能。
[0047]并且,本發明的該加速裝置和加速方法不僅可以實現包括圖像美容、圖像合成、圖像檢測等圖像處理任務,還可以對視頻、音頻進行加速處理。
[0048]作為一優選實施例,如果設備中已經包含了GPU或DSP等協處理器,對圖像處理算法,尤其是神經網絡算法進行加速的方法可以與GPU,DSP等通用協處理器配合實現。可以將原始算法中的部分操作步驟交給協處理器執行,而智能圖像處理單元I僅負責處理由驅動單元2指派的加速任務,在分配合理的情況下可以發揮出設備針對某一特定算法的最大效會K。
[0049]作為一優選實施例,所述智能圖像處理單元可以為一個獨立的硬件加速實體,也可以為一個抽象的硬件集合,所述各個子模塊可分別、或組合為相關的子硬件加速實體,并協同實現智能圖像處理單元的全部或部分功能。所述智能圖像處理驅動單元2可以運行在主處理器上,實現對加速過程的配置。
[0050]以上對本發明所提供的一種可擴展智能圖像處理加速裝置和加速方法進行了詳細介紹,上述記載中應用了具體示例對本發明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發明的方法及其核心思想;同時,對于本領域的一般技術人員,依據本發明的思想,在【具體實施方式】及應用范圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本發明的限制。
【主權項】
1.一種可擴展智能圖像處理加速裝置,其特征在于:包括智能圖像處理單元和智能圖像處理驅動單元, 所述智能圖像處理驅動單元,用于對智能圖像處理單元進行配置,包括根據原始數據、需執行的任務以及所采用的圖像處理算法生成具體配置信息,并將所述配置信息傳送給智能圖像處理單元; 所述智能圖像處理單元,用于加載圖像處理算法,并根據所述配置信息執行智能圖像處理,并對其進行加速; 所述原始數據包括圖像數據、圖像處理算法的參數數據。2.根據權利要求1所述的裝置,其特征在于:所述智能圖像處理單元進一步包括控制邏輯子模塊,自適應幀內存壓縮子模塊,自適應統一行緩存子模塊,以及一個或多個統一運算核心子模塊, 所述控制邏輯子模塊,被設置為依據所述具體配置信息生成控制信號傳送至自適應幀內存壓縮子模塊、自適應統一行緩存子模塊,以及一個或多個統一運算核心子模塊; 所述自適應幀內存壓縮子模塊,被設置為接收所述原始數據,并根據所述控制信號對所述原始數據進行解壓縮操作,并將所述解壓縮操作的結果輸出至自適應統一行緩存子模塊; 所述自適應統一行緩存子模塊,被設置為接收所述解壓縮操作的結果,根據所述控制信號按照預定模式組織內部緩存數據,并生成操作數據; 所述一個或多個統一運算核心子模塊,被設置為加載圖像處理算法,并根據所述控制信號執行對自適應統一行緩存子模塊中操作數據的邏輯或邏輯組合運算,并將運算結果作為中間結果寫回到自適應統一行緩存子模塊中,或經由自適應幀內存壓縮子模塊輸出所述運算結果。3.根據權利要求2所述的裝置,其特征在于:所述一個或多個統一運算核心子模塊為多核可擴展結構。4.根據權利要求2所述的裝置,其特征在于:所述自適應統一行緩存子模塊根據其存儲空間與原始數據中圖像數據和參數數據之間的大小關系來決定行緩存策略。5.根據權利要求4所述的裝置,其特征在于,所述決定行緩存策略具體包括: 當自適應統一行緩存子模塊的存儲空間大于圖像數據與參數數據的總大小時,所有待處理的圖像數據與對應的參數矩陣數據完全被緩存在自適應統一行緩存子模塊內; 當自適應統一行緩存子模塊的存儲空間大于圖像數據的大小而小于參數數據的大小時,將所有待處理圖像數據和部分參數矩陣數據緩存在自適應統一行緩存子模塊中,此時所有待處理圖像與已緩存的參數矩陣執行運算,同時自適應統一行緩存子模塊中已緩存的已使用完的參數矩陣不斷被未緩存的參數矩陣替換,并依次執行運算; 當自適應統一行緩存子模塊的存儲空間小于圖像數據的大小而大于參數數據的大小時,將部分待處理圖像數據和全部參數矩陣數據完全緩存在自適應統一行緩存子模塊中,此時各部分被緩存的待處理圖像數據依次與全部參數矩陣運算并輸出該部分運算的中間結果,同時自適應統一行緩存子模塊中緩存的已完成運算的待處理圖像數據不斷被未緩存的待處理圖像數據替換,并繼續同樣的運算處理,新的運算結果與之前輸出的中間結果再進行累加,直到所有待處理圖像數據全部完成運算; 當自適應統一行緩存子模塊的存儲空間小于圖像數據的大小,并且也小于參數數據的大小時,將部分待處理圖像和部分參數矩陣數據緩存在自適應統一行緩存子模塊中,此時被緩存的部分待處理圖像先依次與已緩存的部分參數矩陣運算并輸出該部分的中間結果,同時自適應統一行緩存子模塊中緩存的已完成運算的待處理圖像數據不斷被未緩存的待處理圖像數據替換,新的運算結果與之前輸出的中間結果進行累加,直至所有待處理圖像全部完成運算,此后,繼續緩存新的參數矩陣數據以替換已使用的參數矩陣數據,再重復前述過程直至所有參數矩陣數據全部完成運算。6.—種基于可擴展智能圖像處理加速裝置的加速方法,其特征在于:所述可擴展智能圖像處理加速裝置包括智能圖像處理單元和智能圖像處理驅動單元,所述加速方法具體包括如下步驟: 步驟101,所述智能圖像處理驅動單元根據原始數據、需執行的圖像處理任務以及所采用的圖像處理算法生成具體配置信息; 步驟102,所述智能圖像處理單元加載圖像處理算法,并根據所述具體配置信息設置加速處理過程; 步驟103,向所述智能圖像處理單元輸入所述原始數據,并執行智能圖像的加速處理; 步驟104,輸出加速處理后的結果; 其中,所述原始數據包括圖像數據、圖像處理算法的參數數據。7.根據權利要求6所述的方法,其特征在于:步驟102中的根據所述具體配置信息設置加速處理過程具體為,通過控制邏輯子模塊依據所述具體配置信息生成控制信號, 其中所述控制信號用于設置原始數據的讀取操作、數據的壓縮/解壓縮操作、具體的緩存操作、內部行緩存數據的更新操作、數據的運算操作以及數據流的傳送。8.根據權利要求6所述的方法,其特征在于:步驟103中的所述加速處理進一步包括: 子步驟1031:通過自適應幀內存壓縮子模塊對所述原始數據進行解壓縮操作,并將解壓縮后的數據填入到填入自適應統一行緩存子模塊中進行行緩存; 子步驟1032:通過自適應統一行緩存子模塊按照預定模式組織內部緩存數據,并生成操作數據; 子步驟1033:通過一個或多個統一運算核心子模塊執行對操作數據的邏輯運算或邏輯組合運算,并將運算結果寫回到自適應統一行緩存子模塊中,或經由自適應幀內存壓縮子模塊向外輸出所述運算結果; 其中,所述統一運算核心子模塊為多核可擴展結構。9.根據權利要求8所述的方法,其特征在于:所述自適應統一行緩存子模塊根據其存儲空間與原始數據中圖像數據和參數數據之間的大小關系來決定行緩存策略。10.根據權利要求9所述的方法,其特征在于,所述決定行緩存策略具體包括: 當自適應統一行緩存子模塊的存儲空間大于圖像數據與參數數據的總大小時,所有待處理的圖像數據與對應的參數矩陣數據完全被緩存在自適應統一行緩存子模塊內; 當自適應統一行緩存子模塊的存儲空間大于圖像數據的大小而小于參數數據的大小時,將所有待處理圖像數據和部分參數矩陣數據緩存在自適應統一行緩存子模塊中,此時所有待處理圖像與已緩存的參數矩陣執行運算,同時自適應統一行緩存子模塊中已緩存的已使用完的參數矩陣不斷被未緩存的參數矩陣替換,并依次執行運算; 當自適應統一行緩存子模塊的存儲空間小于圖像數據的大小而大于參數數據的大小時,將部分待處理圖像數據和全部參數矩陣數據完全緩存在自適應統一行緩存子模塊中,此時各部分被緩存的待處理圖像數據依次與全部參數矩陣運算并輸出該部分運算的中間結果,同時自適應統一行緩存子模塊中緩存的已完成運算的待處理圖像數據不斷被未緩存的待處理圖像數據替換,并繼續同樣的運算處理,新的運算結果與之前輸出的中間結果再進行累加,直到所有待處理圖像數據全部完成運算; 當自適應統一行緩存子模塊的存儲空間小于圖像數據的大小,并且也小于參數數據的大小時,將部分待處理圖像和部分參數矩陣數據緩存在自適應統一行緩存子模塊中,此時被緩存的部分待處理圖像先依次與已緩存的部分參數矩陣運算并輸出該部分的中間結果,同時自適應統一行緩存子模塊中緩存的已完成運算的待處理圖像數據不斷被未緩存的待處理圖像數據替換,新的運算結果與之前輸出的中間結果進行累加,直至所有待處理圖像全部完成運算,此后,繼續緩存新的參數矩陣數據以替換已使用的參數矩陣數據,再重復前述過程直至所有參數矩陣數據全部完成運算。
【文檔編號】G06T1/20GK105931176SQ201610188551
【公開日】2016年9月7日
【申請日】2016年3月30日
【發明人】楊樺
【申請人】楊樺