細粒度動態可重構fpga架構的制作方法【
技術領域:
】[0001]本發明主要涉及現場可編程門陣列涉及(FPGA,field-programmablegatearray),更具體地,涉及一種細粒度動態可重構FPGA。【
背景技術:
】[0002]隨著互補金屬氧化物半導體(CMOS,complementarymetal-oxide-semiconductor)技術被推動發展到其物理極限,應用專用集成電路(ASIC,applicat1n-specificintegratedcircuits)的設計和制造成本變得高昂。相比ASIC,FPGA提供一個更短的上市時間,降低設計成本,從而使得FPGA越來越具有吸引力。然而,設計靈活性的代價是,當前的FPGA并未取得與ASIC類似的面積、功耗或者性能。這主要是因為為實現可重構性而引入了大量的開銷。據估計,相比ASIC而言,FPGA可產生21倍硅面積,大于3倍的延遲,以及大于10倍的動態功耗。目前,需要能夠解決這些問題的改進的FPGA配置。【
發明內容】[0003]本發明根據授權號CNS-0719936和國家自然科學基金會(NSF)授權號CCF-1216457而得到美國政府的支持。政府對本發明享有一定的權利。[0004]本申請主張于2013年2月8日提交的美國臨時專利申請N0.61/762,518的優先權,其全部內容并入本文作為參考。[0005]本發明公開了一種現場可編程門陣列(FPGA,field-programmablegatearray)。所述FPGA包括多個與可重構交換機和至少水平和垂直直接鏈路互連的邏輯元件;與可重構交換機連接的存儲器,所述存儲器用于存儲至少兩項運行時間配置;所述可重構交換機基于選自存儲于所述存儲器的一項運行時間配置而重構。所述存儲器可以為納米電子隨機存取存儲器(RAM,randomaccessmemory)。所述存儲器還可以為低功率非預充電靜態隨機存取存儲器(SRAM,staticrandomaccessmemory)0所述存儲器可用于為至少四個邏輯元件存儲所述至少兩項運行時間配置。[0006]每個邏輯元件包括查找表(LUT,look-uptable),觸發器,輸出和輸入。每個邏輯元件包括專用進位邏輯。所述專用進位邏輯包括連接于所述觸發器的進位多路復用器和輸出多路復用器。至少四個邏輯元件與對角直接鏈路互連。所述邏輯元件還包絡輸入和輸出多路復用器。輸入多路復用器具有多個輸入,所述輸出多路復用器具有多個輸出,所述輸出的數量與所述輸入的數量相同。[0007]本發明公開了一種重構現場可編程門陣列(FPGA,field-programmablegatearray)的方法。所述方法包括:提供多個與可重構交換機和至少水平和垂直直接鏈路互連的邏輯元件。所述方法還包括:提供與可重構交換機連接的存儲器,所述存儲器用于存儲至少兩項運行時間配置。所述可重構交換機基于選自存儲于所述存儲器的一項運行時間配置而重構。【附圖說明】[0008]圖la為1級邏輯折疊的框圖;[0009]圖lb為2級邏輯折疊的框圖;[0010]圖2為10TSRAM單元的框圖;[0011]圖3a為FDR架構的框圖;[0012]圖3b為具有四條長度_2和四條長度-4線跡的框圖;[0013]圖4為LE的一示例框圖;[0014]圖5示出了另一示例LE設計,其允許一個DFF鎖存LE輸入比特位;[0015]圖6為LE—側上的連接快的框圖;[0016]圖7為襯墊和直接鏈路之間連接的框圖;[0017]圖8為具有專用進位邏輯的LE設計的框圖;[0018]圖9為進位邏輯的詳細設計的框圖;[0019]圖10為增加對角直接鏈路的FDR架構的框圖;[0020]圖11為具有每3X3陣列一SRAM塊的架構實例的框圖(即,具有等于1/9的存儲器密度);[0021]圖12為FDR2.0中使用的存儲塊的設計的框圖;[0022]圖13為FDR2.0中使用的DSP塊的框圖;[0023]圖14為DSP塊并入專用DSP列的框圖;[0024]圖15為DSP塊的輸入和輸出連接的框圖;[0025]圖16為DCT的延遲-面積圖;[0026]圖17為Biquad的延遲-面積圖;[0027]圖18為當在不同的時鐘周期被訪問時,存儲器A和B共享同一存儲塊的示例的框圖。【具體實施方式】[0028]下面結合附圖對本發明做詳細的說明。[0029]本文公開了一種混合CMOS納米技術可重構架構,稱之為NATURE,其可以解決一些現有FPGA存在的問題:邏輯密度和運行時間重配置效率。該架構利用時序邏輯折疊的概念,其將電路劃分為多個級聯級,并利用相同的邏輯元件(LE,logicemement)通過非常款蘇的動態重配置實現每個級。由于邏輯折疊極大的限制了片上通信,通過深度邏輯折疊,即,當重配置發生在電路中僅僅一個或兩個查找表(LUT,look-uptable)級之后,全局互連的數量可以大幅降低,這是因為大多數本地或者短距離互連是需要的。由于其對于傳統孤島式架構的依賴,NATURE無法完全利用該現象。為了克服這一缺點,在此公開了一種新的細粒度動態可重構(FDR,fine-graindynamicallyreconfigurable)架構,該架構與NATURE中使用的孤島式架構以及其他傳統架構有所不同。[0030]FDR架構包括通知和重構LE的陣列,其可以配置為邏輯,互連或其組合。這使得邏輯和互連之間的硬件資源分配具有充分的正如應用所需的靈活性。這樣,大多數遠距離個全局導線將不再使用。由于時序邏輯折疊的進一步使用以及互連層級大小的大幅度減小,邏輯密度和互連功率可以得到更進一步的提高。因為FPGA最常用于數據為主的應用(例如,視頻/圖像/圖形等),這些引用往往受到吞吐量的約束。只要滿足了吞吐量約束,FPGA與ASIC之間仍然存在的差距在于面積和功率。[0031]本文還公開了一種新的用于將電路映射到FDR的自動流。使用早期研發的一種工具,名為NanoMap,來支持邏輯折疊。具體參考,例如,W.Zhang,L.Shang和N.K.Jha所著的“混合納米/CMOS動態可重構系統-第二部分:設計優化流程”,ACMJ.計算機系統新興技術的計算機系統,卷5,第13.1-13.31頁,2009年8月,在此引用其全文。該自動流自動選擇最佳的邏輯折疊水平,并且旨在實現不同的優化目標。然而,FDR架構基于LE的網絡,其還涉及到路由交換機。因此,新的映射流能夠更好地利用路由資源。該流結合了一些新的互連優化技術,這些技術利用LE內提供的路由資源減少互連延遲。其利用NanoMap的邏輯折疊特性,確定是否為邏輯、互連或者其組合配置每個LE。[0032]存儲配置的嵌入存儲塊分布與邏輯網中。在適當的時間,重配置比特位被饋送到可重構交換機。NATURE使用CMOS邏輯和納米電子隨機存取存取器(RAM,randomaccessmemory)。由于納米電子RAM的制造過程尚未成熟,因此,實驗結果都是以假設該架構在CMOS中實現為前提而得到的。例如,可以使用低功率非預充電10T靜態RAM(SRAM,staticRAM),其節省在讀操作期間比特位線路中正常消耗的預充功能,用于存儲配置數據。應當理解的是,在不脫離本公開的范圍的情況下,也可以獲得其他實現方式,例如FinFET或者其他。[0033]采用65納米CMOS技術評價FDR。與傳統的未使用邏輯折疊的孤島式架構相比,FDR可以將面積提高9.14倍以上,而這是FPGA與ASIC面積差距的一半。電路延遲和功率消耗可以分別減少1.11倍以上和1.45倍以上。相對于深度邏輯折疊下的NATURE,面積、電路延遲以及功率消耗分別提高了2.12倍以上,3.28倍以上和1.74倍以上。[0034]NATURE基本上為一種混合CMOS/納米技術的可重構架構,其便于運行時間的重配置。它包括孤島式邏輯塊(LB,logicblock),其通過分層可重構互連連接。高密度、高性能的納米電子RAM分布與邏輯網中,以存儲重配置比特位。在重配置中,所有的比特位從納米電子RAM中讀取,并置入SRAM單元中,以重構邏輯和互連。每隔幾個周期重構NATURE的能力,產生了時序邏輯折疊這一概念。[0035]邏輯折疊,類似于時序流水線,使用片上RAM使能的運行時間重配置,以每隔幾個周期(甚至每隔周期)實現相同LE中的不同功能。這樣使得面積和邏輯密度得到極大的提高。根據重配置的執行頻率,邏輯折疊可以具有不同級的粒度。這產生了不同的面積/延遲特征,并且在執行面積-延遲平衡的過程中實現了很大的靈活性。在兩個連續重配置之間執行的LUT級的數量也當前第1頁1 2 3 4