用于光子網絡的系統及方法
【專利摘要】在一種實施方式中,光子交換結構包括:包括多個第一交換機的第一級;以及包括多個第二交換機的第二級,其中,第二級光耦合至第一級。光子交換結構還包括包含有多個第三交換機的第三級,其中,第三級光耦合至第二級,其中,光子交換結構被配置成接收具有目的地地址的包,其中,目的地地址包括組目的地地址,并且其中,第二級被配置成根據組目的地地址來連接。
【專利說明】
用于光子網絡的系統及方法
[0001] 本申請要求于2014年8月8日提交的題為"System and Method for Photonic Networks"的美國非臨時申請No. 14/455,034的權益,該申請由此通過引用合并到本文中。
技術領域
[0002] 本發明涉及用于通信的系統及方法,并且具體地涉及用于光子網絡的系統及方 法。
【背景技術】
[0003] 數據中心路由海量數據。當前數據中心的吞吐量可以是每秒5太字節至7太字節, 預期在未來會大幅度增加。數據中心由龐大數目的服務器機架、存儲設備機架和其他機架 組成,所有機架經由巨大的集中式包交換資源來互連。在數據中心中,使用電包交換機來路 由這些數據中心中的所有數據包,而不考慮包的屬性。
[0004] 服務器的機架、存儲設備的機架以及輸入輸出功能設備的機架包括架頂(top of rack,T0R)包交換機,TOR包交換機將來自其相關聯的服務器和/或其他外圍設備的包流組 合成每TOR交換機的被路由至電包交換核心交換機資源的較小數目的極高速流。TOR交換機 接收來自該資源的返回交換流,并且將上述返回交換流分發至其機架內的服務器。可能存 在從每個TOR交換機至核心交換資源的4X40Gb/s的流以及相同數目的返回流。在數據中心 中,每個機架可能有一個TOR交換機,而在數據中心中有幾百至幾萬個機架,因此有幾百至 幾萬個TOR交換機。數據中心的容量有了海量增長,從而導致巨大的電包交換結構。
【發明內容】
[0005] -種實施方式的光子交換結構包括:第一級,包括多個第一交換機;以及第二級, 包括多個第二交換機,其中第二級光耦合至第一級。光子交換結構還包括包含有多個第三 交換機的第三級;其中,第三級光耦合至第二級,其中,光子交換結構被配置成接收具有目 的地地址的包,其中,目的地地址包括組目的地地址,并且其中,第二級被配置成根據組目 的地地址來連接。
[0006] -種實施方式的控制光子交換機的方法包括:識別包的目的地組以及根據所述包 的目的地組來選擇所述包的波長。所述方法還包括在確定所述包的波長之后檢測所述包與 另外包之間的輸出端口沖突。
[0007] -種實施方式的生成用于光子交換結構的連接映射的方法包括:針對第一包進行 第一連接映射生成步驟以產生第一輸出;以及在針對第一包進行第一連接映射生成步驟之 后,根據第一輸出針對第一包進行第二連接映射生成步驟以產生第二輸出。所述方法還包 括在針對第一包進行第二連接映射生成步驟的同時,針對第二包進行第一連接映射生成步 驟。
[0008] -種實施方式的光子交換系統包括第一輸入級交換模塊以及耦合至第一輸入級 交換模塊的第一控制模塊,其中,第一控制模塊被配置成控制第一輸入級交換模塊。所述光 子交換系統還包括第二輸入級交換模塊以及耦合至第二輸入級交換模塊的第二控制模塊, 其中,第二控制模塊被配置成控制第二輸入級交換模塊。另外,所述光子交換系統包括第一 輸出級交換模塊以及耦合至第一輸出級交換模塊的第三控制模塊,其中,第三控制模塊被 配置成控制第一輸出級交換模塊。此外,所述光子交換系統包括第二輸出級交換模塊以及 耦合至第二輸出級交換模塊的第四控制模塊,其中,第四控制模塊被配置成控制第二輸出 級交換模塊。所述光子交換系統還包括正交映射器,所述正交映射器親合在第一控制模塊、 第二控制模塊、第三控制模塊和第四控制模塊之間。
[0009] 以上描述相當寬泛地概述了本發明的實施方式的特征以使得可以更好地理解本 發明的以下詳細描述。在下文中將描述本發明的實施方式的另外的特征和優點,其構成了 本發明的權利要求書的主題。本領域技術人員應當理解,所公開的概念和【具體實施方式】可 以容易地被用作修改或設計用于實現本發明的相同目的的其他結構或過程的基礎。本領域 技術人員還應當認識到,這樣的等同構造并未脫離本發明的如在所附權利要求書中闡述的 精神和范圍。
【附圖說明】
[0010] 為了更加完全地理解本發明及其優點,現在參考下文結合附圖進行的描述,其中:
[0011] 圖1示出了一種實施方式的用于包流路由的系統;
[0012] 圖2示出了另一種實施方式的用于包流路由的系統;
[0013] 圖3示出了一種實施方式的用于光子包處理的系統;
[0014]圖4示出了另一種實施方式的用于光子包處理的系統;
[0015] 圖5示出了累積密度函數(cumulative density function,Q)F)相對于包大小的 圖;
[0016] 圖6示出了小于N的包中的流量百分比相對于包大小的圖;
[0017] 圖7A至圖7C示出了總節點容量增益和聚合填充效率相對于包長度閾值的圖;
[0018] 圖8不出了一種實施方式的光子交換機矩陣;
[0019] 圖9示出了一種實施方式的陣列波導路由器(array waveguide router,AWG-R);
[0020]圖10示出了透射率相對于AWG-R的波長的圖;
[0021]圖11示出了 AWG-R的傳輸功能;
[0022]圖12示出了一種實施方式的CLOS交換機;
[0023]圖13示出了另一種實施方式的CLOS交換機;
[0024]圖14不出了一種實施方式的三級光子CLOS交換機;
[0025]圖15不出了另一種實施方式的三級光子CLOS交換機;
[0026]圖16A至圖16B不出了 一種實施方式的光子電路交換結構和控制系統;
[0027]圖17不出了一種實施方式的光子交換結構;
[0028] 圖18示出了一種實施方式的將架頂(top of rack,T0R)組連接至另外的TOR組的 方法的流程圖;
[0029]圖19A至19B示出了一種實施方式的正交消息映射器;
[0030]圖20A至圖20B示出了作為流量水平的函數的超出同時連接嘗試的給定的數目的 概率的圖;
[0031 ]圖21A至圖21C不出了 一種實施方式的光子交換路徑;
[0032] 圖22示出了一種實施方式的光子交換的方法的流程圖;以及
[0033] 圖23示出了一種實施方式的用于控制光子交換結構的方法的流程圖。
[0034] 除非另有指示,否則不同圖中的對應的附圖標記通常指代對應的部分。繪制各附 圖是為了清楚地說明實施方式的相關方面,而未必按比例繪制。
【具體實施方式】
[0035] 首先應當理解,盡管下面提供了一種或更多種實施方式的示意性實現,但是所公 開的系統和方法可以使用任何數目的技術來實現,而不論該技術是否為當前已知或現有。 本公開內容決不應限于下面所說明的說明性實現、附圖和技術,包括本文所說明和描述的 示例性設計和實現,而是可以在所附權利要求書的范圍及其等同物的全部范圍內修改。對 數據吞吐量、系統以及/或者設備容量、設備的數目等的提及僅為說明性,并且決非意在限 制本文所要求保護的實施方式的可擴縮性和能力。
[0036] 替代使用完全的光子包交換機或完全的電子包交換機,可以使用混合方法。將包 分成兩個數據流,其中之一具有承載大部分包帶寬的長包,而其中另之一具有短包。通過光 子交換機來交換長包,而通過可以是電子包交換機的另外的包交換機來交換短包。
[0037] 在混合節點中的分路器和合路器取決于長/短分路閾值的設置來將大約5%至 20 %的流量帶寬路由至電子短包交換機并且將80 %至95 %的帶寬路由至光子長包交換結 構。通過電子短包交換結構來交換長度在閾值之下的包,而通過光子交換結構來交換長度 為閾值或在閾值之上的包。因為數據中心中的流量往往為雙模態,其中大量的流量接近或 為最大包長度或者為相當小的包大小,所以當長包流的包全部被填充成最大長度而該填充 的添加未造成過度的帶寬效率低下時,可以使用非常快速的同步電路交換機來實現長包交 換機。
[0038] 期望光子交換機與最長包的幀長度同步,從而導致非常快的幀速率,原因是可以 在無需等待收集并且組裝相同目的地的多個包的情況下有效地利用幀凈荷容量。光子交換 機可以被實現為快速光子空間交換機。這導致對包進行交換的時間固定,其中在跨交換機 的端口的幀時隙中同時開始同時結束對所有輸入中的包進行交換。因此,在交換包的新幀 之前,交換機對來自先前幀的流量進行清零,并且不存在關于可用的路徑的幀對幀的相互 作用。換言之,新的連接不存在先前流量以避免沖突。
[0039] 實施方式創建非常高的吞吐量節點以交換包流量,其中該流量取決于流中包的大 小而被劃分至不同包長度的包流路(packet flow)流動以使用電子交換或者使用光子交 換,并且每個技術平臺解決其他技術的缺點。包括電子包交換的電子交換可以非常敏捷并 且響應迅速,但受到帶寬限制。另一方面,光子交換遠不受帶寬考慮限制,然而對于包特別 是短包的快速敏捷交換所需的許多功能存在問題。然而,可以使用利用多級光子交換機結 構的大吞吐量的適中快速建立時間(Ins至5ns)的光子電路交換機。因此,將要交換的包流 分成分尚的短包流和長包流。短包雖數量眾多但僅構成總流量帶寬的5%至20 %,而長包的 每個包的持續時間要大得多并且構成其余的80 %至95 %的帶寬。較小帶寬的短包流可以通 過敏捷電子解決方案來交換,而大部分帶寬通過提供高得多的總吞吐量的光子交換機來交 換。關于這樣的系統的另外的細節被包括在于2013年5月24日提交的美國專利申請No . 13/ 902,008中,該申請由此通過引用合并到本文中。
[0040] -種實施方式在光子交換路徑中交換長包。使用具有多個級的光子電路交換機來 對快速光子電路交換機中的長包進行光子交換。
[0041] 快速電路交換機具有級與級之間的交互,所述交互通常包括用于確定連接映射中 的變化或生成新的連接映射的復雜過程。當交換結構不是完全的非阻塞時,這些過程變得 麻煩,并且可以對一些連接進行再路由以有利于建立其他過程。在例如通過使第二級擴大 (放大)來創建的非阻塞交換機的情況下,可以獨立地建立連接。當建立時,不再對連接進行 再路由以允許另外的連接,原因是總是存在可用于這些另外連接的閑置路徑。然而,這對快 速尋找可用的閑置路徑而言會是個挑戰。
[0042 ]快速電路交換機針對每個交換事件使用經修改的或新的連接映射。對于包流量的 快速電路交換機,針對每個經交換的包來確定新的或經修改的連接映射。這可以通過使交 換同步來簡化并由此來設計(由于事件的開始、持續時間和結束被同步所以具有重復的定 時時間段),原因是在不考慮已經存在的連接的情況下,可以針對每個幀來對一套完整的新 包立即進行連接處理,這是因為,在同步方法中,由于已經對先前幀的流量進行了完全地交 換,所以在原來的位置不存在先前的連接。然而,同步操作導致固定長度包或包容器。因為 絕大部分的長包接近最大長度或為最大長度,其中僅一小部分(5 %至15%)充分遠離最大 長度(但仍在閾值長度之上),所以就帶寬效率而言將所有包填滿成相同的最大長度并非主 要問題。因此,光子交換機可以被操作成具有以下非常快速的幀速率的快速同步電路交換 機:在100Gb/s處對1500字節最大長度包而言是120ns,或在40Gb/s處對相同的包而言是 300ns,或者在在100Gb/s處對最高至9,000字節的"巨型"包而言是720ns。這導致每個交換 機幀都需要新的連接映射,上述每個交換機幀等于經填充的包時間段一一對100Gb/ S 1500 字節包而言是120ns。
[0043]包括在120ns內解決輸出端口競爭的計算大約1000 X 1000個端口連接映射可能存 在問題,特別是在非層次方法中。在一個示例中,將地址層次地分解成組以及這些組內的 TOR地址,因此特定的第一級模塊和第三級模塊組成與TOR的組相關聯的尋址組。
[0044] 為了實現從一個組的TOR至另一個組的TOR的連接,連接處理的一部分建立組對組 的連接。因為相對于TOR而言組的數量明顯較少,所以這較簡單。在一種實施方式的交換機 中,此任務變成確定源TOR和目的地TOR的源組和目的地組,并且根據這兩個組地址來查找 并且應用波長值。這通過以下來促進:將地址分組與物理交換機模塊的組相聯系并且將組 中的每個模塊的端口視為尋址組。然后,確定該組內的每個組的TOR的連接,該連接相對于 整個連接映射而言是小得多的連接域。
[0045]整個連接映射生成處理被分解成流水線式方法中的順序步驟,其中特定的流水線 元件進行地址域的連接處理的全部任務的一部分,并且在一個幀周期內將該結果傳遞給流 水線中的下一個元件,因此第一元件可以在下一幀的連接上重復分配給它的任務。繼續進 行該過程直到完備的幀連接效用的連接映射完成為止。此元件鏈構成流水線。此過程的結 果是,一系列完備連接映射從處理元件的流水線顯現,其中每個元件已經進行了其自身的 優化功能。這些得到的連接映射針對幀而生成并且釋放,并且從在時間上間隔一個幀周期 而在時間上延時m個幀,其中m等于流水線中的步驟或系列元件的數量。
[0046]將流水線的組成處理元件的復雜性分解,以使得組成處理元件各自與特定的輸入 組(特定的第一級模塊)或特定的輸出組(特定的第三級模塊)相關聯,并且不使用用于跨整 個節點而處理的元件。這通過使用多個并聯元件而獲得,每個并聯元件被分配給輸入組或 輸出組。
[0047]通過輸出組來使用輸入組相關的信息,以及通過輸入組來使用輸出組相關的信 息,然而該信息是正交的,其中每個第一級處理元件可以跨并聯的第三級定向元件發送信 息,以及并聯的第三級定向元件可以跨每個第一級處理元件發送信息。這通過基于快速硬 件的正交映射器映射輸入相關的信息和輸出相關的信息來獲得。
[0048]這創建了控制結構,該控制結構實現成具有用于第一級定向流水線元件與第三級 定向流水線元件之間的轉換的基于快速正交硬件的映射器的一組并聯組定向的流水線,從 而導致小的簡單的步驟的串聯/并聯陣列,其中每個步驟均可以快速地實現。
[0049] 對連接尋址信息進行分接發生在整個包長度的分路/緩沖/填充/加速過程中的早 期,以使得連接映射計算延遲與由于緩沖器/填充器和包(容器化的包)加速器功能而導致 流量路徑的延遲并行,并且使整個延遲降低成這兩個活動中的較大者而非這兩個活動的 和。
[0050] 圖1示出了用于包流路由的系統100。一些包通過電包交換機來路由,而其他包通 過光子交換機來路由。例如,短包可以通過電包交換機來交換,而長包通過光子交換機來交 換。通過僅交換長包,光子包交換速度相對緩和,原因是包持續時間長,而大部分帶寬仍以 光子的方式來處理。在一個示例中,長包的長度可以變化,并且光子交換機采用異步交換。 然而,這導致要考慮當建立新連接時仍可能通過交換機來傳播的先前流量,使得連接建立 處理較慢、更復雜。可替代地,可以通過將長包填充成固定長度例如1500個字節以將長包作 為固定長度的包來傳輸。此種方法的帶寬效率僅稍微小于異步方法的帶寬效率,原因在于, 由于包長度分布的雙模態性質而造成大部分長包處于固定的最大長度或非常接近固定的 最大長度,由此,大部分的包要么非常短(〈200字節)而通過短包交換機以電子方式或其他 方式來交換,要么非常長(>1200字節)而以光子的方式來交換,僅非常少的包處于中間的 200字節至1200字節的大小范圍內。然后,光子交換機可以使用同步交換,該同步交換采用 快速建立光子電路交換機或突發交換機。
[0051] 分路器106可以被容置在機架102中的TOR交換機104中。可替代地,分路器106可以 是單獨的單元。可以有數千個機架和TOR交換機。分路器106包括將包流分成兩個流量流的 流量分路器108以及監測流量的監測器110。分路器106可以基于包流的每個包流路內包的 先后順序來向包添加標識符,以方便保持包在每個包流路中的排序,上述包可以在包重組 時采用不同的路徑。可替代地,每個包流路內的包到達分路器106之前,可以對這些包進行 編號或以另外的方式來單獨地標識,例如使用包序號或傳輸控制協議(transmission control protocol,TCP)時間戳。將一個包流路由至光子交換結構112,而將另一包流路由 至電包交換結構116。在一個示例中,將長包路由至光子交換結構112,而將短包路由至電包 交換結構116。光子交換結構112可以具有大約一至二十納秒的建立時間。此建立時間明顯 短于長包的包持續時間(在l〇〇Gb/s處對1500字節而言是120ns),不會嚴重地影響交換效 率。然而,如果以該交換建立時間來交換短包則會存在問題。例如,在l〇〇Gb/s處的50字節控 制包的持續時間大約是4ns,這小于中等的光子交換機建立時間。光子交換結構112可以包 括固態光子交換機陣列,其可以被組裝成結構架構例如Baxter_Banyan、Benes或CL0S。
[0052]此外,光子交換結構112包括控制單元,并且電包交換結構116包括集中式或分布 式處理功能。上述處理功能通過該結構基于被承載為公共信道信令路徑或包頭或包裝的信 令/路由信息來提供逐包的路由。
[0053]將光子交換結構112和電包交換結構116的交換包路由至流量合路器122。流量合 路器122例如基于每個包中包的時間戳或序號來在保持包的原始順序的同時合并包流。流 量監測器124監測流量。中央處理與控制單元130監測并且利用流量監測器110和流量監測 器124的輸出。此外,中央處理與控制單元130監測并且提供對光子交換結構112和電包交換 結構116的控制,并且對光子交換結構112的控制為非實時性。流量合路器122和流量監測器 124在合路器120中,合路器120可以駐留在TOR交換機128中。可替代地,合路器120可以是單 機單元。
[0054] 圖2示出了用于路由包流的系統140。系統140與系統100類似,但是系統140提供了 分路器106和合路器120的另外的細節。最初,將包流饋送至包粒度分流器146中的緩沖器 148,包粒度分流器146基于所測量或所檢測的包屬性例如包長度來將各個包轉入適當的路 徑,同時讀取包地址和長度特征模塊142確定包地址和包的長度。將包地址和長度饋送至統 計數據收集模塊144,統計數據收集模塊144收集用于控制單元130的統計數據。控制單元 130收集用于非實時用途例如包大小閾值的動態優化的關于包長度的混合的統計數據。交 換機控制處理器與連接請求處理機154處理包粒度分流器146內的實時逐包處理,包括基于 控制單元130所設置的長/短包閾值來處理將包流分成兩個流的每包分路。緩沖在緩沖器 148中的包流然后在交換機控制處理器與連接請求處理機154的控制下通過包粒度分流器 146,包粒度分流器146包括緩沖器148、交換機150、緩沖器與延遲器152、交換機控制處理器 與連接請求處理機154、緩沖器156以及統計復用器158。包粒度分流器146可以可選地包括 加速器147,加速器147在時間上使包加速并且增加包流的包間間隙,以促進在一個包的結 束與下一個包的開始之間完全地建立光子交換機。
[0055] 緩沖器148存儲包同時讀取包地址和長度。緩沖器148可以包括緩沖器陣列,以使 得可以緩沖具有不同目的地地址(即不同包流路)的包,直到適當的交換結構輸出端口具有 可用容量而不會使其他包流路中的具有輸出端口容量較早可用的其他目的地地址的包延 遲為止。此外,將包地址和長度特征饋送至讀取包地址和長度特征模塊142并且饋送至交換 機控制處理器與連接請求處理機154。將交換機控制處理器與連接請求處理機154的輸出饋 送至交換機150,交換機150基于包長度是否超過控制器130所設置的包大小閾值來操作。另 外,將包傳送至通過來自交換機控制處理器與連接請求處理機154的輸出來設置的交換機 150,因此包會被路由至光子交換結構112或電包交換結構116。例如,上述路由基于由交換 機控制處理器與連接請求處理機154根據包的長度是否超過所設置的包長度或其他閾值而 作出的確定。如果包被路由至光子交換機構112,則該包被傳遞至緩沖器與延遲器152,然后 被傳遞至光子交換結構112。緩沖器與延遲器152存儲包直至光子交換結構112的適當的目 的地端口變得可用為止,從而通過電域中的緩沖來避免光子緩沖或存儲。緩沖器與延遲器 152可以包括緩沖器陣列,使得無需緩沖的其他包流可以被發送至核心交換機。
[0056] 另一方面,如果包被路由至電包交換結構116,則該包被傳遞至緩沖器156、統計復 用器158和統計解復用器160以根據緩沖器156的出口處的稀疏填充的短包流來將相對高的 端口填充提供給短包結構。然后,包前進至電短包交換結構116以路由至目的地合路器。可 以包括緩沖器陣列的緩沖器156存儲包直至包被發送至電包交換結構116為止。來自多個包 流的包可以通過統計復用器158來以統計的方式復用,因此電包交換結構116的端口可以得 到較好地利用。可以進行統計復用以將短包流集中至合理的占用率,因此現有的電包交換 機端口被適當地填滿包。例如,如果以光子交換結構的帶寬與電包交換結構的帶寬比為8:1 的方式建立包長度的分路,則通向電包交換結構的鏈路可以使用8:1的統計復用以實現相 對填滿的鏈路。取決于在短包路徑中所使用的統計復用的水平,該統計復用引入另外的延 遲,該延遲可能在應用過度的統計復用時的合并過程期間觸發不正確的長/短包定序。為了 防止這種情況,可以采取預防措施,例如使用序號。然后,統計解復用器160進行統計解復用 以將低占用率的數據解復用至一系列并聯的數據緩沖器中。可以對跨統計復用器158和統 計解復用器160而應用的統計復用的水平進行控制,以使得延遲不會過大。在其中12%的包 帶寬為短包的長/短包分路的情況下,統計復用不應超過~7-8:1。然而,當5 %的包帶寬為 短包時(如通過設置長/短閾值來確定),統計復用可以接近~15-20:1。
[0057] 光子交換結構112包括控制單元。光子交換結構112可以是從固態光子交換機的一 系列幾個級來創建的多級固態光子交換結構。在一個示例中,光子交換結構112是適于用作 同步長包交換機的Ins至5ns的光子快速電路交換機,該同步長包交換機被實現為例如硅、 磷化銦或其他材料的由N X N和M X 2M單片集成的光子交叉點芯片制造的3級或5級CLOS結 構,其中N是范圍可以從大約8至大約32的整數,并且M是范圍可以從大約8至大約16的整數。
[0058] 電短包交換結構116可以使用統計復用器160來接收包并且使用統計解復用器164 來以統計方式解復用經交換的包。包然后通過合路器120中的統計解復用器174被進一步解 復用成各個短包流,從而產生多個稀疏填充的短包流至緩沖器170以在合路器120中與相應 的長包分量合并。電包交換結構116可以包括響應于用于電包交換機和緩沖器162的包路由 信息的處理功能,電包交換機和緩沖器162可以包括緩沖器陣列。電包交換結構116可能進 行與僅對短包的處理相關聯的包處理,這可能會對處理功能產生一些另外的限制和要求。 因為流過光子交換結構112的帶寬大于流過電包交換結構116的帶寬,所以往返光子交換結 構112的鏈路的數量大于往返電包交換結構116的鏈路的數量。可替代地,通向光子交換機 的鏈路的帶寬(例如,I 〇〇Gb/s)可以大于短包流的帶寬(例如,I OGb/s)。
[0059] 將來自光子交換結構112和電包交換結構116的經交換的包饋送至合路器120,合 路器120基于在包分路器中對包進行分路之前應用至包流的各個包的基于流路的序號,通 過順序地交織包來合并兩個經交換的包流。合路器120包括包粒度合路器和定序器166。將 光子包流饋送至緩沖器172以被存儲,同時通過包地址和順序讀取器168來讀取地址和次 序,包地址和順序讀取器168確定光子包的源地址和目的地地址以及序號。還將電包流饋送 至統計解復用器174以按照統計的方式進行解復用,并且饋送至緩沖器176以被存儲,同時 電包流的特征通過包地址和順序讀取器168來確定。然后,包地址和順序讀取器168基于對 來自兩個路徑的包進行交織來確定從緩沖器172和緩沖器176讀取包的順序,以恢復包在每 個包流路中的連續的順序編號,從而可以按照正確的順序來讀出兩個流的包。接下來,包定 序控制單元170按照每個流路中的包的原始順序來釋放上述包。當通過包定序控制單元170 來釋放包時,上述包使用交換機178通過基于序號的包交織過程來合并。分路器106可以實 現在TOR交換機104中,并且合路器120可以實現在TOR交換機128中。TOR交換機128可以被容 置在機架126中。此外,包粒度合路器和定序器166可以可選地包括減速器167,減速器167從 時間上對包流進行減速,減小了包間間隔。例如,減速器167可以將包間間隔減小至在加速 器147之前的原始包間間隔。在于2013年5月24日提交的題為"System and Method for Accelerating and Decelerating Packets" 的美國專利申請No · 13/901,944中進一步討論 了加速和減速,該申請由此通過引用合并到本文中。
[0060]圖3示出了以下流程:長包通過緩沖器/填充功能和加速功能,同時通過流水線式 控制系統按照并行處理的方式來處理和實現地址路由以及跨越連接的交換機。緩沖器和填 充產生包流,其中,通過添加后續會被去除的額外字節來對包進行填充而使得各個包的長 度相同,這使得各個包的持續時間的長度相等,從而有利于同步交換。
[0061 ]在塊392中,讀取包地址和長度特征。這些特征被傳遞給長/短分離交換機394和流 水線式控制塊402。
[0062]在流水線式控制塊402中,流水線式控制處理引起短的延遲,盡管該延遲取決于流 水線式控制塊的結構及其實現,但是會在幾微秒的范圍內。該延遲可以長于每個容器化包 的固定幀時間,這有利于流水線式方法,其中流水線的一個級正針對特定幀完成連接映射 計算,而流水線的另一較早的級正在針對下一個幀完成上述計算的較早部分,一路返回至 流水線的第一級,其正在針對第m幀完成第一計算,其中m是順序通過流水線處理的流水線 段的數量。來自塊392的包尋址信息被輸入至流水線式控制塊402并且由流水線式控制塊 402來處理。流水線中的包地址字段的持續流動產生用于每個幀的交換機連接映射。流水線 式控制塊402被配置成每包間隔或幀遞送一次用于整個交換機的新的地址映射。在一個示 例中,延遲用于m個步驟,其中的步驟等于或小于一個包持續時間,從而每個級被清零以為 下一個幀的計算做好準備。在另一個示例中,一些步驟超過幀長度,并且兩個或更多個功能 被并聯并且被轉換。總延時由控制過程的多個步驟的時間總和來確定。在容器化的包間隔 (幀周期)期間產生新的地址字段。所計算的控制字段的連續流動可以通過將用于完成連接 映射計算的完整處理集合分解成在包間隔中被完成的各個連續步驟來實現。如果限定了一 系列m個連續步驟,其中上述步驟可以在將結果交給至下一個步驟之前在包間隔內被完成, 則每個包間隔遞送完整的地址映射,但被延遲m個包。因此,在完成"m"個步驟時,存在由控 制路徑產生的延遲。
[0063] 長/短分離交換機394將短包與長包分離開。在一個示例中,短包比閾值短,而長包 長于或等于閾值。短包被傳遞至短包電子交換機或以其他方式進行處理,而長包進入包裝 器(wrapper)396〇
[0064] 包裝器396提供用于包的包裝或包標簽。這創建了經包裝的容器,其包括容器(包) 序號以及容器凈荷的源TOR地址和目的地TOR地址,容器凈荷包括具有頭部的整個長包。大 部分長包處于或接近最大的大小水平(例如1500個字節),但是一些長包在長/短閾值(例如 1000個字節)緊之上,并且通過使用填充來填滿容器的剩余部分以將長包映射至1500字節 凈荷的容器中。
[0065]緩沖器398提供對包的填充以將包映射至凈荷空間中并且使用填充來完成對凈荷 空間的填滿。緩沖器398產生包流,其中通過添加會在交換過程之后被去除的額外字節來填 滿包以使得各個包具有相同的長度。因為填充包括將額外的字節添加至數據流,所以存在 包流的加速。緩沖器398具有相比輸入時鐘速度而言較高的輸出時鐘速度。此較高的輸出時 鐘速度是加速器400的輸入時鐘速度。緩沖器398中的時鐘速率的增加取決于緩沖器的長 度、包長度閾值和緩沖器溢出的概率。填充緩沖器引入了延遲,例如對于40Gb/s的饋送而言 該延遲為大約2微秒至大約12微秒。時鐘速率的增加對于長緩沖器和較長的延遲而言較小, 因此存在時鐘速率加速與延遲之間的權衡。時鐘速率的增加對于較高速率饋送例如IOOGb/ s的相同延遲而言較小,原因在于緩沖器可以包括更多個級。
[0066]然后,加速器400對包進行加速以增加包間間隔,從而提供用于在一個包的后邊沿 與下一個包的前邊沿之間建立光子交叉點的定時窗口。
[0067] 長/短分離交換機394、包裝器396和緩沖器398具有因對包進行填充和加速而導致 的延遲。該延遲因流量水平和包長度交換機而異,并且可以例如通過在緩沖器/填充過程中 插入額外的空白幀來拉長該延遲以與通過控制路徑的延遲近似地匹配。緩沖器398和加速 器400可以一起實現或單獨地實現。
[0068]電光(E/0)轉換器406將包從電域轉換至光域。
[0069] 在被轉換至光域之后,包在塊408中經歷延遲。此延遲是固定的延遲例如大約5ns, 以便在包的起始部分到達之前建立地址。當使兩個路徑的延遲均衡時,地址與包同時到達 光子電路交換機410。當地址計算路徑相比通過緩沖器和加速路徑的最短延遲略快時,標 志、標簽或包裝指示器可以根據所計算的地址選通功能來觸發地址信息至交換機的同步釋 放。
[0070] 地址選通器404處理來自流水線式控制塊402的地址。每一個幀間隔從流水線式控 制塊402接收新的地址字段。此外,從加速器400接收包邊沿同步標志。地址選通器404保存 過程地址字段以應用于交換機,并且基于邊沿同步標志來釋放包,并且還可以順序地存儲 要釋放的多個字段。地址選通器404每包間隔釋放同步地址字段。
[0071] 最后,通過光子電路交換機410來交換光包。
[0072]在大數據中心中,TOR及其相關聯的合路器和分路器功能可以遠離光子交換機,這 由圖4中的系統750來示出。系統750包括塊752,塊752的功能可以共同處于例如每個TOR處 或小的TOR組處。在塊392中,對輸入包進行檢查以確定它們的長度和包地址,可以將上述包 地址轉換成TOR地址和TOR組地址。這可以通過主機TOR來完成,或者可以在塊392內局部地 完成。對于長包,經轉換的地址被添加到下一可用的地址幀時隙。
[0073]該地址幀經由電光鏈路被發送至流水線式控制塊402,流水線式控制塊402可以與 光子交換結構774處于同一位置。通過電光轉換器756將幀從電域轉換至光域。幀延遲傳播 通過光纖,并且通過光電轉換器790被轉換回電域。
[0074]此外,塊392確定與長度閾值比較的包長度。如果包長度在閾值之下,則通過長/短 分離交換機394將包路由至短包電子交換機(連同包序號以及可選地連同TOR地址和TOR組 地址)。如果包長度為閾值或在閾值之上,則將包路由至包裝器396,其中包被映射成整體固 定長度容器,并且當包還不是完全長度時將包填滿成完全凈荷長度。添加包裝頭部和包裝 尾部,其包括T0R/T0R組源地址和目的地地址以及包序號,用于當在交換之后長短包一起返 回時在合路器處恢復包定序完整性。例如,在包中包括源TOR組地址、源TOR組內的各個源 TOR地址、目的地TOR組地址以及目的地TOR組內的各個目的地TOR地址。
[0075]經包裝填充的包容器然后經歷兩個加速步驟。首先,通過緩沖器398使比特級時鐘 從系統時鐘加速至經加速的時鐘1,以便當長但非最大長度的容器化包的短流通過系統時 有足夠的容量。對于最大長度包,例如在l〇〇Gb/s處為1500字節包,包到達速率為每秒8.333 百萬包,導致幀速率為每容器化包120ns。然而,長于長/短包閾值的包可以比完全長度短, 例如1000個字節。這樣較短的長包當連續時可以具有較高的幀速率,原因是這樣較短的長 包可以以較高的速率出現。對于在l〇〇Gb/s處到達的1000字節包,包到達速率最高至每秒 12.5百萬包,導致瞬時幀速率為每容器化包80ns。對于較短的長包的連續流,幀速率可以增 加最高至每幀80ns,加速大約50%。然而,這些包相對很少出現,并且可以使用略高于50% 的較小的加速,結合有限長度的包緩沖器來支持它們的平均出現率。
[0076] 經加速的包流然后傳遞至加速器400,加速器400進一步使該包流加速以增加包間 間隔或容器間間隔,有利于在將一個包的尾端交換至其目的地與將下一個包的前邊沿交換 至不同目的地之間建立電子交換機。在于2013年5月24日提交的美國專利申請No. 13/901, 944中討論了關于增加包間間隔的更多細節,該申請由此通過引用合并到本文中。
[0077]雖然單獨地示出,但是緩沖器398和加速器400可以合并在單個級中。
[0078]來自加速器400的輸出被傳遞給電光轉換器401以用于轉換成要交換的光子信號。 光子信號跨越內部數據中心光纖布線而被發送至光子交換結構774,該內部數據中心光纖 布線的長度可以是300米或更長,并且由于光在玻璃中的速度而造成明顯的延遲。該電光轉 換可以是波長敏捷型電光轉換器。
[0079]對于輸入交換機模塊上的任意輸入端口,將特定波長應用至特定輸出交換機模塊 上的端口而非其他輸出交換機模塊上的端口。因此,當將TOR的尋址劃分成TOR組時,其中每 個T0R具有T 0R組號以及該組內的單獨T0R號,并且每個組與特定的第三級交換機模塊相關 聯,可以通過利用電光轉換過程中的適當的波長值來將給定輸入組中的任意的TOR連接至 用于目的地TOR的正確目的地TOR組的適當的第三級。因此,地址的TOR組部分在對于波長映 射器塊760的TOR組中被轉換成用于驅動電光轉換器401的波長。
[0080] 因為TOR及其相關聯的分路器/合路器可能遠離光子交換機,所以在分路器輸出與 到達針對不同分路器及其相關聯的TOR的交換機輸入端的光信號之間存在取決于距離的延 遲。如圖4所示,信號由于閉環定時控制而在時間上被準確地對準,因此交換機中來自一個 分路器的一個包的結束與下一個包的開始完全對準,即使當其來自另一分路器時也是如 此。因此,延時可以被標定和補償。一種方法是在光子交換機輸入端處分接輸入信號并且將 所分接的分量饋送至光電接收器778。通過幀相位比較器786來相對于幀生成定時塊784確 定輸入容器的開始的定時。定時的差異產生指示輸入容器早還是遲以及該誤差的大小的誤 差信號。該誤差信號被饋送回時鐘生成塊以調節其相位,使得容器在正確的時間被傳輸,并 且按照正確的定時到達光子交換機輸入端。
[0081] 這可以跨光子交換機的輸入端并且針對基于對向TOR的分路器來完成,該過程使 用許多光電轉換器。為了減少光電轉換器的數量,使用交換機776,即位于所分接的輸出端 與光電轉換器778之間的N:1光子選擇器轉換器,以N:1將光電轉換器的數量減少,例如,8:1 至32:1,并且對結果的鎖相環使用基于采樣保持的方法。同樣地,在幀相位比較器786與時 鐘生成塊758之間插入交換機788,即N: 1交換機。
[0082]這導致當時鐘生成塊758在連續反饋采樣之間的保持時間段期間未明顯偏移時的 滿意的性能。當使用Ims的熱光交換機時,每秒可以做出800次校正。如果交換機是32:1交換 機,貝1J每個TOR分路器定時鎖相環(phase locked loop,PLL)-秒被校正25次,或每40ms被 校正一次。因此,為了保持Ins精度的定時,可以使用大約4X IO7分之1的基本精度和穩定 性。在電光交換機具有IOOns的響應時間的情況下,對于40Gb/s至lOOGb/s的數據速率,整體 校正速率增加至大約一秒2,500,000次至4,800,000次。當交換機為32 :1時,每TOR分路器 PLL每秒可以有80,000至150,000次測量,其對于40613/8至100613/8的操作相應地獲得1.25 X IO4分之1至6.7 X IO3分之1的精確度和穩定性。
[0083] 通過連接信令一一信令光傳播一一連接處理路徑加物理層建立時間的延遲可以 小于通過填充緩沖器、加速器和容器光傳播次數的延遲。主要由緩沖器398和加速器400的 長度造成的從讀取包地址塊392至加速器400的延遲(延遲1)隨著流量水平和包長度混合而 變化。來自m步驟流水線式控制過程的流水線式控制塊402中的延遲(延遲2)通過控制過程 來固定。可以是相同光纖的光纖上的延遲(延遲3和延遲4)可以近似地相同。光路徑可以使 用粗糙的1300nm或1550nm的波長復用。期望:延遲2+延遲3〈延遲1+延遲4。當延遲3 =延遲4 時,延遲2小于延遲1。這有利于在施加要交換的流量之前計算并且施加交換機連接映射。兩 個路徑的容差或變化影響包間間隔的大小,原因是包間間隔除了用作交換機建立時間本身 以外還用作定時時滯。
[0084] 圖5示出了包大小的概率分布的累積分布函數(cumulative distribution function,⑶F)800。此圖示出了作為以字節計的包大小的函數的流中包的數量的累積分布 函數。
[0085]當每包的大小例如在每秒一個該大小的包處的包帶寬乘以圖5所示的包出現速率 的CDF時,產生累積分布函數,其中示出了作為包大小的函數的數據鏈路的部分帶寬的CDF。 將此過程應用于圖5的分布并且產生如圖6所示新的CDF圖。圖6示出了對作為以字節計的包 大小的函數的在小于給定包大小的包中的流量帶寬的百分比進行說明的曲線802。大約 80%的帶寬位于1460字節或更大的包中,而20%的帶寬在小于1460字節的包中。大約90% 的帶寬在1160字節或更大的包中,而10%的帶寬在小于1160字節的包中,并且95%的流量 帶寬在500字節或更大的包中,而僅5%的流量帶寬在小于500字節的包中。如果長/短閾值 被設置為例如500個字節,則95%的帶寬在長包中,80%的帶寬在長度與最大長度相差不到 40個字節的包中,并且總帶寬的15%在500個字節至1460個字節之間的包中。對于1000字節 的閾值,大約9%的帶寬容量在短包中(即,在長/短閾值之下),并且91 %的帶寬在長度為閾 值或在閾值之上的長包中,總帶寬的80%在長度與最大長度相差不到40個字節的包中,并 且總帶寬的11 %在1000個字節到1400個字節之間的包中。對于總節點容量是短包電子交換 機的大小的20倍的情況,使用500字節閾值對應于19:1的長/短容量分路,而對于總節點容 量是短包交換機的容量的11倍的情況,使用1 〇〇〇字節閾值對應于1 〇: 1的長/短容量分路。
[0086] 然而,長包展現大小范圍,導致對緩沖和加速有所期望。圖7A至圖7C示出了實施方 式的光子包交換機相對于電子包交換節點的容量的作為包大小閾值和填充效率的函數的 模型容量增益,其指示在光子路徑上使用的具有圖5所示的特征的流量的長包流中的包長 度的混合的額外帶寬量。
[0087] 圖7A示出了使用圖6的流量模型將各種長度的長包填滿成1500字節的最大凈荷以 及結果的加速的模擬結果,其中將這些模擬結果相對于閾值而繪出。這些結果示出了總體 節點容量增益和同步電路交換包填充效率與對于相對高的1 %的緩沖器溢出的概率的包長 度閾值的關系。曲線212示出了作為長包長度閾值的函數的容量增益。曲線214示出了具有 40個包緩沖器時的填充效率,曲線216示出了具有32個包緩沖器時的填充效率,曲線218示 出了具有24個包緩沖器時的填充效率,以及曲線220示出了具有16個包緩沖器時的填充效 率。大約1000字節的包長度閾值獲得的容量增益大約是11:1,表示容量增加了多于一個數 量級,在該點處填充效率大約為95%。
[0088] 長包大小范圍的較下端的包被填滿成長度與最長包的長度相同。這些較短的包相 比長包而言可以更頻繁地到達,原因在于,在基本時鐘速率下,它們占據了較短的時間段。 例如,在40Gn/s速率下,1500字節包占據300ns,而1000字節包僅占據200ns。如果針對300ns 幀速率來設置交換機,則連續的1000字節包以比交換機能夠處理的速度快50%的速度到 達。為了對其進行補償,使交換機的幀速率加速。如果不使用填充緩沖器,則加速會非常重 要。下面的表1示出了在沒有填充緩沖器的情況下的作為閾值長度的函數的加速。對于在大 約1200字節之下的包長度閾值,效率明顯低。
[0089] 表1
[0091] 填充緩沖器是給定長度的包同步的緩沖器,其中以系統時鐘速率對包進行輸入時 鐘控制并且將包擴展成恒定的最大長度,并且以較高的時鐘速率對包進行輸出時鐘控制。 代替選擇經加速的時鐘速率來適應最短包,可以基于流量統計以及這些統計數據溢出有限 長度緩沖器的概率來選擇時鐘速率。
[0092] 下面表2示出了包溢出的概率為1%時具有或不具有填充緩沖器的結果。當針對短 包使用填充緩沖器而非不使用填充時在時鐘加速方面有明顯的提升。聚合填充效率(APE) 與所需要的時鐘速率之間關系是倒數關系,其中以33%AI 3E使時鐘速率增加3:1,下至在 98.8%APE時時鐘速率增加1.2%。因此,較高的APE導致較低的時鐘速率增加以及光信號帶 寬的較小增加。
[0093] 表 2
[0095]圖7B示出了緩沖器溢出的概率為0.01 %時總節點容量增益和同步電路交換包效 率與包長度的關系曲線。曲線232示出了作為包長度閾值的函數的容量增益。曲線234示出 了具有40個包緩沖器時的填充效率,曲線236示出了具有32個包緩沖器時的填充效率,曲線 238示出了具有24個包緩沖器時的填充效率,以及曲線240示出了具有16個包緩沖器時的填 充效率。長緩沖器以延遲為代價更佳地提高了 APE。因此,在延遲與APE之間并且因此在延遲 與時鐘速率加速之間存在權衡。在一個示例中,該延遲被設置成在集中處理塊的處理延遲 緊之下,導致該塊設置整體處理延遲。
[0096] 表3示出了對于各種包長度閾值的在緩沖溢出的概率為0.01%時作為基本系統時 鐘速率的百分比以及作為APE的經填充時鐘速率。對于24個包緩沖器的速率以及對于3 2個 包緩沖器的速率在對于16個包緩沖器的結果與對于40個包緩沖器的結果之間。可以通過使 用相對短的有限長度的緩沖器減緩時鐘速率增加。緩沖器越長,改進越大。
[0097] 表 3
[0100] 圖7C示出了緩沖器溢出的概率為百萬分之一時總節點容量增益和同步電路交換 包填充效率與包長度閾值的關系曲線。曲線252示出了作為包長度閾值的函數的容量增益。 曲線254示出了具有40個包緩沖器時的填充效率,曲線256示出了具有32個包緩沖器時的填 充效率,曲線258示出了具有24個包緩沖器時的填充效率,以及曲線260示出了具有16個包 緩沖器時的填充效率。
[0101] 當容量增益為10:1時,其中聚合節點吞吐量是電子短包交換機的吞吐量的10倍, 包長度閾值是大約1125個字節。這對應于在沒有填充緩沖器時的大約75%的APE,以及填充 時鐘速率為輸入時鐘速率的133 %的明顯增加。對于16個包緩沖器或40個包緩沖器,提升至 95%和97%的APE,導致經填充的時鐘速率為輸入時鐘的105.2%和103.1 %。這是相對小的 增加。
[0102] 在同步快速光子電路交換機中,進行以與經填充的容器化包持續時間匹配的重復 速率的完全連接再配置。對于1500字節包和40Gb/s每端口速率,該幀時間是大約300ns。因 此,在普通(集中式)控制方法中使用連接映射的非常快速的計算,使得每一個幀周期遞送 新的連接映射(對于40Gb/s而言為300ns)。在普通結構方法中,當兩個輸入同時嘗試訪問同 一交換機輸出端口時,交換機可以跨越結構非阻塞,僅輸出端口連接阻塞。可以使用連接映 射生成來檢測該阻塞,原因是,當兩個輸入請求同一輸出時,一個輸入可以被授權連接并且 其他輸入會使幀延遲或拒絕連接。當幀被拒絕連接時,TOR分路器可以重試后續的連接或者 包被丟棄并且重新發送。
[0103] 大型快速光子電路交換機結構可以包括多個交換級。這些交換機以不影響現有路 徑的情況下建立新的路徑的非阻塞方式或者以可以包括再布置現有的所識別的路徑的情 況下建立新的路徑的條件性非阻塞方式來提供結構輸入端口與輸出端口之間的總的光連 接,交換結構是非阻塞還是條件性非阻塞取決于擴張量。在擴張率為1:2擴張型交換機中, 合并的第二級的容量是所有第一級輸入端口的容量的兩倍。交換機結構可以由這些構件塊 的多個組合構成。
[0104] 可以用于光子交換機中的兩個構件塊是光子交叉點陣列和陣列波導路由器(AWG-R)。光子交叉點陣列可以是熱光型或電光型。AWG-R是無源的波長敏感路由設備,其可以與 敏捷的光可調諧源組合創建交換或路由功能。
[0105] 在一個示例中,集成式光子交換機制造在InP基板上的InGaAsP/InP半導體多層 中。交換機具有以正確角度交叉的兩個無源波導,形成輸入端口和輸出端口。在無源波導的 頂上堆疊有其間有全反射鏡結構的兩個有源垂直耦合器(AVC),以使光轉動九十度角。對于 4X4的交換機可以存在大約2.5dB的損耗。交換時間可以是大約1.5ns至大約2ns。操作范圍 可以從153 Inm到1560nm。16 X 16的端口交換機可以具有大約7dB的損耗。
[0106] 長寬比不同的矩形的交換機可以制造用于擴張型交換機。16X8或8X16端口交換 機可以具有大約5.5dB的損耗并且使用128個AVC。
[0107]圖8示出了在N = S的情況下作為固態光子交換機的交換機290。交換機290可以用 于第一級結構、第二級結構和/或第三級結構中的結構。交換機290可以是非阻塞磷化銦或 硅固態單片或混合交換機交叉點陣列。交換機290包括輸入端292和輸出端298。如圖所示, 交換機290包括8個輸入端292和8個輸出端298,然而它可以包括更多或更少的輸入端和輸 出端。此外,交換機290包括AVC 294和無源波導296^VC是制造在波導上的成對的半導體光 放大器部,在它們之間介入有90度全反射波導拐角。當這些放大器關閉時,這些放大器不被 施加電力。因為AVC關閉,所以AVC不透明,并且輸入光波導信號不會耦合到它們中。替代地, 光信號在輸入波導中跨越交換機芯片水平地傳播。在所需的輸出連接與輸入波導交叉的交 叉點處,AVC被施加偏壓并且變得透明。事實上,AVC可以具有正增益以使交換損耗偏移。因 為AVC是透明的,所以輸入光耦合至它,然后由于全反射而轉過拐角,從AVC耦合至垂直輸出 波導。
[0108] 在另一示例中,電光硅光子集成電路技術被用于光子交換機,其中內部結構使用 按照幾種拓撲結構(1^^〇1161-1^117311、1^1168或其他拓撲結構)之一中的級聯的2\2交換機。
[0109] 圖9示出了作為無源的波長敏感光轉向設備的AWG-R 300,其依靠不同路徑長度來 創建作為光腔中的光波長的函數的不同的波陣面,使得光根據波長在不同的輸出端處收 斂。通過不同波導長度和替代點來建立路徑長度差異。W波長AWG-R具有W個輸入端、W個輸出 端并且使用W個波長。對于輸入端口 1,關于波長1的輸入針對輸出端口 1出現,關于波長2的 輸入從端口 2出現,等等一直到從輸出端W出現的波長W。輸入端口 2上的輸入偏移一個輸出 端口來出現,輸入端1上的波長會在該偏移后的輸出端口上出現。該偏移繼續直到在輸入端 口 W處波長W從輸出端口 1出現。因此,波長1從端口 2出現,波長2從端口 3出現,等等,直到波 長W-I從端口 W出現并且波長W從端口 1出現為止。來自N個輸入端口的光通過N個輸入點302 進入平面區域304,平面區域304包括物平面301。光沿波導光柵306傳播。然后光繼續沿具有 像平面309的平面區域308,傳播至輸出端口 310。
[0110] 因為從平面區域304進入波導的光取決于其來自哪個輸入端口而具有不同相位關 系的波陣面方向,所以至平面區域308的組成輸入信號的多個分量相互作用以跨越平面區 域308彼此抵消或加強,從而在以下位置創建輸入端口的輸出圖像,所述位置取決于至平面 區域304的輸入端口的位置和波長,原因在于不同路徑長度上的相位是波長的函數。然后光 基于其來自哪個輸入端以及其光波長經由輸出端口 310從該設備中光耦合出來。
[0111] 圖10示出了作為AWG-R的示例性透射譜的透射譜320。透射譜320是非周期性42 X 42的AWG-R。信道間隔為IOOGHz,并且高斯通帶的半高寬(full-width half-maximum,FWHM) 是50GHz。
[0112] 圖11示出了對于4X4的AWG-R的AWG-R 330的路由映射。為了將AWG-R 330用作交 換機,給定輸入端口上的輸入信號的波長被調整成改變其要路由至的輸出端口。AWG-R 330 包括輸入端口 338、354、360和366以及輸出端口 372、374、376和378。為了將輸入端口 338連 接至輸出端口 378,通過輸入端口 338來接收輸入載波340。為了將輸入端口 338連接至輸出 端口 374,使用輸入載波336。同樣地,為了將輸入端口 366連接至輸出端口 376,使用輸入載 波336,以及為了將輸入端口 366連接至輸出端口 376,使用載波334。另外,為了將輸入端口 338連接至輸出端口 372,使用載波334,以及為了將輸入端口 338連接至輸出端口 376,使用 載波346。
[0113] AWG-R可以與快速可調諧光源相關聯改變輸入的波長。如果通過這些源與AWG-R之 間的居間光子部件例如交叉點陣列來支持光波長的范圍,則這些光源可以是在光子域的入 口處的電光轉換點。盡管快速可調諧光源的調諧時間可以不到100納秒,但其調諧時間往往 大于幾納秒。因此應當預先對可調諧光源進行調諧。因此,可以在流水線式控制過程中較早 地確定所需的波長。
[0114] 在另一個示例中,例如從波長方面連續地適度操作高功率激光器的一組光載波生 成器生成光載波陣列,該光載波陣列被光放大并且跨數據中心來分布,其中TOR通過由波長 選擇信號驅動的光子選擇器開關來分接所選擇的光波長。此光子選擇器交換機可以是與快 速通斷門串聯的適度快速的L:1交換機,其中L是系統中的波長的數量。在另一個示例中,光 子選擇器是快速L:1交換機。所選擇的光載波然后被注入無源調制器中以創建所選擇的波 長處的要發送至光子開關的數據流。這些選擇器交換機可以被制造成電光硅光子集成電路 (photonic integrated circuit,PIC)。在此示例中,用可能慢的穩定精密波長源集中式陣 列來取代TOR處的快速可調諧精密激光器陣列。
[0115] 在光子交換結構中可以使用CLOS交換機配置。CLOS交換機根據路徑之間的交互而 進行間接尋址。然而,以下事實在傳輸路徑上產生了延遲:緩沖器功能將延遲的多個包輸入 至交換機的傳輸/流量路徑以包括時鐘速率增加。當流水線式控制系統可以完成其計算并 生成延遲小于其傳輸路徑的新的連接映射時,該延遲有利于流水線式控制系統的應用而沒 有增加的時間損失。例如,在流水線式控制的延遲小于包裝器、緩沖器和加速器中的延遲。 [0116]圖12示出了由16 X 16快速光子集成電路交換機芯片制造的示例三級CLOS交換機 180 XLOS交換機可以具有任意奇數個例如三個級。CLOS交換機可以被制造成具有方形交叉 點陣列(具有相同數目的輸入端和輸出端的交叉點陣列),其中整個中心級具有與結構的輸 入的數量相同數量的可用路徑。這樣的交換機為條件性非阻塞,原因在于總是可以添加最 高至端口極限的另外的路徑,而且一些現有的路徑可以被重新布置。可替代地,該交換機具 有過度的容量(或擴張),以通過輸出端比輸入端多的矩形第一級來降低該影響。此外,第三 級是輸入端的數量與第一級輸出的數量相同的矩形。當該交換機變為意味著總是可以在不 影響現有路徑的情況下添加新路徑的完全非阻塞時,該擴張提高條件性非阻塞特性直到在 1:2擴張 X/(2X-1)緊之下為止。因為無需打擾現有路徑,所以無需重新布置路徑。
[0117] 例如,CLOS交換機180的設置時間是大約Ins至大約5ns<XL0S交換機180包括饋送 至第一級結構184的輸入端182,所述第一級結構184為XX Y交換機。接合連接圖案186連接 第一級結構184和第二級結構188,第二級結構188為ZXZ交換機。X、Y和Z是正整數。此外,接 合連接圖案190連接第二級結構188和作為YXX交換機的第三級結構192,從而將每個級中 的每個結構同樣地連接至交換機的下一級中的每個結構。使交換機擴張改進了其阻塞特 性。第三級結構192根據遍歷了三個級的輸入信號182來產生輸出194。盡管描繪了第一級結 構184、第二級結構188和第三級結構192,然而可以使用更少或更多的級(例如,5級CL0S)或 者每級可以使用更少或更多的結構。在一個示例中,第一級結構184的數量與第三級結構 192的數量相同,而這兩者的數量與第二級結構188的數量不同,并且Z等于Y乘以第一級的 數量再除以第二級的數量。CLOS交換機180的有效輸入輸出端口計數:針對輸入端口計數, 等于第一級結構的數量乘以X;針對輸出端口計數,等于第三級結構的數量乘以X。在一個示 例中,Y等于2Χ-1,并且CLOS交換機180在非阻塞閾值處。在一個示例中,X等于Υ,并且CLOS交 換機180為條件性非阻塞。在此示例中,可以重新布置現有電路以使一些新路徑清零。非阻 塞交換機是以下交換機:以任意組合將N個輸入端連接至N個輸出端,而不考慮其他輸入端 或輸出端上的流量配置。相似的結構可以創建成具有較大結構的5級,其中兩個第一級串聯 并且兩個第三級串聯。
[0118] 每個第二級模塊的相同輸入端口連接至相同的第一級矩陣,并且通過交換機兩端 的對稱性,每個第二級模塊的相同的輸出端口連接至相同的第三級模塊。第二級模塊被布 置成與輸入和第三極模塊正交。圖13示出了CLOS交換機180的正交性。CLOS交換機180包括 交叉點交換機422、交叉點交換機424和交叉點交換機426。所有第二級通過同一第二級輸入 端連接至每個第一級,并且所有第二級輸出端經由同一第二級輸出端連接至每個第三級。 這意味著,不考慮第一級交換機和第三級交換機的設置,給定的第一級與給定的第三級之 間的任何連接使用其中選擇任何第二級的相同連接。當第二級是AWG-R時,這通過源的波長 來確定。因此,如果對TOR的尋址層次性地由TOR組組成一一其中組與交換機的第一級矩陣 和第三級矩陣相關聯,則可以通過選擇波長來獲得組對組尋址。組中的TOR會使用相同的波 長值或特定于該組的目的地組表以與其他組中或同一組中的任何TOR通信。
[0119] 圖14示出了作為三級CLOS交換機的交換機430,其具有AWG-R的第二級以及能夠進 行快速波長調諧以提供輸入光信號的光源。交換機430包括:4個作為3 X 3光子交叉點交換 機的第一級交換機432; 3個作為3 X 3光子交叉點交換機的第三級交換級436;以及3個作為 第二級無源交換機4 X 4AWG-R模塊的第二級交換機434,其根據所選擇的輸入波長來提供連 接。第二級交換機434具有相同的波長路由特性,并且第一級模塊具有用于連接至第三級模 塊的特定波長映射。因此,第一級的輸入可以被認為是交換機的一組輸入,該組輸入使用特 定于該第一級模塊的共用固定波長映射來與所需的輸出組模塊內的任意輸出端通信。對于 給定的波長,任意第一級模塊上的任意輸出端總是連接至同一第三級模塊。因此,如果模塊 與作為地址的部分的組相關聯,則該地址的組部分可以通過選擇所使用的波長來編程到交 換機中。該映射使得輸出旋轉用于每個輸入組偏移的一個組偏移,以確保在該波長處不會 有兩個輸入組對同一輸出組進行覆寫。
[0120] 第一級模塊的所有輸出端被連接至不同AWG-R的相同輸入端口,同時第三級模塊 的所有輸入端被連接至不同AWG-R的相同輸出端口。因為AWG-R對于端口映射具有相同的波 長,所以每個第一級模塊具有用于連接至每個第三級模塊的唯一波長映射。此映射與要連 接第一級的哪個輸入端以及第三級的哪個輸出端無關。第一級模塊和第三級模塊是光子交 換矩陣,所述光子交換矩陣在候選波長處透明,而在電子控制下提供級輸入端與級輸出端 的連接。上述交換矩陣可以是電光硅光子交叉點或者是以InP襯底上的InGaAsP/InP半導體 多層形式并且使用半導體光放大器而制造的交叉點。
[0121]如果TOR尋址為層次性,則基于與第一級模塊相關聯的TOR組,與特定的第一級模 塊相關聯的每個TOR組中的每個TOR使用相同的第二級連接來將TOR連接至特定的目標第三 級,原因在于源TOR的第一級模塊和目標TOR的第三級模塊兩者使用對于每個第二級模塊而 言相同的的第二級連接。這意味著,第二級所需的連接性對于該連接而言相同,而不管輸入 組第一級和輸出組第三級的實際的端口對端口的設置如何。因為不管使用哪個第二級第二 級連接都相同,并且當已知目標TOR組地址部分時通過對波長的選擇來控制第二級連接,所 以用于尋址該TOR的波長也已知,并且可以開始波長敏捷源的設置。當第二級連接被設置 時,可以在后續確定要使用哪個第二級,該確定需要建立源第一級與目標第三級的第一級 連接,源第一級和目標第三級在流水線式控制過程中被確定。此過程將交換機輸入端和交 換機輸出端連接至相同的第二級平面,而至多使用一次第二級平面輸入和輸出。這導致端 對端的非競爭性連接被建立。
[0122] 圖15示出了表明交換機的正交性的光子交換機440。表示敏捷波長可調諧源的光 源442被耦合至交叉點光子交換機444。交叉點光子交換機444被耦合至AWG-R 446,而AWG-R 446又被耦合至交叉點光子交換機448。
[0123] 圖16A至圖16B示出了光子交換機460、基于交叉點AWG-R CLOS結構的大的端口計 數光子交換機以及實現在被識別為源矩陣控制器的第一級控制器與被識別為組扇入控制 器的第三級控制器之間的概念性流水線式控制過程。光子交換機460可以用作多平面結構 中的交換平面,其中多個相同的平面各自通過在負載共享式結構中的光子交換機460來實 現以針對交換機平面故障和高的總流量吞吐量提供冗余。可替代地,在小交換節點中沒有 平面結構的情況下使用光子交換機。雖然在圖16中示出了僅一個三級光子交換機,但是可 以有多個并聯的光子交換機。由于每個TOR有高容量端口,所以可以有許多并聯的交換機平 面。W可以等于4、8或更大。交換結構包括第一級交叉點交換機470和第三級交叉點交換機 474以及第二級AWG-R陣列472。對于每個創建有4個平面的TOR的80 X 80端口第二級AWG-R、 12 X 24端口第一級交換機、24 X 12第三級交換機和4個輸出端,這針對在40Gb/s處總吞吐量 為153.6Tb/s的情況或在100Gb/s處總吞吐量為384Tb/s的情況產生了被組織成4個960 X 960象限的3840 X 3840端口核心長包交換容量。在另一個示例中,每個100Gb/s流被分成4個 25Gb/s的子流,并且每個結構使用四個并聯結構來取代,每個子流一個結構。在使用80X80 端口的AWG-R、16 X 32端口交叉點交換機和32 X 16端口交叉點交換機以及8個平面的另外的 示例中,創建被組織成每個交換機1280個端口的八個平面的10,240端口核心長包節點,當 單片地(111〇11〇1;[1:11;[031150交換100613/8饋送時這需要1280\1280的8個并聯的交換機平面 結構(W = S),例如使用多級編碼來使符號速率降至25G符號/秒(例如,正交振幅調制 (quadrature amplitude modulation,QAM)_16或脈沖振幅調制(pulse amplitude modulation,PAM)-16))以適配AWG-R的通帶內的光信號的數據邊帶。可替代地,使用每 100Gb/ S流4個單獨的25Gb/s子流時的32個結構。基于該交換機的并且W = 8的節點能夠處理 I,024Pb/s的輸入端口容量。可替代地,對于Z = 40,對應于1006抱光網格和55+61^的可使用 的帶寬(通帶)并且使用16 X 32的第一級交換機、32 X 16的第三級交換機以及8端口/TOR,在 給出8個并聯負載共享的平面的情況下,給出在100Gb/s下8 X (16X40) = 5120 X 5120個端 口 =512Tb/s的容量,同時對于100Gb/S數據流使用簡單編碼。
[0124] 限定為連接至一個具體第一級交換模塊和對應的第三級交換機模塊的TOR的TOR 組464與敏捷波長生成器相關聯,例如各個可調諧激光器或波長選擇器466。波長選擇器466 選擇Z個波長源462中之一,其中Z是用于一個AWG-R 472的輸入端口的數量。代替必須快速 調諧幾千個敏捷激光器,可以使用80個精密波長靜態源,其中它們所生成的波長通過本地 調制器處的成對的Z Xl選擇器交換機分配和選擇。這些交換機不必與包間間隔(interpacket gap, IPG) 建立時 間匹配 ,原 因在于預先明 確知道該波長 。然而 ,從一個波長至另一 個波長的轉換發生在IPG期間,因此選擇器交換機與快速2:1光柵串聯,以促進該轉換在IPG 期間快速發生。
[0125] 來自TOR組464的經調制的光載波通過第一級交叉點交換機470,第一級交叉點交 換機是由流水線式控制系統設置成正確的交叉連接設置的XXY交換機。第一級根據作為流 水線式控制系統的一部分的源矩陣控制器(source matrix controlIer,SMC)來控制,所述 源矩陣控制器(SMC)涉及對第一級連接的管理。此外,SMC工作使得第一級輸入端口無競爭 地連接至第一級輸出端口,并且第一級連接映射與第三級連接映射匹配從而經由正交映射 器通過SMC與相關的GFC之間的通信來完成整個端對端的連接。第一級完成至如由流水線式 控制過程確定的適當的第二級即AGW-R472的連接。第二級基于這些信號的波長自動地路由 這些信號,因此這些信號出現在適合的第三級模塊即第三級交叉點交換機474的輸入端口 上,其中它們在第三級的組扇入控制器(GFC)476的控制下被連接至適合的輸出端口。組管 理器對來自AWG-R第二級的輸入信號至第三級的適合的輸出端口的連接進行管理,并且從 在特定GFC處接收的相關SMC請求中識別對于相同第三級輸出端的競爭請求。在不止一個第 三級連接從第二級AWG-R請求相同的第三級輸入端口的情況下,一個或更多個競爭的第三 級輸入可以通過與源SMC通信來分配至另一 AWG-R平面,但是當第三級輸出端口不處于競爭 時,不執行包退避或延遲,原因是有足夠的容量用于第二級平面之間的移動。交叉點交換機 474被耦合至TOR 478。
[0126] 在對歪斜(skew)、交換時間對準和交叉點建立時間有緊迫需求情況下快速分幀光 子電路交換機的操作使用其他快速同步固定分幀系統的集中式精密定時參考源。歪斜是關 于要交換的到達數據的定時偏差或誤差、交換機中取決于物理路徑長度的定時變化、電子 和光子響應時間的變化等等。該定時參考源是定時與同步塊480,其通過以下來為交換機級 提供定時:選通用于實際建立所計算的連接的定時并且提供用于對TOR包分路器和緩沖器/ 加速器塊的定時進行鎖定的參考定時。定時塊480提供包括比特間隔信號、幀間隔信號以及 多幀間隔信號,其包括跨越多個幀的遍及該系統來分配的幀編號以方便對連接參考已知數 據/包和已知幀的外圍請求,從而通過正確的幀的所計算的連接映射來交換正確的容器化 包。
[0127] 圖16的下部示出了流水線式控制482。沿流水線式控制的步驟包括包目的地組識 別塊484和設置波長塊486,這兩者可以分散至TOR位置或為集中式。流水線式控制還可以包 括第三級輸出端口沖突檢測塊488、跨核心負載均衡塊490以及第一和第三級矩陣控制塊 500,以上所有塊被集中。這些主要步驟要么在一個幀周期(對于lOOGb/s而言是大約120ns 或者對于40Gb/s而言是大約300ns)內完成,要么被分成可以在一個幀周期內完成的較小步 驟,使得實現每個步驟或子步驟的SMC資源和GFC資源可以根據需要空出來用于針對下一幀 執行相同的計算任務。一種替代性方案是提供用于實現并聯的長步驟的SMC或GFC資源能力 的部分的多個并聯實體,每個實體實現不同幀的長步驟,然后針對后續幾個幀被復用。對于 持續F幀的步驟,存在并聯的F個相同的功能,每個功能以換相或"輪詢"的方式每F個幀加載 一次新任務,從而使得F個并聯功能中之一對于每個幀都加載有信息。
[0128] 在包目的地組識別塊484中,根據源包的目的地地址的TOR組識別部分來對目的地 組進行識別。最多可以有X個并聯的包容器地址,在幾個并行流路中的每一個流路中每個輸 入端口有一個包容器地址。X等于組大小,其等于每個輸入交換機上的輸入端的數量,例如 8、16、24或32。根據SMC的波長地址映射來設置波長。可替代地,當TOR充分遠離交換機的中 央處理功能設備時,該波長設置可以在TOR分路器處被復制。例如,如果超過波長確定點至 釋放連接映射的點的處理花費G微秒并且光在玻璃中的速度=2/3 X Co = 200,OOOkm/秒,其 中Co =光在真空中的速度= 300,000km/秒,則返回至TOR的最大距離會是200,000*G的1/2。 對于G=2ys,TOR距核心控制器的路徑長度不超過200米,對于G = 4ys,不超過400米,以及對 于G = ^s,不超過600米。數據中心中的最大游程可以在300米至500米以上,并且可以有用 于光載波波長的集中設置和遠程(在TOR位置處)設置的位置。包目的地組識別塊還可以檢 測兩個或更多個并聯輸入包何時具有完全相同的目的地組和TOR地址,在該情況下,潛在沖 突被檢測并且上述兩個包中之一可以延遲一個幀或幾個幀。可替代地,可以將其處理成整 個輸出端口沖突檢測過程的一部分。
[0129] 包目的地組識別塊484可以概念地分布、容置在SMC的硬件狀態機內或兩個位置 中,原因是關于要使用的波長的信息在TOR處,并且塊487的輸出的其他用戶在集中式控制 器內。包目的地組識別塊將用于輸出組連接的所選擇的輸入端口傳遞給第三級輸出端口沖 突檢測與映射器功能,而第三級輸出端口沖突檢測與映射器功能基于地址的組地址部分將 來自SMC的地址傳遞給每個適合的GFC,從而方便開始輸出端口沖突檢測過程。這是因為每 個GFC還與第三級模塊相關聯,該第三級模塊與組和具體長度相關聯。因此,SMC計算輸出的 特定部分被路由至特定GFC,使得特定GFC接收來自SMC的相關信息子集(做出與GFC的關聯 TOR組以及該TOR組專用的關聯交換機結構第三級的連接)。因此,第三級輸出端口沖突檢測 的一個功能是將SMC的數據的相同GFC相關子集映射至GFC的每個輸入數據流,上述輸入數 據流是數量(Z個)與SMC流的數量相同的并行GFC流。第三級輸出端口沖突檢測塊所執行的 另一個功能是檢測是否有兩個SMC正在請求同一第三級輸出端口(相同TOR編號或TOR組編 號)。當檢測到競爭時,第三級輸出端口沖突檢測塊可以發起競爭請求之一的退避。另外,即 使當兩個包流發往組中的不同第三級輸出端口時,仍可以為不同的SMC源初始地分配相同 的第二級平面,導致在一個第三級輸入端口上有位于不同波長處的兩個輸入光信號。與該 第三級相關聯的GFC可能將此檢測成來自SMC的兩個相同的第三級輸入端口尋址請求(平面 選擇),并且使的除了一個源于競爭SMC的連接請求以外的全部請求移動至不同的第二級平 面。這不會影響容納流量的能力,原因是由于擴張而使得有足夠的第二級平面來處理流量 負載。SMC還可以將一些另外的信息連同地址一起傳遞,例如來自SMC的關聯輸入交換機矩 陣的每個鏈接的主要和次要預期第一級輸出連接端口,其可以通過SMC來分配以降低在它 們第一級中彼此阻塞的概率,原因是它們獨立的請求在第三級輸出端口沖突檢測塊中被放 在一起。因此,可以鎖定可以由GFC立即接受的那些請求,由此減少了要通過剩余過程解決 的連接的數量。
[0130]基于正在被處理的幀中的每個包的輸出識別組,包目的地組識別塊484將波長信 息傳遞至設置波長塊486,設置波長塊486調諧本地光源或者從持續接通源的中央庫選擇正 確的集中源。在另一個示例中,通過TOR中的功能設置了波長。因為波長選擇發生在控制流 水線過程中的早期,所以當距TOR的距離相對小時源設置時間要求可以得到緩和,并且該功 能在TOR處被復制用于設置光載波波長。在圖16中,有由80個源組成的中央庫以及2個80:1 選擇器交換機,其中針對每個光源有一系列快速的2:1光柵。快速光柵的速度可以大約〈 1ns,而選擇器交換機的速度比快速光柵慢但相比包持續時間而言快得多。
[0131] 第三級輸出端口沖突檢測塊488發生在組扇入控制器476中,組扇入控制器476從 源矩陣控制器468經由正交映射器(未示出)接收了與其自身相關的通信。通過與具體第三 級模塊相關聯的特定的組扇入控制器來處理輸出組的預期地址,并且因此將特定的尋址到 的TOR組發送至該組扇入控制器。在第三級輸出端口沖突檢測過程中組扇入控制器檢測來 自源矩陣控制器的所有通信的輸入的重復輸出地址請求,并且批準每個輸出端口的來自與 其相關聯的第三級的一個地址請求而拒絕其他地址請求。這是因為與每個GFC相關聯的第 三級矩陣的每個輸出端口支持每幀一個包。經批準的包地址被通知回原始源控制器。尋求 競爭輸出的容器化包的被拒絕的地址被通知在下一幀中重試。在一個示例中,重試的包地 址優先于新的包地址。第三級輸出端口沖突檢測步驟將幀中要路由至任意一個輸出端口的 包的最大數量減少至1個。這基本上消除了所關注的阻塞,原因是,對于剩余過程,經擴張的 交換機為非阻塞,并且所有路徑可以被容納。
[0132] 在該級處,輸入端可以連接至其相應的輸出端,并且針對所有連接有通過交換機 和交換機路徑的足夠容量,但是仍要建立利用第二級的連接路徑以避免將AWG-R輸出用于 布置一個光信號中的每一個。第一級矩陣和第三級矩陣具有足夠的容量來處理當檢測并且 解決輸出端口沖突時的剩余包連接。連接然后通過第二級來分配以提供通過核心的負載均 衡的程度,使得僅使用第二級輸入和輸出一次。這可以由非擴張式交換機或擴張式交換機 利用GFC的重復輸入地址檢測來完成,GFC然后用信號通知適當的SMC來改變平面。該過程可 以通過GFC向SMC轉發空閑平面列表來幫助。
[0133] 實現在GFC與SMC之間的經由正交映射器通信的跨核心負載均衡塊490有利于每個 第一級輸出被使用一次以及每個第三級輸入被使用一次。第二級平面改變重疊的輸入信 號,導致這些輸入信號從不同平面到達,并且因此在不同第三級輸入端口上。由此,在該過 程結束時,每個第二級輸入和輸出僅被使用一次。
[0134] 從SMC到適合的GFC的初始通信還可以包括主要的預期第一級輸出端口地址以及 要用作當GFC不接受主要地址時的次要的第一級輸出端口地址。由SMC提供的主要的第一級 輸出端口地址和次要的第一級輸出端口地址兩者可以轉換成GFC上的可能已經分配給其他 SMC的特定輸入端口地址。相對于僅使用主要地址,上述兩者已經被分配的概率低。對這些 主要的第一級輸出端口和次要的第一級輸出端口進行分配使得源SMC處的每個輸出端口標 識符至多使用一次。原因是,在2:1的擴張的第一級中,對于每個輸入端口存在足夠的輸出 端口而使得每個輸入端口唯一地被分配有兩個輸出端口地址。這些預期的第一級輸出端口 地址以連接請求的形式連通預期的GFC輸出端口連接被傳遞至合適的GFC AFC會基于GFC的 關聯第三級交換機模塊的特定輸出端口已經被分配(即,總體結構輸出端口擁塞)而拒絕這 些連接請求中的一些連接請求,但是會接受剩下的輸出端口連接請求用于連接映射,并且 會通知請求的SMC。當主要和次要的第一級輸出地址以及隨后的第三級輸入地址通過SMC被 發送時,主要連接請求可能被授權,次要連接請求可能被授權,或者沒有連接請求被授權。
[0135] 在主要請求被授權的一種情況中,當連接請求被接受時,由第一級輸出端口的主 要選擇暗示的第三級輸入端口以及隨后的第三級輸入端口一一其通過第二級的在正確波 長處的固定映射被轉化--尚未由GFC針對正被計算的幀分配給該GFC的第三級輸入端口。 該請求然后被分配,這構成GFC對來自SMC的主要連接路徑請求的接受。該接受被傳回至相 關的SMC,其鎖存在對于主要輸出端口連接的第一級輸入端口中,并且使已經分配給潛在的 次要連接的第一級輸出端口閑置出,從而可以將該接受復用于重試其他連接。
[0136] 在次要請求被授權的另一情況中,連接請求被接受,然而由第一級輸出端口的主 要選擇暗示的第三級輸入端口并且因此是第二級平面已經由GFC針對正在被計算的幀而分 配給該GFC的第三級,然而SMC的第一級輸出端口的次要選擇并且因此是第二級平面以及第 三級輸入端口尚未由GFC針對正在被計算的幀而分配給該GFC的第三級。在此示例中,GFC接 受來自SMC的第二連接路徑請求,并且SMC將該第一級輸入端口鎖定至第一級輸出端口連接 并且使第一級主要輸出端口空閑以用于重試其他連接。
[0137] 在另外的示例中,總的連接請求被接受,原因是第三級輸出端口閑置,然而由第一 級輸出端口的主要選擇和次要選擇兩者以及因此第二級平面暗示的第三級輸入端口已經 由GFC針對其他連接而分配給用于正在被計算的幀的該GFC的第三級。在這個示例中,GFC拒 絕(否認授權)來自SMC的主要連接路徑請求和次要連接路徑請求兩者。這發生在主要第三 級輸入端口或次要第三級輸入端口均不可用的情況下。這導致SMC釋放來自其輸出端口列 表的臨時保留的輸出,并且使用來自其空閑端口列表的其他主要輸出端口連接和次要輸出 端口連接來進行重試。成對的輸出端口嘗試可以被調換至不同的GFC以解決連接限制。
[0138] 總體而言,SMC對來自GFC的接受的響應要分配第一級輸入端與第一級輸出端之間 的連接從而建立連接。尚未建立的第一級連接然后被分配給未使用的第一級輸出端口,上 述未使用的第一級輸出端口的至少一半將保留在2:1的擴張的交換機中,并且重復該過程。 上述未使用的第一級輸出端口可以包括:先前未分配的端口、被分配為對于不同GFC主要端 口但未被使用的端口、以及被分配成次要端口但未被使用的端口。此外,當GFC由于第三級 的特定的主要輸入端口以及次要輸入端口正在被使用而提供拒絕響應時,GFC可以取決于 剩下多少空閑端口以及拒絕通信的數量來添加其自身的主要第三級輸入端口或次要第三 級輸入端口以及/或者另外的建議。隨著該過程繼續,剩余端口的拒絕比率增加,因此要轉 發更多獨特的建議。這些建議通常促進SMC直接選擇已知的可工作的第一級輸出路徑。如果 沒有,則該過程重復。該過程繼續直到所有路徑被分配為止,該過程可以采用幾次迭代。可 替代地,在幾次循環之后,該過程超時。
[0139] 當負載均衡完成或超時時,SMC生成對于SMC相關聯的第一級的連接映射,并且GFC 生成對于GFC相關聯的第三級的連接映射以在當該幀中的包傳播通過緩沖器并且到達快速 光子電路交換機的包交換結構時使用。當負載均衡完成、負載均衡前進得足夠遠或者該負 載均衡超時時,第一級SMC和第三級GFC分別地生成對于它們相關聯的第一級和第三級的連 接映射。原因為上述映射是針對各個第一級模塊或第三級模塊并且被組裝在先前在包目的 地組識別操作中生成的第一級輸入端口波長映射旁邊,所以連接映射很小。表4示出了單獨 的SMC(SMC#M)連接映射的示例,并且表5示出了基于80 X 80端口AWG-R和12 X 24交叉點交換 機的960 X 960端口 2:1擴張式交換機的GFC連接映射的示例。在此示例中,來自SMC的兩個連 接(連接A和連接B)在波長22處終止在GMC上。因此,這兩個表示出了 :連接A,完成了從TOR 組,T0R#5至TOR組#22,T0R#5的連接;以及連接B,完成了從TOR組#m,T0R#7至TOR組#22, T0R#11的連接。剩余的SMC#m連接至其他TOR組,并且剩余的GFC#22連接從其他TOR組前往 SMC但非組#m。
[0140]表4
[0145] SMC功能和GFC功能可以實現為硬件邏輯器件和狀態機,或者可以實現為專用任務 專用微控制器陣列或這些技術的組合。
[0146] 圖17示出了對光子交換系統的抽象正交表示。每個TOR組512包括X個TOR以及與第 一級相關聯的組中的分路器。圖17未示出短包處理和路由,但是示出了使用容器的長包光 子交換路徑。波長選擇器510基于SMC514的輸出根據目的地組來設置波長。SMC 514與作為 硬件設備的正交映射器(orthogonal mapper,0M)518來溝通其部分連接處理結果,而正交 映射器(OM)又與GFC 526進行溝通,以及GFC 526與正交映射器(0M)518溝通,而正交映射器 (0M)518又與SMC 514溝通。SMC 514還控制作為XXY交換機模塊的光子交換機516的配置。 基于來自波長選擇器/源510的波長通過作為Z X Z AWG-R的AWG-R 524來交換光子交換機 516的輸出。然后通過作為YXX交換機的光子交換機528來交換AWG-R 524的輸出,通過TOR 組530來接收上述輸出,TOR組530包括X個TOR以及與第三級相關聯的合路器。
[0147] 正交映射器提供基于硬件的映射功能,因此SMC的連接請求和響應基于目的地組 地址被自動地路由至適合的GFC,并且GFC的連接響應和反向請求基于源組地址被路由至適 合的SMC。功能上,正交映射器是以下交換機:其中,使用目的地組地址作為消息路由地址來 控制SMC至GFC的信息路由,以及使用源組地址作為消息路由地址來控制GFC至SMC路由。
[0148] 圖18示出了用于將一個TOR組中的TOR連接至另一TOR組中的TOR的方法的流程圖 670。最初,在步驟672中,SMC建立目的地組、波長和第一級連接。在一個示例中,建立主要第 一級連接(第一級輸入端口至輸出端口的連接)和次要第一級連接(第一級輸入端口至可替 代的輸出端的連接)。步驟672可能花費一個至幾個幀(例如,4個幀)。當步驟672花費多于一 個的幀時,步驟672可以在并聯的多于一個的塊中執行,其中上述塊處理不同的幀。在另一 個示例中,將此步驟的任務分解成幾個子步驟,其中每個子步驟通過子步驟自身專用的硬 件或處理資源來在小于一個幀周期內完成。
[0149] 接下來,在步驟674中,OM將以主要連接請求和次要連接請求的形式將第三級連接 需求從SMC傳達至適合的GFC。步驟674可能花費一個幀。
[0150]然后,在步驟676中,GFC拒絕重復的第三級輸出端口目的地并且針對每個目的地 端口接受一個連接。此外,GFC識別連接路由沖突,其中多于一個的SMC通過相同的第二級矩 陣連接至GFC的第三級矩陣。步驟676可能花費一個至幾個幀(例如,4個幀)。該步驟可以在 并聯的多于一個的塊中執行,上述塊處理不同的幀。在另一個示例中,將任務分解成幾個子 步驟,其中每個子步驟通過單獨的專用硬件在小于一個幀周期內完成。
[0151] 在步驟678中,OM將所拒絕和所接受的輸出目的地端口請求連同所接受的主要連 接請求和次要連接請求傳達給適合的SMC,這可能花費一個幀。
[0152] 接下來,在步驟680中,SMC例如使用用于緩沖器/填充器的控制反饋來使得針對同 一第三級輸出端口而競爭的被拒絕(競爭)的容器化包延遲至后一幀。競爭的包是針對同一 第三級輸出端口而競爭的包。SMC鎖在所接受的主要連接請求和次要連接請求中,并且將任 意未利用的第一級輸出端口返回可用列表。此外,SMC響應具有新的主要第一級連接請求和 次要第一級連接請求的響應,或者基于SMC的相關聯的第一級輸出端口占用率來接受來自 GFC的反向請求或連接分配。步驟680可能花費1至3個幀(例如,2個幀)。因此,該步驟可以在 并聯的2個或3個塊中執行,上述塊處理不同的幀。可替代地,將任務分解成2個或3個子步 驟,其中每個子步驟通過其自身專用的硬件在小于一個幀周期內完成。
[0153]然后,在步驟682中,OM針對以下所接受的輸出端口連接將接受以及新的主要請求 和次要請求傳達給適當的GFC:對于所接受的輸出端口連接而言,該GFC尚未接受主要連接 請求和次要連接請求。步驟682可能花費一個幀。
[0154] 在步驟684中,GFC識別殘余路由沖突并且接受來自SMC的與可用端口對準的主要 請求和次要請求,再次拒絕未對準的請求。可選地,GFC基于其可用輸入映射規劃新的反向 請求。步驟684可能花費1個或2個幀。此步驟可以執行在并聯的兩個塊中,上述塊處理不同 的幀。可以將此步驟的任務分解成兩個子步驟,其中每個子步驟通過其自身的專用硬件在 小于一個幀周期內完成。
[0155] 接下來,在步驟686中,OM將接受和請求傳達給適合的SMC,這可能花費一個幀。
[0156] 然后,在步驟688中,SMC響應于來自GFC的接受和請求,這花費一個或兩個幀。此步 驟可以并行地執行在兩個塊中,各自處理不同的幀,或者可以將該步驟的任務分解成兩個 子步驟,其中每個子步驟通過其自身專用硬件在小于一個幀周期內完成。
[0157] 在步驟690中,OM在一個幀內將來自SMC的接受和請求傳達給適合的GFC。
[0158]接下來,在步驟692中,GFC識別殘余路由沖突并且基于其相關聯的第三級交換機 模塊的輸入端口可用性來生成主要請求、次要請求和第三位請求。可替代地,GFC將剩余可 用端口列表發送至當前的SMC。在過程的該點處,存在許多空閑端口以及為它們而競爭的少 量SMC。步驟692可能花費一個或兩個幀。因此,該步驟可以并行地執行在兩個塊中,各自處 理不同的幀,或者可以將該步驟的任務分解成兩個子步驟,其中每個子步驟通過其自身專 用硬件在小于一個幀周期內來完成。
[0159] 然后,在步驟694中,OM在一個幀內將來自GFC響應傳達給適合的SMC。
[0160] 在步驟696中在一個或兩個幀內建立具有SMC連接和GFC連接的連接映射。SMC和 GFC經由OM通信來執行步驟696。因此,該步驟可以并行地在兩個塊中執行,各自處理不同的 幀,或者可以將該步驟分解成兩個子步驟,其中每個子步驟通過其自身專用硬件在小于一 個幀周期內來完成。
[0161] 在步驟698中,在一個幀內通過SMC和GMC來下載第一級交叉點地址驅動器和第三 級交叉點地址驅動器。
[0162] 最后,在步驟700中,當根據填充器/緩沖器而觸發時,將地址同步地下載至交叉點 交換機。這花費一個幀。
[0163] 流程圖670中的15個步驟持續一個或更多個包間隔。持續多個包間隔的步驟可以 被分解成持續時間是一個包間隔的子步驟。可替代地,在針對控制過程的該部分的換向控 制方法中,多個功能實例并行地運行。在一個使用硬件狀態機的示例中,將TOR彼此連接的 連接映射的計算和建立要花費26個幀來完成。在這個示例中,有26個幀同時在流水線式控 制結構的各個部分中正被處理。
[0164] 在該過程花費26個幀的情況下,以每個幀300ns來算,該過程要花費大約7.8ys。然 而,若以每個幀120ns來算,該過程花費大約3.12ys。在這兩種情況下,因為連接數據(源地 址和目的地地址)可以根據發生于整個分路器功能、填充功能以及加速功能中的過程中早 期至分路器的輸入流量來收集,所以由于控制流水線處理而導致的延遲可以發生相對于通 過緩沖器塊/填充器塊/加速器塊的容器化包延遲一一這可能導致大約16個至40個幀延 遲一一而言的并行路徑上。因此,如果該處理延遲所花費的時間小于通過分路器的容器化 包處理的延遲,則該處理延遲不必加至通過交換機結構的延遲。
[0165] SMC所執行的每個步驟可以發生在單獨的專用SMC硬件中。可以通過SMC步驟輸出 與GFC步驟輸出之間的并行路徑來對OM進行分層以提供快速正交映射。OM將SMC連接至GFC 以及將GFC連接至SMC,并且用作硬連線的消息映射器。當尋址的形式是TOR組以及TOR組內 的TOR編號并且SMC與GFC之間的通信包括源TOR組和目的地TOR組的頭部時,OM可以變成被 一系列豎直數據線或總線橫切的一系列水平數據線或總線,在每條水平數據線或總線與每 條豎直數據線或總線之間存在它們在其中交叉的連接電路。該連接電路讀取傳遞地址頭部 的TOR組部分,其中有:與GFC相關聯的消息的目的地TOR組,以及至相關聯的SMC的消息的源 TOR組。如果地址與和其輸出線相關聯的地址匹配,則OM將消息鎖存至與該輸出端口相關聯 的存儲器中。如果地址不匹配,則OM不采取行動。因此,將從SMC沿水平數據線發送的消息鎖 存至與豎直線相關聯的數據存儲器中,所述豎直線基于該GFC的組地址而向適合的GFC進行 饋送。存儲器中的數據然后被讀出并且與豎直時鐘線同步地被饋送至適合的GFC,豎直時鐘 線對貫穿存儲單元進行菊花鏈接并且觸發存儲器單元輸出其消息。該時鐘被存儲器單元延 遲直至存儲器單元輸出其消息為止。當沒有消息要發送(沒有連接請求)時,時鐘立即經過。 然后將時鐘發送至豎直堆棧中的下一個存儲器單元。這創建了至接收GFC的致密串行消息 流,其包括來自僅與具體的GFC通信的SMC的相關信息以及上述消息之間的非常小的間隙。
[0166] OM 518具有兩組映射功能。一組映射功能將SMC 514連接至GFC526,而另一組映射 功能將GFC 526連接至SMC 514。在全部SMC和GFC同時處理針對先前和隨后的包的連接推導 的其他部分的情況下,SMC與GFC之間的消息可能與每個方向僅使用單個OM來傳送消息的幀 沖突。在一個示例中,每個幀有三個從SMC至GFC的通信以及每個幀有三個從GFC至SMC的通 信。因此,0M、SMC和GFC可以配置在功能塊組中,每個功能塊組處理過程的一個或更多個步 驟或子步驟。
[0167] 圖19A至圖19B示出了作為圖17所使用的正交映射器的示例的總體正交映射器功 能體560,該正交映射器功能體560包括兩個反向平行的正交映射器一一其中一個正交映射 器將SMC輸出映射至相關的GFC輸入,而另一個正交映射器將GFC輸出映射至相關的SMC輸 入。連接請求進入SMC 562。在確定路由信息之后,SMC 562將路由信息傳遞給適合的GFC。這 可以通過借助于OM 542發送消息來完成,所述消息通過該OM自動地被路由。路由信息附加 有SMC TOR組地址和GFC組地址。SMC TOR組地址被硬編碼成SMC,并且GFC組地址是來自源 TOR的輸入連接請求的一部分。該信息還用于確定光波長。OM 542包括輸入線541、輸出線 543和存儲器548。存儲器548包括:目的地地址組讀取器549、可以包括時鐘源553的源和目 的地地址存儲器551、以及延遲元件555。時鐘源553可以存在于豎直列的頭(頂)交叉點中, 豎直列通過來自主參考的幀邊界來觸發,產生沿豎直列向下傳播的脈沖以按照順序來組裝 來自存儲器單元的輸出消息。因此,GFC接收來自第一行SMC以及最后一行SMC的消息,導致 潛在的系統性偏袒。可替代地,時鐘線在環路中,并且行和列的交叉處具有時鐘生成器及其 時鐘源,該時鐘源是有源的(生成傳播的脈沖),并且每個幀移動一個行。這轉動了定序,使 得系統性偏袒不太明顯。將來自SMC的消息發送到OM的第一層中,其中,在適合的豎直輸出 線處,檢測與該線相關聯的GFC地址,并且將消息存入源/目的地地址存儲器。在輸出(豎直) 線上接收時鐘脈沖(或生成時鐘脈沖)之后,源/目的地地址存儲器處的時鐘將其內容寫入 輸出線一一該輸出線連接至與該線相關聯的GFC,并且將時鐘脈沖發送至下一個存儲器,該 下一個存儲器將時鐘脈沖的信息鄰接在來自先前源/目的地地址存儲器的消息的尾端之 后,從而創建了至與該豎直線相關聯的GFC的特定格式的致密信息流。GFC以類似的方式與 SMC通信,通過OM 548發送格式化設定的消息,OM 548被配置成將來自GFC的輸入映射至適 合的目標SMC。該信息借助于類似的過程通過OM來映射,從而創建了用于與豎直線相關聯的 相關SMC的致密數據流。當SMC與GFC通信時,重復該過程直到已經建立足夠的連接或處理超 時為止。然后,針對第一級由SMC以及針對第三級由GFC 566來寫出交叉連接映射。
[0168] 當特定的第一級模塊的輸入在相同的第三級組和第三組交換機模塊上終止時,所 述消息包括源組地址和多個目的地組地址,加上SMC所請求的連接的地址,最多有X個主要 地址和X個次要地址(其中X等于每個第一級矩陣的輸入的數量)。因此,當單獨的SMC的包發 往GFC時,該SMC可以具有針對該GFC的多個同時的連接請求。例如,消息長度、TOR源組地址、 TOR目的地組地址、TOR源和目的地數量、主要端口建議和次要端口建議各自可以是一個字 節。因此對于一個連接總共是六個字節,而對于十二個連接總計是三十九個字節。當大量的 源TOR組試圖在一個目的地TOR組匯聚時,多個消息可能從一個GFC線上的多個SMC中輸出。 因此,消息傳送結構不會飽和直到超過其中與目的地GFC相關聯的TOR組完成的點為止。例 如,當有24個連接請求來自24個不同的SMC時,存在有144字節的長序列,該長序列對于全部 來自不同組的24 X 100Gb/s的包流的情況花費大約120ns,而對于全部來自不同組的24 X 40Gb/s的包流的情況花費大約300ns,以上兩種情況分別對應大約1.2GB/s(10Gb/s)和大約 480MB/s (3.84Gb/s)。然而,在許多情形中,連接請求較少,例如每個GFC有來自每個SMC的0、 1或2個請求。當在不提出請求的連接的情況下完成初始功能時,在SMC和GFC中存在通過兩 個OM的路徑以及另一處理循環,然而發送消息下降到96個字節,相應地使速率下降至 800MB/S或320MB/S。例如為了適應實現技術的選擇,通過OM的路徑可以是半個字節寬、一個 字節寬或更寬。
[0169] 圖20A至圖20B示出了顯示出存在多于給定數量的同時請求的概率的仿真模型的 圖。圖20A示出了控制方法的仿真模型的圖,該仿真模型示出了對于針對圖16所示的960端 口交換結構的特定第三級及其對應的GFC而言的存在多于給定數量的同時請求的概率。這 針對該交換機結構的各種過載水平而繪制。
[0170] 包交換機處理基于統計的流量一一任何輸入可以在任何時間選擇任何輸出。為了 控制瞬時過載和包延遲或丟棄的水平,通常在大約30%的平均流量水平之下的水平用于防 止峰值流量有規律地超出100 %。圖20A的圖示出了可能由圖16中的交換機的特定GFC在隨 機流量狀態下接收的同時請求多于給定數量的概率。曲線580示出了在30 %流量負載的情 況下每個幀的同時訪問特定GFC的容器化包的數量的累積概率,曲線578示出了針對40 %流 量負載而言的概率分布,曲線576不出了針對60 %流量負載而言的概率分布,曲線574不出 了針對80 %流量負載而言的概率分布,以及曲線572示出了針對100 %流量負載而言的概率 分布。針對100%流量負載,平均僅58%的包可以被路由至其目的地(94X),剩余的42 %的包 被阻塞,這是因為在與該GFC相關聯的交換機模塊上缺乏輸出端口容量并且反映出目的地 TOR的輸入容量缺乏。在流量水平較低的情況下,未到達其目的地的包的百分比急劇下降。 由于與特定GFC相關聯的特定第三級模塊上的輸出端口容量不足而導致:在80%流量負載 處,有17%的包未到達它們的目的地;在60%流量負載處,有3%的包未到達它們的目的地; 在40%流量負載處,有0.13%的包未到達它們的目的地;以及在30%流量負載處,有12,000 分之1的包未到達它們的目的地。因此,以下控制系統消息傳送可能令人滿意:在超過30% 流量負載的過載條件下不會明顯增加損失水平。
[0171]圖20B示出了針對同時被路由至一個第三級的包的數量的累積概率的按照對數刻 度來繪出的圖20A所使用的相同模型的圖。曲線600示出了對于30%流量負載的累積概率, 曲線598示出了對于40%流量負載的累積概率,曲線596示出了對于60%流量負載的累積概 率,曲線594示出了對于80%流量負載的累積概率,以及曲線592示出了對于100%流量負載 的累積概率。當消息結構的過載超過每GFC有24個嘗試消息時,不能處理所有接收到的容器 化包地址的概率為0.06%,無論它們是否超出相關聯的第三級模塊(和相關聯的目的地TOR 輸入)的用于在100%流量負載處針對至特定GFC的所分配的包地址來處理它們的容量。這 提高至:當80%過載時大約0.0002% ;在60 %流量負載處大約7,000,000分之一個幀;在 40%流量負載處大約2.4*101()分之1;以及在30%流量負載處大約為1.3*10 13分之1。在過載 之前16個消息的減小的消息過載在30 %流量負載處達到5,000,000分之1的過載概率,并且 在60%流量負載處達到840分之1的過載概率。對于120ns幀而言,這將跨越OM的SMC至GFC的 路徑的消息傳送交易的最壞情況每幀消息傳送速率從1.2GB/s減小至SOOMB/s,在一個明顯 較低的平均水平上。
[0172] 當潛在的輸出競爭被化解,每GFC和SMC最大12個連接保持一些主要和次要連接請 求/授權過程消息傳送,這可以在SMC與GFC之間的第一循環中立即被接受,從而將殘余消息 傳送保持成遠在峰值速率之下。
[0173] 圖21A至圖21C示出了增強型加速器的高層次視圖,其結合有IPG間隙延長和填充/ 緩沖器功能以使包速率加速并且適應最短的長包。來自長/短包流分路器的長包流被饋送 至兩個串聯的加速器。第一加速器使包加速至較高的幀速率并且通過添加包裝開銷字節以 及在包之后填充空的凈荷填充字節來加長包,因此包容器的長度與能夠支持最大包長度的 包凈荷空間的長度相同,并且包容器的持續時間恒定,有利于同步交換。第二加速器對包容 器進行壓縮以使得包間間隔或容器間間隔擴大。
[0174] 在圖21A中,示出了對光子交換系統的抽象正交表示。TOR 511包括TOR分路器519。 TOR 517包括TOR合路器521。從分路器519將經填充的容器化包流量流饋送到用于至適合的 波長的轉換的相關聯電光轉換器510中,以實現AWG-R第二級中的組對組連接。然后,在包流 出現并且被饋送到目的地TOR 517的流合路器515的光接收器的輸入端中之前,將包流饋送 到第一級516、第二級524和第三級528中。包括第一級516、第二級524和第三級528的核心交 換機的連接由流水線式控制系統來控制,該流水線式控制系統包括源TOR組相關聯的SMC 514和TOR組相關聯的GFC 528,在SMC與GMC之間有正交映射器518。
[0175] 在圖21B至圖21C中,長包流從長/短包分路交換機輸出進入填充器/緩沖器612。圖 2IB示出了示例性TOR分路器,該TOR分路器可以例如用作TOR分路器517。長包流包括在閾值 之上的包。可從交換機或交換機控制獲得的包邊界還被輸入到填充器/緩沖器612。包進入 包邊沿同步包轉向塊614,其中使包轉向至存儲器陣列616的凈荷區域。存儲器陣列616的凈 荷區域是存儲器陣列616的全部位置的一個子集,其中存儲器凈荷區域足夠大以容納最大 長度包。除凈荷區域以外,存儲器616還可以具有為包裝器頭部字節插入而預留的區域,例 如以攜帶用于在目的地合路器中重構包序列完整性以及包TOR水平源和目的地地址,例如 以確認跨光子交換機的有效連接。
[0176] 在包完全進入存儲器區域并且包邊界被檢測到或被指示之后,將下一個包饋送到 下一個存儲器凈荷區域中,無論第一存儲器凈荷區域是否充滿。該過程繼續直到存儲器凈 荷區域充滿為止,并且開始重設第一存儲器,然后將新的包寫入第一存儲器凈荷區域。因為 包邊界邊沿檢測用于根據邊界標記的接收來改變對輸入的長包流的路由,所以存儲器凈荷 區域包括一個所存儲的包,并且可能不被充滿。該過程的速率取決于輸入包長度,原因是, 當系統時鐘速度恒定時,使包進入存儲器凈荷區域的時間的長度與包長度成比例,該包長 度可以在長/短閾值(例如,1000字節)緊之上至最大包長度(例如,1500字節)之間變化。
[0177] 與將包寫入存儲器凈荷區域并行地,存儲器的包裝頭部區域加載有頭部內容,例 如,固定的前導碼、源TOR、TOR組地址、目的地TOR、TOR組地址以及來自圖2所示的連接請求 處理機的包的序號,并且經由交換機150而被饋送至緩沖器/延遲器。
[0178] 在將輸入包寫入一些存儲器區域位置的同時,通過輸出包存儲器編號626循環地 讀出其他存儲器區域位置。代替讀出僅包,整個存儲器被讀出,創建與最長包加上固定長度 頭部的長度等同的固定長度讀出。對于具有最大長度的包,整個包加頭部被讀出。然而,對 于小于最大長度的包,頭部加較短的包被讀出,隨后讀出的有包末端以及空存儲器位置。通 過包檢測器628的末端來檢測包的末端,包檢測器628經由選擇器631來連接填充模式生成 器630,以填充空的時間間隙。因此,通過填充模式生成器630將包填滿成長度恒定并且持續 時間恒定。額外填充比特的添加使輸出相比輸入而言包括更多的字節,因此輸出時鐘比輸 入時鐘快。這當輸入是完全長度包時提高了存儲器區域的輸出側的相對于輸入相的讀出 相,而當處理大量的較短包時,寫入存儲器區域的輸入相相對于輸出相得到了提高。因此, 輸入存儲器區域換相器的定相是可變化的,而換相器的輸出定相平滑。對輸出時鐘速率的 選擇使相對于較短長度包的概率的時鐘速度比率均衡。
[0179] 針對所選擇的長/短分路水平基于流量水平來將加速器時鐘(Sys Clk)增加到所 計算的水平之上。例如,對于來自導致圖4至圖6的曲線的過程的1.05Sys Clk的所計算的經 加速的時鐘,可以將其設置成l.〇65Sys Clk,并且對于l.lSys Clk的所計算的經加速的時 鐘,可以將其設置成1.13Sys Clk。即使當具有包的標稱混合的流量出現時,輸出定相往往 提前于輸入定相,這可以在更密集的短包水平下繼續。換言之,在輸出端嘗試輸出稍微更多 的經填充的數據的情況下,輸出總是趕上輸入以創建下溢的情況。將正被加載的存儲器區 域的輸入包存儲器區域編號622與判決塊624中的輸出包存儲器編號626進行比較。當輸出 包存儲器區域編號十分接近輸入存儲器區域編號時,代替輸出讀出前進至下一個存儲器區 域,將在恢復正常循環操作之前從偽包塊618讀出偽包。這將妨礙讀出相對于輸入存儲器區 域定相的存儲器定相。當非常大量的接近閾值長度的包被緊密地接收在一起時,可以觸發 相對于源的反壓力,使得包流減速或者使輸入包減少并重新發送輸入包。
[0180] 當通過包檢測器628的末端來檢測包的末端時,選擇器631從包讀出塊620選擇包。 然后通過加速器632來增加包間間隙。在使包加速之后,經加速的包在并行轉串行塊634中 從并行被轉換成串行,然后在電光轉換器636中從電信號被轉換成光信號,光信號將經填充 的容器化包流傳播到圖21A中所示的光子交換結構中。
[0181] 圖21C示出了TOR合路器515,合路器515可以例如用作TOR合路器521。在光子交換 機的另一側上的填充/緩沖減速器提供用于減少IPG、剝除所述填充以及包裝頭部內容的逆 向功能,并且使包流速率返回至系統時鐘的速率。從圖21A所示的交換結構接收包,并且通 過光電轉換器638將包從光域轉換至電域。然后,通過串行轉并行轉換器640將包從串行轉 換成并行。接下來,通過減速器642來減小包間間隔。
[0182] 通過包檢測器644來檢測流量包邊沿。包和包邊沿前進至填充器/緩沖器652,其中 通過塊654來使包邊沿同步。該包被置于一個存儲器區域658中。然后通過包讀出器656來讀 出包。當按照塊648所確定的,輸入包存儲器編號646接近輸出包存儲器編號650時,從偽包 塊660讀取偽包。
[0183] 圖22示出了用于光交換的方法的流程圖710。最初,在步驟728中,系統確定包的長 度是否小于閾值。當包的長度小于閾值時,包被路由至步驟726,其中對包進行電交換。當包 的長度大于或等于閾值時,包被以光子方式被交換,并且進行至步驟720。
[0184] 在步驟720中,對包進行填充以使得包處于恒定的最大包長度。在一個示例中,最 大包長度為1500個字節。可以通過將包寫入恒定長度的多個并聯的緩沖器來對包進行填 充,然后讀出整個緩沖器。讀出的時鐘速率可以高于寫入包的時鐘速率。
[0185] 然后,在步驟712中,選擇波長。在一個示例中,通過選擇多個波長源之一來選擇波 長。在另一個示例中,通過改變可調光源的波長來選擇波長。
[0186] 然后,在步驟714中,例如在SMC的控制下通過光子交換機矩陣來交換所選擇的波 長的信號。
[0187] 接下來,在步驟716中,通過AWG-R來交換信號。該交換基于通過在步驟712中所選 擇的源的波長。
[0188] 在步驟718中,例如在GFC的控制下通過另一光子交換機矩陣來再次交換信號。
[0189] 在步驟722中,對包進行解除填充(un-padded)。這可以通過將包寫入幾個并聯的 緩沖器并且在無填充的情況下讀出包來進行。
[0190] 最后,在步驟724中,將經交換的光子包流與經交換的電包流結合。
[0191] 圖23示出了用于控制光子交換結構的方法的流程圖730。最初,在步驟732中,確定 包目的地組。這是包所去往的TOR組的組號。還可以檢測潛在的沖突,并且通過使包延遲來 化解以避免沖突。
[0192] 然后,在步驟734中,設定包的波長。該波長基于在步驟732中確定的包目的地組。
[0193] 接下來,在步驟736中,檢測輸出端口沖突。在一個示例中,選擇期望波長處的光 源。可替代地,光源被調諧至期望的波長。這可以發生在GFC中,GFC從SMC接收通信。當檢測 到沖突時,批準了一個地址而拒絕了其他地址。
[0194] 然后,在步驟738中,跨核心來均衡負載。這有利于每個第一級輸出和第三級輸入 僅被使用一次。
[0195] 最后,在步驟740中,生成連接映射。基于在步驟738中進行的負載均衡來生成連接 映射。
[0196] 盡管在本公開內容中提供了幾種實施方式,但是應當理解,在不脫離本公開內容 的精神或范圍的情況下,所公開的系統和方法還可以按照許多其他特定形式來體現。本示 例應當被理解為說明性而非限制性,并且本發明并不限于本文所給出的細節。例如,各種元 件或部件可以被組合或結合在另一個系統中,或者某些特征可以被省略或不被實施。
[0197] 此外,在不脫離本公開內容的范圍的情況下,還可以將在各種實施方式中描述和 說明為分立或單獨性的技術、系統、子系統和方法與其他系統、模塊、技術或方法進行組合 或結合。所示出或所討論為彼此耦合或直接耦合或通信的其他項可以通過某種接口、設備 或中間部件間接地耦合或通信,而不論是按照電方式、機械方式還是其他方式。本領域技術 人員可以在不脫離本文所公開的精神和范圍的情況下,發現和確定其他變化、替換和改變 的示例。
【主權項】
1. 一種光子交換結構,包括: 第一級,包括多個第一交換機; 第二級,包括多個第二交換機,其中,所述第二級光耦合至所述第一級;以及 第三級,包括多個第三交換機,其中,所述第三級光耦合至所述第二級,其中,所述光子 交換結構被配置成接收具有目的地地址的包,其中,所述目的地地址包括組目的地地址,并 且其中,所述第二級被配置成根據所述組目的地地址來連接。2. 根據權利要求1所述的光子交換結構,其中,所述組目的地地址是所述多個第三交換 機中的第三級交換機的位置。3. 根據權利要求1所述的光子交換結構,其中,所述多個第二交換機包括多個陣列波導 光柵路由器(AWG-R)。4. 根據權利要求3所述的光子交換結構,還包括設置所述多個AWG-R的連接,設置所述 多個AWG-R的連接包括根據所述組目的地地址來選擇波長。5. 根據權利要求1所述的光子交換結構,其中,容器包括同步幀,所述同步幀包括:頭 部、第一輸入端口中的第一包以及第二輸入端口中的第二包,其中,所述頭部包括所述目的 地地址。6. 根據權利要求1所述的光子交換結構,其中,所述包包括: 包序號; 源TOR(架頂)組地址; 源TOR組內的各個源TOR地址;以及 目的地TOR組內的各個目的地TOR地址。7. 根據權利要求1所述的光子交換結構,還包括: 所述光子交換結構; 耦合至所述光子交換結構的流量分路器; 耦合至所述流量分路器的電交換結構;以及 耦合至所述光子交換結構和所述電交換結構的流量合路器。8. 根據權利要求1所述的光子交換結構,還包括: 耦合至所述第一級的第一源矩陣控制器; 耦合至所述第一級的第二源矩陣控制器; 耦合至所述第三級的第一組扇入控制器; 耦合至所述第三級的第二組扇入控制器;以及 耦合至所述第一源矩陣控制器、所述第二源矩陣控制器、所述第一組扇入控制器和所 述第二組扇入控制器的正交映射器。9. 一種用于控制光子交換機的方法,所述方法包括: 識別包的目的地組; 根據所述包的目的地組來選擇所述包的波長;以及 在確定所述包的波長之后檢測所述包與另外包之間的輸出端口沖突。10. 根據權利要求9所述的方法,其中,選擇所述包的波長包括調諧波長源。11. 根據權利要求9所述的方法,其中,選擇所述包的波長包括:通過光選擇器將波長源 庫中的波長源連接至所述光子交換機。12. 根據權利要求9所述的方法,還包括: 確定所述包的長度是否大于閾值;以及 如果所述包的長度小于所述閾值,則電交換所述包;以及 如果所述包的長度大于或等于所述閾值,則光交換所述包。13. 根據權利要求9所述的方法,還包括:當所述包在閾值之上并且在最大大小之下時, 通過緩沖器來對所述包進行填充以產生經填充的包。14. 根據權利要求13所述的方法,還包括: 確定緩沖器長度; 根據流量需求以及所述緩沖器溢出的概率來確定輸出時鐘速率;以及 當輸出存儲器編號與輸入存儲器編號相距在第一距離之內時,從所述緩沖器讀取偽 包,其中,對所述包進行填充包括以輸入時鐘速率將所述包讀入具有所述緩沖器長度的所 述緩沖器并且以所述輸出時鐘速率將所述經填充的包從所述緩沖器讀出,并且其中,所述 輸出時鐘速率快于所述輸入時鐘速率。15. 根據權利要求13所述的方法,其中,所述經填充的包的填充長度為1500個字節。16. 根據權利要求13所述的方法,還包括: 光交換所述包;以及 對所述包進行解除填充。17. 根據權利要求9所述的方法,還包括: 光交換所述包; 延遲所述另外包以產生經延遲的包; 光交換所述經延遲的包;以及 將所述包與所述另外包合并,其中,所述包和所述另外包的順序根據所述包的包序號 以及所述另外包的另外包序號來保持。18. 根據權利要求9所述的方法,其中,所述另外包具有另外目的地組,其中,所述目的 地組與所述另外目的地組相同。19. 根據權利要求9所述的方法,還包括: 對跨多個陣列波導光柵路由器(AWG-R)的負載進行均衡;以及 生成連接映射。20. 根據權利要求19所述的方法,還包括根據所述連接映射來調整交換級中的連接。21. 根據權利要求9所述的方法,還包括: 確定所述包在所述光子交換機的輸入端處的包相位; 生成具有時鐘相位的交換機時鐘幀; 將交換機輸入端處的所述包相位與所述時鐘相位進行比較以產生相位比較結果; 發送所述相位比較結果;以及 根據所述相位比較結果來調整包源時鐘的定時。22. 根據權利要求9所述的方法,還包括: 識別所述另外包的另外目的地組;以及 根據所述另外包的所述另外目的地組來選擇所述另外包的另外波長。23. -種生成用于光子交換結構的連接映射的方法,所述方法包括: 針對第一包進行第一連接映射生成步驟以產生第一輸出; 在針對所述第一包進行所述第一連接映射生成步驟之后,根據所述第一輸出針對所述 第一包進行第二連接映射生成步驟以產生第二輸出;以及 在針對所述第一包進行所述第二連接映射生成步驟的同時,針對第二包進行所述第一 連接映射生成步驟。24. 根據權利要求23所述的方法,其中,針對所述第一包進行所述第一連接映射生成步 驟花費小于或等于幀周期,并且進行所述第二連接映射生成步驟花費小于或等于所述幀周 期。25. 根據權利要求23所述的方法,還包括將連接映射發送給正交映射器的步驟。26. 根據權利要求23所述的方法,其中,所述第一步驟包括確定所述第一包的目的地架 頂(TOR)組,其中,所述第二步驟包括根據所述TOR組來確定波長,所述方法還包括: 在進行所述第二步驟之后,檢測輸出端口沖突; 在檢測輸出端口沖突之后,對多個交換機中的負載進行均衡;以及 確定所述多個交換機的連接。27. -種光子交換系統,包括: 第一輸入級交換模塊; 耦合至所述第一輸入級交換模塊的第一控制模塊,其中,所述第一控制模塊被配置成 控制所述第一輸入級交換模塊; 第二輸入級交換模塊; 耦合至所述第二輸入級交換模塊的第二控制模塊,其中,所述第二控制模塊被配置成 控制所述第二輸入級交換模塊; 第一輸出級交換模塊; 耦合至所述第一輸出級交換模塊的第三控制模塊,其中,所述第三控制模塊被配置成 控制所述第一輸出級交換模塊; 第二輸出級交換模塊; 耦合至所述第二輸出級交換模塊的第四控制模塊,其中,所述第四控制模塊被配置成 控制所述第二輸出級交換模塊;以及 耦合在所述第一控制模塊、所述第二控制模塊、所述第三控制模塊和所述第四控制模 塊之間的正交映射器。28. 根據權利要求27所述的光子交換系統,其中,所述第一控制模塊包括第一流水線式 控制模塊,所述第二控制模塊包括第二流水線式控制模塊,所述第三控制模塊包括第三流 水線式控制模塊,所述第四控制模塊包括第四流水線式控制模塊。29. 根據權利要求27所述的光子交換系統,其中所述正交映射器包括: 第一正交映射器模塊,其中,所述第一正交映射器模塊被配置成:將來自所述第一控制 模塊的第一消息傳遞至所述第三控制模塊,將來自所述第一控制模塊的第二消息傳遞至所 述第四控制模塊,將來自所述第二控制模塊的第三消息傳遞至所述第三控制模塊,將來自 所述第二控制模塊的第四消息傳遞至所述第四控制模塊;以及 第二正交映射器模塊,其中,所述第二正交映射器模塊被配置成:將來自所述第三控制 模塊的第五消息傳遞至所述第一控制模塊,將來自所述第三控制模塊的第六消息傳遞至所 述第二控制模塊,將來自所述第四控制模塊的第七消息傳遞至所述第一控制模塊,將來自 所述第四控制模塊的第八消息傳遞至所述第二控制模塊。
【文檔編號】H04J14/02GK105917606SQ201580005047
【公開日】2016年8月31日
【申請日】2015年7月17日
【發明人】阿蘭弗蘭克·格拉維斯
【申請人】華為技術有限公司