專利名稱:用于跨晶片區域預測半導體參數的裝置和方法
技術領域:
本發明涉及用于半導體制造過程的近似技術。更具體地,本發明涉及晶片未知參 數的預測。
背景技術:
在半導體制造業中,需要測量和預測某些晶片參數。一個這樣的參數是疊對誤差。 疊對誤差指晶片不同層上結構的相對位置。疊對誤差越大,則結構對偏(misalign)越多。 如果整個晶片上的疊對誤差太大,則包括該晶片的電子器件的性能可能降低。在被稱為批 次處置的工藝中,半導體生產商確定取自很多晶片的樣品晶片的疊對誤差。如果跨該樣品 晶片的疊對誤差不滿足某一標準,則該批次可以被丟棄。跨整個晶片近似疊對誤差常常包括使用目標結構。光刻工具在晶片上的各個位置 形成目標結構。該目標結構可以采取許多形式,比如方塊中方塊(box-in-box)的結構。在 這種形式中,在晶片一層上創建一個方塊,而在另一層上創建第二較小的方塊。局部的的疊 對誤差通過比較兩個方塊中心之間的對準來測量。這樣的測量是在晶片上可獲得目標結構 的位置進行的。為了恰當地評價晶片,還可能需要對其他位置處的疊對誤差的近似。為了產生這 樣的近似,可以將上述測量輸入到諸如高階線性模型的模型中。然后所述近似可以用作批 次處置工藝的部分。然而,用于這樣的近似的傳統模型有限制。例如,所述模型可能依賴于不可預測的 變量,比如光刻工具的光學性質。所述模型還可能在識別大量輸入與輸出之間通常復雜的 關系方面有問題。因此,鑒于用于預測晶片參數的現有途徑的不足,存在對克服先有技術一 些問題的途徑的需求。
發明內容
因此,本發明提供用于使用多個已知參數值預測多個未知參數值(例如疊對誤差 或臨界尺寸)的裝置和方法。在一個實施方案中,所述方法包括訓練神經網絡來預測多個 參數值。在其他實施方案中,所述預測過程不依賴于光刻工具的光學性質。這些預測可以 被用來確定晶片批次的處置。在特定示例性實現中,公開了一種預測在晶片至少一部分上分布的多個參數值的 方法。所述預測的參數值可以跨所述整個晶片分布或跨所述晶片的場分布。所述預測的參 數值可以包括多個疊對誤差值或多個臨界尺寸值。提供多個已知參數值。所述已知參數值 是從所述晶片特定測量位置處的多個目標測量的。在訓練操作中,訓練神經網絡來使用所 述測量的已知參數值,以便所述經訓練的神經網絡被配置為預測多個預測的參數值,從而 與所述特定測量位置對應的所述預測的參數值子集在所述對應測量的已知參數值的預定 義誤差函數內。在使用操作中,所述經訓練的神經網絡被用于預測跨所述晶片至少一部分 分布的多個位置處的所述預測的參數值。
在特定實施方案中,所述訓練和使用操作可以包括將來自于光刻工具的對準量度 輸入到所述神經網絡和所述經訓練的神經網絡。所述訓練和使用操作可以包括將表征所述 晶片性質的至少一個處理量度(process metric)輸入到所述神經網絡和所述經訓練的神 經網絡。所述訓練和使用操作可以包括將以下項輸入到所述神經網絡和所述經訓練的神經 網絡(i)至少一個量化所述晶片至少一個目標的背景特性的噪聲量度,(ii)所述晶片 至少一個目標的至少一個系統量度,(iii)來自于光刻工具的對準量度,以及(iv)至少 一個處理量度。在確定操作中,所述晶片的合格或不合格是基于所述經訓練的神經網絡預 測的所述預測的參數值確定的。在一種實現中,所述訓練和使用操作可以包括將所述晶片至少一個目標的至少一 個目標量度輸入到所述神經網絡和所述經訓練的神經網絡。在進一步的方面,所述至少一 個目標量度可以包括量化所述晶片所述至少一個目標的背景特性的噪聲量度。所述至少一 個目標量度可以包括所述晶片的所述至少一個目標的系統量度。在另一種實現中,本發明是關于一種預測在晶片至少一部分上分布的多個參數值 的方法。所述方法包括提供和預測操作。所述提供操作包括提供多個已知參數值,所述已知 參數值是從所述晶片特定測量位置處的多個目標測量的。所述預測操作包括預測跨所述晶 片至少一部分分布的多個位置處的多個未知參數值。所述預測操作基于所述已知參數值, 而不依賴于光刻工具的光學性質。所述預測操作可以在無需使用所述光刻工具的模型的情 況下執行。所述光學性質可以包括透鏡像差特性。在另一種實現中,本發明是關于用于預測在晶片至少一部分上分布的多個參數值 的裝置。所述預測的參數值可以跨所述整個晶片分布或跨所述晶片的場分布。所述預測的 參數值可以包括多個疊對誤差值。所述預測的參數值可以包括多個臨界尺寸值。所述裝置 包括一個或更多個處理器和一個或更多個存儲器。所述處理器和存儲器的至少一個被配置 為執行上述方法操作中的一個或更多個。將在下面對本發明的詳述及附圖中更詳細地給出本發明的這些及其他特征,所述 附圖以實施例的方式圖示本發明的原理。
圖1是根據本發明一個實施方案、用于訓練神經網絡并利用該神經網絡來預測疊 對誤差的示例性過程的圖示。圖2是根據本發明一個實施方案的疊對圖形(overlay pattern)的頂視圖照片, 所述疊對圖形也是用掃描電子顯微鏡(SEM)成像的。圖3A是根據本發明一個實施方案的對稱疊對圖形部分的頂視圖照片,所述對稱 疊對圖形部分也是用掃描電子顯微鏡(SEM)成像的。圖3B是根據本發明特定實現的疊對圖形部分的頂視圖照片,所述疊對圖形的部 分是用掃描電子顯微鏡(SEM)成像的,并且其中不同的邊緣被用于分析該圖像部分。圖4根據本發明一個實施方案、用于基于相關性的疊對測量的SEM疊對圖形的部 分的頂視圖照片。圖5是根據本發明一個實施方案的SEM設計相關分段類型目標的照片。圖6A是示例性目標結構的圖式的頂視圖。
圖6B是非對稱的示例性目標結構的圖式頂視圖。圖6C是具有噪聲背景的圖6A的目標的圖式頂視圖。圖7是圖示在示例性神經網絡內輸入、輸出和隱藏節點之間的關系的圖。圖8是圖示根據本發明一個實施方案、用于訓練示例性神經網絡的過程的流程 圖。圖9是圖示根據本發明一個實施方案、用于使用神經網絡來預測晶片的疊對誤差 的過程的流程圖。圖10是根據本發明一個實施方案的疊對測量系統的簡圖。
具體實施例方式現在將參照如附圖中圖示的本發明的一些優選實施方案詳細地描述本發明。在以 下描述中,闡述了許多的具體細節,以便于提供對本發明的全面理解。然而,本領域技術人 員將清楚,本發明可以在無需一些或所有這些具體細節的情況下實踐本發明。另外,為了不 會不必要地模糊本發明,沒有詳細地描述公知的處理步驟。圖1是用于訓練示例性神經網絡并使用該神經網絡來預測疊對誤差(overlay error)的示例性過程的圖示說明。該方法開始于框102,在此,從一批新的晶片中取出樣品 晶片。在框102,分析樣品晶片。在框106、108和110,從該分析獲得各種量度(metric)。 在框106,從該晶片獲得目標質量量度。該目標質量量度量化晶片上目標的背景特性,例如 非對稱性和噪聲。在框108,從該晶片獲得對準量度。該對準量度來自于用來在晶片上形成 結構的光刻工具。在框110,從該晶片獲得處理量度。處理量度可以表征晶片的或該晶片中 一層的平滑度(或粗糙度)水平。這些量度隨后在框114被輸入到示例性神經網絡。該神經網絡是一種將輸入關聯 到輸出的自適應性自我訓練函數。在框114,在神經網絡可以預測晶片的未知參數之前,必 須訓練該神經網絡。如果該神經網絡正被訓練,則其接收另外的參數。在框104,獲得晶片 上各個位置處的疊對誤差的值。可以使用各種技術和工具來獲得疊對誤差值,包括掃描電 子顯微鏡(SEM)或光學成像工具。這些疊對誤差值在框112被用來計算糾正值,所述糾正 值在框114中被發送到光刻工具,以改善光刻工具的性能。如從框104延伸到框114的箭 頭所示,所述疊對誤差值還被輸入到未經訓練的神經網絡。所述未經訓練的神經網絡使用 從框104、106、108和110收集的所述輸入來改善其預測能力。如果所述神經網絡已經被訓練,則在框114中所述神經網絡不再需要從框104接 收輸入(例如疊對誤差值)。在框114,所述訓練的神經網絡被用于從在框106、108和110 獲得的量度中預測疊對誤差。基于樣品晶片的預測值,在框118做出關于該批次是合格還 是不合格的判定。過程100的各個框可以以各種方式重新配置。神經網絡在框114可以接收與在框 106、108和110所獲得的輸入不同的或是另外的輸入。神經網絡在框114可以被訓練來預 測除疊對誤差以外的參數,例如臨界尺寸(critical dimension)。在那種情況下,框104將 近似期望的參數的值,而不是疊對誤差的值。在框104中對疊對誤差的測量可以涉及各種不同的技術和工具,它們中的一些 在圖2、3A和3B、4和5中給出。所述疊對是在具有以下固有對稱性的特殊設計的目標上
6測量的。用于目標的感興趣的區域(ROI)包含要在其間測量疊對的結構或層之間的結 (junction)。圖2是根據本發明一個實施方案、可以用SEM測量的目標圖像的頂視圖。如 示出的,這些結構是由厚的在內條和薄的在外條的陣列形成。在該實施例中,在感興趣的區域(ROI) 202和204中的結構在繞被稱為對稱中 心(COS)的點旋轉180°之前是相同的。疊對(或圖形設置誤差)導致在內和在外圖 形的COS之間的分離。所述疊對可以被定義為在內和在外圖形的COS之間的重合不良 (misregistration)。一般說來,可以通過定位在內和在外圖形兩者的COS來測量疊對。在第一種技術中,疊對基于邊緣檢測工藝。從在內和在外線條(如圖3A中所示) 的連續的結中抓取并分析一系列SEM圖像。圖3A圖示圖3A的目標的R0I302和304的連 結(conjunction)。ROI 302中的每個SEM圖像具有來自ROI 304的互補(被設計為對稱 的)圖像,如這兩個ROI之間的區所圖示的。在該方法中,分析ROI中的每個特定結(“SEM圖像”)以檢測邊緣(參見圖3B)。 來自于ROI 302的邊緣和來自于ROI 304的互補對偶(couple)的邊緣之間的比較給出它 們的COS位置。雖然不能測量COS的絕對位置,但是可以檢測在內和在外邊緣的COS的相
對位置,因此產生疊對結果。對來自于整個的ROI的多條邊緣的使用改善了統計,因此降低隨機誤差對測量的 影響。對物理上不同的邊緣(例如,“左”對“右”)的分開處理使得能夠監控對選定線條或 邊緣的疊對效果。在各個晶片取向(0°,90°,180° )上測量疊對允許將實際疊對與工具 影響——工具誘發移位(TIS ;0°對180° )或旋轉誘發移位(RIS ;0°對90° )——區分 開來。另一種方法基于相關性。該SEM疊對目標也具有層1和層2結構兩者,所述層1 和層2結構打算以具有通過設計而重合的對稱中心的方式對稱。圖4是根據本發明一個實 施方案、用于基于相關性的疊對測量的SEM疊對圖形的部分的頂視圖照片。從ROI (圖4的 方塊402、404、406和408)抓取的全部信號均被分析。可以(通過兩維相關性或通過在垂直方向上與后續一維相關性求和)比較在互補 ROI (方塊404對旋轉的方塊408 ;方塊406對旋轉的方塊402)中的信號,以定位層1和層 2結構的COS。COS之間的重合不良可以被定義為疊對結果。用于SEM疊對測量的另一種方法基于類似標準光學成像的疊對標記設計。在圖 5中示出SEM設計相關的分段類型目標的照片。該標記是由在內層和在外層兩者上的細 密節距格柵構建成的。類似于標準(光學成像)設計相關的分段標記,該標記以這樣的方 式設計,使得在內和在外結構的對稱中心(COS)重合。所述疊對被測量為這些COS之間的 重合不良。用于發現COS的算法可以類似于2005年7月26日授權給Michael Adel等 人、標題為"OVERLAY MARKS, METHODS OF OVERLAY MARK DESIGN AND METH0DS0F OVERLAY MEASUREMENTS (疊對標記、疊對標記設計方法和疊對測量方法)”的美國專利No. 6,921,916 中描述的標準算法。這使SEM疊對測量能夠自動化。另外,SEM設計相關的分段標記疊對 測量對SEM中出現的圖像旋轉不那么敏感。同樣,90°和180°的旋轉對稱允許容易的TIS 和RIS測量以及它們(TIS和RIS)與目標本身有瑕疵造成的效果之間的明確分離。與SEM設計相關的分段標記類似地,SEM方塊中方塊(BiB)標記可以用此處所描 述的類似光學成像的技術(算法和自動化兩者)來設計和測量。
可以使用各種技術(例如,在上面描述并在圖2、3A、3B、4和5中描繪的那些技 術)來測量疊對誤差。用于測量疊對誤差的適當技術的其他例子在2008年6月10日 授權給 Mieher 等人、標題為 “APPARATUS AND METHODS FOR DETECTING 0VERLAYERR0RS USING SCATTEROMETRY(用于使用散射測量術檢測疊對誤差的裝置和方法)”的美國專利 No. 7,385,699中給出。所述技術的結果可以連同量度一起被用于訓練神經網絡。一些這樣的量度包括對目標質量的量化。在下面描述的是用于測量和獲得這些量 度(例如系統和噪聲量度)的技術和目標結構。例如,這些技術和結構可以連同圖1中的 框106—起使用。目標結構可以采取各種形狀和設計。一種周知的疊對目標形狀是方塊中方塊結構。當然存在各種類型的疊對目標形 狀,它們也可以與本發明的技術一起使用。圖6A是示例性目標結構600的圖式頂視圖。如 示出的,目標600由在內的方塊604和在外的方塊602形成。所述在內的方塊604通常形 成在與所述在外的方塊602不同的層。例如,在DI階段(Dl-stage),所述在內的方塊604 可以是限定通路2層的抗蝕圖形,而在外的方塊602由金屬2層中的特征形成。如示出的, 在內的方塊604由被排列為方形圖形的多個段604a-604d形成,而所述在外的方塊由形成 為方形圖形的多個段602a-602d形成。通常通過找出每個方塊的中心并比較所述兩個中心 以獲得疊對誤差差異來確定疊對誤差。該差異通常用χ和y坐標表示,但是所述差異可以 用其他形式(例如,矢量)表示。如示出的,在內的方塊和在外的方塊共享同一中心606,指 示在所述在內和在外的方塊之間沒有疊對誤差。在這種情況下,疊對誤差將是0,0。圖6B是非對稱的示例性目標結構650的圖式頂視圖。如示出的,在內的方塊604 具有寬度與其余段604b-604d不同的段604e。雖然因為在內的方塊604和在外的方塊602 共享同一中心606而導致該非對稱目標650沒有疊對誤差,但是目標650由于所述非對稱 性是有缺陷的。這一類型的缺點被稱為系統誤差。系統誤差可以按目標來表征,并且它們 經常具有跨晶片的系統性性質。系統誤差通常歸因于由諸如CMP拋光、金屬濺射或光致抗 蝕劑效果的處理效果所引起的目標非對稱性。可以使用任何的適當技術來獲得非對稱性量度。在一個實施方案中,比較目標這 樣的部分,所述部分被設計為相對于彼此是對稱的。優選地,通過對來自于目標不同部分的 名義上對稱的信號形式的比較(例如,在來自于左側在外的條和右側在外的條的信號之間 的比較)來獲得系統誤差量度。因為疊對工具可以在其光學器件中具有一些非對稱性,所 以建議在晶片的兩個取向上測量非對稱性量度(Asymmetry Metric) :0°和180°。最終系 統或非對稱性量度可以計算為非對稱性(最終)=[非對稱性(0° )_非對稱性(180° )]/2。對于圖6B的示例性目標,將左側在內的條604e與右側在內的條604c進行比較, 以針對目標在內部分獲得X方向的非對稱性量度。同樣地,可以將左側在外的條602a與右 側在外的條602c進行比較,以針對目標的在外部分確定χ方向的非對稱性量度。可以將頂 部在內的條604d與底部在內的條604b進行比較,以確定目標是否具有y方向的非對稱性 量度。同樣地,可以將頂部在外的條602d與底部在外的條602b進行比較,以針對目標的在 外部分確定y方向的非對稱性量度。這些不同的χ和y方向的非對稱性量度隨后可以組合 成最終的非對稱性量度。用于通過比較測量目標非對稱性的具體技術或算法包括傅立葉變 換技術、導數(斜率)技術、重疊積分技術和重力中心技術。這些用于獲得非對稱性量度的技術可以與本發明的實施方案結合使用。可以在圖1的框106獲得的另一目標質量量度是噪聲量度。圖6C是圖6A的目標 600具有噪聲背景660的圖式頂視圖。如示出的,背景噪聲呈顆粒的形式。然而,所述噪聲 可以是由圖像中任何的空間噪聲源所引起的。噪音660可以導致在內的方塊604或在外的 方塊602的明顯的中心在例如方向667上移位。因此,所產生的疊對誤差可能是由隨機噪 聲所引起的,而不是由實際的疊對誤差或系統誤差所引起的。這些類型的誤差被稱為隨機 誤差。隨機誤差歸因于諸如粒性的處理效果所導致的空間噪聲。這些噪聲相關的誤差的特 征在于這樣的事實,即它們對跨晶片的多個目標甚至單個目標的影響本質上是統計性的。可以實現任何用于表征噪聲數據的適當技術來獲得針對一目標的噪聲量度。例 如,可以使用以下噪聲確定算法統計算法,積分噪聲算法,積分導數算法,信號對噪聲算法 或噪聲譜算法。根據本發明的實施方案,這些算法可以產生神經網絡的噪聲量度。可以輸入到根據本發明的神經網絡的另一量度是處理量度。處理量度表征晶片的 屬性。例如,處理量度可以反映與光刻處理有關的參數。這樣的處理量度包括與曝光后烘 烤(PEB)溫度、PEB次數、底部反反射涂層(BARC)厚度、顯影時間、劑量、聚焦和掃描方向相 關聯的值。處理量度還可以代表晶片的物理特征。這樣的處理量度包括與臨界尺寸、抗蝕 劑厚度、側壁角度和晶片平面度對應的值。例如,晶片平面度可以使用各種量度來表示,例 如所基于的場點,所參考的前表面(SFQR),移動平均數(MA),拋出高度(CHK),流平檢驗測 試(LVT),范圍和厚度變化(THK)。適于與本發明的一些實施方案一起使用的處理量度的實 施例在 Valley 等人的 “APraOACHING NEW METRICSFOR WAFER FLATNESS (接近針對晶片平 面度的新量度)、Richard Silver 等人的"Metrology, Inspection and Process Control Process Control FOR Microlithography XVIII (Proceedings of SPIE Vol. 5375, SPIE, 2004)(用于微光刻XVIII的計量法、檢查和工藝控制(SPIE匯刊,5375卷,SPIE, 2004))” 和 Dusa 等人的 “ INTRA-W AFER CDUCHARACTERIZATION TO DETERMINE PROCESS AND FOCUS C0NTRIBUTI0NSBASED ON SCATTEROMETRY METROLOGY,,、Kenneth Tobin 等人的 “Data Analysis andModeling FOR Process Control (Proceedings of SPIE Vol. 5378, SPIE, 2004 (用于工藝控制的數據分析和建模(SPIE匯刊,5378卷,SPIE, 2004)) ”中給出。可以被輸入神經網絡來預測分布的晶片特性的另一量度被稱為對準量度。一般說 來,對準量度是容易從任何光刻工具獲得的。對準量度通常是為其他目的(例如標度線對 準)提供的。對準量度可以估計對準標記的質量。該量度還可以與用于校準光刻工具的而 且由對疊對誤差或一些其他參數的測量推導而來的糾正值有關。這樣的糾正值的實施例在 圖1的框112和116中給出。上述量度是根據本發明的一些實施方案、可以用來訓練神經網絡的已知參數的實 施例。使用在這里和在權利要求書中的術語“神經網絡”應該被理解為包括從一組輸出預 測一組輸入而且通過反復的自我學習過程改善其預測準確度的任何系統,包括但不限于傳 統的神經網絡。存在許多適于與本發明一起使用的神經網絡類型,其中有一些是在商業上 可獲得的。這些神經網絡的一些可以是基于硬件或軟件的、位于一個裝置中或者跨多個平 臺分布。圖7是根據本發明一個實施方案的示例性神經網絡700的圖示。神經網絡700是 用于將輸入組(sets of inputs) 702與輸出組706關聯的自適應迭代系統。所述輸入可以
9包括類似在圖1的框106、和110中獲得的那些目標質量量度、對準量度和處理量度。輸入 702還可以包括晶片和場坐標,從而所獲得的疊對誤差值可以與晶片上的位置關聯。輸入 702可以包括其他輸入或者用其他輸入替換以上的一些輸入。 網絡700 —般包括多個隱藏節點704,例如節點H1-H5。隱藏節點704可以被理解 為神經網絡700中那些不是輸入702或者輸出706的而且僅連接到輸入702、輸出706或彼 此的節點。神經網絡700可以包含很多更多的層和隱藏節點,但是為了簡化和清楚起見僅 示出一層和五個隱藏節點。隱藏節點704通過連接708鏈接到輸入702。隱藏節點704通 過連接710與輸出706有關。連接708和710定義輸入702、隱藏節點704與輸出706之間 的關系。這樣的關系可以通過數學運算和系數或權重的組合來表征。例如,將輸入702(在 下面通過變量“X”代表)相關到隱藏節點704(在下面通過變量“H”代表)的連接708可 以如下定義 使隱藏節點704與輸出變量706 (在下面通過變量“Y”代表)相關的連接710可 以如下定義對于連接708和710的上述定義是許多可能性中的兩種。數學運算、參數、系數、 隱藏節點、輸入和輸出的任何組合都可以用于連接708和710。注意,在由輸入702計算隱藏節點704的值時,使用系數或權重aii。類似地,在由 隱藏節點704計算輸出的值時,使用系數或權重biit)對這些系數的調整在神經網絡700的 訓練中占一席之地。在下面更詳細地描述了這些訓練。圖8給出根據本發明一個實施方案、用于神經網絡832的訓練過程800的圖示。該 過程開始于框802,在此,分析晶片(框804),并將上述量度中的一些——例如目標質量量 度和處理量度(框808和812)——輸入到神經網絡832中。神經網絡832另外從光刻工具 (框810)以及場和晶片坐標(框814)中接收與晶片對準有關的輸入。上述量度被輸入到神經網絡832,所述神經網絡832通過定義例如與早先參照圖7 中的框704討論的隱藏節點對應的多個隱藏節點(框816)來開始訓練過程。可以在該階 段定義節點和節點層的范圍。在隱藏節點被建立之后,為來自于圖7中連接708和710的 權重和、選定任意值。可替換地,可以基于任何適當的準則來智能地選擇所述權重, 即,非隨機的選擇。在框820,至少部分地使用來自于框808、810、812和814的輸入和權重來確定 隱藏節點的值。例如,該確定操作之前在圖7中通過關系708來圖示。在框822,從在框820 找出的隱藏節點的值和在框818選擇的權重、中部分地推導出輸出的值。例如,所述輸出 和所述隱藏節點之間的關系也是之前在圖7中用關系710給出的。神經網絡832正被訓練來基于在框808、810、812和814中獲得的輸入預測晶片上 多個如場和晶片坐標所標識的(框814)位置的疊對誤差值。神經網絡832的訓練包括生 成疊對誤差的預測、將所述預測與外部獲得的疊對誤差值進行比較、以及重新調整神經網 絡832直到它可以合理地獨立生成準確預測。框806產生用于訓練神經網絡832的疊對誤差值(例如,從疊對目標確定)。框806可以使用各種疊對測量技術來生成所述疊對誤差 值,包括之前連同圖2、3A、3B、4和5提及的那些技術。框806還可以利用數學模型來生成 疊對誤差的近似。在框824,將從外部獲得的疊對誤差的值與神經網絡832產生的疊對誤差值進行 比較。在該階段,在框822由神經網絡832產生的疊對誤差值可能是非常不準確的,因為它 們至少部分地基于在框818隨機選擇的權重。在框828評估生成值的準確度。如果評估導 致超過某一閾值(或者不在預定規范之內)的誤差,則將在框826調整該權重并將從框820 重新開始該訓練過程。在框826對權重進行的調整的性質可以大大地不同。可以調整除了權重以外的參 數或者附加于權重的參數。可以基于各種技術(包括反向傳播)來調整權重。在該技術的 一個應用中,預測的輸出值(例如,框824產生的值)將與期望的輸出值(例如,框806產 生的值)進行比較。將至少部分地基于該差異調整權重biit)還可以通過由輸出的值和
的最佳值推測這樣的值來確定隱藏節點的期望的值。可以類似地至少部分基于隱藏節點的 期望值和預測值(例如,框820產生的值)之間的差異調整權重aii。對于隱藏節點的附加 層,如果這樣的層存在的話,可以重復該過程。隨著每個調整(框826),產生隱藏節點的新值(框820)和輸出的新值(框822)。 這些輸出的值還被測試(框824),如果發現不滿意,則嘗試新的調整(框826)。經過多次 重復和調整,神經網絡826 “學習”如何改善其預測的準確度。一旦神經網絡832可以以可 接受的準確程度預測疊對誤差,則該訓練過程將終止(框830)。在訓練過程結束時,神經網 絡優選地可以預測跨整個晶片或者晶片的場分布的疊對誤差值。一旦神經網絡已經被恰當地訓練,則它可以被用來用已知的參數值預測未知參數 值。圖9是根據本發明一種實施方案的這樣的過程的圖示。例如,神經網絡920已經被訓 練來按圖8的方式預測疊對誤差值。為了該實施例的目的,假定神經網絡920的內部結構 類似于圖8中給出的結構。該預測過程開始于框902,在此,從一批次選定晶片(框904)。 如對于圖9中的訓練過程的情況那樣,從該晶片(或者用于獲得對準量度的光刻工具)獲 得諸如目標質量量度(框906)、對準量度(908)和處理量度(910)的各種量度。這些量度 連同晶片和場坐標一起被輸入到神經網絡中(框912)。神經網絡920將權重、應用于上述輸入,產生各個隱藏節點的值(框914)。將 權重應用于隱藏節點的值,產生對疊對誤差的預測(框916)。為了簡化的目的,可以假 定框914和916中涉及和的計算是關于圖7中連接708和710的已經描述的計算的 映像。假定神經網絡920被充分地訓練并且在框906、908和910輸入的量度是可靠的,則 在預測過程918結束時,神經網絡920應該提供疊對誤差的合理近似。經訓練的神經網絡920可以因此在除了來自于框906、908、910和912的輸入之外 無需任何其他項的情況下預測疊對誤差。神經網絡920因此不依賴于光刻工具的光學性 質。許多用于近似疊對誤差的傳統模型依賴于這樣的性質。這種依賴是有問題的,因為不 同的光刻工具有不同的性質,這需要對模型的重新調整。例如,如果傳統模型不考慮光刻工 具中的透鏡像差,則該模型的預測能力可能降低。然而,經訓練的神經網絡920不受此依賴 性的影響,并且不必考慮光刻工具的光學性質。經訓練的神經網絡920還有能力將數量眾 多的輸入與輸出關聯,以找出以其他方式可能難以檢測的因果連接。
圖8中的訓練過程800和圖9中的預測過程900可以在軟件或者硬件中實現。例 如,所述過程可以被并入到配備有至少一個處理器和至少一個存儲器的設備(例如,計算 機或測量工具)中。如之前注意到的,圖8中的訓練過程800和圖9中的預測過程900包括輸入各種 類型的數據到神經網絡中。該數據可以包括目標質量量度(圖9中的框906)和處理量度 (框910)。該數據還可以包括疊對誤差的近似(圖8中的框806)。這樣的數據可以使用各 種類型的裝備來獲得。例如,可以使用掃描電子顯微鏡(SEM)來測量疊對。圖10提供使用 成像來從晶片中收集數據的疊對測量系統或計量工具1020的圖示。成像是一種非常成熟的技術,使用者接受度高,并且其部件對于使用者來說容易 獲得。如一般公知的,成像是一種在任何一個時刻收集大量信息的有效方式。亦即,可以同 時觀察標記內的所有點。而且,成像允許使用者查看在晶片上實際正在測量什么。各個組 件的尺寸被放大以更好地圖示該實施方案。疊對測量系統1020可以被用來確定各種參數,包括疊對誤差、系統量度和噪聲量 度。例如,疊對測量工具1020可以被使用來訓練圖8中的神經網絡832,并提供與圖1中 的框104和106、圖8中的框806和808、以及圖9中的框906相關的數據。疊對測量工具 1020經由一個或更多個設置在晶片1024上的疊對目標1022確定這些參數。在大多數情況 中,疊對目標1022被定位在晶片1024的刻線(scribe line)內。如一般公知的,刻線是晶 片中這樣的區域,其被用來將晶片鋸開并切分為多個管芯。然而,應該注意,這并非限制,并 且目標的位置可以根據每個設備設計的需要而改變。例如,半導體器件的設計者可能選擇 將疊對目標插入在有源器件(active device)的區域內部。如示出的,疊對測量系統1020 包括光學組件1026以及具有處理器和一個或更多個存儲器器件的計算機系統1028。光學 組件1026 —般被安排來捕獲疊對目標1022的圖像。另一方面,所述計算機被安排來計算 疊對目標要素(element)與所捕獲圖像的相對位移和目標診斷,而且訓練神經網絡來預測 疊對誤差等等。在所圖示的實施方案中,光學組件1026包括被安排為沿著第一路徑1034發射光 1032的光源1030 (例如,非相干的或相干的,雖然非相干的一般是優選的)。使光1032入 射在第一透鏡1035上,所述第一透鏡1035將光1032聚焦在光纖線路1036上,所述光纖線 路1036被配置為使光1032通過其。當光1032從光纖線路1036出來時,它隨后經過第二 透鏡1038,所述第二透鏡1038被安排來將光纖1036的末端成像到該光學系統中適當的光 學平面上,例如物鏡1044的入射光瞳中。光1032隨后繼續其路徑直到它抵達分束器立方 體1040,所述分束器立方體1040被安排來將光引導到路徑1042上。使沿著路徑1042繼續 的光1032入射在物鏡1044上,所述物鏡1044將光1032中繼到晶片1024上。反射離開晶片1024的光1032隨后被物鏡1044收集。應該意識到,物鏡1044收 集的反射光1032 —般的包含晶片1024部分的像,例如,疊對目標1022的像。當光1032離 開目標1044時,它沿著路徑1042 (圖14中向上)繼續,直到它抵達分束器立方體1040。一 般說來,物鏡1044在光學上以與操縱入射光的方式相反的方式操縱所收集的光。亦即,物 鏡1044使光1032重新成像并將光1032朝分束器立方體1040引導。分束器立方體1040 被安排來將光1032引導到路徑1046上。在路徑1046上繼續的光1032隨后被管透鏡1050 收集,所述管1050將光1032聚焦到記錄晶片1024的像(更具體地,是目標1022的像)的照相機1052上。舉例來說,照相機1052可以是電荷耦合器件(CXD)、兩維(XD或線性(XD 陣列。在大多數情況中,照相機1052將記錄的像變換為電信號,所述電信號被發送到計算 機1028。在接收到所述電信號后,計算機1028使用如上面描述的那樣的算法來進行分析, 所述算法計算所述像的疊對誤差目標、量度,并訓練神經網絡來預測疊對誤差等等。系統1020還包括與計算機1028和照相機1052 —同工作來從晶片1024抓取圖像 的幀抓取器1054。雖然幀抓取器1054被顯示為分立部件,但應當注意的是,幀抓取器1054 可以是計算機1028的部分和/或照相機1052的部分。幀抓取器1054的功能一般是將來 自于照相機1052的信號轉換為計算機1028可用的形式。疊對計量事件被分成兩個功能 (function)——目標獲取和圖像抓取。在目標獲取期間,幀抓取器1054和計算機1028與 晶片臺1056協作來將目標置于在焦點上并將目標定位為盡可能靠近計量工具視場(F0V) 的中心。在大多數情況中,幀抓取器抓取多個圖像(例如,不只是用于測量疊對的圖像), 并且所述臺在這些抓取之間移動晶片直到目標在X、Y和Z方向上正確定位。應該意識到, X和Y方向一般與視場(F0V)對應,而Z方向一般的與焦點對應。一旦幀抓取器確定正確 的目標位置,則實現這兩個功能中的第二個(例如,圖像抓取)。在圖像抓取期間,幀抓取 器1054做出最后的一次或多次抓取,以便捕獲并儲存正確定位的目標圖像,也就是被用于 確定疊對和目標診斷的圖像。在抓取圖像后,從所抓取的圖像提取信息來確定疊對誤差。隨后可以使用各種算 法來確定半導體晶片各層之間的重合誤差。例如,可以使用基于頻域的途徑、基于空間域的 途徑、傅立葉變換算法、過零檢測、相關性和互相關性算法及其他算法。所提出用于經由本文描述的標記(例如包含周期性結構的標記)確定疊對和目標 診斷量度(例如非對稱性)的算法一般可以被分成數個組。例如,一個組可以與基于相位 獲取的分析有關。基于相位獲取的分析通常包括通過借助于沿周期性結構的線條對像素求 和而疊并(collapse)每一工作區來創建一維信號,所述基于相位獲取的分析通常被稱作 基于頻域的途徑。可以使用的相位獲取算法的實施例在2000年2月8日授權的美國專利 No. 6,023,338,2002年10月8日授權的美國專利No. 6,462,818以及2002年11月26日授 權的美國專利No. 6,486,954中被描述。可以使用的再一種相位獲取算法在2006年3月7日授權的美國專利 No. 7,009, 704中被描述。在其中所公開的相位獲取算法將信號分解為一組基本信號頻率的 諧波。不同諧波的振幅和相位的定量比較提供關于信號對稱性和譜內容的重要信息。具體 來說,同一信號的第一和第二或高次諧波(以它們的振幅校準)之間的相差測量信號的非 對稱性程度。對這種非對稱性的主要貢獻來自于計量工具中的光學未對準和照明非對稱性 (工具誘發移位)以及處理誘發的結構特征(晶片誘發移位)。針對從同一處理層上視場 的不同部分獲取的信號,比較第一和第二諧波相位之間的重合不良,可以提供關于計量工 具光學象差的獨立信息。最終,對來自于在給定取向上進行測量的這些重合不良與在旋轉 晶片180度后獲得的重合不良進行的比較允許將工具誘發移位與由于非對稱性而造成的 晶片誘發移位分離開。可以使用的再又一種相位獲取算法是小波分析。小波分析有點類似于在上面的部 分描述的算法,只是現在動態窗跨一維信號移動并且以更局部化的方式進行相位估計。尤 其感興趣的是,其在啁啾的(chirped)周期性結構的情況下的使用。
13
另一組可以與基于相關性的方法有關。在該途徑中,通過計算一個信號與來自于 相同處理層、來自于標記相對部分的相反信號的互協方差來找出每個處理層的對稱中心。 該技術類似于當今關于方塊中方塊目標所使用的技術。以實施例的方式給出上述技術,并且已經測試和證明了上述技術的良好性能。用 于計算疊對的其他可替換算法方法包括自相關和互相關技術、誤差相關技術、誤差最小化 技術(例如,最小化絕對差,最小化差的平方)、基于閾值的技術(包括過零檢測和峰值檢 測)的其他變體。還存在可以用于在兩個一維圖形之間尋找最佳匹配的動態規劃算法。如 上述的,可以針對在之前的部分中描述的所有各種疊對標記運用分析算法和途徑。重要的是,應當注意上面的圖及其描述不是限制,而且所述重疊圖像系統可以以 許多其他形成實施。例如,預期所述疊對測量工具可以是任何多種適當的和已知的成像 或計量工具,所述工具被安排來解析形成在晶片表面上的疊對標記的臨界方面(critical aspect)。以實施例的方式,疊對測量工具可以被調適用于明視場成像顯微術、暗視場成像 顯微術、全天空成像顯微術、相位對比顯微術、偏振對比顯微術和相干探針顯微術。還預期 可以使用單個圖像或多個圖像的方法,以便于捕獲目標的圖像。這些方法例如包括單次抓 取、雙次抓取、單次抓取相干探針顯微術(CPM)和雙次抓取CPM方法。其中,這些類型的系 統是商業上可獲得的。以實施例的方式,單個圖像和多個圖像的方法是容易從加利福尼亞 州圣荷塞的KLA-Tencor獲得的。可以預期非成像的光學方法(例如散射測量術),以及諸 如SEM(掃描電子顯微鏡)的非光學方法,以及例如AFM(原子力顯微鏡)或輪廓測定儀的 非光學的基于觸針的儀器。無論用于實踐本發明的技術的系統結構如何,其可以采用一個或更多個存儲器或 存儲模塊,所述存儲器或存儲模塊被配置為儲存針對通用檢驗操作和/或本文描述的發明 性技術的數據、程序指令。所述程序指令可以控制例如操作系統和/或一個或更多個應用 的操作。所述一個或多個存儲器還可以被配置為儲存目標的圖像、疊對誤差值、目標診斷量 度及其他量度、預測的疊對誤差值、與神經網絡使用和訓練相關的數據,以及檢查或計量系 統的特定操作參數值。盡管出于清楚理解的目的已經較詳細地描述了發明,但是講清楚可以在所附權利 要求書的范圍內實踐某些變化和修改。因此,所描述的實施方案應該被視為說明性的而非 限制性的,并且本發明將不會受限于本文給出的細節,應該由所附權利要求書及其等同方 案的完全范圍來限定。
權利要求
一種預測在晶片至少一部分上分布的多個參數值的方法,所述方法包括提供多個已知參數值,所述已知參數值是從所述晶片上特定測量位置處的多個目標測量的;使用所述測量的已知參數值訓練神經網絡,以便于所述經訓練的神經網絡被配置為預測多個預測的參數值,從而與所述特定測量位置對應的所述預測的參數值的子集在所述對應測量的已知參數值的預定義誤差函數內;使用所述經訓練的神經網絡來預測在跨所述晶片至少一部分分布的所述多個位置處的所述預測的參數值;以及基于所述經訓練的神經網絡預測的所述預測的參數值確定所述晶片合格還是不合格。
2.如權利要求1所述的方法,其中所述預測的參數值跨整個晶片分布或跨所述晶片的 場分布。
3.如權利要求1或2所述的方法,其中所述預測的參數值包括多個疊對誤差值。
4.如權利要求1或2所述的方法,其中所述預測的參數值包括多個臨界尺寸值。
5.如權利要求1-4中任一所述的方法,其中訓練所述神經網絡并且使用所述經訓練的 神經網絡的操作包括將所述晶片的所述目標中至少之一的至少一個目標量度輸入到所述 神經網絡和所述經訓練的神經網絡。
6.如權利要求5所述的方法,其中所述至少一個目標量度包括量化所述晶片的所述至 少一個目標的背景特性的噪聲量度。
7.如權利要求5或6所述的方法,其中所述至少一個目標量度包括所述晶片的所述至 少一個目標的系統量度。
8.如權利要求1-7中任一所述的方法,其中訓練所述神經網絡和使用所述經訓練的神 經網絡的操作包括將來自于光刻工具的對準量度輸入到所述神經網絡和所述經訓練的神 經網絡。
9.如權利要求1-8中任一所述的方法,其中訓練所述神經網絡和使用所述經訓練的神 經網絡的操作包括將表征所述晶片性質的至少一個處理量度輸入到所述神經網絡和所述 經訓練的神經網絡。
10.一種預測在晶片至少一部分上分布的多個參數值的方法,所述方法包括提供多 個已知參數值,所述已知參數值是從所述晶片上特定測量位置處的多個目標測量的;以及 預測在跨所述晶片至少一部分分布的多個位置處的多個未知參數值,其中所述預測操作基 于所述已知參數值,而不依賴于光刻工具的光學性質。
11.如權利要求10所述的方法,其中所述預測操作是在無需使用所述光刻工具的模型 的情況下執行的。
12.如權利要求10或11所述的方法,其中所述光學性質包括透鏡像差特性。
13.一種用于預測在晶片至少一部分上分布的多個參數值的裝置,所述裝置包括一個或更多個處理器;一個或更多個存儲器,其中所述處理器和存儲器的至少一個被配置為提供多個已知 參數值,所述已知參數值是從所述晶片上特定測量位置處的多個目標測量的;使用所述測 量的已知參數值訓練神經網絡,以便于所述經訓練的神經網絡被被配置為預測多個預測的 參數值,從而與所述特定測量位置對應的所述預測的參數值的子集在所述對應測量的已知參數值的預定義誤差函數內;使用所述經訓練的神經網絡來預測在跨所述晶片至少一部分 分布的所述多個位置處的所述預測的參數值;以及基于所述經訓練的神經網絡預測的所述 預測的參數值確定所述晶片是合格還是不合格。
14.如權利要求13所述的裝置,其中所述預測的參數值跨所述整個晶片分布或跨所述 晶片的場分布。
15.如權利要求13或14所述的裝置,其中所述預測的參數值包括多個疊對誤差值。
16.如權利要求13或14所述的裝置,其中所述預測的參數值包括多個臨界尺寸值。
17.如權利要求13-16中任一所述的裝置,其中訓練所述神經網絡并且使用所述經訓 練的神經網絡的操作包括將所述晶片的所述目標中至少之一的至少一個目標量度輸入到 所述神經網絡和所述經訓練的神經網絡。
18.如權利要求17所述的裝置,其中所述至少一個目標量度包括量化所述晶片的所述 至少一個目標的背景特性的噪聲量度。
19.如權利要求17或18所述的裝置,其中所述至少一個目標量度包括所述晶片的所述 至少一個目標的系統量度。
20.如權利要求13-19中任一所述的裝置,其中訓練所述神經網絡和使用所述經訓練 的神經網絡的操作包括將來自于光刻工具的對準量度輸入到所述神經網絡和所述經訓練 的神經網絡。
21.如權利要求13-20中任一所述的裝置,其中訓練所述神經網絡和使用所述經訓練 的神經網絡的操作包括將表征所述晶片性質的至少一個處理量度輸入到所述神經網絡和 所述經訓練的神經網絡。
22.一種用于預測在晶片至少一部分上分布的多個參數值的裝置,所述裝置包括一個或更多個處理器;一個或更多個存儲器,其中所述處理器和存儲器的至少一個被配置為提供多個已知參數值,所述已知參數值是從所述晶片上特定測量位置處的多個標測量 的;以及預測在跨所述晶片至少一部分分布的多個位置處的多個未知參數,其中所述預測操作 基于所述已知參數值而不依賴于光刻工具的光學性質。
23.如權利要求22所述的裝置,其中所述預測操作是在無需使用所述光刻工具的模型 的情況下執行的。
24.如權利要求22或23所述的裝置,其中所述光學性質包括透鏡像差特性。
全文摘要
提供了用于使用多個已知參數值預測多個未知參數值(例如疊對誤差或臨界尺寸)的裝置和方法。在一個實施方案中,所述方法包括訓練神經網絡來預測所述多個參數值(114,700,800,900)。在其他實施方案中,所述預測過程不依賴于光刻工具的光學性質。這些預測可以被用來確定晶片批次的處置(114)。
文檔編號H01L21/66GK101939833SQ200880113786
公開日2011年1月5日 申請日期2008年8月29日 優先權日2007年8月31日
發明者P·伊茲克森 申請人:恪納騰公司