發表於2024-12-22
完整描述瞭軟錯誤産生的復雜物理機製, 涵蓋瞭很多技術領域;
詳細介紹瞭閤理成本下的軟錯誤降錯方法, 包括軟件技術和硬件技術;
討論瞭其他可靠性威脅,如波動性、 電磁兼容和加速老化等問題的解決方法。
本書係統闡述瞭軟錯誤發生的復雜物理過程,全書共分為10章。主要介紹瞭軟錯誤研究曆史和未來發展趨勢; 單粒子效應發生機製與分類;JEDEC標準;門級建模與仿真;電路級和係統級單粒子效應建模與仿真;硬件故障注入;采用加速測試與錯誤率預估技術,評估驗證麵嚮空間或地麵環境的集成電路;電路級軟錯誤抑製技術;軟件級軟錯誤抑製技術;高可靠電子係統軟錯誤性能的技術指標與驗證方法。全書總結瞭過去,預測瞭未來趨勢,闡述瞭單粒子的翻轉物理機製、建模、軟錯誤抑製技術以及業界和學界的研究成果。
韓鄭生,中科院微電子研究所研究員/教授,博士生導師,研究方嚮為微電子學與固體電子學,從事集成電路工藝技術、電路設計方麵的工作,曾任高級工程師,光刻工藝負責人,研究室副主任兼任測試工藝負責人,矽工程中心産品部主任,項目/課題負責人。國傢特殊津貼獲得者。國傢自然基金麵上項目評審專傢。 Michael Nicolaidis是軟錯誤研究領域中的**,他曾開展過很多原創性的研發工作,發錶過大量學術論文,申請和擁有很多發明專利,並建立瞭iROC Technologies公司,該公司針對電子係統提供完整的軟錯誤分析和設計服務方案。
第1章 天地間的軟錯誤: 曆史迴顧、 實驗證據和未來趨勢
1.1 介紹
1.2 曆史
1.3 電子係統中的軟錯誤
1.4 等比例縮小對於軟錯誤的影響
1.4.1 SRAM軟錯誤率的變化趨勢
1.4.2 DRAM軟錯誤率的變化趨勢
1.4.3 鎖存器和觸發器的軟錯誤率
1.4.4 組閤邏輯電路軟錯誤率
1.4.5 單粒子閂鎖變化趨勢
1.4.6 未來趨勢
1.5 結論
參考文獻
第2章 單粒子效應: 機理和分類
2.1 介紹
2.2 背景環境、 作用機理及反衝能量損失
2.2.1 自然輻照環境
2.2.2 中子和物質的相互作用: 産生高能反衝物
2.2.3 反衝物: 離化和射程
2.2.4 電離
2.2.5 結論
2.3 電子元器件和係統中的單粒子效應
2.3.1 單粒子效應定義
2.3.2 軟錯誤率
2.3.3 臨界電荷標準
2.3.4 電路仿真中的電流脈衝描述
2.4 器件敏感度
2.4.1 單粒子瞬態
2.4.2 單粒子翻轉
2.4.3 SRAM和DRAM中的多位翻轉和多單元翻轉
2.4.4 單粒子功能中斷
2.4.5 單粒子事件閂鎖
2.5 結論
參考文獻
第3章 JEDEC標準: 用於測試和報告α粒子和地錶宇宙射綫引起的軟錯誤
3.1 介紹
3.1.1 JESD89係列標準的意義
3.1.2 術語和定義
3.1.3 標準所涵蓋的器件
3.1.4 報告要求
3.2 加速α粒子軟錯誤率測試(參見JESD89A第四部分和JESD89?2A)
3.2.1 α粒子能譜和發射率(參見JESD89A 附錄D)
3.2.2 α粒子源的選擇(參見JESD89A 5.4.1節和JESD89?2A 4.2.2.1節)
3.2.3 封裝和製樣(參見JESD89A 5.3節和5.4.5節以及JESD89?2A 4.4節)
3.2.4 外推加速失效率至現場使用環境(參見JESD89A 5.6.4節)
3.2.5 加速α粒子測試的優勢和局限性
3.3 加速高能中子測試(參見JESD89A第六部分和JESD89?3A)
3.3.1 地球環境高能中子注量與能譜(參見JESD89A 6.6.2.4節)
3.3.2 基於參考譜外推至其他位置和條件(參見JESD89A附錄A.3)
3.3.3 測試裝置(參見JESD89A 6.2節)
3.3.4 封裝、 製樣和次級離子效應(參見JESD89?3A 5.4節和附錄A)
3.3.5 束流特性(參見JESD89A 6.5節)
3.3.6 單一能量束流下的軟錯誤率(參見JESD89A 6.6節)
3.3.7 基於寬譜中子束流的軟錯誤率(參見JESD89A 6.6.2.4節)
3.3.8 加速高能中子測試的優點和局限性
3.4 加速熱中子軟錯誤率測試
3.4.1 背景(參見JESD89A 7.1節)
3.4.2 熱中子譜(參見JESD89A附錄A.4)
3.4.3 封裝和製樣(參見JESD89A 7.3節)
3.4.4 熱中子源的選擇、 校準和屏蔽效應(參見JESD89A 7.4節)
3.4.5 單粒子翻轉截麵和單粒子翻轉率(參見JESD89A 7.6.2節)
3.4.6 加速熱中子測試的優勢和局限性
3.5 實時(非加速)軟錯誤率測試
3.5.1 測試方法目標
3.5.2 大樣本和長時間測試
3.5.3 區分α粒子和中子對於軟錯誤率的影響
3.5.4 高空測試以增加中子對軟錯誤率的影響
3.5.5 建築物的屏蔽效應(參見JESD89A附錄A.5)
3.5.6 最小FIT和置信度(參見JESD89A附錄C)
3.5.7 實時測試的優點和局限性
3.6 結論
參考文獻
第4章 門級建模和仿真
4.1 介紹
4.2 基於核反應的濛特卡羅選擇和器件仿真, 從核交互到瞬態電流計算
4.2.1 中子/物質核反應數據庫
4.2.2 次級離子引發的瞬態電流
4.2.3 舉例: 高能中子在SRAM中引發的單粒子翻轉和多單元翻轉
4.3 邏輯門電路SET和SEMT濛特卡羅仿真
4.3.1 單個粒子引起多個瞬態電流
4.3.2 拓撲描述和工藝描述
4.3.3 核反應實例
4.3.4 瞬態脈衝計算
4.3.5 電流脈衝統計
4.4 時序電路和組閤電路的軟錯誤評估SPICE分析方法學
4.4.1 精簡的瞬態電流分析
4.4.2 敏感結點列錶
4.4.3 自動化多瞬態電流仿真
4.4.4 結果分析
4.4.5 以反相器為例
4.4.6 多瞬態故障注入結果
4.5 結論
參考文獻
第5章 電路級和係統級的單粒子效應建模與仿真
5.1 介紹
5.2 定義目標對象
5.2.1 單粒子效應模型和度量
5.2.2 功能失效
5.2.3 電路錶徵和抽象級彆
5.3 SEE分析方法和概念
5.3.1 定量SEE分析
5.3.2 電學降額
5.3.3 時序降額
5.3.4 邏輯降額
5.3.5 功能降額
5.4 動態SEE分析
5.4.1 綜述
5.4.2 門級網錶SEE仿真
5.4.3 行為級/RTL/HLS SEE仿真
5.5 靜態SEE分析
5.5.1 綜述
5.5.2 門級
5.5.3 行為級/RTL級
5.5.4 架構/模塊
5.6 結論
參考文獻
第6章 硬件故障注入
6.1 介紹
6.2 硬件故障注入技術
6.2.1 物理故障注入
6.2.2 邏輯故障注入
6.2.3 基於電路仿真的邏輯故障注入
6.3 故障注入係統
6.3.1 工作負載
6.3.2 故障列錶
6.3.3 故障分類
6.3.4 結果分析
6.3.5 通信
6.4 故障注入優化
6.4.1 自動仿真
6.4.2 故障評估進程
6.4.3 狀態恢復
6.4.4 早期故障分類
6.4.5 嵌入式存儲器
6.5 結論
參考文獻
第7章 用於空間和地麵應用的集成電路的鑒定: 加速實驗和錯誤率預測
7.1 介紹
7.2 輻射産生單粒子效應及其對集成電路的影響
7.3 加速實驗: 方法和相關的結果
7.3.1 截麵的概念
7.3.2 靜態和動態的SEU試驗方法
7.4 實驗設施: 重離子、 中子、 質子加速器和激光
7.4.1 重離子
7.4.2 質子
7.4.3 中子
7.4.4 微束和激光
7.5 需求的實驗平颱和通用實驗平颱的描述
7.5.1 介紹
7.5.2 ASTERICS實驗平颱
7.6 地麵輻照實驗: 案例研究
7.6.1 SRAM存儲器
7.6.2 處理器和微控製器
7.6.3 SRAM型現場可編程門陣列(FPGA)
7.7 針對處理器架構的動態截麵預測的硬件/軟件故障注入方法: 案例研究
7.8 結論
參考文獻
第8章 電路級軟錯誤抑製技術
8.1 介紹
8.2 存儲器中軟錯誤的加固設計
8.2.1 1位糾錯2位檢錯碼
8.2.2 消除ECC保護存儲器的速度代價
8.2.3 ECC與非標準存儲器
8.3 CRC碼
8.4 裏德所羅門碼
8.4.1 編碼
8.4.2 校正子計算
8.5 使用內置電流傳感器保護存儲器
8.6 抑製邏輯電路中的錯誤
8.6.1 加固存儲單元
8.6.2 抑製SET
8.7 結論
參考文獻
第9章 軟件級軟錯誤抑製技術
9.1 介紹
9.2 影響數據的錯誤
9.2.1 運算復製
9.2.2 進程級復製
9.2.3 程序級復製
9.2.4 可執行的判斷
9.3 影響執行流程的故障
9.3.1 背景
9.3.2 ECCA
9.3.3 CFCSS
9.3.4 YACCA
9.3.5 CEDA
9.4 容錯
9.4.1 設計多樣性
9.4.2 檢查點
9.4.3 基於算法的容錯
9.4.4 復製
9.5 結論
參考文獻
第10章 可靠電子係統的軟錯誤性能的規範與驗證
10.1 介紹
10.2 係統軟錯誤的規範
10.2.1 互聯網核心網絡的要求
10.2.2 構建規範
10.3 設計一個滿足規範的係統
10.3.1 存儲器
10.3.2 觸發器
10.3.3 模型的結果
10.4 軟錯誤的性能驗證
10.5 結論
參考文獻
譯 者 序
電子係統的軟錯誤,對於許多人來說可能還比較陌生。搞過電子係統測試和維修的人都有體會,係統的短路或斷路這些硬錯誤比較好找到,也好處理。而對於綫路受傷、接觸不良等錯誤,查找起來挑戰就比較大。
隨著集成電路按照摩爾定律快速發展,器件的特徵尺寸越來越小、電路規模越來越大、電路速度越來越快、係統功能越來越復雜。由其組成的電子係統齣現的軟錯誤更加怪異,對其進行的測試、診斷難度更大,對其預測和采取保護措施的代價越來越大,如以犧牲麵積、速度來換取高可靠性。以往在空間等不計成本的特殊領域纔用到的冗餘技術、容錯糾錯技術,在使用最新技術的産品中也不得不采用。
本書是為應對這些挑戰所編著的,介紹瞭器件級、電路級、行為級和係統級等不同層次消除或抑製軟錯誤的技術。
本書第1章至第6章由畢津順翻譯,第7章至第10章由韓鄭生翻譯。由於譯者水平所限,譯本中錯誤在所難免,敬請廣大讀者批評指正。
韓鄭生中國科學院微電子研究所
序 言
von Neumann在1963年的論文中提齣瞭計算可靠性的想法[1]。在早期階段,人們認為半導體電路天然具有可靠性,後來發現隨著復雜度的增加,半導體電路中齣現的錯誤越來越多。
隨著數字技術時代的來臨,基於該技術的電子産品對傢庭內的電學噪聲具有抵抗能力。當時我們還在幻想著星外來客,卻沒想到它們已經影響到瞭我們的電子係統。請允許我引用近期發錶的一篇論文中的話:“有史以來,人類一直認為天體會影響地球上的生命體,而機械設備和電子設備屬於科學物體,它們的命運由人類掌控。盡管我們清楚這些設備的生産日期,卻不能為這些設備進行占蔔。後來我們開始注意到,當代電子係統的某些特定行為可以追溯到地外天體”[2]。
Intel公司的研究人員May和Woods報道瞭α粒子在2107係列16 kB DRAM中引起軟錯誤的現象。實驗錶明在海平麵高度的DRAM和CCD中會發生翻轉現象。他們確定,這些錯誤是由α粒子引起的,而α粒子來自於封裝材料中痕量元素鈾和釷的放射性衰變。該文首次報道瞭海平麵高度上輻照在電子器件中引起的翻轉現象,並將該類錯誤稱為“軟錯誤”[3]。
自20世紀40年代,人們已經認識到電磁脈衝(EMP)會導緻電子係統發生暫時失效甚至是永久性損傷。EMP指的是高能電磁輻照,通常由閃電或者上層大氣中帶電粒子與γ射綫/X射綫間的相互作用産生。Carl E.Baum是EMP領域最重要的研究人員之一,他追溯瞭EMP現象的相關曆史,調研瞭大量的文獻,並進行瞭綜述[4]。除瞭提供輻照加固、屏蔽和容錯技術,還進行瞭大量的實驗工作,用於開發EMP仿真器硬件。我特彆提到這些,是因為我認為軟錯誤研究領域和EMP研究領域的閤作是有可能的,對雙方都有益。
本書的發錶具有裏程碑意義。本書第一作者Michael Nicolaidis是軟錯誤研究領域中的權威,他曾開展過很多原創性的研發工作,發錶過大量學術論文,申請和擁有很多發明專利,並且建立瞭iROC Technologies公司。該公司針對電子係統提供完整的軟錯誤分析和設計服務方案。
Michael Nicolaidis匯聚其他著名學者,從深度和廣度齣發,共為本書撰寫瞭10章內容,幾乎涵蓋瞭軟錯誤研究的所有方麵。本書介紹瞭軟錯誤的研究曆史和未來發展趨勢,單粒子翻轉的物理機製,工業標準和實用化模型,降錯技術,以及學界和業界的研究成果。可以說,本書是目前介紹軟錯誤研究最全麵的著作。
本書填補瞭技術文獻所存在的空白。正如我指導的剛畢業的研究生Fan Wang所說,“當我還是研究生的時候,我嘗試去理解關於軟錯誤的不同議題,這一過程很痛苦。我閱讀瞭兩百多篇文獻,VLSI可靠性、矽基技術、VLSI缺陷和測試等都有涉及軟錯誤,然而卻沒有關於軟錯誤的專著。有時文獻中報道的實驗結果差異很大,甚至相互矛盾。我相信本書對於學界研究非常有幫助,也可以為工業界提供參考。”
書中有些章節非常有趣,軟錯誤研究的早期曆史就像是一部偵探小說。
第1章介紹瞭Intel 2107係列16 kB DRAM中的軟錯誤,結果發現罪魁禍首是α粒子,而α粒子來自於封裝材料中痕量元素鈾和釷的放射性衰變。而Sun公司服務器軟錯誤問題的曝光,導緻瞭在服務器中應用編碼理論和新的設計技術。
第2章中給齣瞭相應的術語和定義。
第3章闡述瞭相關的標準。
第4章和第5章討論瞭門級、電路級和係統級的建模與仿真方法。
第6章給齣瞭故障注入技術。
第7章討論瞭加速測試的方法。
第8章和第9章從硬件和軟件層級提齣軟錯誤降錯技術。
第10章討論瞭係統軟錯誤性能的評估技術。
在軟錯誤對我們構成威脅之前,讓我們先學會如何處理和解決相關問題吧。
Vishwani D.Agrawal
參考文獻
前 言
早期的計算機中有很多不可靠的電子元器件,所以必須采用容錯設計。當半導體技術進入超大規模集成電路時代,可靠性得到瞭大幅提升,人們僅對關鍵應用和惡劣環境下的電路采用容錯設計。然而,隨著矽基CMOS技術逐漸走嚮極限時,這些趨勢卻反瞭過來。過去人們認為,集成電路軟錯誤僅發生在空間應用環境中。而近幾年來,軟錯誤已成為地麵高度電子産品係統失效的主要原因之一。現在很多應用領域都需要采用軟錯誤降錯技術,例如網絡、服務器、航空、醫療和汽車電子等。為瞭解決這個問題,芯片和係統的設計工程師參考瞭軍工和航天等領域軟錯誤研究的相關成果。然而地麵高度集成電路的齣貨量非常大,對成本控製和功耗要求非常嚴格。軍工和航天領域采用的工藝加固方法和冗餘加固方法並不適閤市場的需求。
近幾年來,人們付齣瞭很多努力,參考過去的基礎知識和工程解決方案,同時針對地麵應用的約束條件,開發新的方法與工具。然而解決軟錯誤是一項復雜的任務,可能會付齣麵積和功耗的代價。因此,需要一些方法在滿足産品可靠性要求的同時,盡可能減小麵積和功耗的開銷。這些方法包括:
● 地錶環境下最終産品和電路原型的軟錯誤率(SER)錶徵的測試標準。該標準保證瞭測試結果的準確性,便於比較不同廠商器件的軟錯誤率(單位是失效時間FIT)。
● 針對SRAM、DRAM、TCAM、FPGA、處理器、SoC等不同器件和完整係統的軟錯誤加速測試平颱、方法和算法。
● 針對單元庫的軟錯誤加速測試平颱、方法和算法。
● 在設計階段,評估軟錯誤率的軟件/硬件方法學和工具。這些工具的重要性體現在兩個方麵。設計階段錶徵軟錯誤率是避免電路原型或最終産品齣錯的唯一途徑。如果電路原型和最終産品齣現問題,則必須重新設計和製備,這將失去市場中的機會。設計周期中的交互式軟錯誤率評估,可以對電路進行必要的摺中,可以確定電路中的關鍵部分,選擇最有效的降錯方法,滿足可靠性的要求,盡可能減小功耗、速度和麵積的代價。不同層級需要的軟/硬件工具介紹如下:
- TCAD工具用來錶徵α粒子和次級粒子引起的瞬態電流脈衝。
- 單元FIT評估工具指導設計人員對存儲器單元和單元庫進行優化,使之滿足軟錯誤率目標,且代價盡可能低,將單元FIT信息提供給高一層級的軟錯誤率評估工具。
- SPICE級FIT工具用來評估時序單元和組閤邏輯中瞬態脈衝的影響。
- 門級FIT評估工具用來錶徵IP模塊:基於提取、統計或概率方法; 針對邏輯降額計算,僅考慮邏輯功能; 針對邏輯和時序降額計算,同時考慮邏輯功能和SDF文件。
- RTL級FIT評估。
- SoC FIT評估,考慮瞭SoC級的功能降額。
- 基於硬件平颱的故障注入,用於在IP級和SoC級加快運行FIT評估任務。
● 硬件級軟錯誤降錯方法:錯誤與糾錯碼、加固單元、自檢測電路、雙采樣技術和指令重試。
● 軟件級和係統級的軟錯誤降錯方法:設計檢測點和還原恢復。
Michael Nicolaidis
格勒諾 現代電子係統軟錯誤 [Soft Errors in Modern Electronic Systems] 下載 mobi epub pdf txt 電子書 格式
現代電子係統軟錯誤 [Soft Errors in Modern Electronic Systems] 下載 mobi pdf epub txt 電子書 格式 2024
現代電子係統軟錯誤 [Soft Errors in Modern Electronic Systems] 下載 mobi epub pdf 電子書現代電子係統軟錯誤 [Soft Errors in Modern Electronic Systems] mobi epub pdf txt 電子書 格式下載 2024