发表于2024-12-22
完整描述了软错误产生的复杂物理机制, 涵盖了很多技术领域;
详细介绍了合理成本下的软错误降错方法, 包括软件技术和硬件技术;
讨论了其他可靠性威胁,如波动性、 电磁兼容和加速老化等问题的解决方法。
本书系统阐述了软错误发生的复杂物理过程,全书共分为10章。主要介绍了软错误研究历史和未来发展趋势; 单粒子效应发生机制与分类;JEDEC标准;门级建模与仿真;电路级和系统级单粒子效应建模与仿真;硬件故障注入;采用加速测试与错误率预估技术,评估验证面向空间或地面环境的集成电路;电路级软错误抑制技术;软件级软错误抑制技术;高可靠电子系统软错误性能的技术指标与验证方法。全书总结了过去,预测了未来趋势,阐述了单粒子的翻转物理机制、建模、软错误抑制技术以及业界和学界的研究成果。
韩郑生,中科院微电子研究所研究员/教授,博士生导师,研究方向为微电子学与固体电子学,从事集成电路工艺技术、电路设计方面的工作,曾任高级工程师,光刻工艺负责人,研究室副主任兼任测试工艺负责人,硅工程中心产品部主任,项目/课题负责人。国家特殊津贴获得者。国家自然基金面上项目评审专家。 Michael Nicolaidis是软错误研究领域中的**,他曾开展过很多原创性的研发工作,发表过大量学术论文,申请和拥有很多发明专利,并建立了iROC Technologies公司,该公司针对电子系统提供完整的软错误分析和设计服务方案。
第1章 天地间的软错误: 历史回顾、 实验证据和未来趋势
1.1 介绍
1.2 历史
1.3 电子系统中的软错误
1.4 等比例缩小对于软错误的影响
1.4.1 SRAM软错误率的变化趋势
1.4.2 DRAM软错误率的变化趋势
1.4.3 锁存器和触发器的软错误率
1.4.4 组合逻辑电路软错误率
1.4.5 单粒子闩锁变化趋势
1.4.6 未来趋势
1.5 结论
参考文献
第2章 单粒子效应: 机理和分类
2.1 介绍
2.2 背景环境、 作用机理及反冲能量损失
2.2.1 自然辐照环境
2.2.2 中子和物质的相互作用: 产生高能反冲物
2.2.3 反冲物: 离化和射程
2.2.4 电离
2.2.5 结论
2.3 电子元器件和系统中的单粒子效应
2.3.1 单粒子效应定义
2.3.2 软错误率
2.3.3 临界电荷标准
2.3.4 电路仿真中的电流脉冲描述
2.4 器件敏感度
2.4.1 单粒子瞬态
2.4.2 单粒子翻转
2.4.3 SRAM和DRAM中的多位翻转和多单元翻转
2.4.4 单粒子功能中断
2.4.5 单粒子事件闩锁
2.5 结论
参考文献
第3章 JEDEC标准: 用于测试和报告α粒子和地表宇宙射线引起的软错误
3.1 介绍
3.1.1 JESD89系列标准的意义
3.1.2 术语和定义
3.1.3 标准所涵盖的器件
3.1.4 报告要求
3.2 加速α粒子软错误率测试(参见JESD89A第四部分和JESD89?2A)
3.2.1 α粒子能谱和发射率(参见JESD89A 附录D)
3.2.2 α粒子源的选择(参见JESD89A 5.4.1节和JESD89?2A 4.2.2.1节)
3.2.3 封装和制样(参见JESD89A 5.3节和5.4.5节以及JESD89?2A 4.4节)
3.2.4 外推加速失效率至现场使用环境(参见JESD89A 5.6.4节)
3.2.5 加速α粒子测试的优势和局限性
3.3 加速高能中子测试(参见JESD89A第六部分和JESD89?3A)
3.3.1 地球环境高能中子注量与能谱(参见JESD89A 6.6.2.4节)
3.3.2 基于参考谱外推至其他位置和条件(参见JESD89A附录A.3)
3.3.3 测试装置(参见JESD89A 6.2节)
3.3.4 封装、 制样和次级离子效应(参见JESD89?3A 5.4节和附录A)
3.3.5 束流特性(参见JESD89A 6.5节)
3.3.6 单一能量束流下的软错误率(参见JESD89A 6.6节)
3.3.7 基于宽谱中子束流的软错误率(参见JESD89A 6.6.2.4节)
3.3.8 加速高能中子测试的优点和局限性
3.4 加速热中子软错误率测试
3.4.1 背景(参见JESD89A 7.1节)
3.4.2 热中子谱(参见JESD89A附录A.4)
3.4.3 封装和制样(参见JESD89A 7.3节)
3.4.4 热中子源的选择、 校准和屏蔽效应(参见JESD89A 7.4节)
3.4.5 单粒子翻转截面和单粒子翻转率(参见JESD89A 7.6.2节)
3.4.6 加速热中子测试的优势和局限性
3.5 实时(非加速)软错误率测试
3.5.1 测试方法目标
3.5.2 大样本和长时间测试
3.5.3 区分α粒子和中子对于软错误率的影响
3.5.4 高空测试以增加中子对软错误率的影响
3.5.5 建筑物的屏蔽效应(参见JESD89A附录A.5)
3.5.6 最小FIT和置信度(参见JESD89A附录C)
3.5.7 实时测试的优点和局限性
3.6 结论
参考文献
第4章 门级建模和仿真
4.1 介绍
4.2 基于核反应的蒙特卡罗选择和器件仿真, 从核交互到瞬态电流计算
4.2.1 中子/物质核反应数据库
4.2.2 次级离子引发的瞬态电流
4.2.3 举例: 高能中子在SRAM中引发的单粒子翻转和多单元翻转
4.3 逻辑门电路SET和SEMT蒙特卡罗仿真
4.3.1 单个粒子引起多个瞬态电流
4.3.2 拓扑描述和工艺描述
4.3.3 核反应实例
4.3.4 瞬态脉冲计算
4.3.5 电流脉冲统计
4.4 时序电路和组合电路的软错误评估SPICE分析方法学
4.4.1 精简的瞬态电流分析
4.4.2 敏感结点列表
4.4.3 自动化多瞬态电流仿真
4.4.4 结果分析
4.4.5 以反相器为例
4.4.6 多瞬态故障注入结果
4.5 结论
参考文献
第5章 电路级和系统级的单粒子效应建模与仿真
5.1 介绍
5.2 定义目标对象
5.2.1 单粒子效应模型和度量
5.2.2 功能失效
5.2.3 电路表征和抽象级别
5.3 SEE分析方法和概念
5.3.1 定量SEE分析
5.3.2 电学降额
5.3.3 时序降额
5.3.4 逻辑降额
5.3.5 功能降额
5.4 动态SEE分析
5.4.1 综述
5.4.2 门级网表SEE仿真
5.4.3 行为级/RTL/HLS SEE仿真
5.5 静态SEE分析
5.5.1 综述
5.5.2 门级
5.5.3 行为级/RTL级
5.5.4 架构/模块
5.6 结论
参考文献
第6章 硬件故障注入
6.1 介绍
6.2 硬件故障注入技术
6.2.1 物理故障注入
6.2.2 逻辑故障注入
6.2.3 基于电路仿真的逻辑故障注入
6.3 故障注入系统
6.3.1 工作负载
6.3.2 故障列表
6.3.3 故障分类
6.3.4 结果分析
6.3.5 通信
6.4 故障注入优化
6.4.1 自动仿真
6.4.2 故障评估进程
6.4.3 状态恢复
6.4.4 早期故障分类
6.4.5 嵌入式存储器
6.5 结论
参考文献
第7章 用于空间和地面应用的集成电路的鉴定: 加速实验和错误率预测
7.1 介绍
7.2 辐射产生单粒子效应及其对集成电路的影响
7.3 加速实验: 方法和相关的结果
7.3.1 截面的概念
7.3.2 静态和动态的SEU试验方法
7.4 实验设施: 重离子、 中子、 质子加速器和激光
7.4.1 重离子
7.4.2 质子
7.4.3 中子
7.4.4 微束和激光
7.5 需求的实验平台和通用实验平台的描述
7.5.1 介绍
7.5.2 ASTERICS实验平台
7.6 地面辐照实验: 案例研究
7.6.1 SRAM存储器
7.6.2 处理器和微控制器
7.6.3 SRAM型现场可编程门阵列(FPGA)
7.7 针对处理器架构的动态截面预测的硬件/软件故障注入方法: 案例研究
7.8 结论
参考文献
第8章 电路级软错误抑制技术
8.1 介绍
8.2 存储器中软错误的加固设计
8.2.1 1位纠错2位检错码
8.2.2 消除ECC保护存储器的速度代价
8.2.3 ECC与非标准存储器
8.3 CRC码
8.4 里德所罗门码
8.4.1 编码
8.4.2 校正子计算
8.5 使用内置电流传感器保护存储器
8.6 抑制逻辑电路中的错误
8.6.1 加固存储单元
8.6.2 抑制SET
8.7 结论
参考文献
第9章 软件级软错误抑制技术
9.1 介绍
9.2 影响数据的错误
9.2.1 运算复制
9.2.2 进程级复制
9.2.3 程序级复制
9.2.4 可执行的判断
9.3 影响执行流程的故障
9.3.1 背景
9.3.2 ECCA
9.3.3 CFCSS
9.3.4 YACCA
9.3.5 CEDA
9.4 容错
9.4.1 设计多样性
9.4.2 检查点
9.4.3 基于算法的容错
9.4.4 复制
9.5 结论
参考文献
第10章 可靠电子系统的软错误性能的规范与验证
10.1 介绍
10.2 系统软错误的规范
10.2.1 互联网核心网络的要求
10.2.2 构建规范
10.3 设计一个满足规范的系统
10.3.1 存储器
10.3.2 触发器
10.3.3 模型的结果
10.4 软错误的性能验证
10.5 结论
参考文献
译 者 序
电子系统的软错误,对于许多人来说可能还比较陌生。搞过电子系统测试和维修的人都有体会,系统的短路或断路这些硬错误比较好找到,也好处理。而对于线路受伤、接触不良等错误,查找起来挑战就比较大。
随着集成电路按照摩尔定律快速发展,器件的特征尺寸越来越小、电路规模越来越大、电路速度越来越快、系统功能越来越复杂。由其组成的电子系统出现的软错误更加怪异,对其进行的测试、诊断难度更大,对其预测和采取保护措施的代价越来越大,如以牺牲面积、速度来换取高可靠性。以往在空间等不计成本的特殊领域才用到的冗余技术、容错纠错技术,在使用最新技术的产品中也不得不采用。
本书是为应对这些挑战所编著的,介绍了器件级、电路级、行为级和系统级等不同层次消除或抑制软错误的技术。
本书第1章至第6章由毕津顺翻译,第7章至第10章由韩郑生翻译。由于译者水平所限,译本中错误在所难免,敬请广大读者批评指正。
韩郑生中国科学院微电子研究所
序 言
von Neumann在1963年的论文中提出了计算可靠性的想法[1]。在早期阶段,人们认为半导体电路天然具有可靠性,后来发现随着复杂度的增加,半导体电路中出现的错误越来越多。
随着数字技术时代的来临,基于该技术的电子产品对家庭内的电学噪声具有抵抗能力。当时我们还在幻想着星外来客,却没想到它们已经影响到了我们的电子系统。请允许我引用近期发表的一篇论文中的话:“有史以来,人类一直认为天体会影响地球上的生命体,而机械设备和电子设备属于科学物体,它们的命运由人类掌控。尽管我们清楚这些设备的生产日期,却不能为这些设备进行占卜。后来我们开始注意到,当代电子系统的某些特定行为可以追溯到地外天体”[2]。
Intel公司的研究人员May和Woods报道了α粒子在2107系列16 kB DRAM中引起软错误的现象。实验表明在海平面高度的DRAM和CCD中会发生翻转现象。他们确定,这些错误是由α粒子引起的,而α粒子来自于封装材料中痕量元素铀和钍的放射性衰变。该文首次报道了海平面高度上辐照在电子器件中引起的翻转现象,并将该类错误称为“软错误”[3]。
自20世纪40年代,人们已经认识到电磁脉冲(EMP)会导致电子系统发生暂时失效甚至是永久性损伤。EMP指的是高能电磁辐照,通常由闪电或者上层大气中带电粒子与γ射线/X射线间的相互作用产生。Carl E.Baum是EMP领域最重要的研究人员之一,他追溯了EMP现象的相关历史,调研了大量的文献,并进行了综述[4]。除了提供辐照加固、屏蔽和容错技术,还进行了大量的实验工作,用于开发EMP仿真器硬件。我特别提到这些,是因为我认为软错误研究领域和EMP研究领域的合作是有可能的,对双方都有益。
本书的发表具有里程碑意义。本书第一作者Michael Nicolaidis是软错误研究领域中的权威,他曾开展过很多原创性的研发工作,发表过大量学术论文,申请和拥有很多发明专利,并且建立了iROC Technologies公司。该公司针对电子系统提供完整的软错误分析和设计服务方案。
Michael Nicolaidis汇聚其他著名学者,从深度和广度出发,共为本书撰写了10章内容,几乎涵盖了软错误研究的所有方面。本书介绍了软错误的研究历史和未来发展趋势,单粒子翻转的物理机制,工业标准和实用化模型,降错技术,以及学界和业界的研究成果。可以说,本书是目前介绍软错误研究最全面的著作。
本书填补了技术文献所存在的空白。正如我指导的刚毕业的研究生Fan Wang所说,“当我还是研究生的时候,我尝试去理解关于软错误的不同议题,这一过程很痛苦。我阅读了两百多篇文献,VLSI可靠性、硅基技术、VLSI缺陷和测试等都有涉及软错误,然而却没有关于软错误的专著。有时文献中报道的实验结果差异很大,甚至相互矛盾。我相信本书对于学界研究非常有帮助,也可以为工业界提供参考。”
书中有些章节非常有趣,软错误研究的早期历史就像是一部侦探小说。
第1章介绍了Intel 2107系列16 kB DRAM中的软错误,结果发现罪魁祸首是α粒子,而α粒子来自于封装材料中痕量元素铀和钍的放射性衰变。而Sun公司服务器软错误问题的曝光,导致了在服务器中应用编码理论和新的设计技术。
第2章中给出了相应的术语和定义。
第3章阐述了相关的标准。
第4章和第5章讨论了门级、电路级和系统级的建模与仿真方法。
第6章给出了故障注入技术。
第7章讨论了加速测试的方法。
第8章和第9章从硬件和软件层级提出软错误降错技术。
第10章讨论了系统软错误性能的评估技术。
在软错误对我们构成威胁之前,让我们先学会如何处理和解决相关问题吧。
Vishwani D.Agrawal
参考文献
前 言
早期的计算机中有很多不可靠的电子元器件,所以必须采用容错设计。当半导体技术进入超大规模集成电路时代,可靠性得到了大幅提升,人们仅对关键应用和恶劣环境下的电路采用容错设计。然而,随着硅基CMOS技术逐渐走向极限时,这些趋势却反了过来。过去人们认为,集成电路软错误仅发生在空间应用环境中。而近几年来,软错误已成为地面高度电子产品系统失效的主要原因之一。现在很多应用领域都需要采用软错误降错技术,例如网络、服务器、航空、医疗和汽车电子等。为了解决这个问题,芯片和系统的设计工程师参考了军工和航天等领域软错误研究的相关成果。然而地面高度集成电路的出货量非常大,对成本控制和功耗要求非常严格。军工和航天领域采用的工艺加固方法和冗余加固方法并不适合市场的需求。
近几年来,人们付出了很多努力,参考过去的基础知识和工程解决方案,同时针对地面应用的约束条件,开发新的方法与工具。然而解决软错误是一项复杂的任务,可能会付出面积和功耗的代价。因此,需要一些方法在满足产品可靠性要求的同时,尽可能减小面积和功耗的开销。这些方法包括:
● 地表环境下最终产品和电路原型的软错误率(SER)表征的测试标准。该标准保证了测试结果的准确性,便于比较不同厂商器件的软错误率(单位是失效时间FIT)。
● 针对SRAM、DRAM、TCAM、FPGA、处理器、SoC等不同器件和完整系统的软错误加速测试平台、方法和算法。
● 针对单元库的软错误加速测试平台、方法和算法。
● 在设计阶段,评估软错误率的软件/硬件方法学和工具。这些工具的重要性体现在两个方面。设计阶段表征软错误率是避免电路原型或最终产品出错的唯一途径。如果电路原型和最终产品出现问题,则必须重新设计和制备,这将失去市场中的机会。设计周期中的交互式软错误率评估,可以对电路进行必要的折中,可以确定电路中的关键部分,选择最有效的降错方法,满足可靠性的要求,尽可能减小功耗、速度和面积的代价。不同层级需要的软/硬件工具介绍如下:
- TCAD工具用来表征α粒子和次级粒子引起的瞬态电流脉冲。
- 单元FIT评估工具指导设计人员对存储器单元和单元库进行优化,使之满足软错误率目标,且代价尽可能低,将单元FIT信息提供给高一层级的软错误率评估工具。
- SPICE级FIT工具用来评估时序单元和组合逻辑中瞬态脉冲的影响。
- 门级FIT评估工具用来表征IP模块:基于提取、统计或概率方法; 针对逻辑降额计算,仅考虑逻辑功能; 针对逻辑和时序降额计算,同时考虑逻辑功能和SDF文件。
- RTL级FIT评估。
- SoC FIT评估,考虑了SoC级的功能降额。
- 基于硬件平台的故障注入,用于在IP级和SoC级加快运行FIT评估任务。
● 硬件级软错误降错方法:错误与纠错码、加固单元、自检测电路、双采样技术和指令重试。
● 软件级和系统级的软错误降错方法:设计检测点和还原恢复。
Michael Nicolaidis
格勒诺 现代电子系统软错误 [Soft Errors in Modern Electronic Systems] 下载 mobi epub pdf txt 电子书 格式
现代电子系统软错误 [Soft Errors in Modern Electronic Systems] 下载 mobi pdf epub txt 电子书 格式 2024
现代电子系统软错误 [Soft Errors in Modern Electronic Systems] 下载 mobi epub pdf 电子书现代电子系统软错误 [Soft Errors in Modern Electronic Systems] mobi epub pdf txt 电子书 格式下载 2024