skhynix量产工具 ()

来源:内容由导体行业观察(ID:icbank)综合自SK海力士,谢谢。


SK海力士今天宣布,该公司开始大规模生产 HBM3-拥有当前行业最佳性能 DRAM。SK去年10月,海力士宣布成功开发该行业 HBM3 DRAM,七个月后宣布量产,有望进一步巩固高端公司 DRAM 市场领先地位。

随着人工智能、大数据等尖端技术的加速发展,世界主要科技企业正在探索快速处理快速增长数据量的创新方法。相较于传统 DRAM,HBM 它在数据处理速度和性能方面具有显著优势,有望得到业界的广泛关注,并得到越来越多的应用。

SK海力士还说,英伟达(NVIDIA)最近完成了对 SK海力士 HBM3 样品性能评估。SK海力士将向英伟达系统供应 HBM3.该系统预计将在今年第三季度开始发货。SK今年上半年,海力士也将按照英伟达的计划增加 HBM3 产量。

英伟达备受期待 H100 被认为是世界上最大、性能最强的加速器。SK海力士的 HBM3 带宽可达 819GB/s,有望提高加速计算的性能。这个带宽相当于每秒传输 163 部全高清(Full-HD)电影(每部电影约 5GB)。

SK海力士总裁(事业总监)卢钟元表示,与英伟达的密切合作使SK高端海力士 DRAM 市场获得一流的竞争力。我们的目标是通过持续、开放的合作,成为洞察和解决客户需求的解决方案提供商(Solution Provider)。”

HBM 3的好戏才刚刚开始


在某种程度上,计算系统中唯一真正重要的是其内存的变化,这就是为什么计算机和我们一样。世界上所有的计算能力,或数据的操作或转换类型,都不像创建新数据那么重要,然后将新数据存储在内存中,这样我们就可以以某种方式高速使用它。世界上所有的计算能力,或数据的操作或转换类型,都不像创建新数据那么重要,然后将新数据存储在内存中,这样我们就可以以某种方式高速使用它。

系统及其内存的问题是你不能拥有一个拥有一切的内存子系统。


您可以将 3D XPoint 就像英特尔在它身上一样,成为主内存 Optane PMem DIMM 外观中显示的;PMEM 这种持久性很有用,但你最终会得到一个比闪存更贵、更普通的 DRAM 内存存,所以它不能完全取代任何一个,但它可以用作内存层结构的另一层——并存储在某些系统中。


使用普通的 DRAM,您可以为应用程序和数据建立一个大的内存空间,但它可能会变得昂贵,带宽也不是很大。


使用普通的 DRAM,您可以为应用程序和数据建立一个大的内存空间,但它可能会变得昂贵,带宽也不是很大。提高内存速度 CPU 上控制器数量的增加有帮助,但延迟仍然相对较高(至少与 HBM 与堆叠内存相比),带宽远低于 HBM 高。该行业确实知道如何大批量生产 HBM,因此产量低,单位成本高。


DDR DIMM 它们的大规模生产意味着即使带宽受到挑战,它也是低成本的。DDR SDRAM 内存由 JEDEC 于 1998 年指定,并于 2000 年广泛商业化,首次推出时频率低 100 MHz,最高频率为 200 MHz,每个通道的带宽在 1.6 GB/秒和 3.1 GB/秒之间。过去几年DDR迭代,内存时钟速率,I/O 总线时钟速率和内存模块的数据速率都在增加,容量和带宽也在增加。DDR4 服务器仍然广泛使用,高端模块的内存运行频率为 400 MHz,I/O 总线速率为 1.6 GHz,数据速率为 3.2 GT每个模块的带宽为/秒 25.6 GB/秒。DDR5 把带宽翻倍 51.2 GB/秒,将每个记忆棒的最大容量翻倍至 512 GB。


我们的猜测是,对于许多设备来说,这种容量很大,但带宽不够。因此,在可预见的未来,我们最终将在节点内拆分内存层次结构,并接近计算引擎。或者,更准确地说,客户必须拥有它 DDR5 内存和 HBM3 选择内存设备,它们可以混合在系统和集群中的节点之间,其中一些可能是 Optane 或其他类型 ReRAM 或 PCM 持久内存在适当的情况。


在有人创建内存处理单元和内存管理程序之前,跨主要内存类型和速度的编程仍然是混合内存系统的一个问题,可以为计算引擎共享提供单级内存空间。


或者,公司将使用一种内存来缓存另一种内存。快而瘦的内存可以缓存肥而慢的内存,反之亦然。因此,今天的许多混合物 CPU-GPU 系统中,GPU 内存是完成大部分处理的地方,CPU 中的 DDR 内存和 GPU 中的 HBM 内存之间的一致性主要用于让 DDR 内存起着巨大的作用GPU 的 L4 缓存-是的,CPU 已降级为数据管家。相反,支持 Optane DIMM 的 Xeon SP 在其中一种模式(也是最容易编程的模式)中,3D XPoint 内存被的内存被视为慢速主内存 DDR4 或 DDR5 DIMM 是一种超级Optane 快速缓存内存。


就像去年一样 7 月在介绍HBM3 今年可用的内存将对系统意味着什么时候

我们认为我们指出了这一点 HBM 各种系统都会使用内存,最终会变得更加普遍,所以更便宜。毕竟,我们并不总是使用核心内存,许多工作负载受内存带宽的限制,而不是计算。这就是为什么我们相信会有更窄的原因 512 位总线和无插入器 HBM 版本和所有权 1,024 位总线和插入器的版本。


使用 HBM 内存(以及英特尔和美光创建并用于其最强熔核加速器的混合内存立方体堆叠内存),您可以堆叠 DRAM 并将其链接到非常接近计算机引擎的非常宽的总线,并将带宽提高到许多因素,甚至直接连接到 CPU 的 DRAM 上面看到的带宽高一个数量级。但是这么快 HBM 内存很薄,价格也很贵。它本质上更贵,但内存子系统的价格/性能可能更好。


与 DDR 主存相比,HBM 我们不知道成本是多少,但我们不知道。 Rambus IP 核产品营销高级总监 Frank Ferro 知道与 GDDR 内存的成本是多少?


“GDDR5 与 HBM2 加法器的价格差距约为 4 倍,”Ferro 告诉The Next Platform。原因不仅仅是 DRAM 芯片也在中介和 2.5D 制造成本。但是 HBM 好消息是你可以得到最高的带宽,你可以得到非常好的功率和性能,你可以得到非常小的面积。你必须为这一切付出代价。但 HPC 和超大型社区没有特别的成本限制。当然,他们想要更低的功率,但对他们来说,一切都与带宽有关。


Nvidia 知道 HBM3 内存的好处是上个月第一个宣布的

的“Hopper”H100 GPU 加速器

将其推向市场的公司。在 JEDEC 在 1 最后一个月推出 HBM3 规范之后,这很受欢迎。


HBM3 出台规范的速度比 SK Hynix 去年 7 月亮在它的早期工作中暗示得更快,当时它说预计每个堆栈至少会有 5.2 Gb/秒信号传输和至少 665 GB/秒带宽。


HBM3 规范要求从三星实现每针信号的速率 HBM2E 时使用的 3.2 Gb/秒翻倍至 6.4 Gb/秒,HBM2E 是 HBM2 扩展形式将技术推向官方 JEDEC 除规范外,该规范还设置了信号的初始速率 2 Gb/秒。(有早期的 HBM2E 变体使用 2.5 Gb/秒信号,而 SK 海力士使用 3.6 Gb/秒信号试图获得 HBM2E 优于三星。)


内存通道的数量也从 HBM2 的 8 通道增加到 HBM3 的 16 一个通道的数量翻了一番,甚至支持架构 32 假设伪通道 DRAM 在高端服务器主存储器中,组之间可能会有一些交错。HBM2 和 HBM2E 变体可以堆叠 4、8 或 12 个芯片高的 DRAM,而 HBM3 允许扩展到 16 个芯片高的 DRAM 堆叠。HBM3 的 DRAM 容量预计在 8 Gb 到 32 Gb 之间,使用 8 Gb 芯片的四层堆栈 4 GB 容量,使用 32 Gb 芯片的 16 层层堆栈产生每个堆栈 64 GB。据 JEDEC 称,使用 HBM3 基于内存的第一代设备预计将基于 16 Gb 芯片。内存接口仍然是 1,024 位宽,单个 HBM3 堆栈可驱动 819 GB/秒带宽。



所以,用六个 HBM3 理论上,一个设备可以驱动 4.8 TB/秒带宽和 384 GB 的容量。我们想知道有这么多带宽和容量 Hopper H100 GPU 加速器对成本和散热有什么影响?.


由于计算的上梯队对内存带宽不耐烦,Rambus 已经超越了相对较新的 HBM3 规范最终可以在上图中称为 HBM3E。具体来说,Rambus 可以为已经设计好了 HBM3 引脚驱动 8.4 Gb/秒信号信号电路,为每个信号 HBM3 堆栈提供 1,075 GB/秒(是的,1..05 TB/秒)带宽。你可以得到六个堆栈中的六个 6.3 TB/秒内存带宽。可定制 HBM3 内存控制器和定制 HBM3 堆栈 PHY 实现。(顺便说一句,Rambus 在 HBM2E 信号传输速率高达 4 Gb/秒。)


这样的带宽实际上可能会保留 Nvidia Hopper GPU 这样的计算设备,或谷歌的未来 TPU5 机器学习矩阵引擎,或者选择你梦想中的设备来提供足够的数据。然而,我们对瓦数和成本感到不寒而栗。但同样,如果带宽是瓶颈,也许在那里投入更多的资金,冷却液体是有意义的。


我们期待有人建造这样的野兽,让我们看到它的表现,分析它的经济性。


*免责声明:本文由作者原创。本文的内容是作者的个人观点。半导体行业的观察和重印只是为了传达不同的观点,这并不意味着半导体行业的观察同意或支持这一观点。如有异议,请联系半导体行业进行观察。

今日是《半导体行业观察》为大家分享的第3065内容,欢迎关注。

晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装

电脑知识