英伟达的 Blackwell GPU 自推出以来就面临着设计缺陷的问题,导致产量低下。这一问题一度引发了关于英伟达与其代工伙伴台积电之间关系的猜测。然而,英伟达首席执行官黄仁勋本周在接受路透社采访时明确表示,设计缺陷完全是英伟达自身的问题,并感谢台积电在修复问题上的帮助。
设计缺陷详情
- 设计缺陷:Blackwell GPU 使用台积电的 CoWoS-L 封装技术,该技术通过配备局部硅互联(LSI)桥的 RDL 中介层实现约 10 TB/s 的数据传输速率。然而,由于 GPU 芯片、LSI 桥、RDL 中介层和主板基板之间的热膨胀特性不匹配,导致系统变形和失效。
- 修复措施:英伟达不得不修改 GPU 硅的顶部金属层和凸点以提高生产产量。虽然具体的修复细节未公开,但公司提到需要新的掩模。
黄仁勋的声明
- 责任归属:黄仁勋明确表示,设计缺陷完全是英伟达的错,并驳斥了关于英伟达与台积电之间紧张关系的报道是“假新闻”。
- 合作伙伴关系:黄仁勋感谢台积电在修复问题上的及时帮助,强调了双方的合作关系。
生产进度
- 大规模生产:已修复的 Blackwell GPU 将于 10 月底进入大规模生产,并计划于明年年初开始发货(仍属于英伟达的 2025 财年)。
- 2024 年交付:英伟达今年早些时候透露,为了满足 AWS、谷歌和微软等主要云服务提供商的需求,公司仍将在 2024 年运送一些初始产量较低的 Blackwell 处理器。具体数量尚未确定。
行业背景
在半导体行业中,导致产量下降的问题和主要功能性错误(勘误表)并不少见。通常,公司通过修改一个或两个金属层并称之为新的步进版本来解决这些问题。例如,英特尔的 Sapphire Rapids 有 500 个错误,公司发布了大约十几个步进版本以修复所有错误。每个新的步进版本需要大约三个月的时间来完成,因此英伟达和台积电在修复 Blackwell GPU 方面的速度非常令人印象深刻。
0条评论