当前位置：首页 > 情报 >AI情报>文章详情

英伟达挑战者？Etched 公司推出Transformer 专用芯片Sohu，速度是 H100 的 20 倍，H200的10倍

1年前 (2024-06-26) | 分类： AI情报 | 热度： 11 ℃

暂无评论

英伟达挑战者？由两名哈佛大学辍学生加文・乌伯蒂（Gavin Uberti）和克里斯・朱（Chris Zhu）创立的Etched 公司推出Transformer 专用芯片Sohu，相比英伟达的通用AI芯片，Sohu 芯片最大的亮点在于直接把 Transformer 架构蚀刻到芯片中，其采用台积电的 4 纳米工艺制造，在 Llama 70B 吞吐量中，Sohu 每秒可处理超过 50 万个 tokens，速度号称是 H100 的 20 倍，H200的10倍。

Sohu 能够实现实时语音代理、毫秒级处理数千字文本、更强大的代码树搜索、并行比较数百个响应、多播推测解码以及实时生成新内容等功能，为未来万亿级参数模型的运行提供了可能。

以下是官方介绍全文：

英伟达挑战者？Etched 公司推出Transformer 专用芯片Sohu，速度是 H100 的 20 倍，H200的10倍

在 2022 年，我们大胆预测 Transformer架构将主导世界的发展。

过去两年，我们一直在开发 Sohu，这是世界上最先专为 Transformer 设计的专用芯片（ASIC）。这种芯片的独特之处在于，它只能运行 Transformer 架构的 AI 模型，无法运行其他类型的传统 AI 模型，比如用于 Instagram 广告的 DLRM、AlphaFold 2 这样的蛋白质折叠模型，或是 Stable Diffusion 2 这样的旧图像模型。同样，它也不支持 CNN、RNN 或 LSTM 等其他类型的 AI 模型。

然而，对于 Transformer 架构的 AI 模型，Sohu 的运算速度是前所未有的。它的速度之快，以至于与现有的 GPU 相比几乎不在一个数量级上。

Sohu 芯片的数据处理速度达到了每秒超过 50 万个 Token 的处理量，这意味着你可以用它来构建在传统 GPU 上无法实现的产品。与英伟达即将推出的下一代 Blackwell (B200) GPU 相比，Sohu 的速度更快，成本更低。

如今，每一个领先的 AI 模型都是基于 Transformer 架构的，例如 ChatGPT、Sora、Gemini、Stable Diffusion 3 等。如果未来出现了新的架构取代了 Transformer，我们的芯片可能会变得无用。但如果我们的预测成真，Sohu 将有可能改变世界。以下是我们为何敢于下此赌注的原因。

规模是实现超级智能的关键

在过去五年中，AI 模型在大多数标准化测试中变得比人类更聪明，这得益于它们接受了比以往多得多的计算资源和更优质的数据。这一趋势在未来几十年里仍然有效，各大 AI 公司（如 Google、OpenAI/Microsoft、Anthropic/Amazon 等）都计划在未来几年内投入超过 1000 亿美元来扩大规模。我们正生活在前所未有的基础设施建设时代。

然而，要实现规模的进一步扩大将非常昂贵。下一代数据中心的成本将超过一些小国的 GDP。按照目前的发展速度，我们的硬件、电网甚至个人财力都难以跟上。

英伟达挑战者？Etched 公司推出Transformer 专用芯片Sohu，速度是 H100 的 20 倍，H200的10倍

我们并不担心数据会用尽。无论是通过合成数据、注释流水线还是新的 AI 标记数据源，我们认为数据问题实际上是一个推理计算问题。Mark Zuckerberg、Dario Amodei 和 Demis Hassabis 似乎也同意这一观点。

GPU 正面临发展瓶颈

Santa Clara 的小秘密是，GPU 的性能并没有实质性提升，只是规模变得更大。芯片的计算密度（TFLOPS/面积）在过去四年几乎保持不变。

英伟达挑战者？Etched 公司推出Transformer 专用芯片Sohu，速度是 H100 的 20 倍，H200的10倍

随着摩尔定律的放缓，提高性能的唯一途径是专业化。

专用芯片的兴起是不可避免的

在 Transformer 架构接管世界之前，许多公司开发了灵活的 AI 芯片和 GPU 来应对各种不同的架构。

英伟达挑战者？Etched 公司推出Transformer 专用芯片Sohu，速度是 H100 的 20 倍，H200的10倍

但没有人曾经开发过特定算法的 AI 芯片（ASIC）。芯片项目耗资巨大，且需要数年时间才能投入生产。当我们开始时，市场上还没有这样的需求。

然而，情况突然发生了变化：

前所未有的需求：在 ChatGPT 出现之前，Transformer 推理市场的规模约为 5000 万美元，现在已达到数十亿美元。所有大型科技公司都在使用 Transformer 模型。
架构上的融合：AI 模型的架构过去变化很大，但自从 GPT-2 以来，最先进的模型架构几乎保持不变。无论是 OpenAI 的 GPT 系列、Google 的 PaLM、Facebook 的 LLaMa，还是 Tesla 的 FSD，它们都是基于 Transformer 架构。

当模型的训练成本超过 10 亿美元，推理成本超过 100 亿美元时，专用芯片的开发变得不可避免。在这个规模上，哪怕是 1% 的性能提升也足以证明投资 5000 万至 1 亿美元开发定制芯片项目是合理的。

实际上，专用芯片（ASIC）比 GPU 快得多。2014 年比特币矿机问世时，使用 GPU 挖掘比特币的成本甚至高于直接丢弃它们。

随着数十亿美元的利益岌岌可危，AI 领域也将发生同样的变化。

英伟达挑战者？Etched 公司推出Transformer 专用芯片Sohu，速度是 H100 的 20 倍，H200的10倍

Transformer 架构之间有着惊人的相似性：诸如 SwiGLU 激活和 RoPE 编码等微调在各种模型中得到了广泛应用，无论是大型语言模型（LLM）、嵌入模型、图像修复还是视频生成。

尽管 GPT-2 到 Llama-3 是相隔五年的最先进模型，但它们的架构几乎相同，唯一的主要区别在于规模。

Transformer 架构拥有巨大的优势

我们相信，在硬件上运行速度最快、成本最低的模型将赢得市场。Transformer 架构强大、有用、有利可图，足以在替代品准备好之前主导每一个主要的 AI 计算市场：

Transformer 架构驱动了每一个大型 AI 产品，从代理到搜索到聊天。AI 实验室已经在研发上投入了数千万美元，以优化 GPU 上的 Transformer架构。
随着模型在未来几年从 10 亿美元扩展到 100 亿美元的培训运行，测试新架构的风险急剧上升。与其重新测试规模定律和性能，不如在 Transformer 架构上构建新功能，例如多 Token 预测。
今天的软件栈已经针对 Transformer 架构进行了优化。每个流行的库（如 TensorRT-LLM、vLLM、Huggingface TGI 等）都有特殊的内核，可以在 GPU 上运行 Transformer 模型。许多在 Transformer 架构之上构建的功能在替代品中不容易得到支持。
明天的硬件栈也将针对 Transformer 架构进行优化。英伟达的 GB200 系列有特殊的 Transformer 支持（TransformerEngine）。像 Sohu 这样的 ASIC 进入市场标志着一个不可逆转的转折点。如果有任何新的架构能够在 GPU 上比 Sohu 上的 Transformer 运行得更快，我们也会为它开发专用芯片！

让我们来认识一下 Sohu

Sohu 是世界上第一款 Transformer ASIC。一台搭载 8 个 Sohu 的服务器可以替代 160 个 H100 GPU。

英伟达挑战者？Etched 公司推出Transformer 专用芯片Sohu，速度是 H100 的 20 倍，H200的10倍

Sohu 只支持 Transformer 推理，无论是 Llama 还是 Stable Diffusion 3。Sohu 支持所有当今的模型（Google、Meta、Microsoft、OpenAI、Anthropic 等），并且可以适应未来模型的调整。

由于 Sohu 只能运行一种算法，大部分控制流逻辑可以被移除，允许它拥有更多的数学计算单元。结果，Sohu 的 FLOPS 利用率超过了 90%（相比之下，使用 TRT-LLM 的 GPU 仅为 ~30%）。

我们如何在芯片上安装比 GPU 更多的 FLOPS？

英伟达 H200 拥有 989 TFLOPS 的 FP16/BF16 计算能力，没有稀疏性。这是最先进的技术（甚至超过了 Google 的新 Trillium 芯片），而 2025 年推出的 GB200 只有 25% 更多的计算能力。

由于大多数 GPU 的区域都致力于可编程性，专注于 Transformer 可以让你在不降低精度或使用稀疏性技术的情况下安装更多的计算能力。你可以从基本原理中自己证明这一点：

构建一个单一的 FP16/BF16/FP8 乘法-加法电路，即所有矩阵数学的基础块，需要 10,000 个晶体管。H100 SXM 有 528 个张量核心，每个核心有 4 × 8 × 16 个 FMA 电路。乘法告诉我们 H100 有 27 亿个晶体管专门用于张量核心。

但 H100 有 800 亿个晶体管！这意味着 H100 GPU 上只有 3.3% 的晶体管用于矩阵乘法！

这是英伟达和其他灵活 AI 芯片的有意设计决策。如果你想支持各种模型（CNN、LSTM、SSM 等），你不能做得比这更好。

通过只运行 Transformer，我们可以在芯片上安装更多的 FLOPS，而无需降低精度或使用稀疏性技术。

推理不是受内存带宽限制，而不是计算能力吗？

实际上，对于像 Llama-3 这样的现代模型来说，并不是！

让我们使用英伟达和 AMD 的标准基准测试：2048 个输入 Token 和 128 个输出 Token。大多数 AI 产品的提示比完成要长得多。

在 GPU 和 Sohu 上，推理以批次运行。每个批次一次性加载所有模型权重，并在批次中的每个 Token 上重复使用它们。通常，大型语言模型（LLM）的输入是计算受限的，而输出是内存受限的。当我们将输入和输出 Token 与连续批处理结合起来时，工作负载变得非常受计算能力限制。

下面是一个 LLM 的连续批处理示例。这里我们运行的是具有四个输入 Token 和四个输出 Token 的序列；每种颜色都是不同的序列。

英伟达挑战者？Etched 公司推出Transformer 专用芯片Sohu，速度是 H100 的 20 倍，H200的10倍

我们可以将同样的技巧扩展到运行 Llama-3-70B，具有 2048 个输入 Token 和 128 个输出 Token。让每个批次由一个序列的 2048 个输入 Token 组成，以及 127 个不同序列的 127 个输出 Token。

如果我们这样做，每个批次将需要大量的计算能力，而对内存带宽的需求相对较小。这意味着 Sohu 可以运行巨大的吞吐量而不会受限于内存带宽。

在现实世界中，批次要大得多，输入长度各不相同，请求以泊松分布到达。这种技术在这些情况下效果甚至更好，但我们在这个例子中使用 2048/128 基准测试，因为英伟达和 AMD 使用它。

软件是如何工作的？

在 GPU 和 TPU 上，软件是一个噩梦。处理任意 CUDA 和 PyTorch 代码需要一个难以置信的复杂编译器。第三方 AI 芯片（AMD、Intel、AWS 等）已经在这方面花费了数十亿美元，但收效甚微。

但因为 Sohu 只运行 Transformer，我们只需要为 Transformer 编写软件！

大多数运行开源或内部模型的公司使用特定的 Transformer 推理库，如 TensorRT-LLM、vLLM 或 HuggingFace 的 TGI。这些框架非常僵化 - 虽然你可以调整模型超参数，但不支持更改底层模型代码。但这没关系 - 由于所有 Transformer 模型都非常相似，调整超参数就是你需要做的一切。

虽然这支持了 95% 的 AI 公司，但最大的 AI 实验室会定制。他们有团队的工程师手工调整 GPU 内核，以挤出更多的利用率，逆向工程诸如哪些寄存器对每个张量核心具有最低延迟之类的事情。

有了 Etched，你不再需要逆向工程 - 我们的软件，从驱动程序到内核到服务堆栈，将是开源的。如果你想实现一个定制的 Transformer 层，你的内核大师可以自由地这样做。