在 AI 领域,显存容量和性能是处理大型语言模型(LLM)的关键因素。AMD 最新推出的 Radeon Pro W7800 和 W7900 48GB 专业 GPU 在这一领域取得了显著进展,尤其是在与英伟达上一代 RTX 4090 的对比中表现突出。然而,关于与最新 RTX 5090 的对比,AMD 似乎有所保留。
AMD 在 DeepSeek R1 基准测试中的表现
AMD 的 Radeon Pro W7800 和 W7900 48GB 显卡在 DeepSeek R1 基准测试中表现优异,尤其是在处理大语言模型时。AMD 声称,这些 GPU 的性能相比 RTX 4090 提升了高达 7.3 倍。
测试配置与结果
AMD 的测试使用了 LM Studio 0.3.12 和 Llama.cpp 运行时 1.18,测试了以下几种模型:
- Distill Qwen 32B 8 位
- Distill Llama 70B 4 位
- Distill Qwen 32B 8 位(输出摘要提示,3017 个令牌)
- Distill Llama 70B 4 位(输出摘要提示,3017 个令牌)
在这些测试中,RTX 4090 的表现如下:
- Distill Qwen 32B 8 位:每秒生成 2.7 个令牌
- Distill Llama 70B 4 位:每秒生成 2.3 个令牌
- Distill Qwen 32B 8 位(摘要提示):每秒生成 2.5 个令牌
- Distill Llama 70B 4 位(摘要提示):每秒生成 2 个令牌
相比之下,AMD 的 Radeon Pro W7800 和 W7900 48GB 显卡表现如下:
- Distill Qwen 32B 8 位:W7800 为 19.1 个令牌/秒,W7900 为 19.8 个令牌/秒
- Distill Llama 70B 4 位:W7800 为 12.8 个令牌/秒,W7900 为 12.7 个令牌/秒
- Distill Qwen 32B 8 位(摘要提示):W7800 为 15.7 个令牌/秒,W7900 为 16.2 个令牌/秒
- Distill Llama 70B 4 位(摘要提示):W7800 为 10.1 个令牌/秒,W7900 为 10.4 个令牌/秒
AMD 表示,其 48GB GPU 在这些测试中的速度相比 RTX 4090 提高了 5.2 至 7.3 倍。
显存容量的重要性
AMD 强调,其 48GB 显卡在处理大型语言模型时具有显著优势。显存(VRAM)是存储模型参数的关键资源,LLM 的大小直接决定了所需的显存容量。因此,更大的显存容量意味着可以处理更大的模型,从而提升性能。然而,额外的显存容量也带来了高昂的成本。例如,W7900 48GB 的售价高达 3,500 美元,远高于 RTX 5090 的 2,000 美元建议零售价。尽管如此,AMD 的 48GB GPU 价格仍低于英伟达的 RTX A6000 Ada(48GB),这在一定程度上具有性价比优势。
与 RTX 5090 的对比
尽管 AMD 的 48GB GPU 在与 RTX 4090 的对比中表现优异,但关于与最新 RTX 5090 的对比,AMD 并未分享任何基准测试结果。这可能是因为 RTX 5090 的性能在某些方面仍然优于 AMD 的 GPU,尤其是在通用计算任务中。此外,英伟达之前曾通过展示 RTX 4090 和 RTX 5090 的基准测试来回应 AMD 的挑战,这些测试结果显示英伟达 的 GPU 在某些场景下仍然具有优势。
0条评论