近日,英特尔在其官方博客中展示了一项令人瞩目的技术突破:通过运用其独特的PyTorch扩展,Arc Alchemist GPU成功驱动了如Llama 2这样的大型语言模型。这一技术革新不仅证明了Arc GPU的强大性能,还为AI领域带来了新的可能性。(原文地址)
这款英特尔PyTorch扩展具有跨平台兼容性,可以在Windows和Linux系统上流畅运行。其最大的亮点在于能够充分利用Arc GPU上的FP16性能,从而大幅提升LLM的运行效率。然而,值得注意的是,为了充分发挥Llama 2的性能,用户需要配备至少14GB的显存,这意味着Arc A770 16GB显卡或更高配置将成为首选。
PyTorch作为Meta开发的开源机器学习框架,在LLM处理方面表现出色。然而,为了进一步提升性能,英特尔推出了专属的PyTorch扩展。这款扩展旨在充分挖掘Arc GPU内部的XMX核心潜力,自2023年1月首次发布以来,已经获得了业界的广泛关注。与此同时,AMD和Nvidia等竞争对手也在积极优化PyTorch性能,以在AI市场中保持竞争力。
在演示中,英特尔展示了Arc A770 16GB显卡在Llama 2中的卓越性能。通过使用去年12月发布的最新英特尔PyTorch扩展,该显卡针对FP16性能进行了专项优化。FP16,即半精度浮点数据,通过牺牲部分精度来换取更高的性能,这在AI工作负载中往往能取得良好的平衡。
演示过程中,Llama 2及其对话型变种Llama 2-Chat LLM展现了令人印象深刻的能力。它们不仅能够回答诸如“深度学习是否具备与人类相当的泛化能力?”这样的复杂问题,而且在回答中表现出了出人意料的谦逊态度。然而,尽管LLM的表现令人瞩目,但用户仍需注意,为了以FP16精度运行此类模型,至少需要14GB的显存。遗憾的是,英特尔并未在此次演示中透露关于模型响应速度和查询效率的具体数据。
尽管此次演示主要聚焦于FP16性能,但Arc Alchemist GPU还支持BF16、INT8、INT4和INT2等多种数据格式。其中,BF16因其较宽的数值范围而备受关注。与FP16相比,BF16具有更高的数值精度,与FP32相当,这使其在AI工作负载中具有更大的潜力。未来,我们期待英特尔在其PyTorch扩展中进一步优化BF16性能,为AI领域带来更多惊喜。
0条评论