最近,EXO Labs发布了一篇博客文章,并在社交媒体上分享了一段视频,展示了如何在一台26年前的Windows 98 奔腾 II电脑上成功运行大语言模型(LLM)。这台古老的Elonex Pentium II @ 350 MHz电脑启动进入Windows 98后,EXO使用基于Andrej Karpathy的Llama2.c开发的纯C推理引擎,要求LLM生成一个关于“Sleepy Joe”的故事。令人惊讶的是,它不仅成功了,而且以相当可观的速度生成了故事。
这一壮举不仅是技术上的突破,更是EXO Labs使命的一个象征性示例。EXO Labs由牛津大学的研究人员和工程师组成,其核心目标是“democratize access to AI”(让AI普及化)。通过构建开放的基础设施,EXO希望任何人都能在任何设备上训练和运行AI模型,从而打破少数巨头公司对AI技术的垄断,促进文化、真相和社会其他基本方面的健康发展。
技术挑战与解决方案
为了实现这一看似不可能的任务,EXO团队克服了许多技术障碍:
硬件获取与数据传输
- EXO从eBay上购买了一台旧Windows 98电脑作为项目的基础。
- 由于现代USB接口不兼容,他们不得不通过以太网端口使用“古老的FTP”进行文件传输,将必要的代码和数据传送到这台古老的电脑上。
编译现代代码
- 为Windows 98编译现代代码是一个巨大的挑战。EXO找到了Andrej Karpathy的llama2.c,这是一个用700行纯C代码编写的推理引擎,能够运行基于Llama 2架构的模型。
- 他们使用了古老的Borland C++ 5.02 IDE和编译器,并进行了一些小的调整,最终成功编译出了兼容Windows 98的可执行文件。
性能优化
- 在260K参数规模的LLM上,EXO实现了35.9 tok/sec的生成速度,这在350 MHz的单核电脑上已经相当惊人。
- 升级到15M参数规模的LLM后,生成速度略高于1 tok/sec。
- 对于更大规模的Llama 3.2 1B模型,生成速度仅为0.0093 tok/sec,几乎慢如冰川,但这一尝试仍然展示了在极端受限硬件上运行大型模型的可能性。
EXO Labs的使命与愿景
EXO Labs的这一实验不仅仅是展示技术能力,更体现了其推动AI普及化的愿景。通过开源工具和创新的技术解决方案,EXO正在为更多人提供接触和利用AI技术的机会。他们的目标是:
- 构建开放的基础设施:开发和维护开源工具和平台,使任何人都能轻松训练和运行AI模型。
- 降低门槛:通过优化算法和硬件适配,确保AI技术能够在各种设备上运行,无论这些设备多么老旧或资源有限。
- 促进公平:打破少数巨头公司对AI技术的垄断,确保AI的发展和应用更加民主化和透明。
0条评论