当前位置：首页 > 优惠 >大语言模型>文章详情

llama3.np： Llama 3 模型的纯 NumPy 实现

推荐人：暴走AI| 商城: AI | 11个月前 (05-20)| 分类：大语言模型 | 热度：219 ℃

已关闭评论

Meta公司最近发布的Llama 3模型在业界引起了广泛关注。这款模型以其庞大的规模和卓越的性能赢得了业界的赞赏。具体来说，它采用了24K GPU进行训练，使用了15T的训练数据，并处理了10M的指令数据，整个过程耗费了惊人的130万GPU小时。

值得注意的是，尽管性能强大，但Llama 3的模型结构并未发生根本性变化。与此同时，该模型已经转向使用GQA（一种技术或方法），但这在之前的Llama 2 70B版本中已有所体现，因此模型结构实际上保持了延续性。

为了确保模型的准确实施，我们将采用NumPy这一工具来简化模型结构，使其更加易于理解和应用。为此，我们采用了Andrej Karpathy在开发llama.2时训练的stories15M模型，并通过专门的转换器将其转换为NumPy压缩格式。这意味着我们将直接使用Karpathy基于Llama 2结构训练的模型，并将其转化为可执行代码。

不过，需要特别指出的是，stories15M模型在训练过程中并未使用GQA。因此，尽管我们在代码中实现了GQA功能，但在当前的模型行为中并未实际应用这一技术。总体而言，Llama 3模型的发布展示了Meta在人工智能领域的持续创新和进步。我们期待这一技术能在未来的实际应用中发挥出更大的潜力。

好 (0 )

不好 (0 )

llama3.np