当前位置：首页 > 优惠 >大语言模型>文章详情

H2O.ai公司推出小型语言模型H2O-Danube3，可以在手机上运行

推荐人：暴走AI| 商城: AI | 9个月前 (07-17)| 分类：大语言模型 | 热度：268 ℃

已关闭评论

H2O-Danube3是由H2O.ai公司推出的一系列小型语言模型。这些模型包括H2O-Danube3-4B和H2O-Danube3-500M，分别在6万亿（T）和4万亿个词元上进行了训练。这些模型的设计理念是能够在现代智能手机等移动设备上高效运行，实现本地推理和快速处理能力。例如，你有一个智能手机应用，需要一个能够理解和回应用户问题的智能助手。H2O-Danube3模型可以被训练成这样的助手，它不仅能理解用户的问题，还能提供准确的回答。此外，由于模型较小，它不会占用太多的手机存储空间或处理能力，使得应用运行更加流畅。

模型地址：https://huggingface.co/collections/h2oai/h2o-danube3-6687a993641452457854c609
Demo：https://huggingface.co/spaces/h2oai/h2ogpt-chatbot2
官网：https://h2o.ai

主要功能

高效推理：这些模型可以在智能手机等移动设备上运行，提供快速的响应能力。
多任务适应性：经过微调（fine-tuning），这些模型可以用于多种任务，如文本分类、问答、聊天机器人等。
开源：所有模型都在Apache 2.0许可下公开，使得更广泛的用户可以访问和使用这些模型。

主要特点

小而强大：尽管模型较小，但它们在多个学术、聊天和微调基准测试中表现出色。
多阶段训练：模型在三个不同阶段使用不同的数据混合进行训练，逐步减少噪声数据的比例，增加高质量数据的比例。
量化版本：为了在边缘设备上使用，还提供了量化版本的模型，这些版本在减小模型大小的同时，尽可能保持模型质量。

工作原理

H2O-Danube3模型是基于解码器的LLM（大型语言模型）家族，采用了Llama模型架构的核心原则，并结合了Mistral模型的一些特性。模型使用Mistral分词器，词汇量为32,000，并训练至8,192的上下文长度。模型通过分组查询注意力（Grouped Query Attention）和优化参数及计算效率来实现广泛的架构。