当前位置：首页 > 优惠 >大语言模型>文章详情

英伟达推出开源数据集HelpSteer2：为了训练能够指导大语言模型（LLMs）生成符合人类偏好的高质量回应的奖励模型而设计

推荐人：暴走AI| 商城: AI | 10个月前 (06-17)| 分类：大语言模型 | 热度：239 ℃

已关闭评论

英伟达推出开源数据集HelpSteer2：为了训练能够指导大语言模型（LLMs）生成符合人类偏好的高质量回应的奖励模型而设计

英伟达推出开源数据集HelpSteer2，它是为了训练能够指导大语言模型（LLMs）生成符合人类偏好的高质量回应的奖励模型而设计的。HelpSteer2数据集的特点是它包含了对回应的多属性评分，这有助于训练出能够更好地符合人类偏好的奖励模型。例如，你是一个在线客服聊天机器人的开发者，你希望机器人能够提供既准确又有帮助的回答。使用HelpSteer2数据集，你可以训练一个奖励模型来评估和指导机器人的回应。例如，如果用户询问“如何更换打印机墨盒”，机器人不仅需要提供正确的步骤（正确性），还要确保回答简洁明了（避免冗余），并且整个回答连贯一致（连贯性）。通过这种方式，HelpSteer2帮助开发者提升聊天机器人的服务质量。

GitHub：https://github.com/NVIDIA/NeMo-Aligner
数据集：https://huggingface.co/datasets/nvidia/HelpSteer2

主要功能和特点：

多属性评分：HelpSteer2不仅评估回应的质量，还包括了对回应的帮助性、正确性、连贯性、复杂性和冗余性的评分。
高效训练：尽管HelpSteer2只包含十万对回应对，远少于现有的偏好数据集，但它显示出了高效的训练潜力，能够训练出与现有最佳模型相媲美或更优的奖励模型。
开源许可：HelpSteer2采用了宽松的CC-BY-4.0许可，允许在学术和商业环境中使用，这促进了更广泛的社区参与和创新。

工作原理：

数据收集：HelpSteer2的数据主要来源于ShareGPT平台，这是一个用户自愿分享他们与ChatGPT对话的平台。数据集的创建者从这个平台选择了多种真实世界使用场景的对话。
回应生成：对于每个提示（prompt），生成两个回应，这些回应来自不同的模型，以增加多样性。
回应标注：使用多个标注者对每个回应进行评分，以确保高质量的数据，并通过迭代过程提高了标注的一致性。