当前位置：首页 > 优惠 >大语言模型>文章详情

SafeInfer:提高大语言模型在生成文本时的安全性

推荐人：暴走AI| 商城: AI | 9个月前 (06-20)| 分类：大语言模型 | 热度：130 ℃

已关闭评论

印度理工学院、微软印度研究院、新加坡科技设计大学的研究人员发布论文，论文的主题是关于如何提高大语言模型在生成文本时的安全性。简单来说，就是教这些智能的计算机程序在回答问题时，怎样避免产生不当或有害的内容。论文还提出了一个名为HARMEVAL的新基准测试，用于评估模型在不同场景下的安全性表现，并且提供了相关代码和数据集的开源链接，以便研究人员和开发者可以进一步测试和改进语言模型的安全性。

GitHub：https://github.com/NeuralSentinel/SafeInfer
论文：https://arxiv.org/abs/2406.12274

例如，你有一个非常聪明的机器人助手，它可以回答你的问题。但是，如果有人问它一些不恰当的问题，比如有关歧视或暴力的问题，你肯定不希望它回答得同样不当。这篇论文就提出了一种方法，让机器人在这种情况下能够更加安全和妥当地回应，比如拒绝回答或者给出一个积极的引导。

主要功能：

安全性增强：确保语言模型在生成文本时不会产出有害或不道德的内容。
上下文适应性：根据问题的上下文来调整回答，使其更加安全和合适。

主要特点：

两阶段策略：包括“安全放大”（Safety Amplification）和“安全引导解码”（Safety Guided Decoding Strategy）两个阶段。
优化分布：通过调整模型选择词汇的概率分布，优化输出结果的安全性。
保持通用性：在提升安全性的同时，保持语言模型的总体效用和灵活性。