KAIST AI、LG AI Research、卡内基梅隆大学、MIT、艾伦人工智能研究所和伊利诺伊大学芝加哥分校的研究人员推出开源语言模型PROMETHEUS 2,它专门用于评估其他语言模型的输出质量。在开发这个模型的过程中,研究人员注意到现有的开源评估模型存在一些关键的不足,比如它们的评分与人类给出的评分差异较大,以及它们缺乏执行直接评估和成对排名这两种最常见评估形式的灵活性。此外,这些模型通常只能根据通用的标准(如有帮助性和无害性)进行评估,而不是基于自定义的评估标准。
例如,我们有许多不同的语言模型,它们能够生成各种文本。但是,我们如何知道哪些模型生成的文本质量更高呢?这就需要一个“评委”来打分。PROMETHEUS 2就是这样一个评委,它能够模仿人类评委的打分方式,告诉我们哪个模型生成的文本更好。这就像在一个烹饪比赛中,PROMETHEUS 2是一个专业的美食评委,能够判断出哪位厨师做的菜更美味。
主要功能:
- 直接评估:对语言模型生成的单个文本进行质量评分。
- 成对排名:比较两个文本,并判断哪一个更符合给定的标准。
主要特点:
- 高相关性:PROMETHEUS 2给出的评分与人类评委和专有语言模型评委的评分高度相关。
- 灵活性:能够处理直接评估和成对排名两种评估格式。
- 自定义评估标准:支持用户定义的评估标准,不仅限于通用属性。
工作原理:
PROMETHEUS 2通过以下步骤进行工作:
- 训练:使用直接评估和成对排名的反馈数据集来训练两个独立的评估模型。
- 权重合并:将这两个模型的权重合并,以创建一个统一的评估模型,该模型能够在两种评估格式中都表现出色。
- 评估:在给定的评估任务中,PROMETHEUS 2会根据训练时学到的知识来评估语言模型生成的文本。
具体应用场景:
- 语言模型开发:帮助开发者了解他们的模型与现有最佳模型相比的表现。
- 教育和研究:在学术环境中,用于评估和理解语言模型的生成能力。
- 内容生成平台:在需要自动评估生成文本质量的应用中,如聊天机器人、内容创作工具等。
- 模型比较:在需要比较不同语言模型或不同版本模型性能的场景中。
通过这种方式,PROMETHEUS 2能够帮助我们更好地理解和利用语言模型,同时减少对专有评估工具的依赖。
0条评论