当前位置：首页 > 优惠 >大语言模型>文章详情

SOTOPIA-π：如何通过交互式学习方法提升语言代理（即人工智能聊天机器人）的社会智能

推荐人：暴走AI| 商城: AI | 1年前 (2024-03-15)| 分类：大语言模型 | 热度：232 ℃

已关闭评论

SOTOPIA-π：如何通过交互式学习方法提升语言代理（即人工智能聊天机器人）的社会智能

AI

来自语言技术学院和卡内基·梅隆大学的研究团队发布论文探讨如何通过交互式学习方法提升语言代理（即人工智能聊天机器人）的社会智能。社会智能是指理解和处理社会互动的能力，这对于创建能够与人类自然交流的虚拟助手至关重要。论文通过实验表明，SOTOPIA-π能够显著提高基于7B参数的大型语言模型的社会目标完成能力，同时减少生成有毒内容的风险，并保持了模型在一般性问答任务上的性能。此外，论文还探讨了使用大型语言模型作为评估工具的局限性，并提出了未来研究的方向，包括在线强化学习、从人类学习以及更健壮的社会智能评估和学习信号。

GitHub：https://github.com/sotopia-lab/sotopia-pi

数据：https://huggingface.co/datasets/cmu-lti/sotopia-pi

模型：https://huggingface.co/cmu-lti/sotopia-pi-mistral-7b-BC_SR/tree/main

主要功能和特点：

社会任务生成：论文提出了一种名为SOTOPIA-π的方法，它能够自动生成新的社会任务，例如模拟买卖双方在Craigslist上的对话。
行为克隆和自我强化训练：通过分析大型语言模型（如GPT-4）的评分，选择积极的社交互动数据进行训练，从而提高语言代理的社会智能。
安全性和一般性问答能力的保持：在提升社会智能的同时，SOTOPIA-π还注重保持语言代理的安全性和一般性问答能力。

工作原理：

社会任务生成：SOTOPIA-π通过采样与社交活动相关的关键词，并利用GPT-4生成场景和社交目标，从而创建新的社会任务。
训练数据收集：通过模拟专家政策（GPT-4基代理）和代理政策（正在训练的模型）之间的社交互动来收集数据。
代理政策更新：使用GPT-4对社交互动的积极例子进行评分，并根据评分阈值过滤数据，然后通过行为克隆和自我强化训练更新代理的政策。

具体应用场景：

虚拟助手：可以用于客户服务、在线购物平台等，提供更加自然和智能的用户体验。
教育和培训：在模拟社交场景中训练语言代理，帮助学习社交技能，例如谈判、合作和竞争。
社交娱乐：在游戏或社交应用中，创建能够进行复杂社交互动的虚拟角色，增强用户的沉浸感。

SOTOPIA-π

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：开放基础模型（Open Foundation Models）对社会的影响

下一篇：谷歌开源模型Gemini的技术论文

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录