Persona Hub:自动从网络数据中整理出10亿个不同的角色

分类:大语言模型 | 热度:170 ℃

腾讯西雅图人工智能实验室推出一种新颖的、由角色驱动的数据合成方法,该方法利用大语言模型(LLM)中的多种视角来创建多样化的合成数据。研究人员推出了一个名为“Persona Hub”的系统,它自动从网络数据中整理出10亿个不同的角色(约占世界总人口的13%)。这些角色作为世界知识的分布式载体,能够触及LLM中包含的几乎所有视角,从而为各种场景大规模地促进多样化合成数据的创造。这项技术报告还讨论了使用Persona Hub可能带来的广泛影响和伦理问题,例如数据安全性、对现有LLM领先地位的威胁、以及在虚拟世界中模拟现实社会的可能性。

  • GitHub:https://github.com/tencent-ailab/persona-hub
  • 数据:https://huggingface.co/datasets/proj-persona/PersonaHub

例如,我们需要为一个在线游戏创建NPC角色。通过Persona Hub,我们可以将现实世界中的各种角色(如摄影师、餐馆老板、退休教授等)映射到游戏世界中,为每个角色生成独特的背景故事和与玩家的互动方式。例如,一位对澳大利亚原生植物感兴趣的园艺师,在游戏世界中可能成为一个提供植物学知识和任务的NPC。

主要功能:

  • 合成数据多样化:能够创造出不同领域和背景下的合成数据。
  • 大规模数据处理:处理和合成达到亿级规模的数据。
  • 角色驱动的合成:利用不同的角色来引导数据合成,确保数据的多样性和覆盖面。

主要特点:

  • 多样性:10亿个角色确保了合成数据的多样性。
  • 自动化:从网络数据中自动整理角色,减少人工干预。
  • 易于使用:方法简单,易于与其他数据合成提示结合使用。

工作原理:

  1. 角色生成:通过“Text-to-Persona”和“Persona-to-Persona”两种方法从大量网络数据中生成角色。
  2. 数据合成:将特定角色整合到数据合成提示中,引导LLM从该角色的视角创造合成数据。
  3. 角色去重:使用MinHash和嵌入模型去重,确保角色的独立性和多样性。

具体应用场景:

  • 数学和逻辑问题合成:利用不同角色(如数学家、逻辑学家)来创造相关问题。
  • 用户指令合成:模拟不同用户可能对LLM提出的请求,生成多样化的用户指令。
  • 知识丰富文本:使用具有特定专业知识的角色来创造信息丰富、知识性强的文本。
  • 游戏NPC开发:为游戏创造出具有不同背景和特点的非玩家角色(NPC)。
  • 工具(功能)开发:预测用户可能需要的工具,并预先为LLM创建这些工具的接口。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论