合作游戏和数据集“PyQTax”:解决大语言模型在处理表格问答(TableQA)任务时面临的挑战

分类:大语言模型 | 热度:61 ℃

摩根大通人工智能研究推出一个名为“HiddenTables”的合作游戏和数据集“PyQTax”,旨在解决大语言模型(LLMs)在处理表格问答(TableQA)任务时面临的挑战,同时确保数据隐私和规模化应用。例如,有一个包含员工信息的数据表,Oracle知道这个表的结构,但Solver不知道具体内容。用户问:“出生于1990年之前的员工有多少人被传唤?”Solver根据Oracle提供的表结构生成代码来计算答案,而不需要访问实际的数据。这样,即使Solver是一个可能受到敌意攻击的外部模型,数据的隐私也得到了保护。

主要功能与特点:

  1. 合作游戏机制:“HiddenTables”由两个智能体组成——“Oracle”(预言者)和“Solver”(解答者)。Oracle掌握数据表的模式(schema),而Solver仅根据Oracle提供的模式和指令生成代码来回答问题,无需访问实际数据,从而保护了数据隐私。
  2. 数据隐私保护:通过不直接暴露数据内容,只提供数据结构信息,游戏机制确保了数据的安全性。
  3. 提高效率:与基于编码器的模型相比,HiddenTables不受表格行数的限制,因此在提示(prompt)和完成(completion)令牌的使用上更加高效。
  4. 新数据集PyQTax:提供了116,671个问题-表格-答案三元组,涵盖了不同的问题分类和标签,为未来的学术实验提供了资源。

工作原理:

  • Oracle根据用户查询创建一个适当的提示(RISQ),包括角色、指令、相关模式和问题,但不暴露任何具体的数据条目。
  • Solver接收Oracle的指令和问题,尝试将这些指令转化为可执行的代码序列,以解答查询。
  • Oracle评估Solver生成的代码,并在安全的环境下执行,以确保不泄露数据。
  • 通过多轮反馈,Oracle和Solver之间的对话可以进行最多七轮,以提高答案的准确性。

具体应用场景:

  • 数据安全和隐私保护:在需要保护敏感数据的机构中,如金融机构或医疗保健领域,HiddenTables可以用于生成答案而不会泄露数据。
  • 大规模数据处理:对于拥有大量数据集的企业和组织,HiddenTables提供了一种高效的方式来处理和分析数据,而无需担心数据泄露风险。
  • 学术研究:PyQTax数据集为研究人员提供了丰富的资源,以研究和改进LLMs在表格问答任务中的表现。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论