当前位置：首页 > 优惠 >大语言模型>文章详情

ProgressGym技术解决方案：旨在通过学习历史上的道德进步机制，帮助AI系统在未来的现实世界道德决策中取得进步

推荐人：暴走AI| 商城: AI | 10个月前 (07-04)| 分类：大语言模型 | 热度：172 ℃

已关闭评论

ProgressGym技术解决方案：旨在通过学习历史上的道德进步机制，帮助AI系统在未来的现实世界道德决策中取得进步

北京大学和康奈尔大学的研究人员推出ProgressGym技术解决方案，它是一个实验框架，旨在通过学习历史上的道德进步机制，帮助AI系统在未来的现实世界道德决策中取得进步。这篇论文的主题是关于如何确保先进的人工智能系统，尤其是大型语言模型（LLMs），与人类社会的道德进步保持一致。这些AI系统对人类用户的价值观有着越来越大的影响，如果处理不当，可能会加强错误的道德信念，导致有问题的道德实践在大规模上持续存在。

GitHub：https://github.com/PKU-Alignment/ProgressGym
Demo：https://huggingface.co/spaces/PKU-Alignment/ProgressGym-LeaderBoard

例如，一个AI系统被设计为帮助学生学习历史。通过ProgressGym的训练，该系统不仅能提供历史事实，还能展示不同历史时期的道德观念是如何发展的。例如，它可以解释奴隶制是如何逐渐被社会所废除的，以及这一变化如何反映了人类对自由和平等价值观的逐渐认同。

主要功能和特点：

历史学习：ProgressGym利用9个世纪的历史文本和18个历史时期的LLMs，来学习人类道德进步的机制。
道德挑战的量化：框架将现实世界的道德进步挑战转化为具体的机器学习基准，如跟踪价值观的变化（PG-Follow）、预测道德进步（PG-Predict）和调节人类与AI价值变化之间的反馈循环（PG-Coevolve）。
时间维度的考虑：ProgressGym是第一个将时间维度纳入AI对齐问题的实验框架，这有助于解决现有对齐方法可能忽略的问题。

工作原理：

ProgressGym框架将道德进步对齐问题形式化为一个部分可观察的马尔可夫决策过程（POMDP），在这个过程中，代理（AI系统）学习并互动于不断发展的人类价值观。
通过历史文本数据和历史LLMs，ProgressGym允许研究者从历史中学习道德进步的机制，并通过时间自回归进行测试，然后将这些机制应用于现实世界的道德挑战。