北京大学和康奈尔大学的研究人员推出ProgressGym技术解决方案,它是一个实验框架,旨在通过学习历史上的道德进步机制,帮助AI系统在未来的现实世界道德决策中取得进步。这篇论文的主题是关于如何确保先进的人工智能系统,尤其是大型语言模型(LLMs),与人类社会的道德进步保持一致。这些AI系统对人类用户的价值观有着越来越大的影响,如果处理不当,可能会加强错误的道德信念,导致有问题的道德实践在大规模上持续存在。
- GitHub:https://github.com/PKU-Alignment/ProgressGym
- Demo:https://huggingface.co/spaces/PKU-Alignment/ProgressGym-LeaderBoard
例如,一个AI系统被设计为帮助学生学习历史。通过ProgressGym的训练,该系统不仅能提供历史事实,还能展示不同历史时期的道德观念是如何发展的。例如,它可以解释奴隶制是如何逐渐被社会所废除的,以及这一变化如何反映了人类对自由和平等价值观的逐渐认同。
主要功能和特点:
- 历史学习:ProgressGym利用9个世纪的历史文本和18个历史时期的LLMs,来学习人类道德进步的机制。
- 道德挑战的量化:框架将现实世界的道德进步挑战转化为具体的机器学习基准,如跟踪价值观的变化(PG-Follow)、预测道德进步(PG-Predict)和调节人类与AI价值变化之间的反馈循环(PG-Coevolve)。
- 时间维度的考虑:ProgressGym是第一个将时间维度纳入AI对齐问题的实验框架,这有助于解决现有对齐方法可能忽略的问题。
工作原理:
- ProgressGym框架将道德进步对齐问题形式化为一个部分可观察的马尔可夫决策过程(POMDP),在这个过程中,代理(AI系统)学习并互动于不断发展的人类价值观。
- 通过历史文本数据和历史LLMs,ProgressGym允许研究者从历史中学习道德进步的机制,并通过时间自回归进行测试,然后将这些机制应用于现实世界的道德挑战。
具体应用场景:
- 教育:在教育领域,AI系统可以作为辅助工具,帮助学生理解道德观念的发展和变化。
- 政策制定:政府和组织可以利用ProgressGym来评估和指导政策制定,确保政策与社会道德进步保持一致。
- 个人助理:作为个人助理的AI系统,可以通过ProgressGym确保其提供的建议和信息符合当前社会道德标准。
论文强调,尽管ProgressGym是一个有前景的框架,但它也有局限性,比如目前主要关注英语文本数据,未来需要增加更多文化和语言的文本数据,以提高其普遍性和准确性。
0条评论