这位具有划时代意义的软件工程师不仅成功通过了顶尖AI公司的实际工程面试,还在Upwork上出色地完成了真实工作。Devin的完全自主能力令人瞩目,他能够熟练使用自己的Shell、代码编辑器和网络浏览器解决各种工程任务。
Devin的能力范围广泛,他能够学习使用不熟悉的技术,端到端构建和部署应用,自主发现并修复代码库中的错误,训练和微调自己的AI模型,并对成熟的生产仓库做出贡献。在SWE-Bench基准测试中,Devin无需任何协助,就成功解决了13.86%的真实世界开源项目中的GitHub问题,这一成绩远超过以前的最佳模型性能。
Devin的核心能力不仅体现在他的技术实力上,更在于他的长期推理和规划能力,能够执行需要复杂决策的工程任务。他熟练掌握并应用各种开发工具,包括shell、代码编辑器和浏览器等。同时,Devin也展现出积极的协作精神,能够实时报告进度,接受反馈,并与用户共同作出设计选择。
Devin的学习能力同样令人印象深刻,他能够快速掌握并应用不熟悉的技术,从头到尾完成应用的构建和部署。他能够自主发现并解决代码中的问题,设置并微调大型语言模型,应对开源项目中的错误和功能请求,解决复杂的生产级仓库问题。
更重要的是,Devin能够在如Upwork这样的平台上完成真实工作,这标志着AI技术在软件工程领域迈出了重要的一步。Devin的出现不仅证明了AI在软件工程领域的巨大潜力,也为未来的软件开发带来了无限可能。我们期待Devin能够继续发挥他的能力,为人类社会的科技进步贡献更多力量。
申请地址:https://www.cognition-labs.com
以下是官方介绍全文翻译:
介绍Devin,首位人工智能软件工程师
Devin在SWE基准编码测试中创下了新的最佳成绩。
认识Devin,全球首位全自主人工智能软件工程师。
Devin是一位不知疲倦、技术高超的团队成员,他随时准备与你并肩作战,或独立完成任务供你审查。
有了Devin,工程师们能够专注于更有趣的问题,而工程团队也能追求更宏大的目标。
Devin的能力
得益于我们在长期推理和规划方面的进步,Devin能够规划和执行需要做出数千个决策的复杂工程任务。在每一步中,Devin都能回忆起相关背景,随时间学习,并修正错误。
我们还为Devin配备了常用的开发工具,包括沙盒计算环境中的shell、代码编辑器和浏览器——人类完成工作所需的一切。
最后,我们还赋予了Devin与用户积极合作的能力。Devin能够实时报告进度,接受反馈,并在需要时与你共同做出设计选择。
以下是Devin能够执行的一些示例任务:
-
Devin能够学习并掌握不熟悉的技术:在阅读一篇博客文章后,Devin在Modal上运行了ControlNet,成功为Sara生成了包含隐藏信息的图片。 -
Devin能够端到端地构建并部署应用程序:Devin制作了一个交互式的“生命游戏”网站,并根据用户请求逐步添加新功能,随后将应用部署到Netlify上。 -
Devin能够自主地在代码库中查找并解决bug:Devin协助Andrew维护和调试他的开源竞赛编程书籍中的代码。 -
Devin能够训练和优化自己的AI模型:只需提供GitHub上研究仓库的链接,Devin便能为大型语言模型设置精细调优流程。 -
Devin能够处理开源仓库中的bug和功能请求:仅需一个GitHub问题的链接,Devin就能完成所有必要的设置和背景信息收集工作。 -
Devin能够为成熟的生产仓库做出贡献:这一示例来自SWE基准测试。Devin解决了sympy Python代数系统中关于对数计算的bug。它自主设置了代码环境,重现了bug,编写了修复代码并进行了测试。 -
我们甚至尝试在Upwork上给Devin分配了实际的工作任务,它也出色地完成了!在这里,Devin编写并调试了运行计算机视觉模型的代码,对生成的数据进行了采样,并最终编写了一份报告。
Devin的性能表现
我们在具有挑战性的SWE基准测试上对Devin进行了评估,该测试要求解决Django和scikit-learn等开源项目中出现的真实GitHub问题。
Devin成功解决了13.86%*的问题,这一成绩远超之前最先进的1.96%的水平。即便是在给定需要编辑的确切文件的情况下,之前表现最好的模型也只能解决4.80%的问题。
我们计划很快发布一份更详细的技术报告——敬请关注后续动态以获取更多信息。
*注:这里的13.86%是示例数据,实际数据可能有所不同。
0条评论