当前位置：首页 > 优惠 >大语言模型>文章详情

新基准测试套件Long Code Arena：专门设计用来评估和提升代码处理模型在长文本上下文环境中的表现

推荐人：暴走AI| 商城: AI | 10个月前 (06-20)| 分类：大语言模型 | 热度：136 ℃

已关闭评论

新基准测试套件Long Code Arena：专门设计用来评估和提升代码处理模型在长文本上下文环境中的表现

JetBrains Research和代尔夫特理工大学推出新基准测试套件Long Code Arena，它专门设计用来评估和提升代码处理模型在长文本上下文环境中的表现。简单来说，它是一个挑战场，让计算机程序在编写、理解和修复代码时，能够更好地利用整个项目的信息，而不仅仅是单个文件或函数。Long Code Arena的推出，旨在推动机器学习在软件工程领域的应用，特别是在处理长文本上下文方面的能力。通过这些基准测试，研究人员可以更好地评估和改进模型在复杂软件开发任务中的表现。

Demo：https://huggingface.co/spaces/JetBrains-Research/long-code-arena

例如，你是一名软件开发者，正在处理一个大型项目。这个项目包含了成千上万的文件和代码行。当你需要修复一个错误或者添加一个新功能时，你需要考虑到项目中所有相关的代码和文档。Long Code Arena就是帮助计算机程序在这种情况下更好地理解和生成代码的工具。

新基准测试套件Long Code Arena：专门设计用来评估和提升代码处理模型在长文本上下文环境中的表现

主要功能：

多任务评估：Long Code Arena包含六种不同的代码处理任务，包括基于库的代码生成、持续集成（CI）构建修复、项目级代码补全、提交消息生成、缺陷定位和模块总结。
项目级上下文：与只考虑单个文件或函数的现有基准不同，Long Code Arena要求模型在项目级别上理解和生成代码。