当前位置：首页 > 优惠 >大语言模型>文章详情

新型基准测试工具REPOEXEC：用于评估代码生成模型在处理整个代码库级别的任务时的能力

推荐人：暴走AI| 商城: AI | 1年前 (2024-06-22)| 分类：大语言模型 | 热度：250 ℃

已关闭评论

新型基准测试工具REPOEXEC：用于评估代码生成模型在处理整个代码库级别的任务时的能力

越南FPT 软件 AI 中心和富布赖特大学的研究人员推出新型基准测试工具REPOEXEC，它用于评估代码生成模型（CodeLLMs）在处理整个代码库级别的任务时的能力。REPOEXEC的核心目标是测试这些模型生成的代码是否可执行、功能正确，并且能够准确利用跨文件的上下文信息。实验结果表明，尽管预训练的大型语言模型（LLMs）在功能正确性方面表现优异，但在有效利用提供的依赖性方面还有待提高。而经过指令调整的模型在管理依赖性方面表现更好，尽管有时可能会生成过于复杂的代码。此外，多轮调试测试显著提高了模型在依赖性管理方面的表现。REPOEXEC为开发更可靠、更适用于现实世界场景的代码生成模型铺平了道路。

GitHub：https://github.com/FSoft-AI4Code/RepoExec

例如，你是一个软件开发者，正在使用一个代码生成模型来帮助编写一个Python函数，该函数需要将骆驼命名法（CamelCase）的字符串转换为蛇形命名法（snake_case）。REPOEXEC可以评估模型生成的代码是否能够正确执行这个任务，并且是否能够利用代码库中已有的相关函数和变量。例如，如果模型生成的代码没有正确调用一个名为is_camel_case的依赖函数来检查输入字符串是否有效，REPOEXEC将能够识别这个问题，并评估模型在依赖性使用方面的表现。

主要功能和特点：

可执行性：REPOEXEC确保生成的代码不仅语法正确，而且在现实环境中可以完全执行。
功能正确性：通过自动生成高覆盖率的测试用例，REPOEXEC验证代码是否能够准确执行其预期任务。
依赖性使用：REPOEXEC提供了一个流程来评估CodeLLMs如何利用代码依赖性，并通过实验引入了一个新的指令调整数据集，以增强模型有效利用这些依赖性的能力。