大语言模型
优惠 加州大学伯克利分校推出BenchBuilder的系统:自动从众包平台收集的数据中筛选出高质量的测试题目
5个月前 (06-19)AI
加州大学伯克利分校推出BenchBuilder的系统,它的主要功能是自动从众包平台(如Chatbot Arena)收集的数据中筛选出高质量的测试题目。这些测试题目能够很好地区分不同模型的能力,并且与人类的评价标准保持一致。例如,我们想测试一个语言模型是否能够很好地理解医学领域的术语,BenchBuilder可以筛选出需... 阅读全文
优惠 Safety Arithmetic:确保大语言模型在各种使用场景下的安全性
5个月前 (06-19)AI
新加坡科技设计大学和印度理工学院 Kharagpur 分校的研究人员发布论文,论文的主题是关于如何确保大型语言模型(LLMs)在各种使用场景下的安全性。随着这些模型在翻译、问答等应用中的广泛使用,确保它们与人类价值观保持一致,不产生有害内容,变得尤为重要。通过这种方法,研究人员能够在不牺牲模型实用性的前提下,显著提高模... 阅读全文
优惠 Humor in AI:关于AI在幽默创作领域的研究,特别是针对卡通漫画的标题生成
标签:Humor in AI
AI
5个月前 (06-19)AI
威斯康星大学麦迪逊分校和华盛顿大学西雅图分校的研究人员发布论文,论文的主题是关于人工智能(AI)在幽默创作领域的研究,特别是针对卡通漫画的标题生成。研究人员通过收集和分析大量的人类对漫画标题的评价,来训练和评估AI模型在创作幽默标题方面的能力。 例如,《纽约客》杂志发布了一幅漫画,展示了一个穿着宇航服的骑士骑着马,手持... 阅读全文
优惠 ServiceNow推出新型问题回答数据集REPLIQA:专门设计用来评估大语言模型在处理未见过的参考内容时的性能
5个月前 (06-19)AI
ServiceNow推出新型问题回答数据集REPLIQA,它专门设计用来评估大语言模型(LLMs)在处理未见过的参考内容时的性能。这个数据集的创建是为了解决现有评估方法可能存在的数据泄露问题,即模型可能在训练阶段就已经接触过测试数据,这样就不能准确评估模型的真正能力。 数据集地址:https://huggingface... 阅读全文
优惠 深度求索推出开源代码模型DeepSeek-Coder-V2:专门用于理解代码和解决编程问题
5个月前 (06-19)AI
深度求索推出开源代码模型DeepSeek-Coder-V2,这是一个专门用于理解代码和解决编程问题的人工智能系统。它通过大量的训练,能够执行与编程相关的多种任务,比如编写代码、修复错误、甚至进行数学推理。尽管DeepSeek-Coder-V2在多个标准基准测试中表现出色,与一些封闭源代码模型相比具有竞争力,但在遵循复杂... 阅读全文
优惠 新型多智能体软件开发框架AGILECODER:基于敏捷方法论,通过模拟人类软件开发流程来自动化软件的开发过程
标签:AGILECODER
AI
5个月前 (06-19)AI
越南FPT 软件 AI 中心和富布赖特大学的研究人员推出新型多智能体软件开发框架AGILECODER,它基于敏捷方法论(Agile Methodology,简称AM),旨在通过模拟人类软件开发流程来自动化软件的开发过程。这个框架通过分配不同的敏捷角色(如产品经理、开发者和测试员)给不同的智能体,让它们协作完成软件开发任... 阅读全文