大语言模型

优惠 ServiceNow推出新型问题回答数据集REPLIQA:专门设计用来评估大语言模型在处理未见过的参考内容时的性能

  • ServiceNow推出新型问题回答数据集REPLIQA:专门设计用来评估大语言模型在处理未见过的参考内容时的性能
    AI
  • ServiceNow推出新型问题回答数据集REPLIQA,它专门设计用来评估大语言模型(LLMs)在处理未见过的参考内容时的性能。这个数据集的创建是为了解决现有评估方法可能存在的数据泄露问题,即模型可能在训练阶段就已经接触过测试数据,这样就不能准确评估模型的真正能力。 数据集地址:https://huggingface... 阅读全文

    优惠 数据集RABBITS:大语言模型在生物医学领域应用时的一个特定问题:对药物名称的脆弱性

  • 数据集RABBITS:大语言模型在生物医学领域应用时的一个特定问题:对药物名称的脆弱性
    AI
  • 麻省理工学院、哈佛大学、麻省总医院、波士顿儿童医院、奥胡斯大学、弗吉尼亚大学、马斯特里赫特大学、庞培法布拉大学和贝斯以色列女执事医疗中心的研究人员发布论文,讨论了大语言模型(LLMs)在生物医学领域应用时的一个特定问题:对药物名称的脆弱性。特别是在处理品牌名和通用名之间的替换时,模型的性能可能会显著下降。研究者们创建了... 阅读全文

    优惠 韩国科学技术研究院推出新方法TroL:提升大型语言和视觉模型(LLVMs)的效率和性能

  • 韩国科学技术研究院推出新方法TroL:提升大型语言和视觉模型(LLVMs)的效率和性能
    AI
  • 韩国科学技术研究院推出新方法TroL(Traversal of Layers,即层次遍历),它用于提升大型语言和视觉模型(LLVMs)的效率和性能。TroL的核心思想是通过在模型中重复使用层(即“层次遍历”),来模拟人类在回答问题时回顾和重新审视信息的过程,从而在不增加额外计算负担的情况下提高模型的理解和生成能力。论文... 阅读全文

    优惠 深度求索推出开源代码模型DeepSeek-Coder-V2:专门用于理解代码和解决编程问题

  • 深度求索推出开源代码模型DeepSeek-Coder-V2:专门用于理解代码和解决编程问题
    AI
  • 深度求索推出开源代码模型DeepSeek-Coder-V2,这是一个专门用于理解代码和解决编程问题的人工智能系统。它通过大量的训练,能够执行与编程相关的多种任务,比如编写代码、修复错误、甚至进行数学推理。尽管DeepSeek-Coder-V2在多个标准基准测试中表现出色,与一些封闭源代码模型相比具有竞争力,但在遵循复杂... 阅读全文

    优惠 新型多智能体软件开发框架AGILECODER:基于敏捷方法论,通过模拟人类软件开发流程来自动化软件的开发过程

  • 新型多智能体软件开发框架AGILECODER:基于敏捷方法论,通过模拟人类软件开发流程来自动化软件的开发过程
    AI
  • 越南FPT 软件 AI 中心和富布赖特大学的研究人员推出新型多智能体软件开发框架AGILECODER,它基于敏捷方法论(Agile Methodology,简称AM),旨在通过模拟人类软件开发流程来自动化软件的开发过程。这个框架通过分配不同的敏捷角色(如产品经理、开发者和测试员)给不同的智能体,让它们协作完成软件开发任... 阅读全文

    优惠 在RAG系统中是如何依赖外部检索到的上下文信息来回答问题

  • 在RAG系统中是如何依赖外部检索到的上下文信息来回答问题
    AI
  • 马萨诸塞大学阿默斯特分校、微软和马里兰大学帕克分校的研究人员发布论文,论文的主题是探讨在检索增强生成(Retrieval-Augmented Generation, RAG)系统中,语言模型在回答事实性问题时,是如何利用外部知识与模型内部参数信息的。RAG系统通过引入外部上下文来增强语言模型的推理能力,这在搜索、问答和... 阅读全文

    优惠 评估框架HPT:更精确地评估大语言模型在处理不同任务时的有效性

  • 评估框架HPT:更精确地评估大语言模型在处理不同任务时的有效性
    AI
  • 印度理工学院、美国南卡罗来纳大学人工智能研究所、美国罗彻斯特理工学院、美国亚马逊 GenAI和美国斯坦福大学推出评估框架“Hierarchical Prompting Taxonomy (HPT)”,用于更精确地评估大语言模型(LLMs)在处理不同任务时的有效性。这个框架特别关注了如何根据不同任务的复杂性,采用不同层次... 阅读全文

    优惠 在线偏好学习算法“行为临近偏好优化(BPO)”:改善大语言模型与人类期望的一致性

  • 在线偏好学习算法“行为临近偏好优化(BPO)”:改善大语言模型与人类期望的一致性
    AI
  • 加州大学圣巴巴拉分校和卡内基梅隆大学的研究人员推出新的在线偏好学习算法,名为“行为临近偏好优化”(BPO),它用于改善大语言模型(LLMs)与人类期望的一致性。BPO算法的核心思想是在模型训练过程中,使学习到的语言模型尽可能地接近行为模型(即生成训练样本的模型),以此来构建一个更合适的信任域,从而提高模型的性能。 例如... 阅读全文

    优惠 自对齐使用DPO隐式奖励DICE:利用了直接偏好优化(DPO)训练后的隐式奖励模型来进一步优化语言模型

  • 自对齐使用DPO隐式奖励DICE:利用了直接偏好优化(DPO)训练后的隐式奖励模型来进一步优化语言模型
    AI
  • ···q新加坡管理大学、新加坡Sea AI实验室、新加坡国立大学和罗格斯大学的研究人员推出自对齐使用DPO隐式奖励DICE,这个方法利用了直接偏好优化(DPO)训练后的隐式奖励模型来进一步优化语言模型。实验结果表明,DICE在保持模型大小不变的情况下,显著提高了语言模型的性能,甚至在某些方面超过了需要额外人类反馈的封闭... 阅读全文

    优惠 多图像关系基准新评估工具 MIRB:用来衡量这些模型在处理和推理多个图像时的表现,评估和测试视觉语言模型在理解多图像方面的能力

  • 多图像关系基准新评估工具 MIRB:用来衡量这些模型在处理和推理多个图像时的表现,评估和测试视觉语言模型在理解多图像方面的能力
    AI
  • 爱丁堡大学和同济大学的研究人员推出新评估工具 MIRB(Multi-Image Relational Benchmark, 多图像关系基准),用来衡量这些模型在处理和推理多个图像时的表现,评估和测试视觉语言模型(VLMs)在理解多图像方面的能力。论文通过广泛的评估发现,尽管在单图像任务中一些开源的视觉语言模型能够与一些... 阅读全文

    优惠 分词的诅咒:在大语言模型中,文本分词(tokenization)这一预处理步骤存在的问题,以及这些问题对模型性能的影响

  • 分词的诅咒:在大语言模型中,文本分词(tokenization)这一预处理步骤存在的问题,以及这些问题对模型性能的影响
    AI
  • 百度、ModelBest和UCPH的研究人员发布论文 ,论文的主题是探讨了在大语言模型(LLMs)中,文本分词(tokenization)这一预处理步骤存在的问题,以及这些问题对模型性能的影响。分词是将原始文本转换成一系列子词(subword)标识符的过程,这个过程对拼写错误、文本长度变化非常敏感,并且往往忽略了词内结... 阅读全文

    优惠 新型二值化技术“Mixture of Scales”:用于压缩大语言模型

  • 新型二值化技术“Mixture of Scales”:用于压缩大语言模型
    AI
  • 首尔国立大学、 SqueezeBits和成均馆大学的研究人员推出新型二值化技术“Mixture of Scales”(简称BinaryMoS),它主要用于压缩大语言模型(LLMs)。二值化是一种将模型中的权重参数转换为二进制值的方法,可以显著减少模型的大小,但传统的二值化技术会牺牲模型的语言能力。BinaryMoS通过... 阅读全文