AI

优惠 新方法Whiteboard-of-Thought(思维白板):提升多模态大语言模型在视觉推理方面的能力

  • 新方法Whiteboard-of-Thought(思维白板):提升多模态大语言模型在视觉推理方面的能力
    AI
  • 哥伦比亚大学的研究人员推出新方法“Whiteboard-of-Thought”(思维白板,简称WoT),旨在提升多模态大语言模型(MLLMs)在视觉推理方面的能力。这种方法模仿了人类在解决视觉问题时的自然行为,即通过形成心理图像或绘制视觉辅助图来转换推理方式。论文还讨论了WoT方法的局限性,比如对准确视觉系统的要求,以... 阅读全文

    优惠 新基准测试MMBench-Video:为视频理解而设计的长期多镜头视频问答(VideoQA)评估工具

  • 新基准测试MMBench-Video:为视频理解而设计的长期多镜头视频问答(VideoQA)评估工具
    AI
  • 上海人工智能实验室、上海交通大学、香港中文大学和同济大学的研究人员推出新基准测试MMBench-Video,它是一个为视频理解而设计的长期多镜头视频问答(VideoQA)评估工具。这个基准测试旨在全面评估大型视觉语言模型(LVLMs)在视频内容理解方面的能力。通过这样的基准测试,研究人员可以评估和比较不同LVLMs在视... 阅读全文

    优惠 新框架Prism:专门设计用来解耦和评估视觉语言模型的两个关键能力:感知能力和推理能力

  • 新框架Prism:专门设计用来解耦和评估视觉语言模型的两个关键能力:感知能力和推理能力
    AI
  • 上海人工智能实验室、南京大学、香港中文大学、同济大学、南京邮电大学和中国科学技术大学的研究人员推出新框架Prism,它专门设计用来解耦和评估视觉语言模型(VLMs)的两个关键能力:感知能力和推理能力。Prism框架的出现,是因为现有的VLMs在视觉感知和逻辑推理方面的能力往往混杂在一起,难以单独评估,而这两点对于模型的... 阅读全文

    优惠 新型多模态数据集格式PIN:提升大型多模态模型在复杂知识驱动任务中的表现

  • 新型多模态数据集格式PIN:提升大型多模态模型在复杂知识驱动任务中的表现
    AI
  • 新型多模态数据集格式PIN(Paired and Interleaved multimodal documents,即配对和交错的多模态文档),这个格式旨在提升大型多模态模型(Large Multimodal Models,简称LMMs)在复杂知识驱动任务中的表现,尤其是在解读视觉数据和推理多模态关系方面。论文还提到了... 阅读全文

    优惠 新型优化方法iLR-DPO(迭代长度正则化的直接偏好优化):提升语言模型的性能,使其更符合人类的偏好和价值观

  • 新型优化方法iLR-DPO(迭代长度正则化的直接偏好优化):提升语言模型的性能,使其更符合人类的偏好和价值观
    AI
  • 香港中文大学MMLab和上海人工智能实验室推出一种新型的优化方法,名为迭代长度正则化的直接偏好优化(Iterative Length-Regularized Direct Preference Optimization,简称iLR-DPO)。这种方法主要用于提升语言模型的性能,使其更符合人类的偏好和价值观。简单来说,就... 阅读全文

    优惠 多任务信息提取模型GLiNER:通过一个小规模的编码器(encoder)模型,实现对各种信息提取任务的有效处理

  • 多任务信息提取模型GLiNER:通过一个小规模的编码器(encoder)模型,实现对各种信息提取任务的有效处理
    AI
  • 新型的多任务信息提取模型GLiNER(Generalist Lightweight model for Information Extraction and Named Entity Recognition),这个模型旨在通过一个小规模的编码器(encoder)模型,实现对各种信息提取任务的有效处理,包括命名实体识别(... 阅读全文

    优惠 新型量子化学数据集和基准测试∇2DFT:用于评估神经网络势能(NNPs)在药物分子模拟方面的性能

  • 新型量子化学数据集和基准测试∇2DFT:用于评估神经网络势能(NNPs)在药物分子模拟方面的性能
    AI
  • 俄罗斯AIRI、EPFL、圣彼得堡国立大学等研究人员推出新型量子化学数据集和基准测试∇2DFT,它专门用于评估神经网络势能(Neural Network Potentials, NNPs)在药物分子模拟方面的性能。这个数据集是基于先前的nablaDFT数据集扩展而来,包含了更多的分子结构、构象、数据类型和任务,以及最新... 阅读全文

    优惠 中国电信LiteAI 团队推出开源大语言模型HARE

  • 中国电信LiteAI 团队推出开源大语言模型HARE
    AI
  • HARE 是由中国电信股份有限公司贵州分公司 LiteAI 团队开发的预训练模型,我们使用约600B Tokens的高质量开源和策略生成的合成数据作为预训练数据。论文的主题是探讨如何通过利用人类先验知识(human priors)来提高小型语言模型(Small Language Models,简称SLMs)的效率和性能... 阅读全文

    优惠 新型低延迟大语言模型推理框架LiveMind:语言模型能够在接收到不完整的提示(prompts)时就开始进行推理,从而减少用户等待响应的时间,提高交互体验

  • 新型低延迟大语言模型推理框架LiveMind:语言模型能够在接收到不完整的提示(prompts)时就开始进行推理,从而减少用户等待响应的时间,提高交互体验
    AI
  • 慕尼黑工业大学、达姆施塔特工业大学和浙江大学的研究人员推出新型低延迟大语言模型推理框架LiveMind,LiveMind的核心思想是让语言模型能够在接收到不完整的提示(prompts)时就开始进行推理,从而减少用户等待响应的时间,提高交互体验。 主要功能: 低延迟推理:LiveMind允许LLMs在用户输入不完整时就开... 阅读全文

    优惠 阿里巴巴 Qwen 团队推出AUTOIF方法,提升大语言模型遵循指令的能力

  • 阿里巴巴 Qwen 团队推出AUTOIF方法,提升大语言模型遵循指令的能力
    AI
  • 阿里巴巴 Qwen 团队推出AUTOIF方法,提升大语言模型(LLMs)遵循指令的能力。想象一下,你有一个非常聪明的助手,它可以阅读和理解你给出的任何指令,然后用自然语言做出回应。但是,如果我们想让这个助手更好地理解和执行复杂的指令,就需要一些特别的方法来训练它。AUTOIF方法通过自我生成的执行反馈来增强LLMs的指... 阅读全文

    优惠 提升语言模型在视觉常识推理方面的能力

  • 提升语言模型在视觉常识推理方面的能力
    AI
  • 耶路撒冷希伯来大学和巴伊兰大学的研究人员发布论文,论文的主题是关于如何提升语言模型在视觉常识推理方面的能力。简单来说,就是教会计算机如何更好地理解图片,并结合文字信息来做出更准确的判断。论文中提出的方法通过在训练时使用图像和文本的配对数据,并在推理时生成多个图像并集成它们的预测结果,有效地提高了语言模型在视觉常识任务上... 阅读全文

    优惠 MIRAGE:利用模型内部信息来确保大语言模型生成的答案能够准确引用支持文档

  • MIRAGE:利用模型内部信息来确保大语言模型生成的答案能够准确引用支持文档
    AI
  • 格罗宁根大学语言与认知中心 (CLCG)和阿姆斯特丹大学逻辑、语言与计算研究所 (ILLC)的研究人员推出MIRAGE(Model Internals-based RAG Explanations),它利用模型内部信息来确保大语言模型(LLMs)生成的答案能够准确引用支持文档。关于提高检索增强型生成(Retrieval... 阅读全文