大语言模型

优惠 新基准测试RULER:更全面地评估长上下文语言模型的性能

  • 新基准测试RULER:更全面地评估长上下文语言模型的性能
    AI
  • 英伟达推出新基准测试RULER,它旨在更全面地评估长上下文语言模型(Long-Context LMs)的性能。想象一下,你有一个超级聪明的助手,它可以阅读和理解非常长的文本,比如整本书或大量的文章,并且能够记住所有的细节,以便在需要时找到特定的信息。这就是长上下文语言模型尝试做的事情,而RULER就是用来测试这些模型是... 阅读全文

    优惠 了如何将原本设计用于大语言模型的解码器结构,适配到计算机视觉领域

  • 了如何将原本设计用于大语言模型的解码器结构,适配到计算机视觉领域
    AI
  • 来自香港大学、上海人工智能实验室和清华大学深圳国际研究生院的研究人员发布论文探讨了如何将原本设计用于大型语言模型(LLMs)的解码器(Decoder)结构,如LLaMA,适配到计算机视觉领域。想象一下,你有一个能够理解文字的智能系统,现在研究者们想要让这个系统不仅能读懂文字,还能“看懂”图片。这就是他们尝试将LLaMA... 阅读全文

    优惠 新型视觉-语言模型BRAVE:扩展和增强VLM在处理图像和语言任务时的视觉编码能力

  • 新型视觉-语言模型BRAVE:扩展和增强VLM在处理图像和语言任务时的视觉编码能力
    AI
  • 谷歌和洛桑瑞士联邦理工学院推出新型视觉-语言模型BRAVE,它的核心目标是扩展和增强VLM在处理图像和语言任务时的视觉编码能力。想象一下,如果你给BRAVE一个描述,比如“一只蝴蝶停在花上”,它不仅能够理解这个描述,还能从成千上万的图片中找到与描述最匹配的图像,甚至在没有明确指示的情况下回答关于图像的问题,例如回答“蝴... 阅读全文

    优惠 MA-LMM:更有效地理解长期视频内容而设计的记忆增强型大型多模态模型

  • MA-LMM:更有效地理解长期视频内容而设计的记忆增强型大型多模态模型
    AI
  • Meta推出MA-LMM,它是一个为了更有效地理解长期视频内容而设计的记忆增强型大型多模态模型。与传统的视频理解模型不同,MA-LMM采用了一种在线处理视频帧的方式,并使用一个记忆库来存储过去的视频信息。这样,即使视频非常长,模型也能够引用历史视频内容进行长期分析,而不会超出大型语言模型(LLMs)的上下文长度限制或G... 阅读全文

    优惠 苹果推出Ferret-UI:专门为理解和交互移动用户界面(UI)屏幕而设计的多模态大语言模型

  • 苹果推出Ferret-UI:专门为理解和交互移动用户界面(UI)屏幕而设计的多模态大语言模型
    AI
  • 苹果推出Ferret-UI,它是一种专门为理解和交互移动用户界面(UI)屏幕而设计的多模态大语言模型(MLLM)。Ferret-UI旨在提高对移动UI屏幕的理解能力,具备引用、定位和推理等能力。与一般领域的MLLM相比,这些模型在理解和与UI屏幕有效交互方面往往存在不足。例如,如果用户想要在手机上预订餐厅,Ferret... 阅读全文

    优惠 针对长视频理解的视频-大语言模型Koala:帮助模型理解长达数分钟的视频内容,并能够回答关于视频的问题

  • 针对长视频理解的视频-大语言模型Koala:帮助模型理解长达数分钟的视频内容,并能够回答关于视频的问题
    AI
  • 来自波士顿大学、中国电子科技大学和Adobe Research的研究人员推出Koala,它是一种针对长视频理解的视频-大语言模型(Video-Large Language Model,简称vLLM)。Koala的目标是帮助模型理解长达数分钟的视频内容,并能够回答关于视频的问题。这在技术上是一个挑战,因为长视频涉及识别一... 阅读全文

    优惠 浦语·灵笔2系列新模型InternLM-XComposer2-4KHD:在处理图像和文本方面有着显著的进步

  • 浦语·灵笔2系列新模型InternLM-XComposer2-4KHD:在处理图像和文本方面有着显著的进步
    AI
  • 上海人工智能实验室推出浦语·灵笔2系列新模型InternLM-XComposer2-4KHD,这是一款开创性大型视觉-语言模型(LVLM),这个模型在处理图像和文本方面有着显著的进步。例如,你有一个能够理解图片内容并回答有关图片问题的智能助手,这就是这个模型的基本功能。InternLM-XComposer2-4KHD是... 阅读全文

    优惠 LLM2Vec:将大型的解码器模型转换成强大的文本编码器

  • LLM2Vec:将大型的解码器模型转换成强大的文本编码器
    AI
  • 这篇论文介绍了一个名为LLM2Vec的方法,它能够将大型的解码器模型(decoder-only LLMs)转换成强大的文本编码器。这些解码器模型在很多自然语言处理(NLP)任务中都是最先进的,但在文本嵌入任务中,它们的能力还没有得到充分利用。文本嵌入任务需要模型能够生成丰富的上下文化表示,而传统的解码器模型由于其单向(... 阅读全文

    优惠 SambaLingo:针对大语言模型进行多语言适应性调整的研究项目

  • SambaLingo:针对大语言模型进行多语言适应性调整的研究项目
    AI
  • 这篇论文的主题是“SambaLingo”,这是一个针对大型语言模型(LLMs)进行多语言适应性调整的研究项目。简单来说,SambaLingo的目标是让大型语言模型能够理解和生成更多不同语言的文本,弥补目前LLMs在多种语言能力上的差距。例如,如果我们要为一个以英语为中心的模型添加对阿拉伯语的支持,SambaLingo的... 阅读全文

    优惠 CodecLM:用于生成与特定指令分布和大语言模型对齐的高质量合成数据的通用框架

  • CodecLM:用于生成与特定指令分布和大语言模型对齐的高质量合成数据的通用框架
    AI
  • 谷歌云和搜索团队推出CodecLM,它是一个用于生成与特定指令分布和大语言模型(LLMs)对齐的高质量合成数据的通用框架。简单来说,CodecLM就像是一个智能的数据制造工厂,能够根据需要生产出适合训练语言模型的数据。例如,如果我们想要训练一个语言模型来更好地回答关于健康和营养的问题,CodecLM可以生成一系列与健康... 阅读全文

    优惠 大语言模型在处理表格数据时的记忆力和学习能力

  • 大语言模型在处理表格数据时的记忆力和学习能力
    AI
  • 图宾根大学图宾根人工智能中心和微软搜索团队发布论文探讨大语言模型(Large Language Models,简称LLMs)在处理表格数据时的记忆力和学习能力。用通俗的语言来说,就像是研究一个学习了很多知识的智能助手,当它遇到新的或之前学过的问题时,它是如何回忆和应用这些知识的。 主要功能和特点: 记忆力测试: 研究者... 阅读全文

    优惠 多模态模型OmniFusion:结合了大语言模型和视觉模态的适配器,以提高人工智能系统处理和理解文本和图像数据的能力

  • 多模态模型OmniFusion:结合了大语言模型和视觉模态的适配器,以提高人工智能系统处理和理解文本和图像数据的能力
    AI
  • 这篇论文介绍了一个名为OmniFusion的多模态模型,它结合了大型语言模型(LLM)和视觉模态的适配器,以提高人工智能系统处理和理解文本和图像数据的能力。OmniFusion模型在多个视觉-语言基准测试中表现出色,尤其是在视觉问题回答(VQA)任务上,与现有的开源解决方案相比,它能够提供更详细的答案。 GitHub:... 阅读全文