大语言模型

优惠 PAB:用于加速基于扩散模型的实时视频生成

  • PAB:用于加速基于扩散模型的实时视频生成
    AI
  • 新加坡国立大学、VideoSys 团队和普渡大学的研究人员推出新技术Pyramid Attention Broadcast (PAB),它用于加速基于扩散模型的实时视频生成。这项技术的核心思想是观察到在视频生成过程中的注意力机制(attention)存在一种U形模式的冗余,即在中间的大部分步骤中,注意力的变化非常小,而... 阅读全文

    优惠 AI21实验室推出大语言模型Jamba-1.5系列

  • AI21实验室推出大语言模型Jamba-1.5系列
    AI
  • AI21实验室推出大语言模型Jamba-1.5系列,它们基于Jamba架构,融合了Transformer和Mamba模型的优势,专门针对指令调优进行了优化。Jamba-1.5有两个版本:Jamba-1.5-Large(94亿活跃参数)和Jamba-1.5-Mini(12亿活跃参数)。例如,你有一个能够理解和执行指令的智... 阅读全文

    优惠 基于 Llama 3.1的大语言模型Hermes 3:专门针对接受指令和工具使用进行了优化,具备强大的推理和创造能力

  • 基于 Llama 3.1的大语言模型Hermes 3:专门针对接受指令和工具使用进行了优化,具备强大的推理和创造能力
    AI
  • Nous Research推出基于 Llama 3.1的大语言模型Hermes 3,它专门针对接受指令和工具使用进行了优化,具备强大的推理和创造能力。Hermes 3模型以其中立的立场和高度的可控性脱颖而出,能够精确地响应用户的指令性陈述。例如,你有一个智能助手,它可以阅读你的指令,比如“列出旧金山值得一游的有趣地点”... 阅读全文

    优惠 新型基准测试GRAB:评估和推动大型多模态模型在图形分析方面的能力而设计

  • 新型基准测试GRAB:评估和推动大型多模态模型在图形分析方面的能力而设计
    AI
  • 剑桥大学和香港大学的研究人员推出新型基准测试GRAB,专为评估和推动大型多模态模型(Large Multimodal Models,简称LMMs)在图形分析方面的能力而设计。这些模型在许多视觉任务中表现出了强大的能力,但现有的基准测试对于新一代的LMMs来说已经不够有挑战性。因此,研究者们需要一个更难、更全面的测试来评... 阅读全文

    优惠 新型视频基础模型TWLV-I:提高对视频内容的理解和分析能力,特别是在识别视频中的对象外观和运动方面

  • 新型视频基础模型TWLV-I:提高对视频内容的理解和分析能力,特别是在识别视频中的对象外观和运动方面
    AI
  • Twelve Labs推出一种新型视频基础模型TWLV-I,这个模型的目的是提高对视频内容的理解和分析能力,特别是在识别视频中的对象外观(appearance)和运动(motion)方面。例如,一个安全摄像头捕捉到一个场景,TWLV-I可以帮助识别场景中的人是否在进行可疑活动,或者在体育赛事中,它能够识别运动员的具体动... 阅读全文

    优惠 NeCo:用于改善预训练模型的空间表示能力,特别是在自监督学习环境中

  • NeCo:用于改善预训练模型的空间表示能力,特别是在自监督学习环境中
    AI
  • 阿姆斯特丹大学、 荷兰应用科学研究组织和奥地利科学技术研究所的研究人员推出新技术NeCo(Patch Neighbor Consistency),用于改善预训练模型的空间表示能力,特别是在自监督学习环境中。NeCo通过对学生和教师模型之间的补丁级最近邻一致性进行排序,增强了模型对图像中各个部分特征的理解和表达。 论文:... 阅读全文

    优惠 新型视觉模型MM-SAM:处理多种传感器数据,进行鲁棒且准确的场景分割

  • 新型视觉模型MM-SAM:处理多种传感器数据,进行鲁棒且准确的场景分割
    AI
  • 新加坡南洋理工大学、日本东京大学、RIKEN AIP和日本奈良科学技术大学的研究人员推出新型视觉模型MM-SAM(Multi-Modal Segment Anything Model),它能够处理多种传感器数据,进行鲁棒且准确的场景分割。场景分割是一种让计算机识别并区分图像中各个物体或区域的技术,这项技术在自动驾驶、机... 阅读全文

    优惠 为处理长视频内容而设计的多模态视觉语言模型LongVILA

  • 为处理长视频内容而设计的多模态视觉语言模型LongVILA
    AI
  • 英伟达、麻省理工学院、加州大学伯克利分校和德克萨斯大学奥斯汀分校的研究人员推出LongVILA系统,它是一个为处理长视频内容而设计的多模态视觉语言模型。例如,我们有一段非常长的视频,比如一场足球比赛或者一个长时间的教学视频,我们需要一个智能系统来理解视频中的内容,甚至能够根据视频内容生成描述或者回答有关视频的问题。Lo... 阅读全文

    优惠 用于开发大型多模态模型的新框架xGen-MM

  • 用于开发大型多模态模型的新框架xGen-MM
    AI
  • Salesforce AI 研究和华盛顿大学的研究人员推出新框架xGen-MM(也被称为BLIP-3),它是用于开发大型多模态模型(LMMs)的。多模态模型,你可以想象成一种超级大脑,不仅能理解文本(比如书籍、网页上的文字),还能理解图片和视频。xGen-MM框架包含了数据集、训练方法、模型架构,以及一系列经过这些训练... 阅读全文

    优惠 阿里巴巴推出多模态大语言模型mPLUG-Owl3

  • 阿里巴巴推出多模态大语言模型mPLUG-Owl3
    AI
  • 阿里巴巴推出多模态大语言模型mPLUG-Owl3,它在处理单图像、多图像和视频任务方面取得了显著的进展。例如,你向mPLUG-Owl3展示一系列图片,并询问其中的天气情况,模型可以分析这些图片并告诉你哪一张是雪天。或者,如果你展示一段视频,并要求模型按时间顺序描述视频中的事件,mPLUG-Owl3可以准确地按照视频中的... 阅读全文

    优惠 OpenResearcher:利用人工智能(AI)技术来加速科学研究进程

  • OpenResearcher:利用人工智能(AI)技术来加速科学研究进程
    AI
  • 创新平台OpenResearcher,它利用人工智能(AI)技术来加速科学研究进程。想象一下,研究人员每天都在与成堆的学术论文打交道,试图跟上他们领域内的最新进展,这既耗时又费力。OpenResearcher就像一个智能助手,可以帮助研究人员快速找到他们需要的信息,节省时间,提高研究效率。例如,如果一个生物医学研究人员... 阅读全文

    优惠 新型大语言模型LongWriter:能够生成超过10,000个词的超长文本

  • 新型大语言模型LongWriter:能够生成超过10,000个词的超长文本
    AI
  • 清华大学和智谱AI的研究人员推出新型大语言模型LongWriter,它能够生成超过10,000个词的超长文本。这在人工智能领域是一个重要的突破,因为现有的大型语言模型虽然能够处理长达100,000个词的输入,但在生成文本时却难以超过2,000个词的限制。例如,你是一位历史学家,需要写一篇关于罗马帝国历史的深入分析文章。... 阅读全文