大语言模型

优惠 大语言模型JetMoE-8B:通过创新的技术实现了低成本和高性能的平衡,为各种语言处理任务提供了广泛的应用可能性

  • 大语言模型JetMoE-8B:通过创新的技术实现了低成本和高性能的平衡,为各种语言处理任务提供了广泛的应用可能性
    AI
  • 来自MIT的研究人员推出新型大语言模型JetMoE-8B,它通过创新的技术实现了低成本和高性能的平衡,为各种语言处理任务提供了广泛的应用可能性。例如,你有一个超级聪明的机器人朋友,它可以和你聊天、帮你写代码、解答数学问题,甚至还能理解和生成不同语言的文本,这就是JetMoE-8B的超能力。 项目主页:https://r... 阅读全文

    优惠 英伟达推出数据据Audio Dialogues:提升音频和音乐理解方面的对话能力

  • 英伟达推出数据据Audio Dialogues:提升音频和音乐理解方面的对话能力
    AI
  • 英伟达推出数据据Audio Dialogues,旨在提升音频和音乐理解方面的对话能力。现有的音频理解数据集主要集中在单轮交互上,例如音频描述或音频问答,这些数据集限制了通过交互式对话理解音频的能力。Audio Dialogues是一个多轮对话数据集,包含了16.38万个样本,涵盖一般声音和音乐。除了对话样本,该数据集还... 阅读全文

    优惠 谷歌推出新型开放语言模型RecurrentGemma

  • 谷歌推出新型开放语言模型RecurrentGemma
    AI
  • 谷歌推出新型开放语言模型RecurrentGemma,它使用了谷歌的Griffin架构。Griffin架构通过结合线性递归和局部注意力机制,在处理语言任务时表现出色。RecurrentGemma模型的一个显著特点是它具有固定大小的状态,这减少了内存使用,使得在长序列上进行高效推理成为可能。研究者们提供了一个预训练模型,... 阅读全文

    优惠 语言模型RHO-1:挑战了传统的语言模型训练方法,设计理念是“并非所有的词汇对于语言模型训练都同等重要”

  • 语言模型RHO-1:挑战了传统的语言模型训练方法,设计理念是“并非所有的词汇对于语言模型训练都同等重要”
    AI
  • 来自厦门大学、清华大学和微软的研究人员推出语言模型RHO-1,它的设计理念是“并非所有的词汇对于语言模型训练都同等重要”。RHO-1挑战了传统的语言模型训练方法,后者通常会对所有训练词汇应用相同的预测下一个词汇的损失函数。通过对语言模型训练过程中的词汇级别动态进行初步分析,研究者们发现不同的词汇在训练中表现出不同的损失... 阅读全文

    优惠 多模态大语言模型Ferret-v2:专门设计用于提升图像理解和自然语言处理的能力

  • 多模态大语言模型Ferret-v2:专门设计用于提升图像理解和自然语言处理的能力
    AI
  • 苹果推出一个升级版的多模态大语言模型Ferret-v2,专门设计用于提升图像理解和自然语言处理的能力。例如,你有一个智能助手,它不仅能理解你说的话,还能看懂图片里的内容,并根据图片和你的问题给出精确的回答。Ferret-v2就是这样一个系统,它能够识别和描述图片中的物体,理解图片中的细节,并根据这些信息回答有关图片的问... 阅读全文

    优惠 用于测试和开发多模态智能体的基准平台OSWORLD

  • 用于测试和开发多模态智能体的基准平台OSWORLD
    AI
  • 来自香港大学、Salesforce Research、卡内基梅隆大学和滑铁卢大学的研究人员推出OSWORLD,它是一个用于测试和开发多模态智能体的基准平台。这些智能体是指能够通过自然语言指令和图形界面与计算机系统交互的人工智能程序。例如,你有一个虚拟助手,它可以帮你完成电脑上的各种任务,比如编辑文档、浏览网页、管理电子... 阅读全文

    优惠 LLoCO:旨在解决大语言模型处理长文本时遇到的挑战

  • LLoCO:旨在解决大语言模型处理长文本时遇到的挑战
    AI
  • 加州大学伯克利分校的研究人员推出新技术LLoCO(Learning Long Contexts Offline),旨在解决大语言模型(LLMs)处理长文本时遇到的挑战。由于自注意力机制的计算和内存开销随序列长度增加而呈二次方增长,以及生成过程中庞大的键值(KV)缓存大小,处理长文本对LLMs来说一直是个难题。 主要功能... 阅读全文

    优惠 新型车道检测方法Sparse Laneformer

  • 新型车道检测方法Sparse Laneformer
    AI
  • 这篇论文介绍了一种名为Sparse Laneformer的新型车道检测方法,这是一种在自动驾驶领域中非常关键的技术。车道检测的主要任务是从给定的图像中预测车道的位置,这对于高级驾驶辅助系统(ADAS)或自动驾驶系统来说非常重要。 主要功能和特点: 使用稀疏锚点:与传统的基于密集锚点的车道检测方法不同,Sparse La... 阅读全文

    优惠 合成数据在语言模型开发中的应用、挑战和未来方向

  • 合成数据在语言模型开发中的应用、挑战和未来方向
    AI
  • 谷歌发布论文讨论了合成数据(Synthetic Data)在语言模型开发中的应用、挑战和未来方向。合成数据是指通过算法、生成模型或模拟生成的,模仿现实世界数据特性和模式的人工数据。论文强调了合成数据在解决数据稀缺、隐私担忧和高成本问题方面的潜力,并探讨了如何负责任地使用合成数据来构建更强大、包容和可信的AI系统。 主要... 阅读全文

    优惠 新型神经网络模型HGRN2:一种在序列建模任务中表现出色的线性递归神经网络(RNN)的改进版本

  • 新型神经网络模型HGRN2:一种在序列建模任务中表现出色的线性递归神经网络(RNN)的改进版本
    AI
  • 上海人工智能实验室推出新型神经网络模型HGRN2(Hierarchically Gated Linear RNNs with State Expansion),它是一种在序列建模任务中表现出色的线性递归神经网络(RNN)的改进版本。HGRN2的设计灵感来自于线性注意力机制,通过一种称为外积(outer product)... 阅读全文

    优惠 新型网络代理WILBUR:能够与网站互动的智能系统

  • 新型网络代理WILBUR:能够与网站互动的智能系统
    AI
  • 来自加州大学伯克利分校和旧金山分校的研究人员推出新型网络代理(Web Agent)WILBUR,它是一种能够与网站互动的智能系统。例如,你在网购时,需要在众多商品中找到一款价格合适、评价高的运动鞋。通常,这需要你手动浏览网页、筛选条件并进行比较。而WILBUR就像一个虚拟的购物助手,能够理解你的需求,并自动在网站上为你... 阅读全文

    优惠 谷歌推出新型注意力机制Infini-attention:可以使基于Transformer的大语言模型高效地处理无限长的输入序列,同时保持内存和计算资源的有限性

  • 谷歌推出新型注意力机制Infini-attention:可以使基于Transformer的大语言模型高效地处理无限长的输入序列,同时保持内存和计算资源的有限性
    AI
  • 谷歌推出新型注意力机制Infini-attention,它可以使基于Transformer的大语言模型(LLMs)高效地处理无限长的输入序列,同时保持内存和计算资源的有限性。例如,就像有一个超级大脑,它可以阅读和记住一本无限长的书,并且能够快速准确地回忆起书中的任何信息,不管这些信息在书的哪个位置。 主要功能和特点: ... 阅读全文