人工智能

优惠 用于测试和开发多模态智能体的基准平台OSWORLD

  • 用于测试和开发多模态智能体的基准平台OSWORLD
    AI
  • 来自香港大学、Salesforce Research、卡内基梅隆大学和滑铁卢大学的研究人员推出OSWORLD,它是一个用于测试和开发多模态智能体的基准平台。这些智能体是指能够通过自然语言指令和图形界面与计算机系统交互的人工智能程序。例如,你有一个虚拟助手,它可以帮你完成电脑上的各种任务,比如编辑文档、浏览网页、管理电子... 阅读全文

    优惠 LLoCO:旨在解决大语言模型处理长文本时遇到的挑战

  • LLoCO:旨在解决大语言模型处理长文本时遇到的挑战
    AI
  • 加州大学伯克利分校的研究人员推出新技术LLoCO(Learning Long Contexts Offline),旨在解决大语言模型(LLMs)处理长文本时遇到的挑战。由于自注意力机制的计算和内存开销随序列长度增加而呈二次方增长,以及生成过程中庞大的键值(KV)缓存大小,处理长文本对LLMs来说一直是个难题。 主要功能... 阅读全文

    优惠 新型车道检测方法Sparse Laneformer

  • 新型车道检测方法Sparse Laneformer
    AI
  • 这篇论文介绍了一种名为Sparse Laneformer的新型车道检测方法,这是一种在自动驾驶领域中非常关键的技术。车道检测的主要任务是从给定的图像中预测车道的位置,这对于高级驾驶辅助系统(ADAS)或自动驾驶系统来说非常重要。 主要功能和特点: 使用稀疏锚点:与传统的基于密集锚点的车道检测方法不同,Sparse La... 阅读全文

    优惠 合成数据在语言模型开发中的应用、挑战和未来方向

  • 合成数据在语言模型开发中的应用、挑战和未来方向
    AI
  • 谷歌发布论文讨论了合成数据(Synthetic Data)在语言模型开发中的应用、挑战和未来方向。合成数据是指通过算法、生成模型或模拟生成的,模仿现实世界数据特性和模式的人工数据。论文强调了合成数据在解决数据稀缺、隐私担忧和高成本问题方面的潜力,并探讨了如何负责任地使用合成数据来构建更强大、包容和可信的AI系统。 主要... 阅读全文

    优惠 新型神经网络模型HGRN2:一种在序列建模任务中表现出色的线性递归神经网络(RNN)的改进版本

  • 新型神经网络模型HGRN2:一种在序列建模任务中表现出色的线性递归神经网络(RNN)的改进版本
    AI
  • 上海人工智能实验室推出新型神经网络模型HGRN2(Hierarchically Gated Linear RNNs with State Expansion),它是一种在序列建模任务中表现出色的线性递归神经网络(RNN)的改进版本。HGRN2的设计灵感来自于线性注意力机制,通过一种称为外积(outer product)... 阅读全文

    优惠 新型网络代理WILBUR:能够与网站互动的智能系统

  • 新型网络代理WILBUR:能够与网站互动的智能系统
    AI
  • 来自加州大学伯克利分校和旧金山分校的研究人员推出新型网络代理(Web Agent)WILBUR,它是一种能够与网站互动的智能系统。例如,你在网购时,需要在众多商品中找到一款价格合适、评价高的运动鞋。通常,这需要你手动浏览网页、筛选条件并进行比较。而WILBUR就像一个虚拟的购物助手,能够理解你的需求,并自动在网站上为你... 阅读全文

    优惠 Urban Architect:根据文本描述和3D布局信息生成可控制的3D城市场景

  • Urban Architect:根据文本描述和3D布局信息生成可控制的3D城市场景
    AI
  • 同济大学、上海人工智能实验室、密歇根大学、香港中文大学和CPII的研究人员推出Urban Architect,它能够根据文本描述和3D布局信息生成可控制的3D城市场景。例如,如果你是一个城市规划师,你可以通过简单的文本描述和一些基本的3D布局元素(比如建筑物、道路和汽车的简化模型)来创建一个详细的城市模型,并且可以随意... 阅读全文

    优惠 谷歌推出新型注意力机制Infini-attention:可以使基于Transformer的大语言模型高效地处理无限长的输入序列,同时保持内存和计算资源的有限性

  • 谷歌推出新型注意力机制Infini-attention:可以使基于Transformer的大语言模型高效地处理无限长的输入序列,同时保持内存和计算资源的有限性
    AI
  • 谷歌推出新型注意力机制Infini-attention,它可以使基于Transformer的大语言模型(LLMs)高效地处理无限长的输入序列,同时保持内存和计算资源的有限性。例如,就像有一个超级大脑,它可以阅读和记住一本无限长的书,并且能够快速准确地回忆起书中的任何信息,不管这些信息在书的哪个位置。 主要功能和特点: ... 阅读全文

    优惠 3D模型生成RealmDreamer:根据文本描述生成三维场景

  • 3D模型生成RealmDreamer:根据文本描述生成三维场景
    AI
  • 加州大学圣地亚哥分校和宾夕法尼亚大学的研究人员推出RealmDreamer,它能够根据文本描述生成三维场景。想象一下,如果你给RealmDreamer一个描述,比如“一个有着瀑布的幽静森林”,它就能创建出一个你可以从多个角度观察的3D模型的森林场景。 主要功能和特点: 文本驱动的3D场景生成: RealmDreamer... 阅读全文

    优惠 新基准测试RULER:更全面地评估长上下文语言模型的性能

  • 新基准测试RULER:更全面地评估长上下文语言模型的性能
    AI
  • 英伟达推出新基准测试RULER,它旨在更全面地评估长上下文语言模型(Long-Context LMs)的性能。想象一下,你有一个超级聪明的助手,它可以阅读和理解非常长的文本,比如整本书或大量的文章,并且能够记住所有的细节,以便在需要时找到特定的信息。这就是长上下文语言模型尝试做的事情,而RULER就是用来测试这些模型是... 阅读全文

    优惠 了如何将原本设计用于大语言模型的解码器结构,适配到计算机视觉领域

  • 了如何将原本设计用于大语言模型的解码器结构,适配到计算机视觉领域
    AI
  • 来自香港大学、上海人工智能实验室和清华大学深圳国际研究生院的研究人员发布论文探讨了如何将原本设计用于大型语言模型(LLMs)的解码器(Decoder)结构,如LLaMA,适配到计算机视觉领域。想象一下,你有一个能够理解文字的智能系统,现在研究者们想要让这个系统不仅能读懂文字,还能“看懂”图片。这就是他们尝试将LLaMA... 阅读全文

    优惠 新型视觉-语言模型BRAVE:扩展和增强VLM在处理图像和语言任务时的视觉编码能力

  • 新型视觉-语言模型BRAVE:扩展和增强VLM在处理图像和语言任务时的视觉编码能力
    AI
  • 谷歌和洛桑瑞士联邦理工学院推出新型视觉-语言模型BRAVE,它的核心目标是扩展和增强VLM在处理图像和语言任务时的视觉编码能力。想象一下,如果你给BRAVE一个描述,比如“一只蝴蝶停在花上”,它不仅能够理解这个描述,还能从成千上万的图片中找到与描述最匹配的图像,甚至在没有明确指示的情况下回答关于图像的问题,例如回答“蝴... 阅读全文