AI

优惠 为人工智能软件开发者设计的开源平台OpenDevin

  • 为人工智能软件开发者设计的开源平台OpenDevin
    AI
  • OpenDevin是一个开放平台,它是为人工智能软件开发者设计的,特别是那些希望构建能够像人类开发者一样与世界互动的通用人工智能代理。这些AI代理可以通过编写代码、与命令行交互以及浏览网络来实现复杂的任务。OpenDevin是一个开发强大且灵活的人工智能代理的平台,这些代理能像人类开发者一样通过编写代码、与命令行交互以... 阅读全文

    优惠 PopPop AI:免费在线AI 音效生成器,输入提示词就能生成音效

  • PopPop AI:免费在线AI 音效生成器,输入提示词就能生成音效
    AI
  • PopPop AI 是一款免费的人工智能音效在线生成器,用户可以通过输入文字描述来快速生成相应的音效素材。这些音效包括鼓掌声、下雨声、车流声等,适用于视频制作、游戏开发或其他需要音效的场合。PopPop AI 的特点是使用简便,不需要注册即可立即使用,并且提供了多种音效范例,用户可以根据需要选择合适的音效。此外,Pop... 阅读全文

    优惠 基准测试Visual Haystacks:模拟了现实世界的场景,要求模型不仅要找到包含答案的图片,还要利用视觉内容进行推理来回答具体问题

  • 基准测试Visual Haystacks:模拟了现实世界的场景,要求模型不仅要找到包含答案的图片,还要利用视觉内容进行推理来回答具体问题
    AI
  • 加州大学伯克利分校的研究人员发布论文,论文的主题是关于如何让计算机更好地回答关于多张图片集合的问题,这在现实世界中非常有用,比如在翻看大量照片、网上搜索特定信息,或者通过卫星图像监控环境变化时。我们可以把这个问题想象成在一堆干草中找到一根针,但更难,因为需要在很多堆干草中找到答案。 论文还提到了他们创建的Visual ... 阅读全文

    优惠 GET-Zero:用于机器人控制的模型架构和训练过程,能够实现对新硬件变化的立即适应,而无需重新训练

  • GET-Zero:用于机器人控制的模型架构和训练过程,能够实现对新硬件变化的立即适应,而无需重新训练
    AI
  • 斯坦福大学的研究人员推出GET-Zero,它是一种用于机器人控制的模型架构和训练过程,能够实现对新硬件变化的立即适应,而无需重新训练。简单来说,GET-Zero通过一种称为Graph Embodiment Transformer(GET)的变换器模型,利用机器人的物理结构(即其关节和链接的图结构)作为学习到的结构偏差,... 阅读全文

    优惠 Temporal Residual Jacobians:一种用于无绑定运动转移(rig-free motion transfer)的新方法

  • Temporal Residual Jacobians:一种用于无绑定运动转移(rig-free motion transfer)的新方法
    AI
  • 伦敦大学学院、Adob​​e Research和蒙特利尔大学的研究人员推出Temporal Residual Jacobians,一种用于无绑定运动转移(rig-free motion transfer)的新方法。简单来说,这种方法可以自动将一个动作(例如,跳舞或跑步)从一个3D模型转移到另一个完全不同的3D模型上,而... 阅读全文

    优惠 MUSICONGEN:于Transformer的文本到音乐生成模型

  • MUSICONGEN:于Transformer的文本到音乐生成模型
    AI
  • MUSICONGEN是一个基于Transformer的文本到音乐生成模型。简单来说,MUSICONGEN能够根据文本提示生成具有节奏和和弦控制的音乐。这就像是给一个音乐智能助手一些文字描述,比如“一个充满活力的摇滚乐段”,然后它就能创作出符合这个描述的音乐。 项目主页:https://musicongen.github... 阅读全文

    优惠 HoloDreamer:从文本描述生成全包围3D全景世界的系统

  • HoloDreamer:从文本描述生成全包围3D全景世界的系统
    AI
  • 北京大学 和鹏城实验室的研究人员推出HoloDreamer,它是一个从文本描述生成全包围3D全景世界的系统。简单来说,HoloDreamer可以读懂你用文字描述的场景,然后创造出一个360度全方位的3D场景。这就像是用文字给一个画家描述你心中的梦想家园,然后画家不仅画出了家园的正面,还画出了周围和内部的所有视角。 项目... 阅读全文

    优惠 新型图像渲染技术BoostMVSNeRFs:用来提升一种叫做“多视图立体(MVS)基础神经辐射场(NeRF)”的渲染质量,特别是在处理大规模场景时的通用视图合成能力

  • 新型图像渲染技术BoostMVSNeRFs:用来提升一种叫做“多视图立体(MVS)基础神经辐射场(NeRF)”的渲染质量,特别是在处理大规模场景时的通用视图合成能力
    AI
  • 阳明交通大学和台湾大学的研究人员推出一种新的图像渲染技术,名为“BoostMVSNeRFs”。这个技术是用来提升一种叫做“多视图立体(MVS)基础神经辐射场(NeRF)”的渲染质量,特别是在处理大规模场景时的通用视图合成能力。总的来说,BoostMVSNeRFs是一种先进的图像渲染技术,它通过智能地选择和组合多个视图的... 阅读全文

    优惠 VIDEOGAMEBUNNY模型:为理解视频游戏图像而特别定制的多模态大模型

  • VIDEOGAMEBUNNY模型:为理解视频游戏图像而特别定制的多模态大模型
    AI
  • 阿尔伯塔大学的研究人员推出VIDEOGAMEBUNNY模型,这是一个为理解视频游戏图像而特别定制的多模态大模型(LMM)。它基于Bunny模型,并对其进行了微调,以提高对视频游戏内容的理解能力。研究团队发布了中间检查点、训练日志以及一个包含185,259张来自413个游戏的视频游戏图像的广泛数据集,以及389,565个... 阅读全文

    优惠  新基准测试LONGVIDEOBENCH:为了评估大型多模态模型在处理长时间视频和语言交织输入时的理解能力而设计

  •  新基准测试LONGVIDEOBENCH:为了评估大型多模态模型在处理长时间视频和语言交织输入时的理解能力而设计
    AI
  • 新基准测试LONGVIDEOBENCH,它是为了评估大型多模态模型在处理长时间视频和语言交织输入时的理解能力而设计的。这个基准测试特别关注那些能够处理长达一小时的视频内容的模型。论文还提到了LONGVIDEOBENCH的挑战性,即使是最先进的专有模型(如GPT-4o、Gemini-1.5-Pro)也面临挑战,而开源模型... 阅读全文

    优惠 无需训练的视频大语言模型SlowFast-LLaVA:能够同时捕捉视频的细节空间语义和长时序时间上下文,而不会超出常用LLM的令牌预算

  • 无需训练的视频大语言模型SlowFast-LLaVA:能够同时捕捉视频的细节空间语义和长时序时间上下文,而不会超出常用LLM的令牌预算
    AI
  • 苹果推出一个名为SlowFast-LLaVA(简称SF-LLaVA)的新方法,它是一种无需训练的视频大语言模型(LLM)。SF-LLaVA能够同时捕捉视频的细节空间语义和长时序时间上下文,而不会超出常用LLM的令牌预算。这种方法通过为视频LLM设计双流输入(Slow和Fast路径),有效地聚合了采样视频帧的特征。 论文... 阅读全文

    优惠 CAS:用于四足机器人的导航系统,能够使机器人穿越复杂的3D地形到达目标位置

  • CAS:用于四足机器人的导航系统,能够使机器人穿越复杂的3D地形到达目标位置
    AI
  • 上海启智研究院、 浙江大学、上海交通大学和清华大学的研究人员推出创新系统“Cross Anything System”(简称CAS),它是一个用于四足机器人的导航系统,能够使机器人穿越复杂的3D地形到达目标位置。这个系统由一个高级推理模块和一个低级控制策略组成,它们共同工作,让机器人能够自主地规划路径并适应各种地形。例... 阅读全文