AI
优惠 基准测试Visual Haystacks:模拟了现实世界的场景,要求模型不仅要找到包含答案的图片,还要利用视觉内容进行推理来回答具体问题
4个月前 (07-24)AI
加州大学伯克利分校的研究人员发布论文,论文的主题是关于如何让计算机更好地回答关于多张图片集合的问题,这在现实世界中非常有用,比如在翻看大量照片、网上搜索特定信息,或者通过卫星图像监控环境变化时。我们可以把这个问题想象成在一堆干草中找到一根针,但更难,因为需要在很多堆干草中找到答案。 论文还提到了他们创建的Visual ... 阅读全文
优惠 Temporal Residual Jacobians:一种用于无绑定运动转移(rig-free motion transfer)的新方法
4个月前 (07-24)AI
伦敦大学学院、Adobe Research和蒙特利尔大学的研究人员推出Temporal Residual Jacobians,一种用于无绑定运动转移(rig-free motion transfer)的新方法。简单来说,这种方法可以自动将一个动作(例如,跳舞或跑步)从一个3D模型转移到另一个完全不同的3D模型上,而... 阅读全文
优惠 MUSICONGEN:于Transformer的文本到音乐生成模型
标签:MUSICONGEN
AI
4个月前 (07-24)AI
MUSICONGEN是一个基于Transformer的文本到音乐生成模型。简单来说,MUSICONGEN能够根据文本提示生成具有节奏和和弦控制的音乐。这就像是给一个音乐智能助手一些文字描述,比如“一个充满活力的摇滚乐段”,然后它就能创作出符合这个描述的音乐。 项目主页:https://musicongen.github... 阅读全文
优惠 HoloDreamer:从文本描述生成全包围3D全景世界的系统
4个月前 (07-24)AI
北京大学 和鹏城实验室的研究人员推出HoloDreamer,它是一个从文本描述生成全包围3D全景世界的系统。简单来说,HoloDreamer可以读懂你用文字描述的场景,然后创造出一个360度全方位的3D场景。这就像是用文字给一个画家描述你心中的梦想家园,然后画家不仅画出了家园的正面,还画出了周围和内部的所有视角。 项目... 阅读全文
优惠 新型图像渲染技术BoostMVSNeRFs:用来提升一种叫做“多视图立体(MVS)基础神经辐射场(NeRF)”的渲染质量,特别是在处理大规模场景时的通用视图合成能力
标签:BoostMVSNeRFs
AI
4个月前 (07-24)AI
阳明交通大学和台湾大学的研究人员推出一种新的图像渲染技术,名为“BoostMVSNeRFs”。这个技术是用来提升一种叫做“多视图立体(MVS)基础神经辐射场(NeRF)”的渲染质量,特别是在处理大规模场景时的通用视图合成能力。总的来说,BoostMVSNeRFs是一种先进的图像渲染技术,它通过智能地选择和组合多个视图的... 阅读全文
优惠 VIDEOGAMEBUNNY模型:为理解视频游戏图像而特别定制的多模态大模型
4个月前 (07-24)AI
阿尔伯塔大学的研究人员推出VIDEOGAMEBUNNY模型,这是一个为理解视频游戏图像而特别定制的多模态大模型(LMM)。它基于Bunny模型,并对其进行了微调,以提高对视频游戏内容的理解能力。研究团队发布了中间检查点、训练日志以及一个包含185,259张来自413个游戏的视频游戏图像的广泛数据集,以及389,565个... 阅读全文
优惠 新基准测试LONGVIDEOBENCH:为了评估大型多模态模型在处理长时间视频和语言交织输入时的理解能力而设计
标签:LONGVIDEOBENCH
AI
4个月前 (07-24)AI
新基准测试LONGVIDEOBENCH,它是为了评估大型多模态模型在处理长时间视频和语言交织输入时的理解能力而设计的。这个基准测试特别关注那些能够处理长达一小时的视频内容的模型。论文还提到了LONGVIDEOBENCH的挑战性,即使是最先进的专有模型(如GPT-4o、Gemini-1.5-Pro)也面临挑战,而开源模型... 阅读全文
优惠 无需训练的视频大语言模型SlowFast-LLaVA:能够同时捕捉视频的细节空间语义和长时序时间上下文,而不会超出常用LLM的令牌预算
标签:SlowFast-LLaVA
AI
4个月前 (07-24)AI
苹果推出一个名为SlowFast-LLaVA(简称SF-LLaVA)的新方法,它是一种无需训练的视频大语言模型(LLM)。SF-LLaVA能够同时捕捉视频的细节空间语义和长时序时间上下文,而不会超出常用LLM的令牌预算。这种方法通过为视频LLM设计双流输入(Slow和Fast路径),有效地聚合了采样视频帧的特征。 论文... 阅读全文