AI
优惠 多模态框架VisionGPT-3D:提升三维视觉理解的能力
9个月前 (03-15)AI
多模态框架VisionGPT-3D,它旨在提升三维视觉理解的能力。VisionGPT-3D通过整合现有的最佳视觉模型,自动化选择适合的算法,从而将二维图像转换为三维表示,这在计算机视觉领域是一个创新的尝试。 主要功能和特点: 多模态整合: VisionGPT-3D结合了文本和视觉信息,能够理解和处理图像中的内容,并根据... 阅读全文
优惠 Hugging Face推出数据集WebSight和基于视觉-语言模型的系统Sightseer:它们旨在自动化网页截图到HTML代码的转换过程
9个月前 (03-15)AI
Hugging Face推出数据集WebSight和一个基于视觉-语言模型(VLM)的系统Sightseer,它们旨在自动化网页截图到HTML代码的转换过程。这项技术对于网页开发者来说非常有价值,因为它可以极大地提高开发效率,尤其是在无代码(no-code)解决方案中。 主要功能和特点: WebSight数据集: 包含... 阅读全文
优惠 视觉状态空间模型LocalMamba:为了提高计算机视觉任务的性能而设计
9个月前 (03-15)AI
来自悉尼大学工程学院计算机科学学院、商汤科技研究院、中国科学技术大学的研究团队推出视觉状态空间模型(Visual State Space Model)LocalMamba,它是为了提高计算机视觉任务的性能而设计的。LocalMamba的核心思想是通过优化扫描方向来更好地捕捉图像中的局部依赖关系,同时保持全局上下文的理解... 阅读全文
优惠 基于新型的架构状态空间模型(SSM)开发的视频理解工具套件Video Mamba Suite
9个月前 (03-15)AI
来自南京大学、上海人工智能实验室OpenGVLab、复旦大学和浙江大学推出视频理解工具套件Video Mamba Suite,它是基于一种新型的架构——状态空间模型(State Space Model,简称SSM)开发的。这个套件旨在提高计算机对视频内容的理解能力,类似于我们人类观看和解释视频的方式。 主要功能和特点:... 阅读全文
优惠 新型高分辨率多模态感知模型Griffon v2:在提高大型视觉语言模型(LVLMs)在处理高分辨率图像时的性能,特别是在复杂和密集场景中对细粒度对象的识别和定位
标签:Griffon v2
AI
9个月前 (03-15)AI
来自中国科学院自动化研究所基础模型研究中心、中国科学院大学人工智能学院、鹏城实验室和武汉人工智能研究院的研究团队推出新型高分辨率多模态感知模型Griffon v2,这个模型旨在提高大型视觉语言模型(LVLMs)在处理高分辨率图像时的性能,特别是在复杂和密集场景中对细粒度对象的识别和定位。Griffon v2通过视觉和文... 阅读全文
优惠 新型分布式注意力框架BurstAttention:专门设计来处理极长序列的数据
标签:BurstAttention
AI
9个月前 (03-15)AI
这篇论文介绍了一个名为BurstAttention的新型分布式注意力框架,它专门设计来处理极长序列的数据。在大语言模型(LLMs)中,注意力模块是理解复杂文本和生成响应的关键部分,但是随着序列长度的增加,这些模块在计算时间和内存消耗上的复杂度也会呈二次方增长,这就成了一个挑战。BurstAttention通过在多个设备... 阅读全文
优惠 新型语言模型Quiet-STaR:能够自己“思考”以提高对文本的理解能力
标签:Quiet-STaR
AI
9个月前 (03-15)AI
来自斯坦福大学和Notbad AI的研究团队推出新型语言模型Quiet-STaR(Quiet Self-Taught Reasoner),它能够自己“思考”以提高对文本的理解能力。想象一下,当你在写作或说话时,有时会停下来思考一下,这是因为我们在大脑中构建了一种逻辑或推理过程,帮助我们更好地表达或解决问题。Quiet-... 阅读全文