人工智能
优惠 大型视觉语言模型InternLM-XComposer-2.5(浦语·灵笔2.5):特别擅长处理需要长时间上下文输入和输出的任务
6个月前 (07-04)AI
上海人工智能实验室、香港中文大学、商汤科技集团和清华大学的研究人员推出大型视觉语言模型InternLM-XComposer-2.5(浦语·灵笔2.5),这个模型特别擅长处理需要长时间上下文输入和输出的任务。就像一个超级助手,能够理解你给它的长篇大论,无论是文字还是图片,并给出非常聪明的回答或者创作。 GitHub:ht... 阅读全文
优惠 新型高效视觉投影器TokenPacker:为多模态大语言模型设计
6个月前 (07-04)AI
浙江大学、蚂蚁集团和香港理工大学的研究人员推出一种新型的高效视觉投影器TokenPacker,它是为多模态大语言模型(MLLM)设计的。多模态大型语言模型是一种人工智能技术,它结合了视觉识别和语言处理的能力,可以理解和生成涉及图像和文本的内容。总的来说,TokenPacker是一个强大的工具,它通过高效地转换和打包视觉... 阅读全文
优惠 新的流匹配方法Consistency-FM:用于生成模型的算法框架
标签:Consistency-FM
AI
6个月前 (07-03)AI
“Consistency Flow Matching”(Consistency-FM)这是一种新的流匹配(Flow Matching, FM)方法,一种用于生成模型的算法框架。这种方法的核心在于通过普通微分方程(ODEs)定义概率路径,从而在噪声和数据样本之间进行转换。Consistency-FM特别强调在速度场中显式... 阅读全文
优惠 MInference:加速大语言模型的预填充(pre-filling)阶段,特别是在处理长文本时
标签:MInference
AI
6个月前 (07-03)AI
微软公司和 萨里大学的研究人员推出新技术MInference(Million-tokens Inference),它旨在加速大语言模型的预填充(pre-filling)阶段,特别是在处理长文本时。预填充阶段是LLMs生成文本前的一个重要步骤,但当文本长度增加时,这一阶段的计算成本会变得非常高。 项目主页:https:/... 阅读全文
优惠 大规模高质量文本到视频生成数据集OpenVid-1M以及多模态视频扩散变换器MVDiT
标签:OpenVid-1M
AI
6个月前 (07-03)AI
南京大学、字节跳动和南开大学的研究人员推出大规模高质量文本到视频生成数据集OpenVid-1M,以及一个新颖的多模态视频扩散变换器(MVDiT)。论文还提到了MVDiT的一些限制,比如在模拟复杂自然场景的动态和运动时可能会产生不真实的视频,以及目前还不能模拟长时间动态,这些都是未来研究需要解决的问题。 项目主页:ht... 阅读全文
优惠 Meta推出Meta 3D Gen:1 分钟内生成高质量 3D 资产
6个月前 (07-03)AI
Meta推出Meta 3D Gen(简称3DGen)的先进技术,它是一个文本到3D资产生成的快速通道。这项技术的主要特点是能够快速生成高质量的3D模型和纹理,几乎达到了一分钟以内的惊人速度。3DGen支持基于物理的渲染(PBR),这对于3D资产在现实世界应用中的重新照明至关重要。此外,3DGen还能够使用用户提供的额外... 阅读全文
优惠 Step-Controlled DPO:提升大语言模型在数学推理等下游任务上的表现
6个月前 (07-02)AI
香港中文大学多媒体实验室推出新方法Step-Controlled DPO(SCDPO),用于提升大语言模型(LLMs)在数学推理等下游任务上的表现。例如,我们有一个超级聪明的电脑助手,它可以理解和解决复杂的数学问题,但有时它可能会在解题过程中出错。SCDPO的作用就是帮助这个电脑助手更准确地理解问题并找到正确的解题步骤... 阅读全文