优惠测试平台DCLM：通过控制数据集实验来改进语言模型

AI

推荐人：暴走AI 标签：DCLM AI

10个月前 (06-18)AI

测试平台DCLM旨在通过控制数据集实验来改进语言模型。DCLM提供了一个标准化的语料库、有效的预训练配方以及一系列下游评估方法，让研究人员能够在不同的模型规模下测试不同的数据策划策略。例如，我们想要训练一个能够理解和生成人类语言的智能系统，比如一个能够回答问题或写文章的人工智能。为了做到这一点，我们需要给这个系统提供大... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 3D模型L4GM：在一秒钟内从单一视角的视频输入生成动态的3D对象动画

AI

推荐人：暴走AI 标签：3D模型 L4GM AI

10个月前 (06-18)AI

英伟达、多伦多大学、剑桥大学、麻省理工学院和南洋理工大学的研究人员推出新技术L4GM（Large 4D Gaussian Reconstruction Model），它能够在一秒钟内从单一视角的视频输入生成动态的3D对象动画。这就像是给视频中的物体赋予了“生命”，让它们能够在虚拟世界中动起来。这项技术的出现极大地简化... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠优化方法MDPO：专门为大语言模型设计的，目的是让这些模型更好地理解和响应人类的偏好

AI

推荐人：暴走AI 标签：MDPO 大语言模型 AI

10个月前 (06-18)AI

南加州大学、加州大学戴维斯分校和微软研究院的研究人员推出一种新的优化方法MDPO（Multimodal Direct Preference Optimization，多模态直接偏好优化）。这种方法是专门为大语言模型（LLMs）设计的，目的是让这些模型更好地理解和响应人类的偏好。通过这种方式，MDPO使得大型语言模型在处... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新型模型Vid3D：通过2D视频扩散技术来合成动态的3D场景

AI

推荐人：暴走AI 标签：Vid3D AI

10个月前 (06-18)AI

新型模型Vid3D，它能够通过2D视频扩散技术来合成动态的3D场景。简单来说，Vid3D模型可以利用一张静态图片，生成一段具有时间变化和空间深度的3D视频。例如，你是一名游戏设计师，需要为一款新游戏设计一个动态的3D环境。使用Vid3D，你可以上传一张游戏场景的概念图，模型将基于这张图生成一个3D视频，展示角色或物体随... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新型3D网格生成模型MeshAnything：将任何形式的3D表示（比如图像、点云、体素等）转换成由人类艺术家创造的网格

AI

推荐人：暴走AI 标签：3D网格生成模型 MeshAnything AI

10个月前 (06-18)AI

南洋理工大学S-Lab、上海人工智能实验室、复旦大学、北京大学、中国科学院大学、商汤科技、 Stepfun和西湖大学的研究人员推出新型3D网格生成模型MeshAnything，这个模型的特别之处在于，它能够将任何形式的3D表示（比如图像、点云、体素等）转换成由人类艺术家创造的网格（Artist-Created Me... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠基准测试生成引擎Task Me Anything：为了评估大型多模态语言模型而设计

AI

推荐人：暴走AI 标签：Task Me Anything AI

10个月前 (06-18)AI

这篇论文介绍了一个名为“Task Me Anything”（简称TASK-ME-ANYTHING）的基准测试生成引擎，它是为了评估大型多模态语言模型（MLMs）而设计的。这些模型能够处理包括图像、视频、文本等在内的多种类型的数据，但在实际应用中，开发者往往难以选择最适合其特定需求的模型。为了解决这个问题，TASK-ME... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠对开放性的语言模型进行深入的实验分析：评估它们在不同类型的任务、应用领域和推理类型中的表现

AI

推荐人：暴走AI 标签：开源模型 AI

10个月前 (06-18)AI

佐治亚理工学院、斯坦福大学和亚马逊的研究人员发布论文，论文的主题是对开放性的语言模型（Open Language Models，简称LMs）进行深入的实验分析，以评估它们在不同类型的任务、应用领域和推理类型中的表现。简单来说，就像我们上学时参加不同科目的考试一样，这篇论文就是给这些语言模型出了一系列不同难度和类型的题目... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠最大、最多样化的开源多模态交错数据集MINT-1T

AI

推荐人：暴走AI 标签：MINT-1T AI

10个月前 (06-18)AI

华盛顿大学、Salesforce Research、斯坦福大学、德克萨斯大学奥斯汀分校、加州大学伯克利分校的研究人员推出大规模多模态数据集MINT-1T，它是目前最大、最多样化的开源多模态交错数据集。MINT-1T的出现是为了解决目前开源大型多模态模型（LMMs）训练数据不足的问题，这些模型需要大量的图像和文本交错序... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新型多模态大语言模型LLaNA：专门设计用来理解和处理一种称为NeRFs的3D数据表示

AI

推荐人：暴走AI 标签：LLaNA AI

10个月前 (06-18)AI

意大利博洛尼亚大学推出新型多模态大语言模型LLaNA（Large Language and NeRF Assistant），它专门设计用来理解和处理一种称为Neural Radiance Fields（NeRFs）的3D数据表示。NeRFs是一种先进的3D建模技术，能够捕捉物体的几何形状和逼真的外观，通常用于生成新视角... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠数据选择方法CoLoR-Filter：用于目标化的语言模型预训练

AI

推荐人：暴走AI 标签：CoLoR-Filter AI

10个月前 (06-18)AI

哈佛大学肯普纳研究所、牛津大学的研究人员推出数据选择方法CoLoR-Filter（Conditional Loss Reduction Filtering），用于目标化的语言模型预训练。简单来说，CoLoR-Filter是一种智能的筛选工具，它可以帮助我们从大量数据中挑选出最有价值的一部分，以便更高效地训练语言模型，让... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠基准测试和指令调整数据集MMDU：专门为大型视觉语言模型设计

AI

推荐人：暴走AI 标签：MMDU 基准测试 AI

10个月前 (06-18)AI

武汉大学、上海人工智能实验室、香港中文大学和MThreads的研究人员推出基准测试和指令调整数据集MMDU（Multi-Turn Multi-Image Dialog Understanding），专门为大型视觉语言模型（LVLMs）设计的。这些模型就像人工智能助手，能够理解图片和文字，然后给出回应。但是，现有的AI助... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 WILDVISION：用于评估视觉-语言模型（VLMs）在现实世界中表现的在线平台

AI

推荐人：暴走AI 标签：WILDVISION AI

10个月前 (06-18)AI

艾伦人工智能研究所、华盛顿大学、加州大学圣巴巴拉分校和滑铁卢大学的研究人员推出WILDVISION，它是一个用于评估视觉-语言模型（VLMs）在现实世界中表现的在线平台。WILDVISION通过收集人类偏好来评估这些模型，特别是在多轮对话和多模态交互中的表现。例如，你是一名AI研究员，想要比较不同视觉-语言模型在理解一... 阅读全文

直达链接好 0 不好 0 已关闭评论