AI

优惠 新型3D网格生成模型MeshAnything:将任何形式的3D表示(比如图像、点云、体素等)转换成由人类艺术家创造的网格

  • 新型3D网格生成模型MeshAnything:将任何形式的3D表示(比如图像、点云、体素等)转换成由人类艺术家创造的网格
    AI
  • 南洋理工大学S-Lab、上海人工智能实验室、复旦大学、北京大学、 中国科学院大学、商汤科技、 Stepfun和 西湖大学的研究人员推出新型3D网格生成模型MeshAnything,这个模型的特别之处在于,它能够将任何形式的3D表示(比如图像、点云、体素等)转换成由人类艺术家创造的网格(Artist-Created Me... 阅读全文

    优惠 基准测试生成引擎Task Me Anything:为了评估大型多模态语言模型而设计

  • 基准测试生成引擎Task Me Anything:为了评估大型多模态语言模型而设计
    AI
  • 这篇论文介绍了一个名为“Task Me Anything”(简称TASK-ME-ANYTHING)的基准测试生成引擎,它是为了评估大型多模态语言模型(MLMs)而设计的。这些模型能够处理包括图像、视频、文本等在内的多种类型的数据,但在实际应用中,开发者往往难以选择最适合其特定需求的模型。为了解决这个问题,TASK-ME... 阅读全文

    优惠 对开放性的语言模型进行深入的实验分析:评估它们在不同类型的任务、应用领域和推理类型中的表现

  • 对开放性的语言模型进行深入的实验分析:评估它们在不同类型的任务、应用领域和推理类型中的表现
    AI
  • 佐治亚理工学院、斯坦福大学和亚马逊的研究人员发布论文,论文的主题是对开放性的语言模型(Open Language Models,简称LMs)进行深入的实验分析,以评估它们在不同类型的任务、应用领域和推理类型中的表现。简单来说,就像我们上学时参加不同科目的考试一样,这篇论文就是给这些语言模型出了一系列不同难度和类型的题目... 阅读全文

    优惠 最大、最多样化的开源多模态交错数据集MINT-1T

  • 最大、最多样化的开源多模态交错数据集MINT-1T
    AI
  • 华盛顿大学、Salesforce Research、斯坦福大学、德克萨斯大学奥斯汀分校、 加州大学伯克利分校的研究人员推出大规模多模态数据集MINT-1T,它是目前最大、最多样化的开源多模态交错数据集。MINT-1T的出现是为了解决目前开源大型多模态模型(LMMs)训练数据不足的问题,这些模型需要大量的图像和文本交错序... 阅读全文

    优惠 新型多模态大语言模型LLaNA:专门设计用来理解和处理一种称为NeRFs的3D数据表示

  • 新型多模态大语言模型LLaNA:专门设计用来理解和处理一种称为NeRFs的3D数据表示
    AI
  • 意大利博洛尼亚大学推出新型多模态大语言模型LLaNA(Large Language and NeRF Assistant),它专门设计用来理解和处理一种称为Neural Radiance Fields(NeRFs)的3D数据表示。NeRFs是一种先进的3D建模技术,能够捕捉物体的几何形状和逼真的外观,通常用于生成新视角... 阅读全文

    优惠 数据选择方法CoLoR-Filter:用于目标化的语言模型预训练

  • 数据选择方法CoLoR-Filter:用于目标化的语言模型预训练
    AI
  • 哈佛大学肯普纳研究所、牛津大学的研究人员推出数据选择方法CoLoR-Filter(Conditional Loss Reduction Filtering),用于目标化的语言模型预训练。简单来说,CoLoR-Filter是一种智能的筛选工具,它可以帮助我们从大量数据中挑选出最有价值的一部分,以便更高效地训练语言模型,让... 阅读全文

    优惠 基准测试和指令调整数据集MMDU:专门为大型视觉语言模型设计

  • 基准测试和指令调整数据集MMDU:专门为大型视觉语言模型设计
    AI
  • 武汉大学、上海人工智能实验室、香港中文大学和MThreads的研究人员推出基准测试和指令调整数据集MMDU(Multi-Turn Multi-Image Dialog Understanding),专门为大型视觉语言模型(LVLMs)设计的。这些模型就像人工智能助手,能够理解图片和文字,然后给出回应。但是,现有的AI助... 阅读全文

    优惠 WILDVISION:用于评估视觉-语言模型(VLMs)在现实世界中表现的在线平台

  • WILDVISION:用于评估视觉-语言模型(VLMs)在现实世界中表现的在线平台
    AI
  • 艾伦人工智能研究所、华盛顿大学、加州大学圣巴巴拉分校和滑铁卢大学的研究人员推出WILDVISION,它是一个用于评估视觉-语言模型(VLMs)在现实世界中表现的在线平台。WILDVISION通过收集人类偏好来评估这些模型,特别是在多轮对话和多模态交互中的表现。例如,你是一名AI研究员,想要比较不同视觉-语言模型在理解一... 阅读全文

    优惠 强化学习方法WPO(加权偏好优化):改善大语言模型与人类价值观的一致性

  • 强化学习方法WPO(加权偏好优化):改善大语言模型与人类价值观的一致性
    AI
  • Zoomtuic 一种新的强化学习方法WPO(加权偏好优化),它用于改善大语言模型(LLMs)与人类价值观的一致性。具体来说,WPO旨在解决在使用人类反馈进行强化学习(RLHF)时遇到的一些问题,尤其是在离策略(off-policy)偏好优化的情况下。例如,我们有一个聊天机器人,我们希望它在对话中提供安全、有帮助且准确... 阅读全文

    优惠 新型对话系统框架THEANINE:专注于改善长期对话中的记忆管理问题

  • 新型对话系统框架THEANINE:专注于改善长期对话中的记忆管理问题
    AI
  • 延世大学和首尔国立大学的研究人员推出新型对话系统框架THEANINE,它专注于改善长期对话中的记忆管理问题。在长期对话中,比如与智能助手聊天时,系统需要记住之前对话的内容,以便在后续的对话中能够准确引用。然而,现有的大型语言模型(LLMs)在处理这类对话时,常常会出现忽略或错误回忆过去信息的情况。 项目主页:https... 阅读全文

    优惠 在线视频大型语言模型VideoLLM-online:专为流媒体视频设计,能够实时理解和生成与视频内容相关的对话

  • 在线视频大型语言模型VideoLLM-online:专为流媒体视频设计,能够实时理解和生成与视频内容相关的对话
    AI
  • 新加坡国立大学和Meta的研究人员推出在线视频大型语言模型VideoLLM-online,它专为流媒体视频设计,能够实时理解和生成与视频内容相关的对话。例如,你戴着一副智能眼镜,而这副眼镜能够实时分析你看到的场景,并与你进行交流,比如在你做饭的时候告诉你下一步该做什么,或者在你观看教学视频时回答你的问题,这就是Vide... 阅读全文

    优惠 大型图像描述数据集PixelProse:包含了超过1600万个由先进的视觉-语言模型自动生成的图像描述

  • 大型图像描述数据集PixelProse:包含了超过1600万个由先进的视觉-语言模型自动生成的图像描述
    AI
  • 马里兰大学帕克分校的研究人员推出大型图像描述数据集PixelProse,PixelProse包含了超过1600万个由先进的视觉-语言模型自动生成的图像描述。例如,一个艺术家想要了解他的画作在视觉上给人的感受,PixelProse可以帮助分析图像的美学属性并生成描述,这样艺术家就可以得到关于作品可能给观众带来的情感体验的... 阅读全文