优惠新型多模态大语言模型DenseFusion-1M：通过融合多种视觉专家的知识来增强对复杂视觉元素的理解能力

AI

推荐人：暴走AI 标签：DenseFusion-1M 多模态大语言模型 AI

2年前 (2024-07-13)AI

北京大学、北京人工智能研究院和大连理工大学的研究人员推出一种新型多模态大型语言模型DenseFusion-1M，它通过融合多种视觉专家的知识来增强对复杂视觉元素的理解能力。这些模型能够理解图像中的多个对象、文本信息 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠专门为视觉应用设计的新型混合模型架构MambaVision

AI

推荐人：暴走AI 标签：MambaVision AI

2年前 (2024-07-13)AI

英伟达推出一种新型的混合模型架构——MambaVision，它是专门为视觉应用设计的。MambaVision的核心贡献在于重新设计了Mamba公式，以增强其对视觉特征的高效建模能力。此外，论文还对将视觉变换器（ViT）与Mamba集成的 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新型多模态大语言模型的调优范式MAVIS：专门针对数学视觉问题解决能力的提升

AI

推荐人：暴走AI 标签：MAVIS 多模态大语言模型 AI

2年前 (2024-07-13)AI

香港中文大学、北京大学、上海人工智能实验室和甲骨文公司的研究人员推出新型多模态大语言模型的调优范式MAVIS，专门针对数学视觉问题解决能力的提升。MAVIS通过利用大型语言模型和代码能力，合成了大量的抽象图像和 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 Q-GaLore：提高训练大语言模型时的内存效率

AI

推荐人：暴走AI 标签：Q-GaLore AI

2年前 (2024-07-13)AI

德克萨斯大学奥斯汀分校、萨里大学、牛津大学、加州理工学院和Meta AI的研究人员推出新方法Q-GaLore，它用于提高训练大语言模型（LLMs）时的内存效率。大型语言模型是一类拥有数十亿参数的人工智能模型，它们在各 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 Multimodal Self-Instruct：多模态大语言模型在理解和推理抽象图像方面的能力

AI

推荐人：暴走AI 标签：Multimodal Self-Instruct 多模态大语言模型 AI

2年前 (2024-07-13)AI

浙江大学的研究人员发布论文，论文的主题是关于如何提高大型多模态模型（LMMs）在理解和推理抽象图像方面的能力。多模态模型是一种人工智能技术，它能够处理和理解多种类型的数据，如文本、图像等。然而，尽管这些模 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠智谱AI推出新型视频理解模型CogVLM2-Video：更准确地理解和回答与视频内容相关的问题

AI

推荐人：暴走AI 标签：CogVLM2-Video AI

2年前 (2024-07-12)AI

智谱AI推出一种新型视频理解模型——CogVLM2-Video。该模型针对现有技术中的一些限制进行了改进，旨在更准确地理解和回答与视频内容相关的问题。CogVLM2-Video模型结合了新生成的数据集和现有的开放领域问答数据。该模 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 MIT推出新型训练范式Diffusion Forcing：结合了两种强大的序列生成模型的优点：基于下一个词预测的模型和全序列扩散模型

AI

推荐人：暴走AI 标签：Diffusion Forcing AI

2年前 (2024-07-07)AI

MIT推出新型训练范式Diffusion Forcing（扩散驱动），它结合了两种强大的序列生成模型的优点：基于下一个词预测的模型和全序列扩散模型。想象一下，你有一个能够生成文本、视频或控制机器人的人工智能，但它在生成长 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新基准测试Planetarium：用于评估大语言模型解决规划问题的性能

AI

推荐人：暴走AI 标签：Planetarium AI

2年前 (2024-07-07)AI

布朗大学计算机科学系的研究人员推出新基准测试Planetarium，用于评估大语言模型解决规划问题的性能，特别是将自然语言描述的规划任务转换成结构化的规划语言，例如规划领域定义语言（PDDL），并通过实验展示了现有 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠阿里达摩院推出一站式 AI 视频创作平台 —“寻光”：集成分镜设计、图层可控编辑等功能

AI

推荐人：暴走AI 标签：寻光阿里达摩院 AI

2年前 (2024-07-07)AI

2024 世界人工智能大会（WAIC 2024）期间，阿里达摩院推出了一站式 AI 视频创作平台 —— 寻光。官方表示，该平台旨在通过 AI 技术使视频创作更简单、高效，其集成了剧本创作、分镜设计、视频素材编辑等关键步骤，创作 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 S2TT：将大语言模型应用于语音到文本翻译任务

AI

推荐人：暴走AI 标签：S2TT AI

2年前 (2024-07-04)AI

台湾大学、香港中文大学和Meta的研究人员发布论文，探讨了如何将大型语言模型（LLMs）应用于语音到文本翻译（Speech-to-Text Translation, S2TT）任务。S2TT是一种技术，它能够将一种语言的语音信号转换成另一种语言 ...... 阅读全文

直达链接好 1 不好 0 已关闭评论

优惠新型文本到音频生成框架PicoAudio：专注于提供精确的时间戳和频率可控性

AI

推荐人：暴走AI 标签：PicoAudio AI

2年前 (2024-07-04)AI

上海交通大学X-LANCE实验室、上海人工智能实验室和香港中文大学（深圳）的研究人员推出新型文本到音频生成框架PicoAudio，它专注于提供精确的时间戳和频率可控性。简单来说，PicoAudio能够根据文本描述生成音频，并 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠关于表格型机器学习的新基准测试集合TabReD

AI

推荐人：暴走AI 标签：TabReD AI

2年前 (2024-07-04)AI

Yandex和高等经济大学的研究人员推出推出关于表格型机器学习（Tabular Machine Learning）的一个新的基准测试集合TabReD。表格型机器学习是一种处理表格数据的人工智能技术，这些数据通常包含行和列，类似于电子表格 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

推荐类别

栏目分类

AI

优惠新型多模态大语言模型DenseFusion-1M：通过融合多种视觉专家的知识来增强对复杂视觉元素的理解能力

优惠专门为视觉应用设计的新型混合模型架构MambaVision

优惠新型多模态大语言模型的调优范式MAVIS：专门针对数学视觉问题解决能力的提升

优惠 Q-GaLore：提高训练大语言模型时的内存效率

优惠 Multimodal Self-Instruct：多模态大语言模型在理解和推理抽象图像方面的能力

优惠智谱AI推出新型视频理解模型CogVLM2-Video：更准确地理解和回答与视频内容相关的问题

优惠 MIT推出新型训练范式Diffusion Forcing：结合了两种强大的序列生成模型的优点：基于下一个词预测的模型和全序列扩散模型

优惠新基准测试Planetarium：用于评估大语言模型解决规划问题的性能

优惠阿里达摩院推出一站式 AI 视频创作平台 —“寻光”：集成分镜设计、图层可控编辑等功能

优惠 S2TT：将大语言模型应用于语音到文本翻译任务

优惠新型文本到音频生成框架PicoAudio：专注于提供精确的时间戳和频率可控性

优惠关于表格型机器学习的新基准测试集合TabReD