人工智能

优惠 VideoMamba模型:为了高效理解视频内容而设计

  • VideoMamba模型:为了高效理解视频内容而设计
    AI
  • 来自上海人工智能实验室、中国科学院深圳先进技术研究院、中国科学院大学、 南京大学软件新技术国家重点实验室的研究团队推出VideoMamba模型,它是为了高效理解视频内容而设计的。VideoMamba模型通过创新地将Mamba(一种状态空间模型)应用于视频领域,解决了视频理解中的两个主要挑战:一是视频中的局部冗余,二是长... 阅读全文

    优惠 自深度学习出现以来,预训练语言模型算法的进步速度

  • 自深度学习出现以来,预训练语言模型算法的进步速度
    AI
  • 这篇论文探讨了自深度学习出现以来,预训练语言模型算法的进步速度。研究者们收集了2012年至2023年间200多个语言模型在Wikitext和Penn Treebank数据集上评估的数据,发现为了达到一定的性能阈值,所需的计算资源大约每8个月减半,这一速度远快于摩尔定律所描述的硬件进步速度。论文还估算了增强的扩展法则,量... 阅读全文

    优惠 新型训练框架Fuyou:能够使得在单个GPU上高效地进行超大规模模型(如100亿参数的模型)的微调成为可能

  • 新型训练框架Fuyou:能够使得在单个GPU上高效地进行超大规模模型(如100亿参数的模型)的微调成为可能
    AI
  • 来自浙江大学和香港科技大学的研究团队推出新型训练框架Fuyou,它能够使得在单个GPU上高效地进行超大规模模型(如100亿参数的模型)的微调成为可能。这个框架特别适用于资源有限、无法承担多GPU服务器的研究人员和开发者。 论文中以NVIDIA RTX 4090 GPU作为例子来展示Fuyou框架的能力。RTX 4090... 阅读全文

    优惠 针对大型视觉-语言模型(LVLMs)的推理加速技术FastV

  • 针对大型视觉-语言模型(LVLMs)的推理加速技术FastV
    AI
  • 来自阿里巴巴和北京大学推出FastV,这是一种针对大型视觉-语言模型(LVLMs)的推理加速技术。LVLMs是一类结合了图像识别和自然语言处理能力的人工智能模型,它们可以处理复杂的任务,比如根据图片内容生成描述、回答关于图像的问题等。然而,这些模型在处理图像信息时存在效率低下的问题,特别是在模型的深层结构中。 GitH... 阅读全文

    优惠 AnythingLLM:全能私人ChatGPT,智能对话你的任何文档!

  • AnythingLLM:全能私人ChatGPT,智能对话你的任何文档!
    AI
  • AnythingLLM:一款私人ChatGPT,可与任何事物进行对话!高效、可定制、开源的企业级文档聊天机器人解决方案。这款全栈应用程序能够将任何文档、资源或内容片段转化为上下文,供任何LLM在聊天时作为参考使用。它还允许您灵活选择所使用的LLM或向量数据库,并支持多用户管理和权限设置。 网站:https://usea... 阅读全文

    优惠 有道推出小采样数字人平台,一键定制你的专属虚拟形象!

  • 有道推出小采样数字人平台,一键定制你的专属虚拟形象!
    AI
  • 根据有道智云平台公众号,有道今日推出小采样数字人平台,该平台结合了智能化和个性化的特性,让用户可以轻松地创建自己的虚拟形象。有道数字人也支持照片说话和唱歌功能,可以让静态的照片和图像通过语音或旋律更生动地表达。... 阅读全文

    优惠 谷歌发布了Gemini 1.5 Pro的技术论文

  • 谷歌发布了Gemini 1.5 Pro的技术论文
    AI
  • 谷歌发布了Gemini 1.5 Pro的技术论文,此模型特别擅长理解和处理大量的信息,比如长篇文章、视频和音频。想象一下,你有一个包含数百万字的长篇小说,或者几个小时的视频和音频文件,Gemini 1.5 Pro能够像阅读短文一样轻松地理解这些内容,并回答有关这些问题的复杂问题。 主要功能和特点: 多模态理解: Gem... 阅读全文

    优惠 知谱AI发布了旗下文生图系统CogView3的技术论文

  • 知谱AI发布了旗下文生图系统CogView3的技术论文
    AI
  • 知谱AI发布了旗下文生图系统CogView3的技术论文,这是一个基于接力扩散模型的创新框架。CogView3的核心思想是先生成低分辨率的图像,然后通过接力扩散的方式逐步提高图像的分辨率,最终生成高分辨率、细节丰富的图像。这种方法不仅提高了生成图像的质量,而且大幅降低了训练和推理的成本。 论文地址:https://arx... 阅读全文

    优惠 深度求索推出推出开源视觉语言(VL)模型DeepSeek-VL系列

  • 深度求索推出推出开源视觉语言(VL)模型DeepSeek-VL系列
    AI
  • 深度求索推出开源的视觉语言(VL)模型DeepSeek-VL系列。该模型专为现实世界的视觉和语言理解应用而设计,围绕数据构建、模型架构、训练策略三大方面展开。报告显示,DeepSeek-VL系列有1.7B和7B两个参数规模,均在同规模的视觉语言基准测试中在多个方面超越了LLaVA-Next、Qwen-VL-Chat等模... 阅读全文

    优惠 卷积重建模型CRM:将一张普通的2D图片转换成一个带有纹理的3D模型

  • 卷积重建模型CRM:将一张普通的2D图片转换成一个带有纹理的3D模型
    AI
  • 清华大学、中国人民大学等团队研究人员在预印本平台arXiv平台推出一个卷积重建模型CRM。根据论文,该模型可用于将单图像转换为3D纹理网格,可在短短10秒内就从图像中提供了高保真纹理网格,无需任何优化测试。该模型在图像峰值信噪比上,相较于常规的方法提升约23%。它能够将一张普通的2D图片转换成一个带有纹理的3D模型。这... 阅读全文

    优惠 Spotify推出推荐系统2T-HGNN:精准的为用户推荐有声读物

  • Spotify推出推荐系统2T-HGNN:精准的为用户推荐有声读物
    AI
  • 这篇论文的主题是“通过图神经网络在Spotify上实现个性化有声读物推荐”。简单来说,Spotify想要在其平台上引入有声读物,并希望为用户提供个性化的推荐服务。由于有声读物与Spotify现有的音乐和播客内容不同,用户对这种新内容类型的互动较少,因此推荐系统面临了数据稀疏和冷启动的挑战。为了解决这些问题,Spotif... 阅读全文

    优惠 百度推出AI 编程助手 Comate:开放邀测,注册即送30天VIP

  • 百度推出AI 编程助手 Comate:开放邀测,注册即送30天VIP
    AI
  • 百度推出了新一代智能代码编程助手——Codemate,该工具深度融合了百度多年积累的编程大数据以及丰富的外部开源数据资源,致力于为开发者提供贴近实际研发场景的高质量代码生成服务。相较于国外竞品,Codemate 的代码提示与自动生成功能更注重本土化和实用性,以“贴地气”的方式更好地服务于中国开发者。 类似于 Codei... 阅读全文