AI

优惠 新型视频理解框架VideoLLaMB:专门设计来处理和理解长时间视频内容

  • 新型视频理解框架VideoLLaMB:专门设计来处理和理解长时间视频内容
    AI
  • 北京通用人工智能研究院 (BIGAI)、美国加州大学圣克鲁斯分校计算机科学与工程系、北京大学王选计算机技术研究所和通用人工智能国家重点实验室的研究人员推出新型视频理解框架VideoLLaMB,这个框架专门设计来处理和理解长时间视频内容,它通过一种特别的方式来编码整个视频序列,同时保留历史视觉数据,以此来提高模型在各种任... 阅读全文

    优惠 基于音频的端到端会话模型Mini-Omni:能够实现实时语音互动

  • 基于音频的端到端会话模型Mini-Omni:能够实现实时语音互动
    AI
  • 清华大学的研究人员推出多模态语言模型Mini-Omni,它能够实时地进行语音交互。想象一下,你有一个智能助手,不仅能理解你说的话,还能用语音回答你的问题,就像和真人对话一样自然。Mini-Omni就是这样一个模型,它能够“听”和“说”,同时还能进行思考。 GitHub:https://github.com/gpt-om... 阅读全文

    优惠 新型时间序列预测方法VISIONTS:将时间序列数据视为图像,利用在图像上预训练的模型来进行预测

  • 新型时间序列预测方法VISIONTS:将时间序列数据视为图像,利用在图像上预训练的模型来进行预测
    AI
  • 浙江大学、道富科技(浙江)有限公司、Salesforce 亚洲研究中心的研究人员推出一种新型的时间序列预测方法,名为VISIONTS。时间序列预测是一种预测未来数据点的技术,这些数据点是按照时间顺序排列的,比如股票价格、气温变化或者网站流量等。 GitHub:https://github.com/Keytoyze/Vi... 阅读全文

    优惠 CrossViewDiff:用于卫星图像到街景图像合成的跨视角扩散模型

  • CrossViewDiff:用于卫星图像到街景图像合成的跨视角扩散模型
    AI
  • 中山大学、上海人工智能实验室和商汤科技的研究人员推出一个名为CrossViewDiff的模型,它是一个用于卫星图像到街景图像合成的跨视角扩散模型。简单来说,这个模型能够将从高空卫星拍摄的图像转换成仿佛在地面上拍摄的街景图像。 项目主页:https://opendatalab.github.io/CrossViewDif... 阅读全文

    优惠 功能强大、易于使用的开源 RAG 工具kotaemon:为最终用户提供了与文档进行交互的可能,也为开发者提供了构建和定制 RAG 管道的平台

  • 功能强大、易于使用的开源 RAG 工具kotaemon:为最终用户提供了与文档进行交互的可能,也为开发者提供了构建和定制 RAG 管道的平台
    AI
  • kotaemon 是一个基于检索增强生成(RAG)技术的开源工具,它允许用户与文档进行交互式对话。kotaemon 的主要目的是提供一个简洁、可定制且功能丰富的用户界面,以便用户能够在其文档上进行问答,同时也为开发者提供了一个强大的框架来构建和定制自己的 RAG 管道。 主要功能特性 kotaemon 具备以下主要功能... 阅读全文

    优惠 微调大语言模型新方法CURLoRA

  • 微调大语言模型新方法CURLoRA
    AI
  • 这篇论文介绍了一种名为CURLoRA的新型方法,它用于对大语言模型(LLMs)进行微调。CURLoRA利用了CUR矩阵分解技术,并结合了低秩适应(LoRA)的概念。这种方法主要解决了在持续学习过程中,如何减少模型的灾难性遗忘以及如何减少可训练参数数量这两个关键挑战。 GitHub:https://github.com/... 阅读全文

    优惠 为了更好地理解和处理科学文献而设计的AI模型SciLitLLM

  • 为了更好地理解和处理科学文献而设计的AI模型SciLitLLM
    AI
  • 中国科学技术大学和深势科技的研究人员推出一个名为SciLitLLM的人工智能模型,它是为了更好地理解和处理科学文献而设计的。你可以把它想象成一个超级聪明的机器人,它阅读科学文章和论文的能力就像一个科学家或研究者一样。 主要功能: SciLitLLM的主要功能是理解科学文献的内容,然后根据这些内容回答问题或者执行特定的任... 阅读全文

    优惠 文本风格转换方法StyleRemix:能够将文本重新编写,以故意模糊作者的身份

  • 文本风格转换方法StyleRemix:能够将文本重新编写,以故意模糊作者的身份
    AI
  • 华盛顿大学和艾伦人工智能研究所的研究人员推出文本风格转换方法StyleRemix,它能够将文本重新编写,以故意模糊作者的身份。这项技术对于保护作者隐私非常重要,尤其是在需要匿名讨论、双盲审稿或健康服务等敏感情境中。总的来说,StyleRemix是一个强大的工具,它通过精细的风格元素控制和低计算成本,为用户提供了一种有效... 阅读全文

    优惠 三维重建方法Spann3R:能够从有序或无序的图像集合中重建出密集的三维几何结构

  • 三维重建方法Spann3R:能够从有序或无序的图像集合中重建出密集的三维几何结构
    AI
  • 伦敦大学学院的研究人员推出三维重建方法Spann3R,它能够从有序或无序的图像集合中重建出密集的三维几何结构。这个方法的核心在于使用一个基于变换器(transformer)的架构,直接从图像中回归点图(pointmap),而不需要事先知道场景或相机参数。 项目主页:https://hengyiwang.github.i... 阅读全文

    优惠 SAM2POINT系统:用于三维(3D)分割的先进框架

  • SAM2POINT系统:用于三维(3D)分割的先进框架
    AI
  • 香港中文大学MiuLar实验室、香港中文大学MMLab、字节跳动和上海人工智能实验室的研究人员推出SAM2POINT系统,它是一个用于三维(3D)分割的先进框架。三维分割是指在三维空间中识别和区分不同对象或场景的过程,类似于在照片中用标记笔圈出不同的物体。SAM2POINT利用了一种称为Segment Anything... 阅读全文

    优惠 新型音频编码模型WavTokenizer:能够高效地将自然信号如语音、音乐和普通音频压缩成低维度的离散标记(tokens),以便于语言模型处理

  • 新型音频编码模型WavTokenizer:能够高效地将自然信号如语音、音乐和普通音频压缩成低维度的离散标记(tokens),以便于语言模型处理
    AI
  • 浙江大学、阿里巴巴集团 和Meta的研究人员推出新型音频编码模型WavTokenizer,它能够高效地将自然信号如语音、音乐和普通音频压缩成低维度的离散标记(tokens),以便于语言模型处理。简单来说,WavTokenizer就像是一个音频界的“压缩器”,能够把一段音频变成一串代码,这些代码既占用空间小,又能在需要的... 阅读全文

    优惠 新型三维场景重建框架ReconX:从稀疏的视角(比如只有几张图片)重建出详细的三维场景

  • 新型三维场景重建框架ReconX:从稀疏的视角(比如只有几张图片)重建出详细的三维场景
    AI
  • 清华大学和香港科技大学的研究人员推出新型三维场景重建框架ReconX,econX的目标是从稀疏的视角(比如只有几张图片)重建出详细的三维场景。这就像用几张风景照片,来构建一个可以360度观看的三维模型。 项目主页:https://liuff19.github.io/ReconX GitHub:https://githu... 阅读全文