AI

优惠 Simular推出新型框架Agent S:以让计算机像人类一样通过图形用户界面(GUI)自主执行复杂的多步骤任务

  • Simular推出新型框架Agent S:以让计算机像人类一样通过图形用户界面(GUI)自主执行复杂的多步骤任务
    AI
  • Simular Research推出新型框架Agent S,它可以让计算机像人类一样通过图形用户界面(GUI)自主执行复杂的多步骤任务。简单来说,Agent S就是一个智能助手,它能理解你的指令,然后自动在电脑上执行这些指令,比如数据录入、日程安排和文档创建等。 项目主页:https://www.simular.ai/... 阅读全文

    优惠 GLOV:利用大语言模型(LLMs)来优化视觉-语言模型(VLMs)的技术,目的是提升下游视觉任务的性能

  • GLOV:利用大语言模型(LLMs)来优化视觉-语言模型(VLMs)的技术,目的是提升下游视觉任务的性能
    AI
  • 奥地利格拉茨工业大学、日本索尼集团公司、IBM 研究院,以色列、奥地利林茨 JKU、德国奥芬堡大学、荷兰阿姆斯特丹大学、澳大利亚悉尼新南威尔士大学、索尼人工智能公司,美国、美国麻省理工学院-IBM 沃森人工智能实验室、麻省理工学院 CSAIL的研究人员推出名为GLOV的新方法,GLOV是一种利用大语言模型(LLMs)来... 阅读全文

    优惠 型文本到四维合成框架TRANS4D:根据文本描述生成包含复杂场景转换的四维(4D)动态场景

  • 型文本到四维合成框架TRANS4D:根据文本描述生成包含复杂场景转换的四维(4D)动态场景
    AI
  • 北京大学 、 香港中文大学 和 斯坦福大学的研究人员推出新型文本到四维(Text-to-4D)合成框架TRANS4D,这个框架能够根据文本描述生成包含复杂场景转换的四维(4D)动态场景。简单来说,就是能够根据你给的文字描述,创造出一个三维空间中随时间变化的动态视频。 GitHub:https://github.com/... 阅读全文

    优惠 新型视频理解模型TRACE:专门设计来处理视频时间定位任务

  • 新型视频理解模型TRACE:专门设计来处理视频时间定位任务
    AI
  • 香港中文大学科学与工程学院、深圳市人工智能与机器人研究院、广东省未来智能网络重点实验室和腾讯的研究人员推出新型视频理解模型TRACE,它专门设计来处理视频时间定位(Video Temporal Grounding,简称VTG)任务。这项技术的核心能力是理解视频中的事件,并确定这些事件发生的具体时间点。这就像给视频安装了... 阅读全文

    优惠 video-t3:提高视频大型语言模型(Video LLMs)在处理时间推理方面的能力

  • video-t3:提高视频大型语言模型(Video LLMs)在处理时间推理方面的能力
    AI
  • 香港大学、北京大学和加州大学圣地亚哥分校的研究人员推出新方法T3,它旨在提高视频大型语言模型(Video LLMs)在处理时间推理方面的能力。这些模型通常在理解视频内容时遇到困难,尤其是在跟踪随时间变化和理解时间关系方面。 项目主页:https://video-t3.github.io 主要功能: T3的主要功能是增强... 阅读全文

    优惠 新型编程辅助框架CursorCore:能够通过对话的方式,帮助程序员更高效地编写和修改代码

  • 新型编程辅助框架CursorCore:能够通过对话的方式,帮助程序员更高效地编写和修改代码
    AI
  • 中国科学技术大学认知智能国家重点实验室和科大讯飞(华中)人工智能研究院的研究人员推出新型编程辅助框架CursorCore,这个框架能够通过对话的方式,帮助程序员更高效地编写和修改代码。想象一下,你正在编写一个程序,但遇到了难题,比如想要实现一个特定功能却不知道从何下手。这时,CursorCore就像一个聪明的助手,能够... 阅读全文

    优惠 全新TTS系统F5-TTS:能够将文本信息转换成听起来自然且富有表现力的语音

  • 全新TTS系统F5-TTS:能够将文本信息转换成听起来自然且富有表现力的语音
    AI
  • 上海交通大学、剑桥大学,吉利汽车研究院(宁波)有限公司的研究人员推出一个名为F5-TTS的全新文本到语音(Text-to-Speech,TTS)系统。这个系统能够将文本信息转换成听起来自然且富有表现力的语音。想象一下,你正在创建一个多语言的有声读物应用,F5-TTS可以帮助你将文本内容转换成不同语言的语音,让用户能够听... 阅读全文

    优惠 基于Mamba架构构建的大语言模型Falcon Mamba 7B

  • 基于Mamba架构构建的大语言模型Falcon Mamba 7B
    AI
  • 阿拉伯联合酋长国阿布扎比技术创新研究所推出大语言模型Falcon Mamba 7B,它是基于一种新颖的架构——Mamba架构构建的。这个模型经过了大量数据的训练,并且在性能上超过了其他一些知名的、基于Transformer架构的模型,比如Mistral 7B、Llama 3.1 8B和Falcon2 11B。Falco... 阅读全文

    优惠 TinyEmo:用于情感推理和分类的小型多模态语言模型系列

  • TinyEmo:用于情感推理和分类的小型多模态语言模型系列
    AI
  • TinyEmo是一个用于情感推理和分类的小型多模态语言模型系列。你可以把TinyEmo想象成一个迷你的情感分析专家,它能够理解图片中的情感内容,并给出相应的分类。例如,一个社交媒体用户分享了一张看起来孤独的图片,TinyEmo可以分析这张图片并识别出其中的情感,然后给出一个情感分类,比如“孤独”。接着,它还可以生成一段... 阅读全文

    优惠 Diversity-Rewarded CFG:提高音乐生成模型在创作过程中的多样性和质量

  • Diversity-Rewarded CFG:提高音乐生成模型在创作过程中的多样性和质量
    AI
  • 谷歌发布论文,论文的主题是关于如何提高音乐生成模型在创作过程中的多样性和质量。想象一下,你是一位音乐制作人,想要创作出既符合某个主题又充满新意的音乐作品。但是,如果你每次创作出来的作品都大同小异,那就会显得很无聊。这篇论文介绍的方法就像是给你一个魔法工具,帮助你在保持音乐质量的同时,也让作品变得更加多样化和有趣。 项目... 阅读全文

    优惠 CritiCS:使用大语言模型(LLMs)来创造具有叙事连贯性和创造力的长篇故事

  • CritiCS:使用大语言模型(LLMs)来创造具有叙事连贯性和创造力的长篇故事
    AI
  • 韩国蔚山科学技术研究院人工智能研究生院推出CritiCS,使用大语言模型(LLMs)来创造具有叙事连贯性和创造力的长篇故事。想象一下,你是一位作家,想要写一个既有趣又能让读者一直猜不到下一步会发生什么的长故事,但这并不容易,因为你需要保持故事的连贯性,同时还要让故事充满创意。 GitHub:https://github... 阅读全文

    优惠 用于加速音乐生成的新技术Presto!:通过减少采样步骤和每个步骤的成本,来加速基于分数的音乐生成模型的推理过程

  • 用于加速音乐生成的新技术Presto!:通过减少采样步骤和每个步骤的成本,来加速基于分数的音乐生成模型的推理过程
    AI
  • 加州大学圣地亚哥分校、Adobe Research的研究人员推出一种用于加速音乐生成的新技术Presto!,Presto!通过减少采样步骤和每个步骤的成本,来加速基于分数的扩散变换器(一种生成音乐的模型)的推理过程。例如,你是一名视频编辑,需要为一个描述冬日山景的视频添加背景音乐,使用Presto!可以快速生成一段既符... 阅读全文