推荐类别

栏目分类

优惠 新型自监督学习模型XEUS:为数千种语言提供鲁棒的语音表示学习

  • 新型自监督学习模型XEUS:为数千种语言提供鲁棒的语音表示学习
    AI
  • 卡内基梅隆大学、上海交通大学和芝加哥丰田技术学院的研究人员推出新型自监督学习(Self-supervised Learning, SSL)模型XEUS(发音类似Zeus,意为“跨语言通用语音编码器”),旨在为数千种语言提供鲁棒的语音表示学习。XEUS模型在超过100万小时的数据上进行了预训练,涵盖了4057种语言,这使... 阅读全文

    优惠 新型基准测试工具MIRAI:专门设计用来评估大语言模型在国际事件预测方面的能力

  • 新型基准测试工具MIRAI:专门设计用来评估大语言模型在国际事件预测方面的能力
    AI
  • 加州大学洛杉矶分校和加州理工学院的研究人员推出新型基准测试工具MIRAI,它专门设计用来评估大语言模型(LLMs)在国际事件预测方面的能力。例如,我们有一个智能系统,它可以通过分析历史数据和新闻文章来预测未来的国际事件,比如国家间的冲突、合作或外交关系的转变。这种预测对于政府决策者来说非常重要,因为它可以帮助他们做出更... 阅读全文

    优惠 新型人工智能模型OmniJARVIS:虚拟世界中的智能助手,能够理解你的指令,帮你在游戏中完成任务

  • 新型人工智能模型OmniJARVIS:虚拟世界中的智能助手,能够理解你的指令,帮你在游戏中完成任务
    AI
  • 北京大学、BIGAI和加州大学洛杉矶分校的研究人员推出新型人工智能模型OmniJARVIS,它是为了在开放世界环境中,比如像《我的世界》这样的沙盒游戏中,让人工智能体按照指令行动而设计的。想象一下,你在游戏中拥有一个智能助手,它可以听懂你的话,理解你的想法,并在游戏中帮你完成各种任务,比如挖矿、建造或探索。 项目主页:... 阅读全文

    优惠 微软推出全新文本到语音转换系统E2 TTS:非自回归的零样本(zero-shot)文本到语音合成技术

  • 微软推出全新文本到语音转换系统E2 TTS:非自回归的零样本(zero-shot)文本到语音合成技术
    AI
  • 微软推出全新文本到语音转换系统E2 TTS(Embarrassingly Easy Text-to-Speech),这是一种非自回归(non-autoregressive)的零样本(zero-shot)文本到语音合成技术,意味着它能够在没有特定训练数据的情况下,模仿任何人的声音来生成自然听起来的语音。E2 TTS的提出... 阅读全文

    优惠 新型基准测试工具µ-Bench:用来评估视觉-语言模型在显微镜图像理解方面的表现

  • 新型基准测试工具µ-Bench:用来评估视觉-语言模型在显微镜图像理解方面的表现
    AI
  • 斯坦福大学的研究人员推出新型基准测试工具µ-Bench,它专门设计用来评估视觉-语言模型(Vision-Language Models, VLMs)在显微镜图像理解方面的表现。这类模型能够“看懂”显微镜下的图像,并且用语言描述它们所“看到”的内容,这对于生物学和生物医学研究非常重要。 项目主页:https://ale9... 阅读全文

    优惠 大型视觉语言模型InternLM-XComposer-2.5(浦语·灵笔2.5):特别擅长处理需要长时间上下文输入和输出的任务

  • 大型视觉语言模型InternLM-XComposer-2.5(浦语·灵笔2.5):特别擅长处理需要长时间上下文输入和输出的任务
    AI
  • 上海人工智能实验室、香港中文大学、商汤科技集团和清华大学的研究人员推出大型视觉语言模型InternLM-XComposer-2.5(浦语·灵笔2.5),这个模型特别擅长处理需要长时间上下文输入和输出的任务。就像一个超级助手,能够理解你给它的长篇大论,无论是文字还是图片,并给出非常聪明的回答或者创作。 GitHub:ht... 阅读全文

    优惠 新型高效视觉投影器TokenPacker:为多模态大语言模型设计

  • 新型高效视觉投影器TokenPacker:为多模态大语言模型设计
    AI
  • 浙江大学、蚂蚁集团和香港理工大学的研究人员推出一种新型的高效视觉投影器TokenPacker,它是为多模态大语言模型(MLLM)设计的。多模态大型语言模型是一种人工智能技术,它结合了视觉识别和语言处理的能力,可以理解和生成涉及图像和文本的内容。总的来说,TokenPacker是一个强大的工具,它通过高效地转换和打包视觉... 阅读全文

    优惠 新型文档检索系统ColPali:利用了最新的视觉语言模型来从文档页面的图像中生成高质量的上下文嵌入

  • 新型文档检索系统ColPali:利用了最新的视觉语言模型来从文档页面的图像中生成高质量的上下文嵌入
    AI
  • Illuin 技术、Equall.ai、巴黎-萨克雷中央高等电力学院和苏黎世联邦理工学院的研究人员推出新型文档检索系统ColPali,它利用了最新的视觉语言模型(Vision Language Models,简称VLMs)来从文档页面的图像中生成高质量的上下文嵌入(contextualized embeddings)。... 阅读全文

    优惠 新基准KnowUnDo:用于更细致地评估知识忘却方法,特别是在版权内容和用户隐私领域

  • 新基准KnowUnDo:用于更细致地评估知识忘却方法,特别是在版权内容和用户隐私领域
    AI
  • 浙江大学、腾讯平台与内容事业群和哈尔滨工业大学的研究人员推出新基准KnowUnDo,用于更细致地评估知识忘却方法,特别是在版权内容和用户隐私领域。此外,论文还提出了MemFlex方法,它在实验中显示出在精确忘却特定知识方面优于现有方法,并能显著减少训练资源的消耗。最后,论文讨论了这种方法的局限性,并提出了未来研究的方向... 阅读全文

    优惠 新的流匹配方法Consistency-FM:用于生成模型的算法框架

  • 新的流匹配方法Consistency-FM:用于生成模型的算法框架
    AI
  • “Consistency Flow Matching”(Consistency-FM)这是一种新的流匹配(Flow Matching, FM)方法,一种用于生成模型的算法框架。这种方法的核心在于通过普通微分方程(ODEs)定义概率路径,从而在噪声和数据样本之间进行转换。Consistency-FM特别强调在速度场中显式... 阅读全文

    优惠 MInference:加速大语言模型的预填充(pre-filling)阶段,特别是在处理长文本时

  • MInference:加速大语言模型的预填充(pre-filling)阶段,特别是在处理长文本时
    AI
  • 微软公司和 萨里大学的研究人员推出新技术MInference(Million-tokens Inference),它旨在加速大语言模型的预填充(pre-filling)阶段,特别是在处理长文本时。预填充阶段是LLMs生成文本前的一个重要步骤,但当文本长度增加时,这一阶段的计算成本会变得非常高。 项目主页:https:/... 阅读全文

    优惠 AGENTLESS:基于大语言模型的软件工程自动化方法,简化软件开发任务,如代码合成、程序修复和测试生成

  • AGENTLESS:基于大语言模型的软件工程自动化方法,简化软件开发任务,如代码合成、程序修复和测试生成
    AI
  • 伊利诺伊大学香槟分校的研究人员推出AGENTLESS系统,它是一种基于大语言模型的软件工程自动化方法,旨在简化软件开发任务,如代码合成、程序修复和测试生成。AGENTLESS的核心思想是去掉复杂的自主软件代理(agents),这些代理过去被用来执行端到端的软件开发任务,包括使用工具、运行命令、观察环境反馈和规划未来行动... 阅读全文
    我要爆料 我的收藏 顶部
    快速登录

    自动登录 忘记密码?