人工智能

优惠 新型视觉文档理解方法VisFocus:无需OCR技术,能够直接从图像中理解文档内容

  • 新型视觉文档理解方法VisFocus:无需OCR技术,能够直接从图像中理解文档内容
    AI
  • 以色列赖希曼大学和亚马逊AWS AI 实验室的研究人员推出新型视觉文档理解方法VisFocus,它是一种无需光学字符识别(OCR)的技术,能够直接从图像中理解文档内容。这种方法特别适用于处理包含大量文本的密集文档,比如PDF文件或图像。 例如,你有一张包含许多文本的PDF文档的图像,并想知道文档中提到的某个特定信息(比... 阅读全文

    优惠 StabilityAI发布全新开源模型Stable Audio Open的技术报告

  • StabilityAI发布全新开源模型Stable Audio Open的技术报告
    AI
  • StabilityAI在上个月公开新型文本到音频的生成模型Stable Audio Open后,终于在本月公开了技术报告,Stable Audio Open的特别之处在于,它是开放的,意味着任何人都可以使用和研究它,而且它是用Creative Commons(创意共享)许可的音频数据训练的,这保证了数据的合法性和透明性... 阅读全文

    优惠 快手推出新型高效视觉-语言模型EVLM

  • 快手推出新型高效视觉-语言模型EVLM
    AI
  • 快手推出一种新型高效视觉-语言模型EVLM,它是为了更好地理解视觉信息并将其与语言模型结合起来而设计的。EVLM在多模态基准测试中的竞争力表现,以及在图像字幕和视频字幕任务中的优秀性能。这表明EVLM不仅在理论上设计得很先进,而且在实际应用中也能提供很好的效果。 例如,你给EVLM一张图片,图片上有一个家庭在海滩上,父... 阅读全文

    优惠 阿里巴巴旗下通义实验室语音团队推出声音理解和生成基础模型FunAudioLLM模型家族

  • 阿里巴巴旗下通义实验室语音团队推出声音理解和生成基础模型FunAudioLLM模型家族
    AI
  • 阿里巴巴旗下通义实验室语音团队推出声音理解和生成基础模型FunAudioLLM模型家族,专为优化人类与大语言模型(LLMs)间的自然语音交互而设计。该体系的核心亮点是两大创新模型:SenseVoice,擅长处理多语种语音识别、情绪识别及音频事件探测;以及CosyVoice,能灵活生成自然语音,实现对多种语言、音色、讲述... 阅读全文

    优惠 微软推出基于知识图谱的检索增强生成(RAG)开源项目GraphRAG

  • 微软推出基于知识图谱的检索增强生成(RAG)开源项目GraphRAG
    AI
  • GraphRAG是由微软推出的一个基于知识图谱的检索增强生成(RAG)技术项目,旨在通过构建知识图谱来增强大语言模型(LLM)在处理复杂查询时的性能。该项目已在GitHub上开源,并迅速获得了广泛的关注和积极的评价。GraphRAG的设计理念是将非结构化的文本数据转换为结构化的图谱形式,使得模型能够更深入地挖掘数据间的... 阅读全文

    优惠 AGENTPOISON:针对大语言模型代理的红队攻击手段

  • AGENTPOISON:针对大语言模型代理的红队攻击手段
    AI
  • 芝加哥大学、伊利诺伊大学香槟分校、威斯康星大学麦迪逊分校和加州大学伯克利分校的研究人员推出AGENTPOISON,它是一种针对大语言模型(LLM)代理的红队攻击手段。这些代理通常在各种应用中表现出色,比如自动驾驶、医疗咨询和知识问答等。这些代理依赖于记忆模块或检索增强生成(RAG)机制,通过检索知识库中的过去知识和类似... 阅读全文

    优惠 新型混合模型GoldFinch:结合了线性注意力(Linear Attention)和Transformer序列模型,以提高处理长序列数据时的性能和效率

  • 新型混合模型GoldFinch:结合了线性注意力(Linear Attention)和Transformer序列模型,以提高处理长序列数据时的性能和效率
    AI
  • 新型混合模型GoldFinch,它结合了线性注意力(Linear Attention)和变压器(Transformer)序列模型,以提高处理长序列数据时的性能和效率。GoldFinch通过一种新技术,能够在与序列长度成线性关系的时间和空间内,高效生成一个高度压缩且可重用的键值缓存(KV-Cache)。 GitHub:h... 阅读全文

    优惠 音乐生成新方法musicgenstyle:通过音频输入来控制音乐的风格

  • 音乐生成新方法musicgenstyle:通过音频输入来控制音乐的风格
    AI
  • Meta、索邦大学、耶路撒冷希伯来大学 和Kyutai的研究人员发布论文,论文的主题是关于音乐生成的新方法,特别是如何通过音频输入来控制音乐的风格。例如,你有一个贝多芬的钢琴奏鸣曲的片段,你想让AI生成一首新的钢琴曲,听起来和贝多芬的风格相似。这篇论文介绍的方法可以帮助你实现这个目标。你只需要给AI提供这个贝多芬的片段... 阅读全文

    优惠 多模态大语言模型Goldfish:专门用来理解和处理非常长的视频内容

  • 多模态大语言模型Goldfish:专门用来理解和处理非常长的视频内容
    AI
  • 阿卜杜拉国王科技大学和瑞士人工智能实验室推出Goldfish,它专门用来理解和处理非常长的视频内容。你有一个好几个小时的视频,比如一部电影或电视剧,你想知道里面某个特定场景的细节,但是从头到尾看完实在太费时间了。Goldfish就是来帮你解决这个问题的。比如,你正在看《老友记》的一个片段,你想知道罗斯从菲比那里拿走了什... 阅读全文

    优惠 如何让大语言模型学会在适当的时候说“不”

  • 如何让大语言模型学会在适当的时候说“不”
    AI
  • 艾伦人工智能研究所、华盛顿大学微软研究院和Samaya AI的研究人员发布论文,论文的主题是关于如何让语言模型(也就是我们常说的聊天机器人或者智能助手)学会在适当的时候说“不”。这里的“不”并不是指简单地拒绝用户的请求,而是在一些特定的情境下,模型应该能够识别并避免执行那些不合适或者不安全的请求。 GitHub:htt... 阅读全文

    优惠 VD3D:让大型视频扩散变换器更好地控制3D摄像机的运动,从而在文本到视频生成的过程中实现更精细的控制

  • VD3D:让大型视频扩散变换器更好地控制3D摄像机的运动,从而在文本到视频生成的过程中实现更精细的控制
    AI
  • 多伦多大学、 Vector Institute 、Snap和SFU的研究人员推出新方法VD3D(Video Diffusion 3D),它可以让大型视频扩散变换器(Video Diffusion Transformers)更好地控制3D摄像机的运动,从而在文本到视频生成的过程中实现更精细的控制。例如,你有一个神奇的相机... 阅读全文

    优惠 LLMs新训练方法Patch-Level Training:用于提高大语言模型的训练效率

  • LLMs新训练方法Patch-Level Training:用于提高大语言模型的训练效率
    AI
  • 微信 AI 模式识别中心的研究人员推出一种新的训练方法,名为“Patch-Level Training”,用于提高大语言模型(LLMs)的训练效率。这种方法通过将多个词元(tokens)压缩成一个“补丁”(patch),从而减少序列长度,降低计算成本。例如,我们有一个句子 "The quick brown fox ju... 阅读全文