优惠新型视觉文档理解方法VisFocus：无需OCR技术，能够直接从图像中理解文档内容

AI

推荐人：暴走AI 标签：VisFocus AI

9个月前 (07-22)AI

以色列赖希曼大学和亚马逊AWS AI 实验室的研究人员推出新型视觉文档理解方法VisFocus，它是一种无需光学字符识别（OCR）的技术，能够直接从图像中理解文档内容。这种方法特别适用于处理包含大量文本的密集文档，比如PDF文件或图像。例如，你有一张包含许多文本的PDF文档的图像，并想知道文档中提到的某个特定信息（比... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 StabilityAI发布全新开源模型Stable Audio Open的技术报告

AI

推荐人：暴走AI 标签：StabilityAI Stable Audio Open AI

9个月前 (07-22)AI

StabilityAI在上个月公开新型文本到音频的生成模型Stable Audio Open后，终于在本月公开了技术报告，Stable Audio Open的特别之处在于，它是开放的，意味着任何人都可以使用和研究它，而且它是用Creative Commons（创意共享）许可的音频数据训练的，这保证了数据的合法性和透明性... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠快手推出新型高效视觉-语言模型EVLM

AI

推荐人：暴走AI 标签：EVLM 快手 AI

9个月前 (07-22)AI

快手推出一种新型高效视觉-语言模型EVLM，它是为了更好地理解视觉信息并将其与语言模型结合起来而设计的。EVLM在多模态基准测试中的竞争力表现，以及在图像字幕和视频字幕任务中的优秀性能。这表明EVLM不仅在理论上设计得很先进，而且在实际应用中也能提供很好的效果。例如，你给EVLM一张图片，图片上有一个家庭在海滩上，父... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠阿里巴巴旗下通义实验室语音团队推出声音理解和生成基础模型FunAudioLLM模型家族

AI

推荐人：暴走AI 标签：FunAudioLLM AI

9个月前 (07-19)AI

阿里巴巴旗下通义实验室语音团队推出声音理解和生成基础模型FunAudioLLM模型家族，专为优化人类与大语言模型(LLMs)间的自然语音交互而设计。该体系的核心亮点是两大创新模型：SenseVoice，擅长处理多语种语音识别、情绪识别及音频事件探测；以及CosyVoice，能灵活生成自然语音，实现对多种语言、音色、讲述... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠微软推出基于知识图谱的检索增强生成（RAG）开源项目GraphRAG

AI

推荐人：暴走AI 标签：GraphRAG 微软 AI

9个月前 (07-19)AI

GraphRAG是由微软推出的一个基于知识图谱的检索增强生成（RAG）技术项目，旨在通过构建知识图谱来增强大语言模型（LLM）在处理复杂查询时的性能。该项目已在GitHub上开源，并迅速获得了广泛的关注和积极的评价。GraphRAG的设计理念是将非结构化的文本数据转换为结构化的图谱形式，使得模型能够更深入地挖掘数据间的... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 AGENTPOISON：针对大语言模型代理的红队攻击手段

AI

推荐人：暴走AI 标签：AGENTPOISON AI

9个月前 (07-18)AI

芝加哥大学、伊利诺伊大学香槟分校、威斯康星大学麦迪逊分校和加州大学伯克利分校的研究人员推出AGENTPOISON，它是一种针对大语言模型（LLM）代理的红队攻击手段。这些代理通常在各种应用中表现出色，比如自动驾驶、医疗咨询和知识问答等。这些代理依赖于记忆模块或检索增强生成（RAG）机制，通过检索知识库中的过去知识和类似... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新型混合模型GoldFinch：结合了线性注意力（Linear Attention）和Transformer序列模型，以提高处理长序列数据时的性能和效率

AI

推荐人：暴走AI 标签：GoldFinch AI

9个月前 (07-18)AI

新型混合模型GoldFinch，它结合了线性注意力（Linear Attention）和变压器（Transformer）序列模型，以提高处理长序列数据时的性能和效率。GoldFinch通过一种新技术，能够在与序列长度成线性关系的时间和空间内，高效生成一个高度压缩且可重用的键值缓存（KV-Cache）。 GitHub：h... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠音乐生成新方法musicgenstyle：通过音频输入来控制音乐的风格

AI

推荐人：暴走AI 标签：musicgenstyle AI

9个月前 (07-18)AI

Meta、索邦大学、耶路撒冷希伯来大学和Kyutai的研究人员发布论文，论文的主题是关于音乐生成的新方法，特别是如何通过音频输入来控制音乐的风格。例如，你有一个贝多芬的钢琴奏鸣曲的片段，你想让AI生成一首新的钢琴曲，听起来和贝多芬的风格相似。这篇论文介绍的方法可以帮助你实现这个目标。你只需要给AI提供这个贝多芬的片段... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠多模态大语言模型Goldfish：专门用来理解和处理非常长的视频内容

AI

推荐人：暴走AI 标签：Goldfish 多模态大语言模型 AI

9个月前 (07-18)AI

阿卜杜拉国王科技大学和瑞士人工智能实验室推出Goldfish，它专门用来理解和处理非常长的视频内容。你有一个好几个小时的视频，比如一部电影或电视剧，你想知道里面某个特定场景的细节，但是从头到尾看完实在太费时间了。Goldfish就是来帮你解决这个问题的。比如，你正在看《老友记》的一个片段，你想知道罗斯从菲比那里拿走了什... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠如何让大语言模型学会在适当的时候说“不”

AI

推荐人：暴走AI 标签：大语言模型 AI

9个月前 (07-18)AI

艾伦人工智能研究所、华盛顿大学微软研究院和Samaya AI的研究人员发布论文，论文的主题是关于如何让语言模型（也就是我们常说的聊天机器人或者智能助手）学会在适当的时候说“不”。这里的“不”并不是指简单地拒绝用户的请求，而是在一些特定的情境下，模型应该能够识别并避免执行那些不合适或者不安全的请求。 GitHub：htt... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 VD3D：让大型视频扩散变换器更好地控制3D摄像机的运动，从而在文本到视频生成的过程中实现更精细的控制

AI

推荐人：暴走AI 标签：VD3D AI

9个月前 (07-18)AI

多伦多大学、 Vector Institute 、Snap和SFU的研究人员推出新方法VD3D（Video Diffusion 3D），它可以让大型视频扩散变换器（Video Diffusion Transformers）更好地控制3D摄像机的运动，从而在文本到视频生成的过程中实现更精细的控制。例如，你有一个神奇的相机... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 LLMs新训练方法Patch-Level Training：用于提高大语言模型的训练效率

AI

推荐人：暴走AI 标签：Patch-Level Training 大语言模型 AI

9个月前 (07-18)AI

微信 AI 模式识别中心的研究人员推出一种新的训练方法，名为“Patch-Level Training”，用于提高大语言模型（LLMs）的训练效率。这种方法通过将多个词元（tokens）压缩成一个“补丁”（patch），从而减少序列长度，降低计算成本。例如，我们有一个句子 "The quick brown fox ju... 阅读全文

直达链接好 0 不好 0 已关闭评论