优惠新基准测试CRAG：专门为评估和提升检索增强型生成系统在处理大语言模型时性能而设计

AI

推荐人：暴走AI 标签：CRAG 基准测试 AI

11个月前 (06-11)AI

Meta Reality Labs、香港科技大学和香港科技大学（广州）的研究人员推出新基准测试CRAG（Comprehensive RAG Benchmark），它是专门为评估和提升检索增强型生成（Retrieval-Augmented Generation，简称RAG）系统在处理大语言模型（Large Languag... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠评估框架WildBench：用来测试和比较大语言模型在处理现实世界中用户提出的复杂查询方面的能力

AI

推荐人：暴走AI 标签：WildBench AI

11个月前 (06-11)AI

艾伦人工智能研究所和华盛顿大学的研究人员推出评估框架WildBench，它专门用来测试和比较大语言模型在处理现实世界中用户提出的复杂查询方面的能力。论文还讨论了WildBench与传统评估方法相比的优势，例如它如何通过使用真实用户数据来提供更全面的评估，并且如何通过动态更新任务集来适应LLMs不断变化的能力。此外，论文... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 Together AI推出新颖方法MoA：通过结合多个大语言模型的集体智慧来增强单个模型的能力

AI

推荐人：暴走AI 标签：MoA 大语言模型 AI

11个月前 (06-11)AI

Together AI推出一种名为“Mixture-of-Agents”（MoA，即代理混合）的新颖方法，它通过结合多个大语言模型（LLMs）的集体智慧来增强单个模型的能力。例如，如果有多个专家在团队中，每个专家都有自己擅长的领域，通过合作，他们可以共同解决更复杂的问题。MoA的原理与此类似，它通过让不同的LLMs在多... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 Google DeepMind推出新型基准测试NATURAL PLAN：专门用来评估大语言模型在处理自然语言描述的计划任务方面的能力

AI

推荐人：暴走AI 标签：Google DeepMind NATURAL PLAN AI

11个月前 (06-11)AI

Google DeepMind推出新型基准测试NATURAL PLAN，它专门用来评估大语言模型（LLMs）在处理自然语言描述的计划任务方面的能力。这个基准测试包含三个关键任务：旅行规划、会议规划和日历安排。论文的核心思想是，通过提供像Google Flights、Google Maps和Google Calendar... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠开源框架SkyPilot：简化云环境中机器学习和数据科学批量作业的运行，适用于多云和单云用户

AI

推荐人：暴走AI 标签：SkyPilot AI

11个月前 (06-09)AI

SkyPilot 是一个开源框架，由加州大学伯克利分校的 Sky Computing 实验室研发。它旨在简化云环境中机器学习和数据科学批量作业的运行，适用于多云和单云用户。SkyPilot 的目标是降低云使用门槛、控制运行成本，并且全程无需任何云基础设施专业知识。主要功能和特点自动化资源选择：SkyPilot 能够... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠智能助手新框架AGENTGYM：帮助开发能够处理多样化任务和在不同环境中自我进化的通用型大语言模型（LLM）代理

AI

推荐人：暴走AI 标签：AGENTGYM AI

11个月前 (06-07)AI

复旦自然语言处理实验室 & 复旦视觉与学习实验室推出新框架AGENTGYM，它旨在帮助开发能够处理多样化任务和在不同环境中自我进化的通用型大语言模型（LLM）代理。这种类型的代理是人工智能领域的长期目标，因为它们具有广泛的应用潜力，并能够展示出类似人类的学习和适应能力。项目主页：https://agentgy... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠开放式AI系统的重要性，特别是在实现人工超人类智能方面

AI

推荐人：暴走AI 标签：开放式AI AI

11个月前 (06-07)AI

这篇论文的主题是关于“开放式（Open-Endedness）”人工智能（AI）系统的重要性，特别是在实现人工超人类智能（Artificial Superhuman Intelligence, ASI）方面。开放式AI系统是指那些能够不断自我改进、发现新知识，并创造出对人类观察者来说既新颖又可学习的成果的系统。论文还讨论... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠思维缓冲区Buffer of Thoughts：用于增强大语言模型（LLMs）推理能力的方法

AI

推荐人：暴走AI 标签：Buffer of Thoughts 思维缓冲区 AI

11个月前 (06-07)AI

北京大学、加州大学伯克利分校和斯坦福大学的研究人员推出名为“Buffer of Thoughts”（BoT，即“思维缓冲区”）的新技术，它是一种用于增强大语言模型（LLMs）推理能力的方法。这项技术的核心思想是通过存储一系列高级的“思维模板”（thought-template），来提高模型在处理各种任务时的准确性、效率... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 ThunderKittens框架:极大地简化了在 CUDA（未来还将支持 ROCm 等）中编写快速深度学习核心的过程

AI

推荐人：暴走AI 标签：ThunderKittens AI

11个月前 (06-07)AI

在深度学习的世界里，核心算法的速度和效率至关重要。ThunderKittens 是一个框架，它极大地简化了在 CUDA（未来还将支持 ROCm 等）中编写快速深度学习核心的过程。现在，ThunderKittens 框架的出现，让这一切变得更加容易实现。核心原则简单性：ThunderKittens 的编写方式极为直观... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 DuckDuckGo推出匿名访问的 AI 聊天服务 AI Chat

AI

推荐人：暴走AI 标签：DuckDuckGo AI

11个月前 (06-07)AI

DuckDuckGo 推出了一项匿名 AI 聊天服务 AI Chat，允许用户匿名使用热门 AI 模型，包括 GPT-3.5、Claude 3 以及开源 Llama 3 和 Mixtral。用户不需要任何注册，可通过网站、DuckDuckGo 搜索引擎或在搜索框加入“!ai”或“!chat”快捷方式访问 AI Chat... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 MiniCPM-V：端侧可用的 GPT-4V 级多模态大模型

AI

推荐人：暴走AI 标签：MiniCPM-V AI

11个月前 (06-07)AI

MiniCPM-V是面向图文理解的端侧多模态大模型系列。该系列模型接受图像和文本输入，并提供高质量的文本输出。自2024年2月以来，我们共发布了4个版本模型，旨在实现领先的性能和高效的部署，目前该系列最值得关注的模型包括： MiniCPM-Llama3-V 2.5： MiniCPM-V系列的最新、性能最佳模型。总参数量... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠阿里巴巴开源Qwen2系列模型，包含5个尺寸的预训练和指令微调模型

AI

推荐人：暴走AI 标签：Qwen2 阿里巴巴 AI

11个月前 (06-06)AI

阿里在4月份发布最后一个Qwen1.5模型后，在昨晚正式开源了Qwen2系列模型。这一次，阿里为大家带来了： 5个尺寸的预训练和指令微调模型, 包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B；在中文英语的基础上，训练数据中增加了27种语言相关的高质... 阅读全文

直达链接好 0 不好 0 已关闭评论