优惠智谱 AI开源GLM-4-9B系列模型：包含基座模型、不同上下文长度的Chat模型和视觉模型

AI

推荐人：暴走AI 标签：GLM-4-9B 智谱 AI AI

11个月前 (06-05)AI

智谱 AI推出的最新一代预训练模型 GLM-4 系列中的开源版本GLM-4-9B 。在语义、数学、推理、代码和知识等多方面的数据集测评中， GLM-4-9B 及其人类偏好对齐的版本 GLM-4-9B-Chat 均表现出超越 Llama-3-8B 的卓越性能。除了能进行多轮对话，GLM-4-9B-Chat 还具备网页浏... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 μLO：提高学习优化器的泛化能力，特别是在进行大规模神经网络训练时

AI

推荐人：暴走AI 标签：μLO 学习优化器 AI

11个月前 (06-04)AI

蒙特利尔大学、蒙特利尔康考迪亚大学、三星-SAIT AI 实验室的研究人员发布论文，论文的主题是关于提高学习优化器（Learned Optimizers, LOs）的泛化能力，特别是在进行大规模神经网络训练时。学习优化器是一种特殊的神经网络，它能够学习如何更有效地训练其他神经网络。这项技术的目标是减少训练大型神经网络所... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 Artificial Generational Intelligence：探讨在强化学习中如何实现人工文化积累

AI

推荐人：暴走AI 标签：强化学习文化积累 AI

11个月前 (06-04)AI

牛津大学和Google DeepMind的研究人员发布论文，主题是探讨在强化学习（Reinforcement Learning, RL）中如何实现人工文化积累（Artificial Cultural Accumulation）。文化积累是指知识和技能随着时间的推移而不断增长的过程，这一过程在人类历史中推动了能力的开放性... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 DITTO：让大语言模型（LLMs）更好地适应特定用户或任务的需求

AI

推荐人：暴走AI 标签：DITTO AI

11个月前 (06-04)AI

斯坦福大学的研究团队发布论文，主题是关于如何让大语言模型（LLMs）更好地适应特定用户或任务的需求。大型语言模型通常被训练成通用工具，但实际应用时，用户往往需要它们完成非常具体和个性化的任务。例如，写一封电子邮件，不同的人可能会有不同的写作风格和内容需求。然而，这些模型生成的输出往往显得过于笼统和缺乏个性，因为它们被设... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新型语言理解基准测试MMLU-Pro：能够更准确地衡量AI模型的语言理解能力，还能推动AI技术在语言处理方面的发展

AI

推荐人：暴走AI 标签：MMLU-Pro AI

11个月前 (06-04)AI

滑铁卢大学、多伦多大学和卡内基梅隆大学的研究人员推出新型语言理解基准测试MMLU-Pro，它不仅能够更准确地衡量AI模型的语言理解能力，还能推动AI技术在语言处理方面的发展。例如，我们有一群非常聪明的机器人，它们擅长理解和处理人类的语言。但是，我们需要一种方法来测试这些机器人有多聪明，这就是基准测试的作用。主题介绍：... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 HippoRAG：模拟海马体检索的RAG框架

AI

推荐人：暴走AI 标签：HippoRAG AI

11个月前 (06-03)AI

俄亥俄州立大学和斯坦福大学的研究人员推出一种新型的大语言模型（Large Language Models，简称LLMs）的长期记忆框架，名为HippoRAG。这个框架的设计灵感来源于人类大脑中海马体的索引理论，它帮助我们存储大量的世界知识，并能持续整合新的信息，而不会忘记旧的知识。就像我们人类一样，这种模型可以让计算机... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠昆仑万维开源2千亿稀疏大模型天工MoE

AI

推荐人：暴走AI 标签：天工昆仑万维 AI

11个月前 (06-03)AI

昆仑万维今日宣布开源 2 千亿稀疏大模型 Skywork-MoE，基于之前昆仑万维开源的 Skywork-13B 模型中间 checkpoint 扩展而来，号称是首个完整将 MoE Upcycling 技术应用并落地的开源千亿 MoE 大模型，也是首个支持用单台 RTX 4090 服务器（8 张 RTX 4090 显卡... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠北京师范大学推出新型4位二阶优化器4-bit Shampoo：为了在深度神经网络（DNN）训练中实现内存高效而设计的

AI

推荐人：暴走AI 标签：4-bit Shampoo 北京师范大学 AI

11个月前 (06-03)AI

北京师范大学推出一种新型的4位二阶优化器，即"4-bit Shampoo"，它是为了在深度神经网络（DNN）训练中实现内存高效而设计的。在机器学习和人工智能领域，优化器是用于调整模型参数以最小化损失函数的算法。二阶优化器因其利用矩阵操作来加速收敛过程而闻名，但它们通常需要更多的内存和计算资源。虽然4-bit Shamp... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠如何利用小型语言模型来筛选大规模文本数据集的高质量子集，以提高大语言模型的性能

AI

推荐人：暴走AI 标签：小型语言模型 AI

11个月前 (06-03)AI

Databricks、MIT和DatologyAI的研究人员发布论文，主题是探讨如何利用小型语言模型来筛选大规模文本数据集的高质量子集，以提高大语言模型（LLMs）的性能。具体来说，研究者们研究了基于小型模型的困惑度（perplexity）进行数据筛选的方法，以及这种方法如何受到数据领域组成的影响。例如，我们有一个大... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠全新评估基准Video-MME：用来测试多模态大语言模型在视频分析方面的表现

AI

推荐人：暴走AI 标签：Video-MME 多模态大语言模型 AI

11个月前 (06-03)AI

Video-MME Team推出全新评估基准Video-MME，它专门用来测试多模态大语言模型（MLLMs）在视频分析方面的表现。多模态意味着模型能够同时处理和理解视频、音频、文本等多种类型的数据。项目主页：https://video-mme.github.io/home_page.html GitHub：https... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新型的深度学习模型架构Transformers are SSMs——Transformers和状态空间模型（State-Space Models，简称SSMs）之间的关系

AI

推荐人：暴走AI 标签：Transformers are SSMs AI

11个月前 (06-03)AI

普林斯顿大学计算机科学系和卡内基梅隆大学机器学习系的研究人员推出一种新型的深度学习模型架构——Transformers和状态空间模型（State-Space Models，简称SSMs）之间的关系，并提出了一种新的架构和高效的算法。论文的标题是“Transformers are SSMs: Generalized Mo... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 AI创作音效新工具！ElevenLabs推出“Sound Effects”

AI

推荐人：暴走AI 标签：ElevenLabs Sound Effects AI

11个月前 (06-02)AI

人工智能领域的创新不断突破，ElevenLabs 最新推出了名为“Sound Effects”的工具，它能够根据文本描述生成最长22秒的音效，为播客、电影或游戏创作提供强大支持。这一新工具的加入，使得 ElevenLabs 的产品线更加丰富，包括原有的语音和音乐平台。ElevenLabs 与知名素材平台 Shutter... 阅读全文

直达链接好 0 不好 0 已关闭评论