优惠针对大型预训练语言模型（LLMs）的简单层剪枝策略

AI

推荐人：暴走AI 标签：大语言模型 AI

1年前 (2024-03-27)AI

这篇论文探讨了一种针对大型预训练语言模型（LLMs）的简单层剪枝策略。层剪枝是一种模型压缩技术，通过移除神经网络中的一些层来减少模型的大小和计算需求。论文的主要发现是，即使在移除了相当一部分（高达一半）的层之后，模型在不同的问答基准测试上的性能也只有很小的下降。为了修复由于剪枝造成的模型性能损失，研究者们采用了一种称为... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠针对英特尔数据中心GPU Max 1550优化的多层感知器（MLPs）的SYCL实现

AI

推荐人：暴走AI 标签：英特尔数据中心 AI

1年前 (2024-03-27)AI

这篇论文介绍了一种针对英特尔数据中心GPU Max 1550优化的多层感知器（MLPs）的SYCL实现。多层感知器是一种人工神经网络，它由多个全连接层组成，每一层中的每个神经元都与相邻层中的所有神经元相连。这种网络结构在机器学习和人工智能领域扮演着重要角色，尤其是在图像处理、自然语言处理和计算机视觉等领域。 GitHu... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠大语言模型书⽣·浦语 2.0发布技术报告

AI

推荐人：暴走AI 标签：InternLM2 书⽣·浦语 2.0 AI

1年前 (2024-03-27)AI

上海 AI 实验室与商汤科技联合香港中文大学和复旦大学正式发布新一代大语言模型书⽣·浦语 2.0（InternLM2）。InternLM2 是在 2.6 万亿 token 的高质量语料上训练得到的，沿袭第一代书生·浦语（InternLM）的设定，包含 7B 及 20B 两种参数规格及基座、对话等版本，提供免费商用授权。... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 AIOS：专门为大语言模型（LLM）智能代理设计的操作系统

AI

推荐人：暴走AI 标签：AIOS AI

1年前 (2024-03-26)AI

来自罗格斯大学的研究团队推出一个名为AIOS（LLM Agent Operating System）的系统，它是一个专门为大型语言模型（LLM）智能代理设计的操作系统。AIOS的目标是解决LLM代理在集成和部署时遇到的效率和效能问题，例如资源分配不佳、在代理与LLM交互时保持上下文的困难，以及将不同能力和专业领域的异构... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠探讨压缩大语言模型（LLMs）的可信度问题

AI

推荐人：暴走AI 标签：大语言模型 AI

1年前 (2024-03-26)AI

这篇论文的主题是探讨压缩大语言模型（LLMs）的可信度问题。随着技术的进步，大语言模型在处理自然语言方面取得了显著的成就，但它们的规模庞大，对计算资源的需求很高。为了在资源有限的设备上部署这些模型，研究者们采用了压缩技术来减小模型的大小，提高推理效率。然而，这种压缩可能会对模型的安全性和可信度产生影响，这是之前研究中经... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠日本乐天推出专注于日语的大语言模型RakutenAI-7B

AI

推荐人：暴走AI 标签：RakutenAI-7B AI

1年前 (2024-03-26)AI

日本乐天集团推出大型日语语言模型RakutenAI-7B，这个模型是由乐天集团开发的，旨在为日语处理提供高性能的自然语言处理（NLP）解决方案。RakutenAI-7B不仅在日语理解基准测试中取得了优异的成绩，而且在英语测试集上也保持了竞争力。总的来说，RakutenAI-7B是一个强大的工具，可以帮助开发者和研究人员... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 Stability AI发布最新的指令调优大语言模型Stable Code Instruct 3B

AI

推荐人：暴走AI 标签：stability.ai Stable Code Instruct 3B AI

1年前 (2024-03-25)AI

Stable Code Instruct 3B是一款基于Stable Code 3B进行指令调优的代码语言模型。它借助自然语言提示，能够出色地处理各类任务，如代码生成、数学运算等，以及其他与软件开发相关的查询。该模型在3B规模上展现了卓越的性能，表现甚至超越了更大规模的模型，如CodeLlama 7B Instruc... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠简化的基于Mamba的架构SiMBA，用于处理视觉和多变量时间序列数据

AI

推荐人：暴走AI 标签：SiMBA AI

1年前 (2024-03-25)AI

这篇论文介绍了一个名为SiMBA的新型架构，它是一种简化的基于Mamba的架构，用于处理视觉和多变量时间序列数据。SiMBA的核心在于它结合了Mamba块（用于序列建模）和EinFFT（一种新的通道建模技术），以提高处理长序列数据的效率和性能。主要功能和特点：高效处理长序列： SiMBA通过使用状态空间模型（SSM... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠多模态视频理解工具InternVideo2：能够更好地理解和处理视频内容

AI

推荐人：暴走AI 标签：InternVideo2 AI

1年前 (2024-03-25)AI

这篇论文介绍了一个名为InternVideo2的视频基础模型（Video Foundation Model，简称ViFM），这是一个先进的人工智能系统，旨在提高视频理解的能力。InternVideo2通过结合多种学习策略和大量多模态数据，能够更好地理解和处理视频内容。总的来说，InternVideo2是一个强大的多模态... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 LLM2LLM：针对大语言模型（LLMs）的数据增强策略

AI

推荐人：暴走AI 标签：LLM2LLM AI

1年前 (2024-03-25)AI

这篇论文提出了一个名为LLM2LLM的方法，它是一种针对大语言模型（LLMs）的数据增强策略。这种方法的核心思想是使用一个“教师”LLM来增强一个小型的初始数据集，以便在特定任务上进行微调。LLM2LLM的目标是解决在低数据量情况下如何有效微调LLMs的问题。LLM2LLM是一种新颖的数据增强方法，它通过迭代和针对性的... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠数据集和方法FOLLOWIR，旨在评估和提升信息检索（IR）模型在遵循指令方面的能力

AI

推荐人：暴走AI 标签：FOLLOWIR AI

1年前 (2024-03-25)AI

这篇论文介绍了一个名为FOLLOWIR的数据集和方法，旨在评估和提升信息检索（IR）模型在遵循指令方面的能力。在现代的大型语言模型（LLMs）中，虽然它们能够理解和执行复杂的指令，但大多数基于LLMs的IR模型仍然只接受查询作为输入，而没有使用指令。FOLLOWIR的目标是改变这一现状，让IR模型能够更好地理解和遵循详... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠使用大语言模型结合编译器反馈来优化 LLVM 汇编代码的大小

AI

推荐人：暴走AI 标签：LLVM 大语言模型 AI

1年前 (2024-03-25)AI

这篇论文介绍了一个新颖的方法，使用大型语言模型（LLMs）结合编译器反馈来优化 LLVM 汇编代码的大小。LLMs 在软件工程领域已经显示出它们的能力，比如生成代码和文档、翻译编程语言、编写单元测试、检测和修复错误等。但是，这篇论文进一步探索了 LLMs 在编译器优化中的潜力，尤其是在 LLVM 中间表示（IR）层面上... 阅读全文

直达链接好 0 不好 0 已关闭评论