优惠新型的双向长距离DNA序列模型家族Caduceus

AI

推荐人：暴走AI 标签：Caduceus AI

2年前 (2024-03-09)AI

这篇论文介绍了Caduceus，这是一个新型的双向长距离DNA序列模型家族，它能够处理DNA序列中的长距离相互作用，并且考虑了DNA的反向互补性（RC）。Caduceus模型在基因组学中的应用，特别是在预测基因变异对基因表达影响的任务上，表现出了优越的性能。例如，如果我们想要研究一个特定的遗传变异是否会导致某种疾病，C... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠用于视觉-语言模型的新型预训练范式S4

AI

推荐人：暴走AI 标签：S4 AI

2年前 (2024-03-09)AI

这篇论文提出了一种名为S4（Strongly Supervised pre-training with ScreenShots）的新型预训练范式，用于视觉-语言模型（Vision-Language Models，简称VLMs）。S4利用大规模网络截图渲染数据，通过丰富的视觉和文本线索来提升模型的性能，这些线索在使用图像... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠训练大型语言模型新策略GaLore：解决训练过程中的显存挑战

AI

推荐人：暴走AI 标签：GaLore AI

2年前 (2024-03-09)AI

这篇论文介绍了一种名为GaLore（Gradient Low-Rank Projection）的方法，它是一种训练大型语言模型（LLMs）的策略，旨在解决训练过程中的显存挑战。随着LLMs的规模不断增长，它们的权重和优化器状态所需的内存也越来越多，这限制了在有限硬件资源上进行训练的能力。主要功能： GaLore的主要... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 ShortGPT：简化大语言模型，根据不同的需求调整删除的层数，以达到速度和性能之间的最佳平衡

AI

推荐人：暴走AI 标签：ShortGPT AI

2年前 (2024-03-09)AI

百川智能推出ShortGPT，它用于简化大语言模型（LLMs），比如我们熟知的GPT系列。随着LLMs在各种任务上的表现越来越出色，它们的规模也变得越来越大，有的甚至包含了数十亿甚至数万亿个参数。但是，这篇研究发现，LLMs中的许多层其实是非常相似的，有些层在模型功能中的作用几乎可以忽略不计。举个例子，假设我们有一个... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 Co-LLM：教会多个大语言模型（LLM）如何协作

AI

推荐人：暴走AI 标签：Co-LLM AI

2年前 (2024-03-09)AI

这篇论文介绍了一种名为Co-LLM（Collaborative Language Model）的方法，它教会多个大语言模型（LLM）如何协作。假设我们有一个任务是回答医学问题。Co-LLM可以让一个通用的大型语言模型（比如LLAMA-7B）生成问题的回答框架，然后调用一个专门针对医学领域训练的模型（比如MEDITRON... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠专门为法律领域设计的大语言模型SaulLM-7B

AI

推荐人：暴走AI 标签：SaulLM-7B AI

2年前 (2024-03-09)AI

这篇论文介绍了一个名为SaulLM-7B的大语言模型（LLM），它是专门为法律领域设计的。SaulLM-7B拥有70亿个参数，是第一个明确为法律文本理解和生成而设计的LLM。这个模型基于Mistral 7B架构，训练于一个超过300亿个token的英语法律语料库。SaulLM-7B在理解和处理法律文件方面表现出了最先进... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新型视觉模仿学习方法3D Diffusion Policy (DP3)：结合3D视觉表示和扩散策略，使得机器人能够在模拟和现实世界任务中高效地学习复杂技能

AI

推荐人：暴走AI 标签：3D Diffusion Policy 视觉模仿学习方法 AI

2年前 (2024-03-09)AI

来自上海启智研究院、上海交通大学、清华大学、上海人工智能实验室的研究人员推出新型视觉模仿学习方法3D Diffusion Policy (DP3)，这种方法通过结合3D视觉表示和扩散策略，使得机器人能够在模拟和现实世界任务中高效地学习复杂技能。DP3的核心设计是利用从稀疏点云中提取的紧凑3D视觉表示，这些表示通过一个高... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新型3D高斯点云模型X-Gaussian：用于X射线（X光）新视角合成（NVS）

AI

推荐人：暴走AI 标签：X-Gaussian AI

2年前 (2024-03-09)AI

约翰·霍普金斯大学、香港科技大学（广州）、上海交通大学的研究人员推出新型3D高斯点云模型X-Gaussian，它用于X射线（X光）新视角合成（NVS）。X射线在医学成像等领域广泛应用，因为它能比自然光更深入地穿透物体。然而，X射线对人体有害，尤其是当X射线剂量增加时。提高NVS技术可以帮助减少X射线的暴露，为医生和下游... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠视觉-语言模型（VLMs）在RPMs智力测试表现如何

AI

推荐人：暴走AI 标签：视觉-语言模型 AI

2年前 (2024-03-09)AI

来自苹果的研究人员发布论文探讨了视觉-语言模型（VLMs）在视觉推理任务上的表现，特别是针对一种名为雷文进阶矩阵（Raven's Progressive Matrices，简称RPMs）的智力测试。RPMs是一种经典的智力测试工具，它要求参与者通过观察一系列图形，找出完成图案所需的正确图形。这项研究旨在评估VLMs在仅... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠微软新研究模拟试错（STE）法：使7B大模型测试成绩超GPT-4

AI

推荐人：暴走AI 标签：STE 微软 AI

2年前 (2024-03-09)AI

微软和俄亥俄州立大学的研究人员发布论文，提出了一种受到生物启发的可以增强大语言模型使用工具能力的方法，即模拟试错（STE）法，并将其开源。该方法协调了试错、想象和记忆三个关键机制。ToolBench实验结果显示，STE在上下文学习和微调设置下显著提高了大语言模型的工具学习能力，让Mistral-Instruct-7B实... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠零一万物宣布开源Yi-9B模型

AI

推荐人：暴走AI 标签：Yi-9B 零一万物 AI

2年前 (2024-03-09)AI

国内大模型独角兽零一万物宣布开源Yi-9B模型，Yi-9B的实际参数为8.8B，默认上下文长度是4K tokens。零一万物公布的数据显示，在综合能力方面（Mean-All），Yi-9B 的性能超越了DeepSeek-Coder、DeepSeek-Math、Mistral-7B、SOLAR-10.7B和Gemma-7B... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠如何通过强化学习来提升大语言模型的推理能力

AI

推荐人：暴走AI 标签：大语言模型 AI

2年前 (2024-03-09)AI

这篇论文探讨了如何通过强化学习（Reinforcement Learning, RL）来提升大语言模型（Large Language Models, LLMs）的推理能力。研究者们尝试了多种RL算法，包括专家迭代（Expert Iteration, EI）、近端策略优化（Proximal Policy Optimiza... 阅读全文

直达链接好 0 不好 0 已关闭评论