人工智能

优惠 视觉基础模型是否具有对三维结构的认识能力

  • 视觉基础模型是否具有对三维结构的认识能力
    AI
  • 密歇根大学和谷歌研究的研究人员发布论文探讨探讨了视觉基础模型(visual foundation models)是否具有对三维结构的认识能力。这些模型通过大规模的预训练,已经展现出了强大的图像分类、分割和生成等能力。但是,尽管它们能够处理二维图像中的对象,我们仍然不清楚这些模型是否能够理解和表示这些对象在三维空间中的结... 阅读全文

    优惠 单目深度估计任务:自然语言指导在低层次视觉任务中的鲁棒性

  • 单目深度估计任务:自然语言指导在低层次视觉任务中的鲁棒性
    AI
  • 亚利桑那州立大学和马里兰大学巴尔的摩县分校的研究团队发布论文论文探讨了自然语言指导在低层次视觉任务中的鲁棒性,特别是单目深度估计任务。单目深度估计是指使用单个图像来预测场景中每个像素的深度信息。最近的研究表明,通过将自然语言作为额外的指导信息,可以提高深度估计的准确性。然而,这种方法在泛化和鲁棒性方面的影响尚未得到充分... 阅读全文

    优惠 强化学习算法DR-PO:数据集重置策略优化,主要用于从人类偏好反馈中微调生成模型

  • 强化学习算法DR-PO:数据集重置策略优化,主要用于从人类偏好反馈中微调生成模型
    AI
  • 来自康奈尔大学、普林斯顿大学和微软的研究人员推出新的强化学习算法数据集重置策略优化(Dataset Reset Policy Optimization,简称DR-PO),主要用于从人类偏好反馈中微调生成模型,例如GPT-4和Claude3 Opus等。这种算法特别适用于当人类标注者提供基于偏好的反馈(例如,对一个强化学... 阅读全文

    优惠 完全免费、私密且本地运行的搜索聚合器和答案生成器FreeAskInternet

  • 完全免费、私密且本地运行的搜索聚合器和答案生成器FreeAskInternet
    AI
  • FreeAskInternet 是一款完全免费、私密且本地运行的搜索聚合器和答案生成器,它利用大型语言模型(LLM)工作,无需 GPU 支持。用户可以通过 FreeAskInternet 界面提出问题,系统会调用本地运行的 searxng 进行多引擎搜索,并将搜索结果整合至 ChatGPT3.5 或其他大型语言模型中,... 阅读全文

    优惠 命令行工具Aider:允许您与 GPT-3.5/GPT-4 进行结对编程,以编辑本地 git 仓库中存储的代码

  • 命令行工具Aider:允许您与 GPT-3.5/GPT-4 进行结对编程,以编辑本地 git 仓库中存储的代码
    AI
  • Aider 是一款命令行工具,它允许您与 GPT-3.5/GPT-4 进行结对编程,以编辑本地 git 仓库中存储的代码。Aider 会直接修改您本地源文件中的代码,并自动使用合理的提交信息将其提交到 git。您可以借助它开启一个新项目,也可以与现有的 git 仓库协同工作。Aider 的独特之处在于,它能够根据您的请... 阅读全文

    优惠 360 智脑 7B 参数大模型开源,支持 50 万字长文本输入

  • 360 智脑 7B 参数大模型开源,支持 50 万字长文本输入
    AI
  • 360 公司日前在 GitHub 上开源了 360 智脑 7B(70 亿参数模型)。360 智脑大模型采用 3.4 万亿 Tokens 的语料库训练,以中文、英文、代码为主,开放 4K、32K、360K 三种不同文本长度。360 表示,360K(约 50 万字)是当前国产开源模型文本长度最长的。 GitHub:http... 阅读全文

    优惠 大型预训练语言模型(如Llama2、GPT-4、Claude 3等)在没有经过额外训练或梯度更新的情况下,仅通过上下文示例进行线性和非线性回归任务的能力

  • 大型预训练语言模型(如Llama2、GPT-4、Claude 3等)在没有经过额外训练或梯度更新的情况下,仅通过上下文示例进行线性和非线性回归任务的能力
    AI
  • 来自亚利桑那大学和克卢日·纳波卡技术大学的研究人员发布论文探讨了大型预训练语言模型(如Llama2、GPT-4、Claude 3等)在没有经过额外训练或梯度更新的情况下,仅通过上下文示例进行线性和非线性回归任务的能力。简单来说,就是研究这些智能模型是否能通过观察一些例子,就能学会预测或估计某些数值。 例如,假设我们有一... 阅读全文

    优惠 大语言模型JetMoE-8B:通过创新的技术实现了低成本和高性能的平衡,为各种语言处理任务提供了广泛的应用可能性

  • 大语言模型JetMoE-8B:通过创新的技术实现了低成本和高性能的平衡,为各种语言处理任务提供了广泛的应用可能性
    AI
  • 来自MIT的研究人员推出新型大语言模型JetMoE-8B,它通过创新的技术实现了低成本和高性能的平衡,为各种语言处理任务提供了广泛的应用可能性。例如,你有一个超级聪明的机器人朋友,它可以和你聊天、帮你写代码、解答数学问题,甚至还能理解和生成不同语言的文本,这就是JetMoE-8B的超能力。 项目主页:https://r... 阅读全文

    优惠 英伟达推出数据据Audio Dialogues:提升音频和音乐理解方面的对话能力

  • 英伟达推出数据据Audio Dialogues:提升音频和音乐理解方面的对话能力
    AI
  • 英伟达推出数据据Audio Dialogues,旨在提升音频和音乐理解方面的对话能力。现有的音频理解数据集主要集中在单轮交互上,例如音频描述或音频问答,这些数据集限制了通过交互式对话理解音频的能力。Audio Dialogues是一个多轮对话数据集,包含了16.38万个样本,涵盖一般声音和音乐。除了对话样本,该数据集还... 阅读全文

    优惠 谷歌推出新型开放语言模型RecurrentGemma

  • 谷歌推出新型开放语言模型RecurrentGemma
    AI
  • 谷歌推出新型开放语言模型RecurrentGemma,它使用了谷歌的Griffin架构。Griffin架构通过结合线性递归和局部注意力机制,在处理语言任务时表现出色。RecurrentGemma模型的一个显著特点是它具有固定大小的状态,这减少了内存使用,使得在长序列上进行高效推理成为可能。研究者们提供了一个预训练模型,... 阅读全文

    优惠 语言模型RHO-1:挑战了传统的语言模型训练方法,设计理念是“并非所有的词汇对于语言模型训练都同等重要”

  • 语言模型RHO-1:挑战了传统的语言模型训练方法,设计理念是“并非所有的词汇对于语言模型训练都同等重要”
    AI
  • 来自厦门大学、清华大学和微软的研究人员推出语言模型RHO-1,它的设计理念是“并非所有的词汇对于语言模型训练都同等重要”。RHO-1挑战了传统的语言模型训练方法,后者通常会对所有训练词汇应用相同的预测下一个词汇的损失函数。通过对语言模型训练过程中的词汇级别动态进行初步分析,研究者们发现不同的词汇在训练中表现出不同的损失... 阅读全文

    优惠 多模态大语言模型Ferret-v2:专门设计用于提升图像理解和自然语言处理的能力

  • 多模态大语言模型Ferret-v2:专门设计用于提升图像理解和自然语言处理的能力
    AI
  • 苹果推出一个升级版的多模态大语言模型Ferret-v2,专门设计用于提升图像理解和自然语言处理的能力。例如,你有一个智能助手,它不仅能理解你说的话,还能看懂图片里的内容,并根据图片和你的问题给出精确的回答。Ferret-v2就是这样一个系统,它能够识别和描述图片中的物体,理解图片中的细节,并根据这些信息回答有关图片的问... 阅读全文