大语言模型

优惠 在线(online)和离线(offline)对齐算法在人工智能(AI)领域中的表现差异

  • 在线(online)和离线(offline)对齐算法在人工智能(AI)领域中的表现差异
    AI
  • 谷歌发布论文探讨在线(online)和离线(offline)对齐算法在人工智能(AI)领域中的表现差异。对齐算法是帮助AI系统更好地符合人类意图和偏好的一类算法。想象一下,你正在教一个AI助手如何更好地理解你的需求,比如通过反馈告诉它哪些回答是有帮助的,哪些不是。在线算法就是在你提供反馈时实时学习并调整的,而离线算法则... 阅读全文

    优惠 Beyond Scaling Laws:探讨Transformer模型在语言处理任务中的表现,特别是它们在记忆训练样本时的性能动态

  • Beyond Scaling Laws:探讨Transformer模型在语言处理任务中的表现,特别是它们在记忆训练样本时的性能动态
    AI
  • 华为发布论文探讨Transformer模型在语言处理任务中的表现,特别是它们在记忆训练样本时的性能动态。论文提出了一个理论框架,用于解释基于Transformer的语言模型的记忆力过程和性能表现。研究的核心问题是,为什么增加Transformer模型的大小并不总是导致性能提升,以及这些模型是如何通过记忆训练样本来提高泛... 阅读全文

    优惠 华为诺亚方舟实验室推出轻量级视频理解网络SqueezeTime:专为移动设备上的视频理解任务设计

  • 华为诺亚方舟实验室推出轻量级视频理解网络SqueezeTime:专为移动设备上的视频理解任务设计
    AI
  • 华为诺亚方舟实验室推出一种新型的轻量级视频理解网络SqueezeTime,专为移动设备上的视频理解任务设计。在移动设备上进行视频分析面临着计算能力和内存的严格限制,而传统的视频理解方法,如3D卷积网络,通常需要大量的计算和内存资源,不适合在移动设备上运行。总的来说,SqueezeTime为移动设备上的视频理解提供了一种... 阅读全文

    优惠 小多科技推出新型多模态视觉语言模型Xmodel-VLM

  • 小多科技推出新型多模态视觉语言模型Xmodel-VLM
    AI
  • 小多科技推出新型多模态视觉语言模型Xmodel-VLM,这个模型的主要目标是为了在消费级GPU服务器上高效部署,解决大规模多模态系统由于高昂的服务成本而难以广泛采用的关键行业问题。例如,我们有一个智能助手,它可以看图片,理解文字,然后用自然语言和我们交流。这个助手就像是电影里的“贾维斯”(J.A.R.V.I.S.),但... 阅读全文

    优惠 ALPINE:调查Transformer模型是否能够通过自回归学习来执行规划任务,并识别其在规划能力方面的潜在限制

  • ALPINE:调查Transformer模型是否能够通过自回归学习来执行规划任务,并识别其在规划能力方面的潜在限制
    AI
  • 微软亚洲研究院发布论文,探讨在基于Transformer的语言模型(LLMs)中,通过自回归学习机制发展出的规划能力。项目ALPINE(Autoregressive Learning for Planning In NEtworks)旨在理论上调查Transformer模型是否能够通过自回归学习来执行规划任务,并识别其... 阅读全文

    优惠 新型工具集BEHAVIOR Vision Suite (BVS):能够通过模拟生成完全定制化的合成数据,用于系统性地评估计算机视觉模型

  • 新型工具集BEHAVIOR Vision Suite (BVS):能够通过模拟生成完全定制化的合成数据,用于系统性地评估计算机视觉模型
    AI
  • 斯坦福大学、 南加州大学、哈佛大学、Meta、德克萨斯大学奥斯汀分校、 伊利诺伊大学厄巴纳-香槟分校的研究人员推出新型工具集BEHAVIOR Vision Suite (BVS),它能够通过模拟生成完全定制化的合成数据,用于系统性地评估计算机视觉模型。想象一下,如果你是一位计算机视觉研究员,你需要大量的、具有特定标签的... 阅读全文

    优惠 Many-Shot ICL:多模态基础模型在多示例情境学习中的性能

  • Many-Shot ICL:多模态基础模型在多示例情境学习中的性能
    AI
  • 斯坦福大学的研究团队发布论文探索多模态基础模型在多示例情境学习(Many-Shot In-Context Learning,简称Many-Shot ICL)中的性能。多模态基础模型是指能够处理和理解多种类型数据(如文本、图像等)的大型AI模型。而多示例情境学习是指在模型的输入上下文中提供多个示例,以便模型能够在没有额外... 阅读全文

    优惠 用于训练大语言模型的工作流程RLHF:让这些模型更好地符合人类的价值观和偏好

  • 用于训练大语言模型的工作流程RLHF:让这些模型更好地符合人类的价值观和偏好
    AI
  • 来自Salesforce AI Research和伊利诺伊大学厄巴纳-香槟分校的研究人员推出一种名为在线迭代强化学习从人类反馈(Online Iterative Reinforcement Learning from Human Feedback,简称RLHF)的工作流程。这是一种用于训练大语言模型(Large Lan... 阅读全文

    优惠 微调方法LoRA在大语言模型(LLMs)中的应用

  • 微调方法LoRA在大语言模型(LLMs)中的应用
    AI
  • 这篇论文的主题是探讨一种名为LoRA(Low-Rank Adaptation,低秩适应)的微调方法在大语言模型(LLMs)中的应用。LoRA是一种参数高效的微调技术,它通过只训练选定权重矩阵的低秩扰动来节省内存。 主要功能: LoRA的主要功能是在保持大型语言模型原有功能的同时,对其进行微调以适应特定的任务或领域(如编... 阅读全文

    优惠 llama3.np: Llama 3 模型的纯 NumPy 实现

  • llama3.np: Llama 3 模型的纯 NumPy 实现
    AI
  • Meta公司最近发布的Llama 3模型在业界引起了广泛关注。这款模型以其庞大的规模和卓越的性能赢得了业界的赞赏。具体来说,它采用了24K GPU进行训练,使用了15T的训练数据,并处理了10M的指令数据,整个过程耗费了惊人的130万GPU小时。 值得注意的是,尽管性能强大,但Llama 3的模型结构并未发生根本性变化... 阅读全文

    优惠 screenshot-to-code:利用AI将屏幕截图、设计原型及Figma设计稿转化为干净、实用的代码

  • screenshot-to-code:利用AI将屏幕截图、设计原型及Figma设计稿转化为干净、实用的代码
    AI
  • screenshot-to-code是一款简易工具,利用AI将屏幕截图、设计原型及Figma设计稿转化为干净、实用的代码。现已支持GPT-4O模型! 支持的技术栈包括: HTML + Tailwind React + Tailwind Vue + Tailwind Bootstrap Ionic + Tailwind ... 阅读全文

    优惠 谷歌推出新型时间序列预测模型TimesFM

  • 谷歌推出新型时间序列预测模型TimesFM
    AI
  • 谷歌推出一种新型的时间序列预测模型TimesFM。时间序列预测是一种预测未来数据点的技术,它在很多领域都非常有用,比如在零售业预测未来的销售额,在金融业预测股票价格,在气象学中预测天气变化等。 主要功能: TimesFM模型的主要功能是能够对各种公共数据集进行零样本学习(zero-shot learning),即不需要... 阅读全文