大语言模型

优惠 华为方舟实验室推出新型自我推测解码框架Kangaroo:加速大语言模型的推理过程,同时保持一致的采样分布

  • 华为方舟实验室推出新型自我推测解码框架Kangaroo:加速大语言模型的推理过程,同时保持一致的采样分布
    AI
  • 华为方舟实验室推出新型自我推测解码框架Kangaroo,它旨在加速大语言模型(LLMs)的推理过程,同时保持一致的采样分布。在自然语言处理领域,大型语言模型通常需要逐步生成文本序列,这个过程称为自回归解码,它计算成本高且速度慢。Kangaroo通过自我推测解码来解决这个问题,它使用一个固定的浅层子网络作为自我草稿模型,... 阅读全文

    优惠 视觉-语言数据集DOCCI:旨在提高文本到图像(T2I)和图像到文本(I2T)研究的质量和深度,通过提供详细的人类标注的英文描述来增强模型学习的能力

  • 视觉-语言数据集DOCCI:旨在提高文本到图像(T2I)和图像到文本(I2T)研究的质量和深度,通过提供详细的人类标注的英文描述来增强模型学习的能力
    AI
  • 谷歌、普林斯顿大学和北卡罗来纳大学教堂山分校的研究人员推出新的视觉-语言数据集,名为“DOCCI”(Descriptions of Connected and Contrasting Images)。这个数据集旨在提高文本到图像(T2I)和图像到文本(I2T)研究的质量和深度,通过提供详细的人类标注的英文描述来增强模型... 阅读全文

    优惠 大语言模型在小学数学问题上的表现

  • 大语言模型在小学数学问题上的表现
    AI
  • Scale AI发布论文,论文的主题是关于大语言模型(Large Language Models,简称LLMs)在小学数学问题上的表现。研究人员们对这些模型进行了仔细的考察,特别是它们在解决数学问题时是否真正具备推理能力,还是仅仅因为训练数据中包含了与测试题目过于相似的问题,导致模型只是简单地“记住”了答案。 例如,我... 阅读全文

    优惠 对Llama-3进行模型编辑的实证研究

  • 对Llama-3进行模型编辑的实证研究
    AI
  • 加州大学伯克利分校的研究人员发布关于论文,这篇论文的主题是对大语言模型(LLMs)进行模型编辑的实证研究,特别是针对最新的大型语言模型Llama-3。研究的核心问题是探讨在对模型进行编辑时,是否更大的编辑批量(batch size)总是能带来更好的效果。实验结果表明,对于Llama-3模型,当进行4096次编辑时,使用... 阅读全文

    优惠 百川智能推出新算法Clover:用于提高大语言模型在生成文本时的效率

  • 百川智能推出新算法Clover:用于提高大语言模型在生成文本时的效率
    AI
  • 百川智能与北京大学的研究人员推出新算法Clover,它用于提高大语言模型(LLMs)在生成文本时的效率。大型语言模型通常需要逐步生成文本,每个步骤生成一个输出令牌(token),这种方式在GPU上运行时效率较低,因为GPU在内存传输上花费的时间比实际计算要多。 实验结果显示,Clover在Baichuan-Small(... 阅读全文

    优惠 语言模型对齐方法SPPO:通过自我对弈的方式,不断迭代和优化语言模型,使其更好地符合人类的偏好和期望

  • 语言模型对齐方法SPPO:通过自我对弈的方式,不断迭代和优化语言模型,使其更好地符合人类的偏好和期望
    AI
  • 加州大学洛杉矶分校的研究人员推出一种新的语言模型对齐方法,名为自对弈偏好优化(Self-Play Preference Optimization,简称SPPO)。这种方法旨在通过自我对弈的方式,不断迭代和优化语言模型,使其更好地符合人类的偏好和期望。论文中的实验结果显示,使用SPPO方法微调的模型在多个基准测试中表现出... 阅读全文

    优惠 苹果发布一种新颖的方法,用于将App图片与人们可能用来发现该应用程序的搜索短语进行匹配

  • 苹果发布一种新颖的方法,用于将App图片与人们可能用来发现该应用程序的搜索短语进行匹配
    AI
  • 苹果发布一种新颖的方法,用于将应用程序(App)的图片与人们可能用来发现该应用程序的搜索短语进行匹配。这种技术对于应用开发者来说非常有用,因为它可以帮助他们更好地推广自己的应用程序。例如,你在开发一个旅游应用,想要吸引用户下载。你可能会上传一些美丽的风景图片到应用商店。这项技术可以帮助你理解哪些图片最有可能吸引那些搜索... 阅读全文

    优惠 自动驾驶领域关键技术!三维多目标跟踪3D MOT:能够让汽车实时地识别并追踪周围的物体,比如其他车辆和行人,同时准确估计它们的速度和加速度等状态

  • 自动驾驶领域关键技术!三维多目标跟踪3D MOT:能够让汽车实时地识别并追踪周围的物体,比如其他车辆和行人,同时准确估计它们的速度和加速度等状态
    AI
  • Waymo与Google Research发布自动驾驶领域中的一个关键技术三维多目标跟踪(3D Multi-Object Tracking,简称3D MOT)。这项技术对于自动驾驶汽车的安全行驶至关重要,因为它能够让汽车实时地识别并追踪周围的物体,比如其他车辆和行人,同时准确估计它们的速度和加速度等状态。例如,你坐在一... 阅读全文

    优惠 英伟达聊天机器人ChatRTX 发布 0.3 版本更新:新增照片搜索、AI 语音识别等功能

  • 英伟达聊天机器人ChatRTX 发布 0.3 版本更新:新增照片搜索、AI 语音识别等功能
    AI
  • 英伟达的 ChatRTX 应用在其网站上发布了备受期待的 0.3 版本更新。这款类似 ChatGPT 的应用的更新首次在 英伟达 3月份的 GTC 会议上被预告,带来了一系列新功能,包括照片搜索能力、AI 驱动的语音识别以及与更多大语言模型(LLM)的兼容性。 本次更新亮点包括: 照片搜索新境界:集成OpenAI的CL... 阅读全文

    优惠 Nexa AI推出新型语言模型框架Octopus v4:它使用了一种图结构来整合多个开源的语言模型,每个模型都针对特定的任务进行了优化

  • Nexa AI推出新型语言模型框架Octopus v4:它使用了一种图结构来整合多个开源的语言模型,每个模型都针对特定的任务进行了优化
    AI
  • Nexa AI推出新型语言模型框架Octopus v4,这个框架特别之处在于它使用了一种图结构(graph structure)来整合多个开源的语言模型,每个模型都针对特定的任务进行了优化。Octopus v4模型使用功能令牌(functional tokens)来智能地将用户查询导向最合适的垂直模型(vertical... 阅读全文

    优惠 大模型微调技术QLoRA:可以显著扩展大语言模型的上下文长度,特别是针对Llama-3-8B-Instruct模型

  • 大模型微调技术QLoRA:可以显著扩展大语言模型的上下文长度,特别是针对Llama-3-8B-Instruct模型
    AI
  • 北京人工智能研究院和中国人民大学高瓴人工智能学院推出微调技术QLoRA,可以显著扩展大语言模型的上下文长度,特别是针对Llama-3-8B-Instruct模型,上下文长度是指模型在生成回答时能够考虑的输入信息的最大长度。开发者成功地将Llama-3模型的上下文长度从8,000个令牌(tokens)扩展到80,000个... 阅读全文

    优惠 基于Gemini模型!谷歌推出AI医疗模型Med-Gemini,专门为医学领域设计的多模态(能够处理文本、图像、视频等不同类型数据)大语言模型

  • 基于Gemini模型!谷歌推出AI医疗模型Med-Gemini,专门为医学领域设计的多模态(能够处理文本、图像、视频等不同类型数据)大语言模型
    AI
  • 谷歌推出AI医疗模型Med-Gemini,它们是专门为医学领域设计的多模态(能够处理文本、图像、视频等不同类型数据)大语言模型。Med-Gemini模型基于Gemini模型,通过特殊的训练和定制,能够在医学领域表现出强大的能力,包括理解复杂的医疗文本、处理多模态医疗数据,以及处理长文本的上下文信息。 例如,医生需要分析... 阅读全文