大语言模型

优惠 迭代推理偏好优化Iterative RPO:提高大语言模型(LLMs)在推理任务中的表现

  • 迭代推理偏好优化Iterative RPO:提高大语言模型(LLMs)在推理任务中的表现
    AI
  • Meta和纽约大学的研究人员发布论文,这篇论文的主题是关于如何提高大语言模型(LLMs)在推理任务中的表现。研究者们开发了一种迭代推理偏好优化(Iterative Reasoning Preference Optimization,简称Iterative RPO)的方法,这种方法特别关注基于“思维链”(Chain-of... 阅读全文

    优惠 更加高效和快速!多令牌预测(Multi-token Prediction):用于训练像GPT和Llama这样的大型语言模型

  • 更加高效和快速!多令牌预测(Multi-token Prediction):用于训练像GPT和Llama这样的大型语言模型
    AI
  • 这篇论文的主题是关于如何改进大语言模型(LLMs)的训练方法,使其更加高效和快速。研究者们提出了一种新的方法,叫做“多令牌预测”(Multi-token Prediction),用于训练像GPT和Llama这样的大型语言模型。这些模型通常通过预测文本序列中的下一个令牌(token)来进行训练,但这种方法在获取语言、世界... 阅读全文

    优惠 新型神经网络架构KANs:作为多层感知器( MLPs)的有前景的替代品

  • 新型神经网络架构KANs:作为多层感知器( MLPs)的有前景的替代品
    AI
  • 来自麻省理工学院、加州理工学院、东北大学和美国国家科学基金会人工智能和基本交互研究所的研究人员推出一种新型的神经网络架构 Kolmogorov-Arnold Networks(简称 KANs)。这种网络架构是受 Kolmogorov-Arnold 表示定理启发而提出的,旨在作为多层感知器(Multi-Layer Per... 阅读全文

    优惠 Meta推出AdvPrompter:快速适应性地为大语言模型(LLMs)生成对抗性提示(adversarial prompts)

  • Meta推出AdvPrompter:快速适应性地为大语言模型(LLMs)生成对抗性提示(adversarial prompts)
  • Meta推出AdvPrompter,它能够快速适应性地为大语言模型(LLMs)生成对抗性提示(adversarial prompts)。这些对抗性提示是用来测试和提高语言模型的安全性,确保它们不会生成不适当或有害的内容。例如,我们有一个语言模型,我们希望确保它不会帮助用户进行欺诈活动。通过AdvPrompter,我们可... 阅读全文

    优惠 Llama-Recipes: 强化你的Meta Llama模型之旅

  • Llama-Recipes: 强化你的Meta Llama模型之旅
    AI
  • 在探索先进语言模型的奇妙世界时,有没有想过亲手调校出专属于自己的智能助手?让《Llama-Recipes》成为你的得力伙伴吧!这不仅是一个资源库,更是通往Meta Llama 3模型定制化与应用创新的大门。🌟 🛠️ 一库在手,调校无忧 Llama-Recipes目的就是让你轻松驾驭Meta Llama模型的调优之旅。想... 阅读全文

    优惠 提高大语言模型(LLMs)在生成文本时的效率和速度

  • 提高大语言模型(LLMs)在生成文本时的效率和速度
    AI
  • 亚马逊发布关于如何提高大语言模型(LLMs)在生成文本时的效率和速度的论文。大语言模型是一种人工智能技术,它能够理解和生成人类语言,被广泛应用于各种场景,比如自动翻译、写作辅助、聊天机器人等。但是,这些模型在运行时往往需要大量的计算资源,导致处理速度慢和延迟高,这在实际应用中是个问题。 例如,你是一个客服中心的经理,需... 阅读全文

    优惠 XC-CACHE:旨在提高大语言模型(LLMs)的推理效率,同时减少所需的缓存空间

  • XC-CACHE:旨在提高大语言模型(LLMs)的推理效率,同时减少所需的缓存空间
    AI
  • 这篇论文的主题是关于一种新的语言模型推理方法,名为XC-CACHE(Cross-Attending to Cached Context),它旨在提高大型语言模型(LLMs)的推理效率,同时减少所需的缓存空间。这种方法特别适用于需要根据给定的上下文信息来生成回答的场景。 通俗介绍: 想象一下,你有一个非常聪明的AI助手,... 阅读全文

    优惠 腾讯发布基准测试工具SEED-Bench-2-Plus:专门用于评估多模态大语言模型在处理富含文本的视觉内容方面的性能

  • 腾讯发布基准测试工具SEED-Bench-2-Plus:专门用于评估多模态大语言模型在处理富含文本的视觉内容方面的性能
    AI
  • 腾讯发布基准测试工具SEED-Bench-2-Plus,它专门用于评估多模态大语言模型(MLLMs)在处理富含文本的视觉内容方面的性能。这类场景在现实世界中非常普遍,例如图表、地图和网页等,它们都包含了大量的文本信息嵌入在图像中。 主要功能和特点: 针对性的评估:SEED-Bench-2-Plus包含2.3K个多项选择... 阅读全文

    优惠 开源多模态大语言模型InternVL 1.5,旨在缩小开源模型与商业专有模型在多模态理解能力方面的差距

  • 开源多模态大语言模型InternVL 1.5,旨在缩小开源模型与商业专有模型在多模态理解能力方面的差距
    AI
  • 来自上海人工智能实验室、商汤科技研究院、清华大学、南京大学、复旦大学和香港中文大学的研究人员推出开源多模态大语言模型InternVL 1.5,旨在缩小开源模型与商业专有模型在多模态理解能力方面的差距。多模态大语言模型结合了视觉和语言处理的能力,可以处理包含文本和图像的任务,比如解释图片内容、理解文档中的文本等。 Git... 阅读全文

    优惠 开源多语言大语言模型Tele-FLM:在语言理解和生成方面展现了卓越的能力,支持广泛的应用场景

  • 开源多语言大语言模型Tele-FLM:在语言理解和生成方面展现了卓越的能力,支持广泛的应用场景
    AI
  • 北京人工智能研究院、中国电信股份有限公司人工智能研究院(TeleAI)和新加坡南洋理工大学计算机科学与工程学院的研究人员推出开源多语言大语言模型Tele-FLM(也称为FLM-2),Tele-FLM在语言理解和生成方面展现了卓越的能力,支持广泛的应用场景。 如果你正在开发一个多语言的聊天机器人,需要它能够理解和回应不同... 阅读全文

    优惠 Meta推出LayerSkip:加速大语言模型的推理过程

  • Meta推出LayerSkip:加速大语言模型的推理过程
    AI
  • Meta推出LayerSkip,它旨在加速大语言模型(LLMs)的推理过程。大语言模型是人工智能领域的一项先进技术,它们能够理解和生成人类语言,广泛应用于自动翻译、文本摘要、问答系统等多种场景。然而,这些模型通常需要大量的计算资源,导致在实际部署时面临高成本和能耗的挑战。 主要功能和特点: 训练时的层dropout和早... 阅读全文

    优惠 改善大语言模型在处理长文本输入时的信息利用问题,解决所谓的“中间丢失”(lost-in-the-middle)挑战

  • 改善大语言模型在处理长文本输入时的信息利用问题,解决所谓的“中间丢失”(lost-in-the-middle)挑战
    AI
  • 来自西安交通大学、微软和北京大学的研究人员发布关于如何改善大语言模型(LLMs)在处理长文本输入时的信息利用问题的论文,特别是解决所谓的“中间丢失”(lost-in-the-middle)挑战。这个问题指的是模型在处理长文本时,往往不能充分利用文本中间部分的信息。 例如: 假设我们有一个包含数千句子的长文档,我们需要模... 阅读全文