大语言模型

优惠 大语言模型在小学数学问题上的表现

  • 大语言模型在小学数学问题上的表现
    AI
  • Scale AI发布论文,论文的主题是关于大语言模型(Large Language Models,简称LLMs)在小学数学问题上的表现。研究人员们对这些模型进行了仔细的考察,特别是它们在解决数学问题时是否真正具备推理能力,还是仅仅因为训练数据中包含了与测试题目过于相似的问题,导致模型只是简单地“记住”了答案。 例如,我... 阅读全文

    优惠 提高大语言模型(LLMs)在生成文本时的效率和速度

  • 提高大语言模型(LLMs)在生成文本时的效率和速度
    AI
  • 亚马逊发布关于如何提高大语言模型(LLMs)在生成文本时的效率和速度的论文。大语言模型是一种人工智能技术,它能够理解和生成人类语言,被广泛应用于各种场景,比如自动翻译、写作辅助、聊天机器人等。但是,这些模型在运行时往往需要大量的计算资源,导致处理速度慢和延迟高,这在实际应用中是个问题。 例如,你是一个客服中心的经理,需... 阅读全文

    优惠 开源多语言大语言模型Tele-FLM:在语言理解和生成方面展现了卓越的能力,支持广泛的应用场景

  • 开源多语言大语言模型Tele-FLM:在语言理解和生成方面展现了卓越的能力,支持广泛的应用场景
    AI
  • 北京人工智能研究院、中国电信股份有限公司人工智能研究院(TeleAI)和新加坡南洋理工大学计算机科学与工程学院的研究人员推出开源多语言大语言模型Tele-FLM(也称为FLM-2),Tele-FLM在语言理解和生成方面展现了卓越的能力,支持广泛的应用场景。 如果你正在开发一个多语言的聊天机器人,需要它能够理解和回应不同... 阅读全文

    优惠 改善大语言模型在处理长文本输入时的信息利用问题,解决所谓的“中间丢失”(lost-in-the-middle)挑战

  • 改善大语言模型在处理长文本输入时的信息利用问题,解决所谓的“中间丢失”(lost-in-the-middle)挑战
    AI
  • 来自西安交通大学、微软和北京大学的研究人员发布关于如何改善大语言模型(LLMs)在处理长文本输入时的信息利用问题的论文,特别是解决所谓的“中间丢失”(lost-in-the-middle)挑战。这个问题指的是模型在处理长文本时,往往不能充分利用文本中间部分的信息。 例如: 假设我们有一个包含数千句子的长文档,我们需要模... 阅读全文

    优惠 新技术SnapKV:解决大语言模型在处理长文本输入时遇到的性能和内存效率问题

  • 新技术SnapKV:解决大语言模型在处理长文本输入时遇到的性能和内存效率问题
    AI
  • 伊利诺伊大学厄巴纳-香槟分校、Cohere 和普林斯顿大学的研究人员推出新技术SnapKV,,它是为了解决大语言模型(LLMs)在处理长文本输入时遇到的性能和内存效率问题。大型语言模型在生成文本时,会使用一种名为“键值(KV)缓存”的技术来提高性能,但随着输入长度的增加,KV缓存的大小也会增长,这会导致内存和时间效率问... 阅读全文

    优惠 压缩能力和智能之间的关系:一个语言模型能够以更少的比特无损地压缩文本,这是否意味着它具有更高的智能?

  • 压缩能力和智能之间的关系:一个语言模型能够以更少的比特无损地压缩文本,这是否意味着它具有更高的智能?
    AI
  • 香港科技大学和腾讯的研究人员发布论文探讨了压缩能力和智能之间的关系。作者提出了一个问题:如果一个语言模型能够以更少的比特无损地压缩文本,这是否意味着它具有更高的智能?为了回答这个问题,论文对大语言模型(LLMs)进行了实证研究,将这些模型视为数据压缩器,并评估了它们在不同基准测试中的表现。 主要功能和特点: 智能与压缩... 阅读全文

    优惠 大型预训练语言模型(如Llama2、GPT-4、Claude 3等)在没有经过额外训练或梯度更新的情况下,仅通过上下文示例进行线性和非线性回归任务的能力

  • 大型预训练语言模型(如Llama2、GPT-4、Claude 3等)在没有经过额外训练或梯度更新的情况下,仅通过上下文示例进行线性和非线性回归任务的能力
    AI
  • 来自亚利桑那大学和克卢日·纳波卡技术大学的研究人员发布论文探讨了大型预训练语言模型(如Llama2、GPT-4、Claude 3等)在没有经过额外训练或梯度更新的情况下,仅通过上下文示例进行线性和非线性回归任务的能力。简单来说,就是研究这些智能模型是否能通过观察一些例子,就能学会预测或估计某些数值。 例如,假设我们有一... 阅读全文

    优惠 LLoCO:旨在解决大语言模型处理长文本时遇到的挑战

  • LLoCO:旨在解决大语言模型处理长文本时遇到的挑战
    AI
  • 加州大学伯克利分校的研究人员推出新技术LLoCO(Learning Long Contexts Offline),旨在解决大语言模型(LLMs)处理长文本时遇到的挑战。由于自注意力机制的计算和内存开销随序列长度增加而呈二次方增长,以及生成过程中庞大的键值(KV)缓存大小,处理长文本对LLMs来说一直是个难题。 主要功能... 阅读全文

    优惠 了如何将原本设计用于大语言模型的解码器结构,适配到计算机视觉领域

  • 了如何将原本设计用于大语言模型的解码器结构,适配到计算机视觉领域
    AI
  • 来自香港大学、上海人工智能实验室和清华大学深圳国际研究生院的研究人员发布论文探讨了如何将原本设计用于大型语言模型(LLMs)的解码器(Decoder)结构,如LLaMA,适配到计算机视觉领域。想象一下,你有一个能够理解文字的智能系统,现在研究者们想要让这个系统不仅能读懂文字,还能“看懂”图片。这就是他们尝试将LLaMA... 阅读全文

    优惠 MuPT:专门用于生成符号音乐的大语言模型

  • MuPT:专门用于生成符号音乐的大语言模型
  • 这篇论文介绍了一个名为MuPT(Music Pretrained Transformer)的模型,它是一个专门用于生成符号音乐的大型语言模型。符号音乐是指用特定的符号系统(如ABC记谱法)来表示的音乐,这种表示方法更接近于人类阅读和理解音乐的方式。 项目主页:https://map-mupt.github.io 模型地... 阅读全文

    优惠 SambaLingo:针对大语言模型进行多语言适应性调整的研究项目

  • SambaLingo:针对大语言模型进行多语言适应性调整的研究项目
    AI
  • 这篇论文的主题是“SambaLingo”,这是一个针对大型语言模型(LLMs)进行多语言适应性调整的研究项目。简单来说,SambaLingo的目标是让大型语言模型能够理解和生成更多不同语言的文本,弥补目前LLMs在多种语言能力上的差距。例如,如果我们要为一个以英语为中心的模型添加对阿拉伯语的支持,SambaLingo的... 阅读全文

    优惠 大语言模型在处理表格数据时的记忆力和学习能力

  • 大语言模型在处理表格数据时的记忆力和学习能力
    AI
  • 图宾根大学图宾根人工智能中心和微软搜索团队发布论文探讨大语言模型(Large Language Models,简称LLMs)在处理表格数据时的记忆力和学习能力。用通俗的语言来说,就像是研究一个学习了很多知识的智能助手,当它遇到新的或之前学过的问题时,它是如何回忆和应用这些知识的。 主要功能和特点: 记忆力测试: 研究者... 阅读全文