大语言模型

优惠 MLKV:针对Transformer模型解码过程中内存使用效率的一种改进

  • MLKV:针对Transformer模型解码过程中内存使用效率的一种改进
    AI
  • 万隆理工学院 (ITB)和MBZUAI推出一种名为MLKV(Multi-Layer Key-Value Heads)的新技术,它是针对Transformer模型解码过程中内存使用效率的一种改进。Transformer模型在自然语言处理(NLP)领域非常流行,但它们在进行自回归推理时,会因为需要存储和加载大量的键值(Ke... 阅读全文

    优惠 苹果推出新型视觉模型4M-21:能够在多种不同的输入和输出模态之间进行转换和预测

  • 苹果推出新型视觉模型4M-21:能够在多种不同的输入和输出模态之间进行转换和预测
    AI
  • 瑞士洛桑联邦理工学院 (EPFL)和苹果推出新型视觉模型4M-21,它是一个多模态、多任务的基础模型,能够在多种不同的输入和输出模态之间进行转换和预测。简单来说,4M-21就像一个多才多艺的艺术家,不仅能够理解一幅画(图像数据),还能根据这幅画创作出一首诗(文本描述)、一段音乐(深度信息)、甚至是一个舞蹈动作(3D人体... 阅读全文

    优惠 谷歌推出新颖的评估框架ToT:评估和提升大语言模型在时间推理(Temporal Reasoning)方面的能力

  • 谷歌推出新颖的评估框架ToT:评估和提升大语言模型在时间推理(Temporal Reasoning)方面的能力
    AI
  • 谷歌发布论文,论文的主题是关于评估和提升大语言模型(LLMs)在时间推理(Temporal Reasoning)方面的能力。时间推理对于智能系统来说是一项非常重要的任务,它涉及到理解不同事件之间的时间关系。然而,现有的时间推理基准测试通常只关注基于知识图谱(Knowledge Graph)的时间事实,这限制了研究的范围... 阅读全文

    优惠 微软推出新型混合神经网络架构SAMBA:高效处理无限上下文长度的语言建模而设计

  • 微软推出新型混合神经网络架构SAMBA:高效处理无限上下文长度的语言建模而设计
    AI
  • 微软和伊利诺伊大学香槟分校推出新型混合神经网络架构SAMBA,它专为高效处理无限上下文长度的语言建模而设计。SAMBA结合了状态空间模型(State Space Model,简称SSM)和滑动窗口注意力机制(Sliding Window Attention,简称SWA),旨在解决传统语言模型在处理极长文本时面临的性能和... 阅读全文

    优惠 Google DeepMind推出结合了Transformer和神经算法推理器的混合模型TransNAR

  • Google DeepMind推出结合了Transformer和神经算法推理器的混合模型TransNAR
    AI
  • Google DeepMind推出一种结合了Transformer和神经算法推理器(Neural Algorithmic Reasoners,简称NARs)的混合模型,称为TransNAR。这种模型旨在提升机器学习在处理自然语言理解(NLU)任务时的算法推理能力。通过在CLRS-Text基准测试上的实验表明,Trans... 阅读全文

    优惠 字节跳动旗下扣子平台上线“模型广场”,不同 AI 大模型匿名打 PK

  • 字节跳动旗下扣子平台上线“模型广场”,不同 AI 大模型匿名打 PK
    AI
  • 字节跳动旗下扣子 Coze”平台上线“模型广场”功能,提供了一个大模型匿名打 PK 的“擂台”。用户可以在扣子官网(coze.cn)左侧导航栏中的“探索”列表找到“模型广场”,进入功能。其对战模式分为“随机 Bot 对战”“指定 Bot 对战”“纯模型对战”三种。 随机 Bot 对战:系统随机选择一个 Bot 进行模型... 阅读全文

    优惠 谷歌推出新型AI模型PH-LLM:专门针对个人健康领域,能够理解和推理关于健康的数据和信息

  • 谷歌推出新型AI模型PH-LLM:专门针对个人健康领域,能够理解和推理关于健康的数据和信息
    AI
  • 谷歌推出新型人工智能模型“Personal Health Large Language Model”(简称PH-LLM),它专门针对个人健康领域,能够理解和推理关于健康的数据和信息。 通熟易懂的语言介绍: 想象一下,如果你有一个虚拟的健康顾问,它可以查看你的睡眠模式、运动习惯和生理反应,然后根据这些信息给你提供个性化的... 阅读全文

    优惠 谷歌推出大语言模型Tx-LLM:专门为药物治疗领域设计

  • 谷歌推出大语言模型Tx-LLM:专门为药物治疗领域设计
    AI
  • 谷歌推出大语言模型Tx-LLM,它是专门为药物治疗领域设计的。例如,科学家想要发现一种新药来治疗糖尿病,他们可以使用Tx-LLM来分析不同的化合物,预测它们与糖尿病相关蛋白的结合强度,从而筛选出最有希望的候选药物。然后,Tx-LLM还可以预测这些候选药物的毒性,帮助科学家避免选择可能对患者有害的化合物。通过这种方式,T... 阅读全文

    优惠 ShiftAddLLM:通过后训练的位移加法重参数化技术来加速预训练的大语言模型

  • ShiftAddLLM:通过后训练的位移加法重参数化技术来加速预训练的大语言模型
    AI
  • 佐治亚理工学院 和Google DeepMind的研究人员推出ShiftAddLLM,它通过后训练的位移加法重参数化技术来加速预训练的大语言模型(LLMs)。这种方法旨在解决大语言模型在部署到资源受限设备时所面临的挑战,如高内存需求和延迟瓶颈。例如,你正在开发一款智能家居助手,需要使用大型语言模型来进行语音识别和自然语... 阅读全文

    优惠 多步推理语言代理HUSKY:一个统一的、开源的语言模型,能够处理涉及数值、表格和基于知识的复杂推理任务

  • 多步推理语言代理HUSKY:一个统一的、开源的语言模型,能够处理涉及数值、表格和基于知识的复杂推理任务
    AI
  • 华盛顿大学、 Meta AI和艾伦人工智能研究所的研究人员推出多步推理语言代理HUSKY,它是一个统一的、开源的语言模型,能够处理涉及数值、表格和基于知识的复杂推理任务。HUSKY通过迭代地生成和执行行动来解决给定的任务,直到达到终端状态。例如,你是一个学生,需要解决一个复杂的数学问题,比如计算两个州在地图上的面积差异... 阅读全文

    优惠 谷歌Gboard键盘新功能Proofread:利用了大语言模型的强大能力,以一种创新的方式改善了用户的打字体验

  • 谷歌Gboard键盘新功能Proofread:利用了大语言模型的强大能力,以一种创新的方式改善了用户的打字体验
    AI
  • 由Google开发并集成在Gboard键盘中的新功能Proofread,Proofread利用了大语言模型的强大能力,以一种创新的方式改善了用户的打字体验。具体来说,Proofread能够通过简单的一次点击,实现句子级和段落级的文本纠错。例如,你在智能手机上快速打字,但由于屏幕小,手指粗,很容易出错。传统的纠错方法可能... 阅读全文

    优惠 阿里巴巴推出通信驱动方法C4:通过优化并行训练中的通信和故障处理,提高了大规模AI训练的效率和稳定性

  • 阿里巴巴推出通信驱动方法C4:通过优化并行训练中的通信和故障处理,提高了大规模AI训练的效率和稳定性
    AI
  • 阿里巴巴推出一个名为C4的通信驱动方法,用于提升大规模并行训练的效率。在大语言模型(LLMs)的训练过程中,为了处理庞大的数据和计算需求,通常需要使用成千上万的GPU进行并行训练。然而,现有的并行训练技术存在一些问题,比如硬件故障导致的训练中断,以及GPU在等待参数同步时造成的等待时间延长。C4就是为了解决这些问题而设... 阅读全文