人工智能

优惠 探讨如何高效地预训练大语言模型:在消耗较少的token数量时就能达到与常规训练方法相似的性能

  • 探讨如何高效地预训练大语言模型:在消耗较少的token数量时就能达到与常规训练方法相似的性能
    AI
  • 香港大学、 香港科技大学、中国科技大学、清华大学、 爱丁堡大学和MIT-IBM Watson AI 实验室的研究人员发布论文,论文的主题是探讨如何高效地预训练大语言模型(LLMs)。大语言模型(LLMs)因其规模庞大,在预训练阶段需要消耗大量的计算资源,这不仅成本高昂,而且对环境也有一定影响。为了解决这个问题,研究者们... 阅读全文

    优惠 学习率调整方法“Schedule-Free”:模型能够自动地根据当前的训练情况来调整学习率,无需你手动设置计划

  • 学习率调整方法“Schedule-Free”:模型能够自动地根据当前的训练情况来调整学习率,无需你手动设置计划
    AI
  • Meta研究人员推出一种新的学习率调整方法“Schedule-Free”(无计划的)学习。在机器学习中,尤其是深度学习,学习率是一个非常重要的超参数,它决定了模型参数更新的幅度。正确的学习率调整策略对于模型能否快速收敛到一个好的解至关重要。例如,你要训练一个能够识别图片中物体的深度学习模型。在训练过程中,你需要不断调整... 阅读全文

    优惠 加州大学圣地亚哥分校和Adob​​e 研究中心推出NDE:用于高效且准确地模拟镜面物体(如闪亮的金属或光泽油漆)的新视角合成

  • 加州大学圣地亚哥分校和Adob​​e 研究中心推出NDE:用于高效且准确地模拟镜面物体(如闪亮的金属或光泽油漆)的新视角合成
    AI
  • 加州大学圣地亚哥分校和Adob​​e 研究中心推出名为Neural Directional Encoding(NDE)的技术,它用于高效且准确地模拟镜面物体(如闪亮的金属或光泽油漆)的新视角合成。这类物体的光泽外观以及全局光照效果(包括环境中其他物体的反射)是忠实再现场景的关键组成部分。 主要功能: NDE的主要功能是... 阅读全文

    优惠 谷歌推出NeRF-Casting:用于改善神经辐射场在渲染高度反光物体时的外观效果

  • 谷歌推出NeRF-Casting:用于改善神经辐射场在渲染高度反光物体时的外观效果
    AI
  • 谷歌推出NeRF-Casting,它用于改善神经辐射场(Neural Radiance Fields,简称NeRFs)在渲染高度反光物体时的外观效果。NeRFs是一种用于3D场景表示和新视角合成的深度学习模型,但它们在处理反射强烈或镜面反射物体时常常遇到困难。 主要功能: NeRF-Casting的主要功能是提高NeR... 阅读全文

    优惠 Tele-Aloha:低成本、高真实感的双向远程存在(telepresence)系统

  • Tele-Aloha:低成本、高真实感的双向远程存在(telepresence)系统
    AI
  • 清华大学和京东方的研究人员推出Tele-Aloha,这是一款低成本、高真实感的双向远程存在(telepresence)系统。远程存在系统是一种通信技术,它能够让身处不同地点的人们感受到彼此仿佛在同一空间中。想象一下,你可以通过这种系统,与远在世界另一端的朋友或同事进行交流,就像他们真的坐在你旁边一样。 主要功能: Te... 阅读全文

    优惠 视觉-语言连接器Dense Connector:提升多模态大语言模型(MLLMs)中视觉编码器的潜力

  • 视觉-语言连接器Dense Connector:提升多模态大语言模型(MLLMs)中视觉编码器的潜力
    AI
  • 清华大学、悉尼大学、百度、亚马逊网络服务和香港中文大学的研究人员推出视觉-语言连接器Dense Connector,提升多模态大语言模型(MLLMs)中视觉编码器的潜力。MLLMs是一类能够同时处理文本和视觉信息的人工智能模型,它们在理解和生成文本、以及视觉识别方面表现出色。然而,目前的研究和开发主要集中在语言能力的提... 阅读全文

    优惠 深度求索推出DeepSeek-Prover,提升大语言模型在数学定理证明方面的能力

  • 深度求索推出DeepSeek-Prover,提升大语言模型在数学定理证明方面的能力
    AI
  • 深度求索推出DeepSeek-Prover,提升大语言模型(LLMs)在数学定理证明方面的能力。具体来说,研究者们开发了一个名为DeepSeek-Prover的系统,它能够通过大规模合成数据来增强定理证明的能力。通过这种方式,DeepSeek-Prover不仅能够提升数学证明的自动化水平,还能够通过提供大量的合成数据来... 阅读全文

    优惠 探讨语言模型是否仅使用一维特征来处理和理解语言,还是它们也利用了多维特征

  • 探讨语言模型是否仅使用一维特征来处理和理解语言,还是它们也利用了多维特征
    AI
  • 麻省理工的研究人员发布论文,论文的主题是探讨语言模型是否仅使用一维特征来处理和理解语言,还是它们也利用了多维特征。我们可以通过一个简单的比喻来理解这个问题:想象一下,你有一张城市的地图,这张地图上的所有信息都是通过点(代表城市的不同部分)在一条直线上的排列来表示的。这个排列就像是语言模型中的一维特征,每个点代表一个概念... 阅读全文

    优惠 新型神经网络训练方法——热力学自然梯度下降(TNGD)

  • 新型神经网络训练方法——热力学自然梯度下降(TNGD)
    AI
  • Normal Computing推出一种新型的神经网络训练方法——热力学自然梯度下降(Thermodynamic Natural Gradient Descent,简称TNGD)。这种方法试图解决大规模神经网络训练中的一个主要问题:计算效率。通常,第二梯度方法(考虑了损失函数曲面的曲率信息)在理论上具有更好的收敛性,但... 阅读全文

    优惠 分布式推测推理DSI:加速大语言模型的推理过程

  • 分布式推测推理DSI:加速大语言模型的推理过程
    AI
  • 魏茨曼科学研究所、英特尔实验室和麻省理工学院的研究人员发布论文,论文的主题是关于如何加速大语言模型(LLMs)的推理过程。在AI领域,尤其是在需要实时应用的场景中,比如股票交易算法或自动驾驶车辆中,快速准确地进行语言模型推理是一个重要挑战。这篇论文介绍了一种新颖的分布式推理算法——分布式推测推理(Distributed... 阅读全文

    优惠 新型多模态大语言模型AlignGPT:提升模型对视觉和语言信息之间对齐能力的理解

  • 新型多模态大语言模型AlignGPT:提升模型对视觉和语言信息之间对齐能力的理解
    AI
  • 南京大学研究人员推出新型多模态大语言模型AlignGPT,它特别关注于提升模型对视觉和语言信息之间对齐能力的理解。简单来说,AlignGPT就像是一个超级学霸,它不仅能看懂图片,还能理解文字,并且能把这两者关联起来,给出非常聪明的回答。例如,你给AlignGPT一张蛋糕的图片,并问它“蛋糕上有多少颗草莓?”,Align... 阅读全文

    优惠 VS Code插件Code Runner Copilot:帮助你在 VS Code 中运行代码!

  • VS Code插件Code Runner Copilot:帮助你在 VS Code 中运行代码!
    AI
  • 本周,微软为开发者带来了一个好消息:GitHub Copilot Extension。这是一项新的扩展,旨在增强在Visual Studio Code(VS Code)中的编程体验。 Code Runner Copilot 插件 配合这一消息,开发者们也推出了一款新的VS Code插件——Code Runner Cop... 阅读全文