大语言模型

优惠 用于压缩大语言模型提示词的新方法LLMLingua-2

  • 用于压缩大语言模型提示词的新方法LLMLingua-2
    AI
  • 来自清华和微软的研究团队推出LLMLingua-2,它是一种用于压缩大语言模型(LLMs)提示词(prompts)的新方法,目的是在不丢失关键信息的同时提高效率和泛化能力。在大语言模型的使用中,提示词通常是一段文本,用来引导模型生成特定的输出或完成特定的任务。然而,这些提示可能会非常长,导致计算成本增加和信息感知能力下... 阅读全文

    优惠 AI/ML API:1个API连接100+ AI模型

  • AI/ML API:1个API连接100+ AI模型
    AI
  • AI/ML API为开发者提供通过单一API访问超过100个AI模型的机会,确保全天候创新。以比GPT-4低80%的成本提供同等性能,并具备与OpenAI的无缝兼容性,实现轻松过渡。... 阅读全文

    优惠 马斯克旗下 xAI正式开源了Grok-1模型

  • 马斯克旗下 xAI正式开源了Grok-1模型
    AI
  • 马斯克旗下 xAI正式开源了Grok-1模型,这是一个拥有3140亿参数的混合专家(Mixture-of-Experts)模型,由xAI团队从零开始训练。不过需要注意的是此模型尚未针对任何特定应用(如对话系统)进行微调,依据Apache 2.0许可证进行开源。而他们模型发布方式也比较特别,直接释出了磁力链接让大家下载。... 阅读全文

    优惠 谷歌开源模型Gemini的技术论文

  • 谷歌开源模型Gemini的技术论文
    AI
  • 谷歌发布的Gemma技术论文,这是一系列基于Google的Gemini模型研究和技术构建的轻量级、最先进的开源模型。Gemma模型在语言理解、推理和安全性方面的学术基准测试中表现出色。论文发布了两个规模的模型(20亿和70亿参数),并提供了预训练和微调后的检查点。Gemma在18个文本任务中的11个上超越了同样规模的开... 阅读全文

    优惠 SOTOPIA-π:如何通过交互式学习方法提升语言代理(即人工智能聊天机器人)的社会智能

  • SOTOPIA-π:如何通过交互式学习方法提升语言代理(即人工智能聊天机器人)的社会智能
    AI
  • 来自语言技术学院和卡内基·梅隆大学的研究团队发布论文探讨如何通过交互式学习方法提升语言代理(即人工智能聊天机器人)的社会智能。社会智能是指理解和处理社会互动的能力,这对于创建能够与人类自然交流的虚拟助手至关重要。论文通过实验表明,SOTOPIA-π能够显著提高基于7B参数的大型语言模型的社会目标完成能力,同时减少生成有... 阅读全文

    优惠 开放基础模型(Open Foundation Models)对社会的影响

  • 开放基础模型(Open Foundation Models)对社会的影响
    AI
  • 这篇论文的主题是探讨开放基础模型(Open Foundation Models)对社会的影响。基础模型是一种强大的人工智能技术,它们在现代AI生态系统中扮演着核心角色,推动了技术的快速发展、部署和应用。开放基础模型特指那些模型权重(即模型的内部参数)广泛可获取的模型,例如Llama 2和Stable Diffusion... 阅读全文

    优惠 大语言模型(LLMs)的持续预训练策略

  • 大语言模型(LLMs)的持续预训练策略
    AI
  • 这篇论文探讨了大语言模型(LLMs)的持续预训练策略。大语言模型是人工智能领域的一个重要组成部分,它们通过学习大量文本数据来理解和生成人类语言。例如,当你使用智能助手或搜索引擎时,背后的技术可能就是一个语言模型。 主要功能: 提出了一种简单且可扩展的方法,通过持续预训练来更新大型语言模型,而不是每次都从头开始训练。 展... 阅读全文

    优惠 在训练和评估语言模型时,规模法则(scaling laws)的可靠性和实用性

  • 在训练和评估语言模型时,规模法则(scaling laws)的可靠性和实用性
    AI
  • 这篇论文探讨了在训练和评估语言模型时,规模法则(scaling laws)的可靠性和实用性。语言模型是人工智能中的一个关键组成部分,它们能够理解和生成人类语言。例如,当你使用智能助手进行对话时,背后就是一个语言模型在工作。 主要功能: 研究语言模型在过度训练(over-training)情况下的性能和可预测性。 建立语... 阅读全文

    优惠 苹果推出多模态大语言模型MM1

  • 苹果推出多模态大语言模型MM1
    AI
  • 苹果推出多模态大语言模型MM1,这是一个结合了图像和文本处理能力的AI模型。MM1通过在大规模的图像-文本数据上进行预训练,学会了理解和生成与图像相关的文本,例如图像描述、回答关于图像的问题等。 主要功能和特点: 多模态理解与生成: MM1能够处理和理解图像和文本数据,生成与图像内容相关的文本。 大规模预训练: 通过在... 阅读全文

    优惠 多模态框架VisionGPT-3D:提升三维视觉理解的能力

  • 多模态框架VisionGPT-3D:提升三维视觉理解的能力
    AI
  • 多模态框架VisionGPT-3D,它旨在提升三维视觉理解的能力。VisionGPT-3D通过整合现有的最佳视觉模型,自动化选择适合的算法,从而将二维图像转换为三维表示,这在计算机视觉领域是一个创新的尝试。 主要功能和特点: 多模态整合: VisionGPT-3D结合了文本和视觉信息,能够理解和处理图像中的内容,并根据... 阅读全文

    优惠 Hugging Face推出数据集WebSight和基于视觉-语言模型的系统Sightseer:它们旨在自动化网页截图到HTML代码的转换过程

  • Hugging Face推出数据集WebSight和基于视觉-语言模型的系统Sightseer:它们旨在自动化网页截图到HTML代码的转换过程
    AI
  • Hugging Face推出数据集WebSight和一个基于视觉-语言模型(VLM)的系统Sightseer,它们旨在自动化网页截图到HTML代码的转换过程。这项技术对于网页开发者来说非常有价值,因为它可以极大地提高开发效率,尤其是在无代码(no-code)解决方案中。 主要功能和特点: WebSight数据集: 包含... 阅读全文

    优惠 视觉状态空间模型LocalMamba:为了提高计算机视觉任务的性能而设计

  • 视觉状态空间模型LocalMamba:为了提高计算机视觉任务的性能而设计
    AI
  • 来自悉尼大学工程学院计算机科学学院、商汤科技研究院、中国科学技术大学的研究团队推出视觉状态空间模型(Visual State Space Model)LocalMamba,它是为了提高计算机视觉任务的性能而设计的。LocalMamba的核心思想是通过优化扫描方向来更好地捕捉图像中的局部依赖关系,同时保持全局上下文的理解... 阅读全文