大语言模型

优惠 SoM-LLaVA:提高多模态大语言模型视觉理解能力的新方法,它通过在图像上添加带标签的标记(tags)来增强模型将视觉对象与文本标记关联的能力

  • SoM-LLaVA:提高多模态大语言模型视觉理解能力的新方法,它通过在图像上添加带标签的标记(tags)来增强模型将视觉对象与文本标记关联的能力
    AI
  • 加州大学圣地亚哥分校、微软公司、加州大学圣巴巴拉分校的研究人员推出list items one by one,这是一种提高多模态大语言模型视觉理解能力的新方法,它通过在图像上添加带标签的标记(tags)来增强模型将视觉对象与文本标记关联的能力。例如,我们有一张包含笔记本电脑、椅子、显示器和台灯的办公室照片。使用SoM提... 阅读全文

    优惠 阿里巴巴发布了首个千亿参数的大模型 Qwen1.5-110B

  • 阿里巴巴发布了首个千亿参数的大模型 Qwen1.5-110B
    AI
  • 阿里巴巴发布了首个千亿参数的大模型 Qwen1.5-110B。此前它发布了 0.5B、1.8B、4B、7B、14B 和 72B 不同规模参数的版本。阿里巴巴称,Qwen1.5-110B 模型在基础能力评估中与 Meta-Llama3-70B 相媲美,在 Chat 评估中表现出色,包括 MT-Bench 和 Alpaca... 阅读全文

    优惠 MH-MoE:稀疏混合专家(SMoE)模型的改进版本

  • MH-MoE:稀疏混合专家(SMoE)模型的改进版本
    AI
  • 新型模型“Multi-Head Mixture-of-Experts”(MH-MoE),它是一种稀疏混合专家(Sparse Mixtures of Experts,简称SMoE)模型的改进版本。SMoE模型通过在每个构建模块中包含多个并行前馈神经网络(即专家),并通过路由器有策略地激活特定输入令牌的特定专家,从而在保持... 阅读全文

    优惠 多模态语言模型Pegasus-1,它专门设计用于理解和交互视频内容,并通过自然语言进行交流

  • 多模态语言模型Pegasus-1,它专门设计用于理解和交互视频内容,并通过自然语言进行交流
    AI
  • 多模态语言模型Pegasus-1,它专门设计用于理解和交互视频内容,并通过自然语言进行交流。Pegasus-1旨在解决视频数据的独特挑战,例如解释时空信息,以提供对不同长度视频内容的深入理解。Pegasus-1的局限性,包括处理长视频的效率、可能出现的“幻觉”现象、安全和偏见问题,以及未来将增加的聊天功能等。 例如,我... 阅读全文

    优惠 Transformer语言模型能够表示n-gram语言模型

  • Transformer语言模型能够表示n-gram语言模型
    AI
  • 苏黎世联邦理工学院的研究人员发布论探讨和证明Transformer语言模型能够表示n-gram语言模型。n-gram语言模型是一种基于统计的语言模型,它根据前面的n-1个词来预测下一个词的概率。Transformer语言模型是一种基于深度学习的先进语言模型,广泛应用于自然语言处理任务中。例如,我们有一个4-gram语言... 阅读全文

    优惠 苹果推出新型大型开放语言模型OpenELM:提高自然语言处理领域的研究透明度和可复现性

  • 苹果推出新型大型开放语言模型OpenELM:提高自然语言处理领域的研究透明度和可复现性
    AI
  • 苹果推出新型大型开放语言模型OpenELM,它旨在提高自然语言处理领域的研究透明度和可复现性,确保研究结果的可靠性,并允许对数据和模型偏见以及潜在风险进行调查。例如,你想要开发一个能够自动生成新闻文章摘要的系统。使用OpenELM,你可以对模型进行微调,使它能够理解新闻文章的关键信息,并生成简洁准确的摘要。由于Open... 阅读全文

    优惠 新技术SnapKV:解决大语言模型在处理长文本输入时遇到的性能和内存效率问题

  • 新技术SnapKV:解决大语言模型在处理长文本输入时遇到的性能和内存效率问题
    AI
  • 伊利诺伊大学厄巴纳-香槟分校、Cohere 和普林斯顿大学的研究人员推出新技术SnapKV,,它是为了解决大语言模型(LLMs)在处理长文本输入时遇到的性能和内存效率问题。大型语言模型在生成文本时,会使用一种名为“键值(KV)缓存”的技术来提高性能,但随着输入长度的增加,KV缓存的大小也会增长,这会导致内存和时间效率问... 阅读全文

    优惠 微软推出新型语言模型phi-3-mini:3.8亿参数,可在手机上运行

  • 微软推出新型语言模型phi-3-mini:3.8亿参数,可在手机上运行
    AI
  • 微软推出新型语言模型phi-3-mini,这是一个具有3.8亿参数的模型,它在性能上可以与一些大型模型相媲美,如Mixtral 8x7B和GPT-3.5,但大小却足以部署在手机上。这项技术的创新之处在于其训练数据集,这是phi-2数据集的一个扩展版本,包含了大量过滤过的网络数据和合成数据。例如。你有一个智能手机,上面安... 阅读全文

    优惠 MAIA:利用神经模型来自动化理解其他神经模型任务的系统,比如特征解释和故障模式发现

  • MAIA:利用神经模型来自动化理解其他神经模型任务的系统,比如特征解释和故障模式发现
    AI
  • 麻省理工学院计算机科学与人工智能实验室推出MAIA(Multimodal Automated Interpretability Agent,多模态自动可解释性代理)系统,MAIA是一个利用神经模型来自动化理解其他神经模型任务的系统,比如特征解释和故障模式发现。简而言之,MAIA就是一个能够“解释”神经网络的智能代理。 ... 阅读全文

    优惠 摩根大通人工智能研究推出FlowMind,利用大语言模型自动生成金融服务业工作流程

  • 摩根大通人工智能研究推出FlowMind,利用大语言模型自动生成金融服务业工作流程
    AI
  • 摩根大通人工智能研究推出FlowMind,它能够利用大语言模型自动生成工作流程。在许多行业中,尤其是金融服务业,自动化重复性任务已经取得了显著进展,但在处理需要即时或不可预测任务的场景中,传统的自动化方法可能就不够有效。FlowMind通过使用像GPT这样的大语言模型,来创建一个能够自动生成工作流程的系统,以应对这些挑... 阅读全文

    优惠 LLaMA3-Quantization:采用低比特权量化压缩LLAMA3模型大小,减少内存和计算需求,使模型能够在资源受限的设备上运行

  • LLaMA3-Quantization:采用低比特权量化压缩LLAMA3模型大小,减少内存和计算需求,使模型能够在资源受限的设备上运行
    AI
  • 由香港大学、北京航空航天大学和苏黎世联邦理工学院的研究人员推出LLaMA3-Quantization,其采用低比特权量化(low-bit quantization)压缩LLAMA3模型大小,减少内存和计算需求,使模型能够在资源受限的设备上运行。LLAMA3是Meta公司发布的一种大语言模型,它在大量数据上进行了预训练,... 阅读全文

    优惠 OpenAI发布论文:探讨如何提高大语言模型安全性

  • OpenAI发布论文:探讨如何提高大语言模型安全性
    AI
  • OpenAI发布关于如何提高大语言模型安全性的论文,特别是针对提示注入(prompt injections)、越狱(jailbreaks)和其他攻击手段,这些攻击可能允许攻击者覆盖模型的原始指令,执行恶意操作。研究者们提出了一个“指令层级”(instruction hierarchy)的概念,旨在训练LLMs区分不同优... 阅读全文