大语言模型

优惠 如何通过合成图像和文本对来提升视觉-语言模型的训练效率和性能

  • 如何通过合成图像和文本对来提升视觉-语言模型的训练效率和性能
    AI
  • 这篇论文的主题是关于如何通过合成图像和文本对来提升视觉-语言模型(Visual-Language Models,简称VLMs)的训练效率和性能。简单来说,就是利用大型语言模型(Large Language Models,简称LLMs)和图像生成模型来创建虚拟的图像和文本配对,然后用这些合成数据来训练VLMs,从而在不依... 阅读全文

    优惠 Meta推出Branch-Train-MiX(BTX):效的训练大语言模型的方法,旨在让模型在多个专业领域(如编程、数学推理和世界知识等)都具备能力

  • Meta推出Branch-Train-MiX(BTX):效的训练大语言模型的方法,旨在让模型在多个专业领域(如编程、数学推理和世界知识等)都具备能力
    AI
  • Meta推出Branch-Train-MiX(BTX),它是一种高效的训练大语言模型(LLMs)的方法,旨在让模型在多个专业领域(如编程、数学推理和世界知识等)都具备能力。BTX方法从一个基础模型开始,然后将其分支出去,以并行的方式训练各个专家模型,这样做的通信成本较低,吞吐量高。训练完成后,BTX将这些专家模型的前馈... 阅读全文

    优惠 谷歌推出软件库FAX:基于JAX(一个用于高性能机器学习计算的Python库)构建的,旨在支持大规模分布式和联邦计算

  • 谷歌推出软件库FAX:基于JAX(一个用于高性能机器学习计算的Python库)构建的,旨在支持大规模分布式和联邦计算
    AI
  • 这篇论文介绍了一个名为FAX的软件库,它是基于JAX(一个用于高性能机器学习计算的Python库)构建的,旨在支持大规模分布式和联邦计算。FAX特别适用于数据中心和跨设备应用程序,能够在不共享数据的情况下,让多个客户端协作完成机器学习任务,这就是所谓的联邦学习(FL)。 主要功能: FAX的主要功能是提供一个易于编程、... 阅读全文

    优惠 韩国科学技术院推出多模态模型MoAI

  • 韩国科学技术院推出多模态模型MoAI
    AI
  • 韩国科学技术院推出新型大型语言和视觉模型MoAI(Mixture of All Intelligence),MoAI是一个强大的多模态模型,它通过结合先进的语言处理和视觉识别技术,提供了一种新的交互方式,使得机器能够更好地理解和响应人类的指令和问题。想象一下,你有一个超级智能的助手,它不仅能理解你说的话,还能看懂图片中... 阅读全文

    优惠 用于时间序列预测的先进工具Chronos框架

  • 用于时间序列预测的先进工具Chronos框架
    AI
  • 来自亚马逊网络服务、 加州大学圣地亚哥分校、弗莱堡大学、亚马逊供应链优化技术的研究团队推出Chronos框架,它是一个用于时间序列预测的先进工具。时间序列预测是一种分析技术,可以帮助我们根据历史数据来预测未来的数据点。想象一下,如果你是一家电力公司的分析师,你需要预测明天、下周甚至下个月的电力需求,以便合理地安排发电和... 阅读全文

    优惠 Cohere推出350亿参数可扩展生成模型Command-R

  • Cohere推出350亿参数可扩展生成模型Command-R
    AI
  • 加拿大AI企业Cohere宣布推出Command-R,一款面向大规模生产工作负载的可扩展生成模型。Command-R具备以下特点: ✅ 高准确性:结合RAG(检索增强生成)和工具使用,实现高度精确的输出。 ✅ 高效性能:低延迟、高吞吐量,满足企业级需求。 ✅ 长上下文支持:长达128k的上下文长度,适应复杂任务。 ✅ ... 阅读全文

    优惠 新型的模型窃取攻击,它能够从未公开的黑盒生产语言模型(例如OpenAI的ChatGPT或Google的PaLM-2)中提取精确、非平凡的信息

  • 新型的模型窃取攻击,它能够从未公开的黑盒生产语言模型(例如OpenAI的ChatGPT或Google的PaLM-2)中提取精确、非平凡的信息
    AI
  • 谷歌发布论文介绍一种新型的模型窃取攻击,它能够从未公开的黑盒生产语言模型(例如OpenAI的ChatGPT或Google的PaLM-2)中提取精确、非平凡的信息。具体来说,攻击者可以通过典型的API访问,恢复变换模型的嵌入投影层(直到对称性)。这项技术首次证实了这些黑盒模型具有1024和2048的隐藏维度。总的来说,这... 阅读全文

    优惠 自深度学习出现以来,预训练语言模型算法的进步速度

  • 自深度学习出现以来,预训练语言模型算法的进步速度
    AI
  • 这篇论文探讨了自深度学习出现以来,预训练语言模型算法的进步速度。研究者们收集了2012年至2023年间200多个语言模型在Wikitext和Penn Treebank数据集上评估的数据,发现为了达到一定的性能阈值,所需的计算资源大约每8个月减半,这一速度远快于摩尔定律所描述的硬件进步速度。论文还估算了增强的扩展法则,量... 阅读全文

    优惠 新型训练框架Fuyou:能够使得在单个GPU上高效地进行超大规模模型(如100亿参数的模型)的微调成为可能

  • 新型训练框架Fuyou:能够使得在单个GPU上高效地进行超大规模模型(如100亿参数的模型)的微调成为可能
    AI
  • 来自浙江大学和香港科技大学的研究团队推出新型训练框架Fuyou,它能够使得在单个GPU上高效地进行超大规模模型(如100亿参数的模型)的微调成为可能。这个框架特别适用于资源有限、无法承担多GPU服务器的研究人员和开发者。 论文中以NVIDIA RTX 4090 GPU作为例子来展示Fuyou框架的能力。RTX 4090... 阅读全文

    优惠 针对大型视觉-语言模型(LVLMs)的推理加速技术FastV

  • 针对大型视觉-语言模型(LVLMs)的推理加速技术FastV
    AI
  • 来自阿里巴巴和北京大学推出FastV,这是一种针对大型视觉-语言模型(LVLMs)的推理加速技术。LVLMs是一类结合了图像识别和自然语言处理能力的人工智能模型,它们可以处理复杂的任务,比如根据图片内容生成描述、回答关于图像的问题等。然而,这些模型在处理图像信息时存在效率低下的问题,特别是在模型的深层结构中。 GitH... 阅读全文

    优惠 AnythingLLM:全能私人ChatGPT,智能对话你的任何文档!

  • AnythingLLM:全能私人ChatGPT,智能对话你的任何文档!
    AI
  • AnythingLLM:一款私人ChatGPT,可与任何事物进行对话!高效、可定制、开源的企业级文档聊天机器人解决方案。这款全栈应用程序能够将任何文档、资源或内容片段转化为上下文,供任何LLM在聊天时作为参考使用。它还允许您灵活选择所使用的LLM或向量数据库,并支持多用户管理和权限设置。 网站:https://usea... 阅读全文

    优惠 谷歌发布了Gemini 1.5 Pro的技术论文

  • 谷歌发布了Gemini 1.5 Pro的技术论文
    AI
  • 谷歌发布了Gemini 1.5 Pro的技术论文,此模型特别擅长理解和处理大量的信息,比如长篇文章、视频和音频。想象一下,你有一个包含数百万字的长篇小说,或者几个小时的视频和音频文件,Gemini 1.5 Pro能够像阅读短文一样轻松地理解这些内容,并回答有关这些问题的复杂问题。 主要功能和特点: 多模态理解: Gem... 阅读全文