大语言模型

优惠 AMEX数据集:为了提升移动设备上AI代理(也就是智能助手)的能力而设计

  • AMEX数据集:为了提升移动设备上AI代理(也就是智能助手)的能力而设计
    AI
  • 香港中文大学 MMLab、上海交通大学、 上海人工智能实验室和 vivo人工智能实验室的研究人员推出一个名为“Android Multi-annotation EXpo(AMEX)”的数据集,它是为了提升移动设备上AI代理(也就是智能助手)的能力而设计的。这些AI代理能够通过直接与图形用户界面(GUI)交互来完成复杂的... 阅读全文

    优惠 多元化“角色”库PERSONA:这些角色具有不同的背景和个性特征

  • 多元化“角色”库PERSONA:这些角色具有不同的背景和个性特征
    AI
  • PERSONA创建了一个多元化的“角色”库,这些角色具有不同的背景和个性特征,通过这些角色,我们可以更全面地测试和改进智能助手,让它能够更好地理解和服务于每一个人。想象一下,我们正在训练一个能够理解和回应不同人群需求的智能助手。这个助手需要能够适应不同的价值观和观点,就像我们人类一样。但是,如果我们只用一种标准或者多数... 阅读全文

    优惠 VIDEOGAMEBUNNY模型:为理解视频游戏图像而特别定制的多模态大模型

  • VIDEOGAMEBUNNY模型:为理解视频游戏图像而特别定制的多模态大模型
    AI
  • 阿尔伯塔大学的研究人员推出VIDEOGAMEBUNNY模型,这是一个为理解视频游戏图像而特别定制的多模态大模型(LMM)。它基于Bunny模型,并对其进行了微调,以提高对视频游戏内容的理解能力。研究团队发布了中间检查点、训练日志以及一个包含185,259张来自413个游戏的视频游戏图像的广泛数据集,以及389,565个... 阅读全文

    优惠 无需训练的视频大语言模型SlowFast-LLaVA:能够同时捕捉视频的细节空间语义和长时序时间上下文,而不会超出常用LLM的令牌预算

  • 无需训练的视频大语言模型SlowFast-LLaVA:能够同时捕捉视频的细节空间语义和长时序时间上下文,而不会超出常用LLM的令牌预算
    AI
  • 苹果推出一个名为SlowFast-LLaVA(简称SF-LLaVA)的新方法,它是一种无需训练的视频大语言模型(LLM)。SF-LLaVA能够同时捕捉视频的细节空间语义和长时序时间上下文,而不会超出常用LLM的令牌预算。这种方法通过为视频LLM设计双流输入(Slow和Fast路径),有效地聚合了采样视频帧的特征。 论文... 阅读全文

    优惠 新型视频预训练方法SIGMA:通过一种特别的方式来学习视频数据的表示,以便让计算机能够更好地理解和处理视频内容

  • 新型视频预训练方法SIGMA:通过一种特别的方式来学习视频数据的表示,以便让计算机能够更好地理解和处理视频内容
    AI
  • 阿姆斯特丹大学推出一种新型的视频预训练方法,名为SIGMA(Sinkhorn-Guided Masked Video Modeling)。这个方法的核心是通过一种特别的方式来学习视频数据的表示,以便让计算机能够更好地理解和处理视频内容。SIGMA方法就像是换了一种学习方式,它让计算机学习如何把视频分成一个个小块,然后教... 阅读全文

    优惠 “诊断链(CoD)”:解决了大语言模型在医疗诊断领域中可解释性的问题

  • “诊断链(CoD)”:解决了大语言模型在医疗诊断领域中可解释性的问题
    AI
  • 深圳市大数据研究院和香港中文大学(深圳)的研究人员引入“诊断链”(CoD)的概念,解决了大语言模型在医疗诊断领域中可解释性的问题。CoD将诊断过程转化为一个模仿医生思维流程的诊断链条,从而提供了一条清晰的推理路径。此外,CoD还能输出疾病确信度分布,确保决策过程的透明度。 GitHub:https://github.c... 阅读全文

    优惠 新型文本检索基准测试BRIGHT:用来评估和挑战检索系统在处理复杂查询时的表现

  • 新型文本检索基准测试BRIGHT:用来评估和挑战检索系统在处理复杂查询时的表现
    AI
  • 香港大学、 普林斯顿大学、华盛顿大学和Google Cloud AI 研究的研究人员推出新型文本检索基准测试BRIGHT,它专门设计用来评估和挑战检索系统在处理复杂查询时的表现。这些查询不仅需要关键词匹配,还需要深入的推理能力来识别相关文档。简单来说,BRIGHT测试的是检索系统是否能够“理解”查询背后的逻辑和上下文,... 阅读全文

    优惠 多模态大语言模型评估框架MultiTrust

  • 多模态大语言模型评估框架MultiTrust
    AI
  • 清华大学、北京航空航天大学、上海交通大学和RealAI的研究人员推出多模态大语言模型评估框架MultiTrust。简单来说,就是研究这些能够同时处理文本和图像等多种形式信息的人工智能模型是否值得信赖。这包括了它们在面对各种任务时的准确性、安全性、鲁棒性、公平性和隐私保护能力。 项目主页:https://multi-tr... 阅读全文

    优惠 Phi-3 Safety Post-Training:调整和优化他们开发的Phi-3系列小型语言模型

  • Phi-3 Safety Post-Training:调整和优化他们开发的Phi-3系列小型语言模型
    AI
  • 微软发布论文,论文的主题是关于如何确保语言模型在实际应用中既安全又符合人类的偏好和安全考虑。具体来说,论文介绍了微软公司如何通过一系列的方法和步骤,来调整和优化他们开发的Phi-3系列小型语言模型(SLMs),使其在各种场景下生成的内容更加安全和负责任。通过这种“破坏-修复”的迭代过程,微软能够显著提高Phi-3模型在... 阅读全文

    优惠 FLUTE:专门为使用查找表量化(LUT-quantized)的大语言模型设计

  • FLUTE:专门为使用查找表量化(LUT-quantized)的大语言模型设计
    AI
  • 麻省理工学院、普罗夫迪夫数学高中和卡内基梅隆大学的研究人员推出FLUTE,FLUTE是一个灵活的查找表引擎,专门为使用查找表量化(LUT-quantized)的LLMs设计。简单来说,量化就是一种数据压缩技术,可以减少模型大小,加快运算速度,但同时也可能影响模型的精度。 GitHub:https://github.co... 阅读全文

    优惠 谷歌推出新型稀疏自编码器JumpReLU SAEs:用于提高语言模型激活的重建保真度

  • 谷歌推出新型稀疏自编码器JumpReLU SAEs:用于提高语言模型激活的重建保真度
    AI
  • 谷歌推出新型稀疏自编码器(Sparse Autoencoders, SAEs),称为JumpReLU SAEs,它用于提高语言模型(Language Model, LM)激活的重建保真度。简单来说,这种技术可以帮助我们从大量文本数据中提取出关键信息,并且以一种非常节省资源的方式表示这些信息。论文还提到了一些限制和未来的... 阅读全文

    优惠 新型视觉文本生成方法SceneVTG:能够在野外环境(即非受控的自然环境)中生成高质量的文本图像

  • 新型视觉文本生成方法SceneVTG:能够在野外环境(即非受控的自然环境)中生成高质量的文本图像
    AI
  • 阿里巴巴和华中科技大学的研究人员推出一种新型视觉文本生成方法,称为SceneVTG(Scene Visual Text Generator),它能够在野外环境(即非受控的自然环境)中生成高质量的文本图像。这项技术特别关注于生成的文本图像需要满足三个关键标准:真实性(Fidelity)、合理性(Reasonability... 阅读全文