推荐类别

栏目分类

优惠 综合性基准测试工具CS-Bench:专门设计用来评估大语言模型在计算机科学(CS)领域的性能

  • 综合性基准测试工具CS-Bench:专门设计用来评估大语言模型在计算机科学(CS)领域的性能
    AI
  • 北京邮电大学推出综合性基准测试工具CS-Bench,它专门设计用来评估大语言模型(LLMs)在计算机科学(CS)领域的性能。CS-Bench是首个中英双语的计算机科学评估基准,旨在全面考察LLMs在计算机科学各个方面的知识和推理能力。例如,我们想要检验一个人工智能是否能够像计算机科学专业的学生一样,解决编程、算法、网络... 阅读全文

    优惠 Visual SKETCHPAD:赋予了多模态语言模型一种新的可视化工具——素描板,以及在素描板上绘图的能力

  • Visual SKETCHPAD:赋予了多模态语言模型一种新的可视化工具——素描板,以及在素描板上绘图的能力
    AI
  • 华盛顿大学、艾伦人工智能研究所和 宾夕法尼亚大学的研究人员推出Visual SKETCHPAD,它赋予了多模态语言模型(LMs)一种新的可视化工具——素描板,以及在素描板上绘图的能力。这就像给计算机一个可以在上面画草图的画板,帮助它更好地理解和解决问题。例如,当你在解决一个几何问题时,你可能会在纸上画一些辅助线来帮助思... 阅读全文

    优惠 新基准测试TC-Bench:用来评估和比较不同的视频生成模型在处理时间维度上组合性的能力

  • 新基准测试TC-Bench:用来评估和比较不同的视频生成模型在处理时间维度上组合性的能力
    AI
  • 加州大学圣巴巴拉分校和滑铁卢大学的研究人员推出新基准测试TC-Bench,它专门用来评估和比较不同的视频生成模型在处理时间维度上组合性的能力。这里的“时间组合性”意味着视频中的物体或者场景能够随着时间变化而展现出新的概念和它们之间的关系转换。例如,我们想要制作一个视频,视频里有一个变色龙从绿色变成蓝色。这个过程不是突变... 阅读全文

    优惠 新框架LMC:用于对大语言模型在高度主观任务上的表现进行基准测试

  • 新框架LMC:用于对大语言模型在高度主观任务上的表现进行基准测试
    AI
  • Predibase、博科尼大学的研究人员推出新框架“Language Model Council”(LMC),用于对大语言模型(LLMs)在高度主观任务上的表现进行基准测试。这个框架通过民主化的过程来评估和排名模型,尤其是在情感智能、创造性写作或说服力等主观性强、缺乏普遍共识的任务上。LMC框架的局限性,如只研究了单轮... 阅读全文

    优惠 大型3D重建模型LRM-Zero:完全使用合成的3D数据进行训练,以实现高质量的稀疏视图3D重建

  • 大型3D重建模型LRM-Zero:完全使用合成的3D数据进行训练,以实现高质量的稀疏视图3D重建
    AI
  • Adob​​e 研究 、石溪大学和基尔大学的研究人员推出大型3D重建模型LRM-Zero,它完全使用合成的3D数据进行训练,以实现高质量的稀疏视图3D重建。LRM-Zero的核心是名为Zeroverse的过程化3D数据集,这个数据集通过简单的基本形状、随机纹理和增强(例如高度场、布尔差分和线框)自动合成。LRM-Zer... 阅读全文

    优惠 新型基准测试工具MUIRBENCH:用来评估多模态大语言模型在理解多图像方面的能力

  • 新型基准测试工具MUIRBENCH:用来评估多模态大语言模型在理解多图像方面的能力
    AI
  • 南加州大学、宾大、明尼苏达大学、加州大学戴维斯分校、威斯康星大学麦迪逊分校、加州大学洛杉矶分校、俄亥俄州立大学、字节跳动和微软研究院的研究人员推出新型基准测试工具MUIRBENCH,它专门用来评估多模态大型语言模型(LLMs)在理解多图像方面的能力。简单来说,MUIRBENCH测试的是,当AI面对多个图片时,它是否能够... 阅读全文

    优惠 大型多语言多模态文档级语料库mOSCAR

  • 大型多语言多模态文档级语料库mOSCAR
    AI
  • 来自Inria 、法国国立科学研究院、巴黎政治大学、巴黎圣日耳曼大学信息科学系、法国国立科学研究院、巴黎政治大学信息科学发展与资源研究所、法国巴黎索邦大学、 通用爬行基金会和巴黎萨克雷大学的研究人员推出大型多语言多模态文档级语料库mOSCAR,mOSCAR是为了支持和改进多模态大型语言模型(mLLMs)的研究而创建的,... 阅读全文

    优惠 新型多语言视觉问答基准测试CVQA:通过包含多种文化和语言,推动多模态AI系统的发展,特别是提高它们在理解和推理视觉及文本数据方面的能力

  • 新型多语言视觉问答基准测试CVQA:通过包含多种文化和语言,推动多模态AI系统的发展,特别是提高它们在理解和推理视觉及文本数据方面的能力
    AI
  • MBZUAI推出新型多语言视觉问答(VQA)基准测试CVQA(Culturally-diverse Multilingual Visual Question Answering Benchmark),CVQA旨在通过包含多种文化和语言,推动多模态人工智能(AI)系统的发展,特别是提高它们在理解和推理视觉及文本数据方面的... 阅读全文

    优惠 估算生成式Ai在上下文学习中的“幻觉率”(hallucination rate)

  • 估算生成式Ai在上下文学习中的“幻觉率”(hallucination rate)
    AI
  • 这篇论文的主题是关于估算生成性人工智能(Generative AI)在上下文学习(In-Context Learning, ICL)中的“幻觉率”(hallucination rate)。在上下文学习中,一个条件生成模型(Conditional Generative Model, CGM)会被提供一组数据集,并基于这个... 阅读全文

    优惠 MLKV:针对Transformer模型解码过程中内存使用效率的一种改进

  • MLKV:针对Transformer模型解码过程中内存使用效率的一种改进
    AI
  • 万隆理工学院 (ITB)和MBZUAI推出一种名为MLKV(Multi-Layer Key-Value Heads)的新技术,它是针对Transformer模型解码过程中内存使用效率的一种改进。Transformer模型在自然语言处理(NLP)领域非常流行,但它们在进行自回归推理时,会因为需要存储和加载大量的键值(Ke... 阅读全文

    优惠 苹果推出新型视觉模型4M-21:能够在多种不同的输入和输出模态之间进行转换和预测

  • 苹果推出新型视觉模型4M-21:能够在多种不同的输入和输出模态之间进行转换和预测
    AI
  • 瑞士洛桑联邦理工学院 (EPFL)和苹果推出新型视觉模型4M-21,它是一个多模态、多任务的基础模型,能够在多种不同的输入和输出模态之间进行转换和预测。简单来说,4M-21就像一个多才多艺的艺术家,不仅能够理解一幅画(图像数据),还能根据这幅画创作出一首诗(文本描述)、一段音乐(深度信息)、甚至是一个舞蹈动作(3D人体... 阅读全文

    优惠 谷歌推出新颖的评估框架ToT:评估和提升大语言模型在时间推理(Temporal Reasoning)方面的能力

  • 谷歌推出新颖的评估框架ToT:评估和提升大语言模型在时间推理(Temporal Reasoning)方面的能力
    AI
  • 谷歌发布论文,论文的主题是关于评估和提升大语言模型(LLMs)在时间推理(Temporal Reasoning)方面的能力。时间推理对于智能系统来说是一项非常重要的任务,它涉及到理解不同事件之间的时间关系。然而,现有的时间推理基准测试通常只关注基于知识图谱(Knowledge Graph)的时间事实,这限制了研究的范围... 阅读全文
    我要爆料 我的收藏 顶部
    快速登录

    自动登录 忘记密码?