人工智能

优惠 全新金融领域评估基准方法FinBen:专为评估大语言模型(LLMs)在金融领域的能力而设计

  • 全新金融领域评估基准方法FinBen:专为评估大语言模型(LLMs)在金融领域的能力而设计
    AI
  • 来自国内多所大学的研究人员推出一款全新金融领域评估基准方法FinBen,它专为评估大语言模型(LLMs)在金融领域的能力而设计。FinBen包含了35个数据集,覆盖了23个金融任务,这些任务根据Cattell-Horn-Carroll(CHC)理论分为三个难度层次,以评估LLMs在归纳推理、联想记忆、定量推理、晶体智力... 阅读全文

    优惠 基准测试MAD-Bench:系统地检验多模态大语言模型在面对文本提示和图像不一致时的冲突解决能力

  • 基准测试MAD-Bench:系统地检验多模态大语言模型在面对文本提示和图像不一致时的冲突解决能力
    AI
  • 关于评估多模态大语言模型(MLLMs)在处理欺骗性提示(deceptive prompts)时的脆弱性,来自苹果的研究人员创建了一个名为MAD-Bench的基准测试,它包含了850个测试样本,分为六个类别,如不存在的对象、对象数量、空间关系和视觉混淆等,用以系统地检验MLLMs在面对文本提示和图像不一致时的冲突解决能力... 阅读全文

    优惠 结合触觉、视觉和语言的多模态数据集TVL:用于训练和评估能够理解和生成触觉感受描述的模型

  • 结合触觉、视觉和语言的多模态数据集TVL:用于训练和评估能够理解和生成触觉感受描述的模型
    AI
  • 加州大学伯克利分校、Meta AI和德累斯顿工业大学的研究人员推出一个关于创建一个结合触觉、视觉和语言的多模态数据集,用于训练和评估能够理解和生成触觉感受描述的模型。这个数据集名为Touch-Vision-Language (TVL),它包含了44,000对视觉-触觉观察数据,其中10%由人类标注,90%由GPT-4V... 阅读全文

    优惠 评估基准方法TOFUEVAL:评估大语言模型(LLMs)在特定主题对话摘要生成中的准确性

  • 评估基准方法TOFUEVAL:评估大语言模型(LLMs)在特定主题对话摘要生成中的准确性
    AI
  • 来自亚马逊AWS AI 实验室、韩国科学院、德克萨斯大学奥斯汀分校的研究人员推出新的评估基准方法TOFUEVAL,评估大语言模型(LLMs)在特定主题对话摘要生成中的准确性。它专注于对话摘要的事实一致性。这个基准通过人类专家对由不同大小的LLMs生成的摘要进行事实一致性的二元句子级标注,并提供详细解释,以揭示不一致的句... 阅读全文

    优惠 GLAN:用于大语言模型(LLMs)的通用和可扩展的指令调整方法

  • GLAN:用于大语言模型(LLMs)的通用和可扩展的指令调整方法
    AI
  • 来自微软的研究人员推出一个名为Generalized Instruction Tuning(简称GLAN)的方法,它是一种用于大语言模型(LLMs)的通用和可扩展的指令调整方法。GLAN的核心思想是利用人类知识的预分类体系作为输入,生成大规模的合成指令数据,覆盖各个学科领域。这种方法不依赖于种子示例或现有数据集来构建指... 阅读全文

    优惠 预指令调优(PIT):让大语言模型在处理新文档时更有效地吸收和应用知识

  • 预指令调优(PIT):让大语言模型在处理新文档时更有效地吸收和应用知识
    AI
  • 来自卡内基梅隆大学、华盛顿大学和Meta的研究人员提出了一种新的训练方法预指令调优(Pre-Instruction-Tuning,简称PIT),让大语言模型在处理新文档时更有效地吸收和应用知识。总的来说,这篇论文提出了一种新的方法来提升LLMs的知识吸收和应用能力,这对于构建更加智能和适应性强的AI系统具有重要意义。 ... 阅读全文

    优惠 AI芯片初创Groq引领新潮流,LPU芯片免费试用展现强大实力

  • AI芯片初创Groq引领新潮流,LPU芯片免费试用展现强大实力
    AI
  • 随着AI聊天机器人的广泛应用,背后所需的庞大数据运算能力使得AI运算芯片的需求日益旺盛。近期,AI芯片初创公司Groq推出了其LPU(语言处理单元)芯片的免费试用活动,凭借卓越性能在社交媒体上引起了广泛关注。 试用地址:https://wow.groq.com API地址:https://wow.groq.com Gr... 阅读全文

    优惠 LMPC:提高机器人在复杂任务中的学习速度和适应性

  • LMPC:提高机器人在复杂任务中的学习速度和适应性
    AI
  • LMPC是一个创新的框架,它通过结合大语言模型(LLMs)的强大语言理解和生成能力,以及MPC的决策优化技术,显著提高了机器人在复杂任务中的学习速度和适应性。LMPC的核心思想是利用人类反馈来微调LLMs,使其能够更有效地理解和执行人类的指令,从而提高机器人完成任务的效率。 项目主页:https://robot-tea... 阅读全文

    优惠 REALIGN:提升大语言模型(LLMs)与人类价值观的一致性

  • REALIGN:提升大语言模型(LLMs)与人类价值观的一致性
    AI
  • 来自上海交通大学、上海人工智能实验室、复旦大学、马里兰大学帕克分校等研究人员提出一种新方法REALIGN,旨在提升大语言模型(LLMs)与人类价值观的一致性。REALIGN的核心思想是通过改进现有指令数据的质量,而不是从头开始创建新的数据集。这种方法通过三个主要步骤来实现:定义标准、增强检索和重新格式化响应。REALI... 阅读全文

    优惠 多模态大语言模型AnyGPT:无论输入是文字、图片还是声音,AnyGPT都可以理解和生成相应的输出

  • 多模态大语言模型AnyGPT:无论输入是文字、图片还是声音,AnyGPT都可以理解和生成相应的输出
    AI
  • 来自复旦大学和上海AI实验室的研究人员推出多模态大语言模型AnyGPT,通过连接大语言模型与多模态适配器和扩散解码器,AnyGPT实现了对各种模态输入的理解和能够在任意模态中生成输出的能力。可以处理各种不同的信息形式,包括语音、文本、图像和音乐等。这意味着AnyGPT可以理解和生成不仅仅是文字,还包括其他形式的信息,使... 阅读全文

    优惠 开源平台CopilotKit:将AI机器人和AI驱动的文本框集成到ReactWeb应用中

  • 开源平台CopilotKit:将AI机器人和AI驱动的文本框集成到ReactWeb应用中
    GitHub
  • CopilotKit是一个开源平台,旨在将AI智能引入应用程序中的聊天机器人和文本编辑器,为日常工作和沟通带来革命性变化。该平台提供两个核心组件:CopilotPortal和CopilotTextarea。 CopilotPortal是一个应用内AI聊天机器人,能够“洞察”当前应用状态并在应用内执行操作。它不仅能够与应... 阅读全文

    优惠 新基准测试BABILong:评估自然语言处理(NLP)模型处理长文档和分布式事实的能力

  • 新基准测试BABILong:评估自然语言处理(NLP)模型处理长文档和分布式事实的能力
    AI
  • 新基准测试BABILong旨在评估自然语言处理(NLP)模型处理长文档和分布式事实的能力。BABILong通过在大量文本中“隐藏”问题和答案,模拟了在大量无关信息中寻找关键信息的场景,这对于模型来说是一个挑战。论文还介绍了一种名为Recurrent Memory Transformer(RMT)的模型,它通过增强循环记... 阅读全文