AI
优惠 Google DeepMind推出新型策略WARP:用于通过人类反馈进行强化学习(RLHF)以对大语言模型进行对齐
6个月前 (06-25)AI
Google DeepMind推出新型策略WARP(Weight Averaged Rewarded Policies),用于通过人类反馈进行强化学习(RLHF)以对大型语言模型(LLMs)进行对齐。这种策略的目的是在使用人类偏好训练的奖励模型来优化语言模型时,平衡模型性能和保持预训练知识。论文通过一系列实验验证了WA... 阅读全文
优惠 以视觉为中心的方法设计!多模态大语言模型系列Cambrian-1
标签:Cambrian-1
AI
6个月前 (06-25)AI
纽约大学的研究人员推出多模态大语言模型系列Cambrian-1,这些模型采用以视觉为中心的方法设计。多模态大型语言模型结合了视觉和语言能力,旨在更好地理解和生成与图像和文本相关的信息。Cambrian-1的研究不仅达到了最先进的性能水平,而且还提供了一个全面的、开放的指令调整MLLM的“食谱”。研究团队提供了模型权重、... 阅读全文
优惠 D-MERIT数据集:信息检索(IR)模型的评估方法
标签:D-MERIT数据集
AI
6个月前 (06-25)AI
亚马逊研究院、巴伊兰大学和艾伦人工智能研究所推出D-MERIT数据集,关于信息检索(Information Retrieval,简称IR)模型的评估方法。信息检索模型的任务是在一个大型的文档集合中,根据用户提出的查询(query),找出与之相关的文档段落(passages)。这就像我们在互联网上搜索信息时,搜索引擎会返... 阅读全文
优惠 评估基准BigCodeBench:用来测试大型编程语言模型在代码生成方面的能力
标签:BigCodeBench
AI
6个月前 (06-25)AI
评估基准BigCodeBench,它专门用来测试大型编程语言模型(LLMs)在代码生成方面的能力。这个基准通过设计具有多种功能调用和复杂指令的编程任务,来挑战和评估这些模型是否能够像人类开发者一样解决实际的编程问题。通过这种评估,研究人员和开发人员可以更好地理解LLMs在编程任务中的表现,以及它们在实际应用中的潜力和局... 阅读全文
优惠 全面基准测试工具VideoHallucer:专门用来检测和评估LVLMs在视频理解任务中的幻觉问题
6个月前 (06-25)AI
北京通用人工智能研究院、通用人工智能国家重点实验室、北京大学和加州大学圣克鲁斯分校推出全面基准测试工具VideoHallucer,专门用来检测和评估LVLMs在视频理解任务中的幻觉问题。所谓“幻觉”,指的是这些模型在理解视频内容时,可能会生成与实际视频内容不符、无关或无意义的信息,这种现象可能会误导用户。VideoHa... 阅读全文
优惠 MMFM-Challenge:用于改进多模态基础模型(MMFMs)在特定任务上的表现,尤其是文档理解方面
标签:MMFM-Challenge
AI
6个月前 (06-24)AI
新框架“多模态结构化生成”(Multimodal Structured Generation),它用于改进多模态基础模型(Multimodal Foundation Models,简称MMFMs)在特定任务上的表现,尤其是文档理解方面。MMFMs是结合了不同模态(如视觉和语言)的预训练基础模型,虽然在多种任务上表现出色... 阅读全文