人工智能

优惠 新型大型视频语言模型Grounded-VideoLLM:擅长于理解视频中的精细时刻,并能够推理出具体发生在视频哪个时刻的事情

  • 新型大型视频语言模型Grounded-VideoLLM:擅长于理解视频中的精细时刻,并能够推理出具体发生在视频哪个时刻的事情
    AI
  • 加州大学戴维斯分校、弗吉尼亚理工大学、香港中文大学、英伟达、Adobe Research 、复旦大学和Meta AI的研究人员推出一种新型大型视频语言模型Grounded-VideoLLM。这个模型特别擅长于理解视频中的精细时刻,并能够推理出具体发生在视频哪个时刻的事情。例如,你是一名视频编辑,正在寻找一个视频中所有“... 阅读全文

    优惠 互动聊天创新项目Future You:通过让用户与年长版的自己进行对话,减少焦虑,指导年轻人做出更好的选择

  • 互动聊天创新项目Future You:通过让用户与年长版的自己进行对话,减少焦虑,指导年轻人做出更好的选择
    AI
  • 麻省理工学院媒体实验室、KASIKORN 实验室、哈佛大学和加利福尼亚大学安德森管理学院的研究人员推出创新项目Future You,它是一个互动聊天平台,使用人工智能技术帮助用户与他们的“未来自我”进行对话。这个平台旨在通过增强用户与未来自我的连续性(future selfcontinuity),来改善用户的心理健康和... 阅读全文

    优惠 苹果推出新型多模态大语言模型MM1.5:提升对包含丰富文本的图像理解、视觉指代和定位以及多图像推理的能力

  • 苹果推出新型多模态大语言模型MM1.5:提升对包含丰富文本的图像理解、视觉指代和定位以及多图像推理的能力
    AI
  • 苹果推出新型多模态大语言模型MM1.5,它是为了提升对包含丰富文本的图像理解、视觉指代和定位以及多图像推理的能力而设计的。简单来说,MM1.5就像一个超级聪明的助手,它可以阅读和理解图片中的文字,告诉你图片里发生了什么,甚至能够理解图片之间的关系。例如,你给MM1.5看一张超市水果区的照片,它不仅能读出水果的价格标签,... 阅读全文

    优惠 语言记忆擦除ELM:从语言模型中“抹去”特定概念的知识

  • 语言记忆擦除ELM:从语言模型中“抹去”特定概念的知识
    AI
  • 美国东北大学和Anthropic的研究人员发布论文,论文的主题是关于如何从语言模型中“抹去”特定概念的知识。想象一下,如果我们有一个人工智能助手,它在回答有关生物武器的问题时,我们并不希望它使用其在训练数据中学到的信息。我们希望它表现得就像从未见过这类信息一样。这就是所谓的“概念擦除”。 项目主页:https://el... 阅读全文

    优惠 工智能辅助工具Tutor CoPilot:通过提供专家级的指导来帮助教育工作者,特别是那些经验不足的教师或家教,以提高他们的教学质量

  • 工智能辅助工具Tutor CoPilot:通过提供专家级的指导来帮助教育工作者,特别是那些经验不足的教师或家教,以提高他们的教学质量
    AI
  • 斯坦福大学推出了一个名为Tutor CoPilot的系统,它是一个人工智能辅助工具,旨在通过提供专家级的指导来帮助教育工作者,特别是那些经验不足的教师或家教,以提高他们的教学质量。Tutor CoPilot通过分析教学互动的实时数据,给出建议,帮助教师更好地指导学生。 项目主页:https://osf.io/8d6ha... 阅读全文

    优惠 新框架MIGA:提高股票市场预测的准确性而设计

  • 新框架MIGA:提高股票市场预测的准确性而设计
    AI
  • 清华大学和XM资本的研究人员推出新框架MIGA,它是为了提高股票市场预测的准确性而设计的。简单来说,MIGA通过组合多个专家模型(Experts)来预测股票价格的未来走势,并且能够根据不同类型的股票动态选择最合适的专家模型进行预测。例如,你是一名投资者,正在考虑投资某个大型科技公司的股票。你可以使用MIGA来预测这支股... 阅读全文

    优惠 CANVAS:让机器人能够理解人类导航指令并据此行动的框架

  • CANVAS:让机器人能够理解人类导航指令并据此行动的框架
    AI
  • MAUM.AI和延世大学的研究人员推出了一个名为CANVAS的系统,它是一个让机器人能够理解人类导航指令并据此行动的框架。想象一下,如果你告诉机器人“走到大厅另一边的桌子那里”,CANVAS能够让机器人理解这样抽象的指令,并在环境中穿行以到达目的地。它通过模仿人类的行为来学习如何根据视觉和语言指令进行导航。 项目主页:... 阅读全文

    优惠 GenSim2:用于机器人模拟的数据生成系统

  • GenSim2:用于机器人模拟的数据生成系统
    AI
  • 清华大学交叉信息科学研究院、加州大学圣地亚哥分校、上海交通大学、麻省理工学院 CSAIL的研究人员推出了一个名为GenSim2的框架,它是一个用于机器人模拟的数据生成系统。GenSim2利用了多模态和推理能力的大语言模型(LLMs),来自动创建复杂且逼真的模拟任务和场景,特别是那些涉及长时序和复杂物体操作的任务。这些任... 阅读全文

    优惠 基准测试NL-EYE:评估视觉语言模型(VLMs)在图像上进行推理的能力

  • 基准测试NL-EYE:评估视觉语言模型(VLMs)在图像上进行推理的能力
    AI
  • 以色列理工学院和谷歌的研究人员推出一个名为NL-EYE的基准测试,它是为了评估视觉语言模型(VLMs)在图像上进行推理的能力而设计的。例如,一个基于VLM的机器人检测到地板湿了,它是否会警告我们小心滑倒?这就是NL-EYE想要测试的——VLMs是否能够理解图像内容,并据此做出合理的推断。 项目主页:https://ve... 阅读全文

    优惠 新型多模态大语言模型VideoLISA:专为视频领域内基于语言指令的推理分割任务而设计

  • 新型多模态大语言模型VideoLISA:专为视频领域内基于语言指令的推理分割任务而设计
    AI
  • 新加坡国立大学和亚马逊的研究人员推出新型多模态大语言模型VideoLISA,它专为视频领域内基于语言指令的推理分割任务而设计。VideoLISA结合了大型语言模型的推理能力和对世界知识的掌握,并借助Segment Anything Model(SAM)生成基于语言指令的视频内的时间一致性分割掩码。例如,你是一名视频编辑... 阅读全文

    优惠 TPI-LLM:为了在资源受限的边缘设备上高效运行大语言模型而设计的推理系统

  • TPI-LLM:为了在资源受限的边缘设备上高效运行大语言模型而设计的推理系统
    AI
  • 穆罕默德·本·扎耶德人工智能大学和电子科技大学的研究人员推出TPI-LLM,这是一个为了在资源受限的边缘设备上高效运行大语言模型(LLMs)而设计的推理系统。随着技术的发展,人们越来越关注将这些强大的模型从云端转移到边缘设备上,以便更好地保护用户数据的隐私,同时减少延迟。 例如,你有一个智能音箱,需要处理用户的语音命令... 阅读全文

    优惠 新型多模态大语言模型LEOPARD:专门为处理包含丰富文本的多图像任务而设计

  • 新型多模态大语言模型LEOPARD:专门为处理包含丰富文本的多图像任务而设计
    AI
  • 圣母大学、腾讯人工智能西雅图实验室的研究人员推出新型多模态大语言模型LEOPARD,它专门为处理包含丰富文本的多图像任务而设计。这类任务在现实世界中非常普遍,比如幻灯片、扫描文档和网页快照等。例如,你是一名学生,需要准备一场关于经济报告的演讲。你手上有一系列包含图表和数据的幻灯片。使用LEOPARD,你可以将这些幻灯片... 阅读全文