当前位置：首页 > 优惠 >大语言模型>文章详情

新型大型视频语言模型Grounded-VideoLLM：擅长于理解视频中的精细时刻，并能够推理出具体发生在视频哪个时刻的事情

推荐人：暴走AI| 商城: AI | 9个月前 (10-09)| 分类：大语言模型 | 热度：382 ℃

已关闭评论

新型大型视频语言模型Grounded-VideoLLM：擅长于理解视频中的精细时刻，并能够推理出具体发生在视频哪个时刻的事情

AI

加州大学戴维斯分校、弗吉尼亚理工大学、香港中文大学、英伟达、Adobe Research 、复旦大学和Meta AI的研究人员推出一种新型大型视频语言模型Grounded-VideoLLM。这个模型特别擅长于理解视频中的精细时刻，并能够推理出具体发生在视频哪个时刻的事情。例如，你是一名视频编辑，正在寻找一个视频中所有“孩子第一次学会骑自行车”的片段。使用Grounded-VideoLLM，你只需输入描述这个动作的句子，模型就能快速定位到这个动作发生的精确时间点，并给出那段时间的视频片段。这样，你就不必手动浏览整个视频，大大节省了时间。

GitHub：https://github.com/WHB139426/Grounded-Video-LLM
模型：https://huggingface.co/WHB139426/Grounded-Video-LLM

主要功能

精细时刻定位：能够识别视频中特定动作或事件的精确时间点。
视频推理：不仅知道视频中发生了什么，还能理解这些事件的时间顺序和逻辑关系。

主要特点

双流编码：模型通过分析视频帧之间的空间和时间关系来捕捉动态信息。
时间标记：使用特殊的时间标记来代表视频中的具体时间点，避免了处理连续数值的低效。
多阶段训练：从简单的视频描述任务开始，逐步过渡到复杂的时间定位任务。

工作原理

两流编码：视频的每一段被分为空间部分（关注外观）和时间部分（关注动作变化），分别进行编码。
时间标记：将视频均匀分成多个段落，并为每个段落定义一个时间标记，这些标记作为模型的词汇使用。
训练策略：采用分阶段训练，先让模型学会理解图片，再学会理解视频内容，最后学会理解视频中的具体时刻。

具体应用场景

视频内容分析：为视频自动生成详细描述，包括发生的动作和对应的时间。
视频问答：回答有关视频内容的具体问题，比如“视频中的汽车什么时候开始移动？”
视频编辑：帮助视频编辑人员快速定位视频中的关键片段。
视频监控：在安全监控视频中实时检测和响应特定事件。

总的来说，Grounded-VideoLLM通过先进的视频处理和时间理解能力，为视频内容的分析和检索提供了一个强大的工具。

Grounded-VideoLLM

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：互动聊天创新项目Future You：通过让用户与年长版的自己进行对话，减少焦虑，指导年轻人做出更好的选择

下一篇：用于加速音乐生成的新技术Presto!：通过减少采样步骤和每个步骤的成本，来加速基于分数的音乐生成模型的推理过程

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录