当前位置：首页 > 优惠 >大语言模型>文章详情

新型视频理解模型TRACE：专门设计来处理视频时间定位任务

推荐人：暴走AI| 商城: AI | 9个月前 (10-10)| 分类：大语言模型 | 热度：429 ℃

已关闭评论

香港中文大学科学与工程学院、深圳市人工智能与机器人研究院、广东省未来智能网络重点实验室和腾讯的研究人员推出新型视频理解模型TRACE，它专门设计来处理视频时间定位（Video Temporal Grounding，简称VTG）任务。这项技术的核心能力是理解视频中的事件，并确定这些事件发生的具体时间点。这就像给视频安装了一个智能的时钟，能够精确地告诉你视频中某个动作或事件是何时开始和结束的。

GitHub：https://github.com/gyxxyg/TRACE
模型：https://huggingface.co/Yongxin-Guo/trace

主要功能：

TRACE模型的主要功能是捕捉视频中的事件，并为这些事件生成时间戳、显著性得分和文本描述。这意味着它不仅能告诉你视频中发生了什么，还能告诉你这些事件在视频的哪个部分发生。

主要特点：

因果事件建模框架：TRACE采用了一个新颖的因果事件建模框架，将视频表示为一系列事件，并通过预测当前事件来处理视频的结构。
任务交错视频LLM：TRACE是一个任务交错的视频大型语言模型（LLM），它将视觉帧、时间戳、显著性得分和文本作为不同的任务来处理，每个任务都有专门的编码器和解码器。
零样本预测：TRACE能够在没有经过特定任务训练的情况下，直接对新任务进行预测，这大大提高了模型的灵活性和应用范围。

工作原理： TRACE模型的工作原理基于以下几个步骤：