当前位置：首页 > 优惠 >大语言模型>文章详情

腾讯推出新型视频理解模型ST-LLM

推荐人：暴走AI| 商城: AI | 1年前 (2024-04-03)| 分类：大语言模型 | 热度：373 ℃

已关闭评论

腾讯推出新型视频理解模型ST-LLM。ST-LLM的核心思想是将视频内容转化为一系列的空间-时间（spatial-temporal）标记，并将这些标记直接输入到大型语言模型（LLM）中，让模型自己学习如何理解和建模视频序列。这种方法简化了视频处理的流程，因为传统的视频理解模型通常需要复杂的结构和大量的计算资源。总的来说，ST-LLM是一个创新的视频理解模型，它通过将视频内容直接输入到语言模型中，简化了视频处理的流程，并在多个视频理解基准测试中取得了最先进的结果。

主要功能和特点：

视频理解： ST-LLM能够处理视频的每一帧，并理解帧与帧之间的关系，从而捕捉视频中的动作和变化。
动态掩码策略： 为了提高模型的效率和稳定性，ST-LLM在训练过程中使用了动态掩码策略，这意味着它会随机遮盖视频中的一部分内容，迫使模型学习从不完整的信息中理解和预测视频内容。
全局-局部输入模块： 对于非常长的视频，ST-LLM设计了一个全局-局部输入模块，它能够平衡模型的效率和效果，通过处理视频中的关键帧来理解整个视频的内容。

工作原理：

视频标记输入： 首先，ST-LLM将视频分解成一系列的帧，并将每一帧转换成一系列的标记。
序列建模： 然后，这些标记被输入到语言模型中，模型利用其强大的序列建模能力来理解视频内容。
训练和推理： 在训练阶段，模型通过动态掩码和全局-局部输入策略来学习如何处理不同长度和复杂度的视频。在推理阶段，模型能够根据输入的视频内容生成描述或者回答有关视频的问题。

具体应用场景：