阿卜杜拉国王科技大学和瑞士人工智能实验室推出Goldfish,它专门用来理解和处理非常长的视频内容。你有一个好几个小时的视频,比如一部电影或电视剧,你想知道里面某个特定场景的细节,但是从头到尾看完实在太费时间了。Goldfish就是来帮你解决这个问题的。比如,你正在看《老友记》的一个片段,你想知道罗斯从菲比那里拿走了什么。Goldfish可以通过分析视频内容,告诉你是口红、水瓶、盐瓶还是咖啡杯。
- 项目主页:https://vision-cair.github.io/Goldfish_website
- GitHub:https://github.com/Vision-CAIR/MiniGPT4-video
- 数据:https://huggingface.co/datasets/Vision-CAIR/TVQA-Long/tree/main
- 模型:https://huggingface.co/Vision-CAIR/MiniGPT4-Video
- Demo:https://6662c025106d5b5341.gradio.live
主要功能
- 长视频理解:Goldfish能够处理任意长度的视频,从几分钟的短视频到几个小时的长视频。
- 高效检索:它通过检索机制,快速找到与用户问题最相关的视频片段。
- 生成详细描述:Goldfish使用MiniGPT4-Video模型为每个视频片段生成详细的描述。
- 回答复杂问题:能够回答涉及视觉和文本内容的复杂问题。
主要特点
- 处理长视频的能力:与大多数只能处理几分钟视频的模型不同,Goldfish可以处理任意长度的视频。
- 高效的检索机制:通过比较问题文本和视频片段描述的相似性,快速找到最相关的片段。
- MiniGPT4-Video模型:这个模型不仅可以处理单个图像,还可以处理多个视频帧及其对应的字幕。
工作原理
Goldfish的工作流程如下:
- 视频分割:将长视频分割成多个短片段。
- 生成描述:使用MiniGPT4-Video模型为每个片段生成详细描述。
- 检索:通过比较问题文本和片段描述的相似性,检索最相关的片段。
- 生成答案:将检索到的片段和问题一起输入到答案模块,生成最终的回答。
具体应用场景
- 电影分析:可以用来分析电影中的特定场景或情节。
- 电视节目理解:帮助理解电视节目中的复杂情节和角色互动。
- 教育和研究:在教育和研究中,分析视频资料,提取关键信息。
- 内容创作:为视频内容创作者提供工具,帮助他们更好地理解和编辑视频。
论文还介绍了一个新的基准测试TVQA-long,专门用来评估模型在理解长视频方面的能力。Goldfish在这个基准测试中取得了41.78%的准确率,超过了之前的方法14.94%。这表明Goldfish在长视频理解方面有显著的提升。
0条评论