微软发布自动化音频描述(Audio Description,简称AD)生成系统LLM-AD,音频描述是一种为视频内容添加的旁白,用以描述视频中的视觉元素,这对于视觉障碍人士来说尤其重要,因为它帮助他们更好地理解和享受视频内容。通过这种方式,LLM-AD系统能够自动化地生成音频描述,提高视频内容的可访问性,并为视觉障碍人士提供更好的观影体验。
例如,你在观看一部没有对话的场景,比如一个人在森林中行走。对于视力受损的人来说,没有声音的时候,他们可能不知道发生了什么。这时,音频描述就像是一个旁白,告诉他们:“一个人穿着风衣,慢慢地走在茂密的树林中,树叶在风中沙沙作响。”这样的描述帮助他们在心里构建场景的画面。LLM-AD系统就是自动生成这样的旁白文本。
主要功能:
- 自动化生成音频描述:为视频内容创建旁白,描述视觉元素。
- 遵守AD生产标准:生成的音频描述符合既定的语言生产标准。
主要特点:
- 多模态输入:系统能够处理视频帧和文本信息,如电影标题和字幕。
- 指令遵循能力:根据给定的AD生产指南和期望的输出句子长度生成音频描述。
- 角色识别模块:通过追踪和识别视频中的角色,保持角色信息的一致性。
工作原理:
- 角色识别:使用视频帧中的时间数据进行角色识别,以确保角色信息的一致性。
- AD生成:利用GPT-4V(一个具有视觉支持的最新语言模型)生成音频描述,该模型能够处理图像和文本输入,并生成文本输出。
- 视觉提示:将角色名称和边界框作为视觉提示叠加在图像帧上,提供空间信息。
- 文本上下文:将之前字幕中的文本内容作为上下文,以保持生成的AD与更广泛的叙事背景相关。
具体应用场景:
- 视觉障碍人士:为视觉障碍人士提供视频内容的音频描述服务。
- 在线视频:为流行的在线视频添加音频描述,增强普通观众的观看体验。
- 电影和电视剧:为电影和电视剧制作音频描述,使其更加可访问和包容。
0条评论