微软发布自动化音频描述生成系统LLM-AD

分类:大语言模型 | 热度:156 ℃

微软发布自动化音频描述(Audio Description,简称AD)生成系统LLM-AD,音频描述是一种为视频内容添加的旁白,用以描述视频中的视觉元素,这对于视觉障碍人士来说尤其重要,因为它帮助他们更好地理解和享受视频内容。通过这种方式,LLM-AD系统能够自动化地生成音频描述,提高视频内容的可访问性,并为视觉障碍人士提供更好的观影体验。

例如,你在观看一部没有对话的场景,比如一个人在森林中行走。对于视力受损的人来说,没有声音的时候,他们可能不知道发生了什么。这时,音频描述就像是一个旁白,告诉他们:“一个人穿着风衣,慢慢地走在茂密的树林中,树叶在风中沙沙作响。”这样的描述帮助他们在心里构建场景的画面。LLM-AD系统就是自动生成这样的旁白文本。

主要功能:

  • 自动化生成音频描述:为视频内容创建旁白,描述视觉元素。
  • 遵守AD生产标准:生成的音频描述符合既定的语言生产标准。

主要特点:

  1. 多模态输入:系统能够处理视频帧和文本信息,如电影标题和字幕。
  2. 指令遵循能力:根据给定的AD生产指南和期望的输出句子长度生成音频描述。
  3. 角色识别模块:通过追踪和识别视频中的角色,保持角色信息的一致性。

工作原理:

  1. 角色识别:使用视频帧中的时间数据进行角色识别,以确保角色信息的一致性。
  2. AD生成:利用GPT-4V(一个具有视觉支持的最新语言模型)生成音频描述,该模型能够处理图像和文本输入,并生成文本输出。
  3. 视觉提示:将角色名称和边界框作为视觉提示叠加在图像帧上,提供空间信息。
  4. 文本上下文:将之前字幕中的文本内容作为上下文,以保持生成的AD与更广泛的叙事背景相关。

具体应用场景:

  1. 视觉障碍人士:为视觉障碍人士提供视频内容的音频描述服务。
  2. 在线视频:为流行的在线视频添加音频描述,增强普通观众的观看体验。
  3. 电影和电视剧:为电影和电视剧制作音频描述,使其更加可访问和包容。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论