当前位置：首页 > 优惠 >大语言模型>文章详情

微软发布自动化音频描述生成系统LLM-AD

推荐人：暴走AI| 商城: AI | 11个月前 (05-03)| 分类：大语言模型 | 热度：225 ℃

已关闭评论

微软发布自动化音频描述生成系统LLM-AD

AI

微软发布自动化音频描述（Audio Description，简称AD）生成系统LLM-AD，音频描述是一种为视频内容添加的旁白，用以描述视频中的视觉元素，这对于视觉障碍人士来说尤其重要，因为它帮助他们更好地理解和享受视频内容。通过这种方式，LLM-AD系统能够自动化地生成音频描述，提高视频内容的可访问性，并为视觉障碍人士提供更好的观影体验。

例如，你在观看一部没有对话的场景，比如一个人在森林中行走。对于视力受损的人来说，没有声音的时候，他们可能不知道发生了什么。这时，音频描述就像是一个旁白，告诉他们：“一个人穿着风衣，慢慢地走在茂密的树林中，树叶在风中沙沙作响。”这样的描述帮助他们在心里构建场景的画面。LLM-AD系统就是自动生成这样的旁白文本。

主要功能：

自动化生成音频描述：为视频内容创建旁白，描述视觉元素。
遵守AD生产标准：生成的音频描述符合既定的语言生产标准。

主要特点：

多模态输入：系统能够处理视频帧和文本信息，如电影标题和字幕。
指令遵循能力：根据给定的AD生产指南和期望的输出句子长度生成音频描述。
角色识别模块：通过追踪和识别视频中的角色，保持角色信息的一致性。

工作原理：

角色识别：使用视频帧中的时间数据进行角色识别，以确保角色信息的一致性。
AD生成：利用GPT-4V（一个具有视觉支持的最新语言模型）生成音频描述，该模型能够处理图像和文本输入，并生成文本输出。
视觉提示：将角色名称和边界框作为视觉提示叠加在图像帧上，提供空间信息。
文本上下文：将之前字幕中的文本内容作为上下文，以保持生成的AD与更广泛的叙事背景相关。

具体应用场景：

视觉障碍人士：为视觉障碍人士提供视频内容的音频描述服务。
在线视频：为流行的在线视频添加音频描述，增强普通观众的观看体验。
电影和电视剧：为电影和电视剧制作音频描述，使其更加可访问和包容。

LLM-AD 微软

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：开源语言模型PROMETHEUS 2，它专门用于评估其他语言模型的输出质量

下一篇： WILDCHAT数据集：包含了100万用户与ChatGPT聊天机器人的互动记录，这些记录总共包含了超过250万个交互回合

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录