谷歌推出大规模、开放式的多语种手语平行语料库YouTube-SL-25

分类:大语言模型 | 热度:32 ℃

谷歌推出YouTube-SL-25,这是一个大规模、开放式的多语种手语平行语料库。简单来说,它包含了超过25种不同手语的视频,这些视频从YouTube上收集而来,并且配有相应的字幕。这个项目的目标是改善手语与文本之间的翻译,让机器更好地理解和生成手语。例如,一个听障人士想在视频会议上与他人交流,但不熟悉对方的手语,YouTube-SL-25可以提供技术支持,通过机器翻译将手语转换成文字,或者将文字翻译成手语,从而帮助他们进行有效沟通。

  • GitHub:https://github.com/google-research/google-research/tree/master/youtube_sl_25

主要功能:

  1. 提供语料库:包含超过3000小时的手语视频,涵盖超过25种不同的手语。
  2. 支持研究:为机器学习研究提供大量数据,特别是对手语处理和翻译的研究。

主要特点:

  1. 多语种:包含多种手语,不仅限于美国手语(ASL),还包括其他多种手语。
  2. 大规模:是目前最大的平行手语数据集,超过YouTube-ASL三倍的规模。
  3. 开放式领域:与特定领域的手语语料库(如圣经翻译)不同,YouTube-SL-25更注重日常沟通用的手语。

工作原理:

  1. 自动检索:使用自动分类器根据文本元数据识别可能相关的视频。
  2. 手工筛选:项目团队通过了解手语和YouTube数据,对手语视频进行筛选,确保视频与字幕对齐良好。
  3. 基线模型:使用基于T5的统一多语言多任务模型为手语到文本的任务提供基线。

具体应用场景:

  1. 手语翻译:帮助将手语视频转换成文字,便于听障或听力有困难的人群更好地理解和沟通。
  2. 教育和培训:可以用于教育领域,教授手语或帮助学习者练习。
  3. 技术发展:推动手语识别和生成技术的发展,如自动手语翻译器或辅助沟通设备。

论文还提到了一些局限性,比如数据集中某些语言和肤色的代表性不足,以及基线模型可能没有充分利用数据集中的多语种特性。此外,论文呼吁未来的工作需要发展更健壮的手语过滤和预处理工具,以实现数据规模的指数级增长。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论