谷歌推出YouTube-SL-25,这是一个大规模、开放式的多语种手语平行语料库。简单来说,它包含了超过25种不同手语的视频,这些视频从YouTube上收集而来,并且配有相应的字幕。这个项目的目标是改善手语与文本之间的翻译,让机器更好地理解和生成手语。例如,一个听障人士想在视频会议上与他人交流,但不熟悉对方的手语,YouTube-SL-25可以提供技术支持,通过机器翻译将手语转换成文字,或者将文字翻译成手语,从而帮助他们进行有效沟通。
- GitHub:https://github.com/google-research/google-research/tree/master/youtube_sl_25
主要功能:
- 提供语料库:包含超过3000小时的手语视频,涵盖超过25种不同的手语。
- 支持研究:为机器学习研究提供大量数据,特别是对手语处理和翻译的研究。
主要特点:
- 多语种:包含多种手语,不仅限于美国手语(ASL),还包括其他多种手语。
- 大规模:是目前最大的平行手语数据集,超过YouTube-ASL三倍的规模。
- 开放式领域:与特定领域的手语语料库(如圣经翻译)不同,YouTube-SL-25更注重日常沟通用的手语。
工作原理:
- 自动检索:使用自动分类器根据文本元数据识别可能相关的视频。
- 手工筛选:项目团队通过了解手语和YouTube数据,对手语视频进行筛选,确保视频与字幕对齐良好。
- 基线模型:使用基于T5的统一多语言多任务模型为手语到文本的任务提供基线。
具体应用场景:
- 手语翻译:帮助将手语视频转换成文字,便于听障或听力有困难的人群更好地理解和沟通。
- 教育和培训:可以用于教育领域,教授手语或帮助学习者练习。
- 技术发展:推动手语识别和生成技术的发展,如自动手语翻译器或辅助沟通设备。
论文还提到了一些局限性,比如数据集中某些语言和肤色的代表性不足,以及基线模型可能没有充分利用数据集中的多语种特性。此外,论文呼吁未来的工作需要发展更健壮的手语过滤和预处理工具,以实现数据规模的指数级增长。
0条评论