阿里巴巴和华中科技大学的研究人员推出一种新型视觉文本生成方法,称为SceneVTG(Scene Visual Text Generator),它能够在野外环境(即非受控的自然环境)中生成高质量的文本图像。这项技术特别关注于生成的文本图像需要满足三个关键标准:真实性(Fidelity)、合理性(Reasonability)和实用性(Utility)。例如,你需要为自动驾驶车辆的训练系统生成各种路标和交通标志的图像,SceneVTG能够根据路标的文字内容和场景背景生成逼真的图像,这些图像可以用于训练车辆识别系统,以更好地理解和响应实际道路上的交通标志。
- GitHub:https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/SceneVTG
- 数据:https://www.modelscope.cn/datasets/Kpillow/SceneVTG-Erase
主要功能:
- 真实性:生成的文本图像应该是逼真的,内容与给定条件一致,没有错误或多余的字符。
- 合理性:生成的文本区域和内容应该与场景相匹配,不是无意义的。
- 实用性:生成的文本图像能够促进相关任务的执行,例如文本检测和识别。
主要特点:
- 两阶段生成范式:SceneVTG采用两阶段的方法,先通过多模态大型语言模型(MLLM)推荐合理的文本区域和内容,然后使用条件扩散模型作为条件来生成文本图像。
- 高保真和合理性:与传统的基于渲染的方法和最近的基于扩散的方法相比,SceneVTG在真实性和合理性方面有显著提升。
- 实用性:生成的图像为文本检测和识别任务提供了更好的支持。
工作原理:
SceneVTG的工作流程如下:
- 文本区域和内容生成器(TRCG):利用MLLM的视觉推理能力,在背景图像上识别合适的文本区域,并推荐与上下文一致且视觉合适的内容。
- 局部视觉文本渲染器(LVTR):基于TRCG的输出,构建图像级和嵌入级的条件,利用局部条件扩散模型生成与背景一致的局部文本区域,并将它们嵌入到完整图像中,最终实现逼真的文本图像生成。
具体应用场景:
- OCR模型训练:生成的高质量文本图像可以用于训练光学字符识别(OCR)模型,提高其在野外环境下的识别能力。
- 场景文本分析:在自动驾驶、视频监控等场景中,SceneVTG可以帮助分析和理解场景中的文本信息。
- 数据增强:在缺乏足够真实世界数据的情况下,SceneVTG可以生成合成数据,增强现有数据集,提高模型的泛化能力。
0条评论