阿里巴巴推出新型文本阅读模型Platypus,它能够从各种形式的图像中读取文本,无论是自然场景还是文档。这个模型的设计理念是结合专家模型(specialist models)的高精度和通用模型(generalist models)的广泛适用性,以提高文本识别的准确性和效率。例如,你是一名历史学家,正在研究古老的文献。使用Platypus,你可以拍摄文献的照片,然后模型会自动识别并转录出文档中的文本,即使这些文本是手写的或以艺术形式呈现。这大大加快了文档的数字化和研究过程。或者,如果你是一名教师,需要将黑板上的数学公式转换为电子格式以便进一步分析,Platypus也能够快速准确地完成这项任务。
- GitHub:https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus
- 模型:https://modelscope.cn/datasets/yuekun/Worms
主要功能和特点:
- 多模态文本识别:Platypus能够识别自然场景、文档、手写文本和数学表达式等多种文本形式。
- 统一架构:它使用单一的统一架构来处理各种文本阅读任务,无需针对特定任务进行定制。
- 交互式提示机制:用户可以通过指定文本区域和选择输出粒度来提高文本识别的精度和可用性。
- 高效率:Platypus在保持高准确性的同时,还具有较高的运行效率,这对于实时翻译服务等应用场景非常有用。
工作原理:
Platypus模型基于编码器-解码器框架,利用预训练的视觉模型(如Swin-B Transformer)来提取图像特征,并通过特征金字塔网络(FPN)进一步增强这些特征。它还包含一个提示编码器(Prompt Encoder),用于处理各种提示信息,如任务类别、文本类型、输出粒度和文本位置信息。最后,一个基于Transformer的识别解码器(Recognition Decoder)生成最终的文本识别结果。
具体应用场景:
- 场景文本识别:在自然场景中识别路标、广告牌或任何形式的文本。
- 文档分析:自动化文档处理,如历史文档的存档和数字化。
- 实时翻译服务:为多语言用户提供实时文本翻译。
- 手写笔记转换:将手写笔记转换为电子文本,适用于学生笔记或医生处方。
- 数学公式识别:在教育或科研领域,将手写的数学公式转换为电子格式,便于编辑和分析。
0条评论