当前位置：首页 > 优惠 >大语言模型>文章详情

阿里巴巴推出新型文本阅读模型Platypus：能够从各种形式的图像中读取文本，无论是自然场景还是文档

推荐人：暴走AI| 商城: AI | 8个月前 (08-28)| 分类：大语言模型 | 热度：231 ℃

已关闭评论

阿里巴巴推出新型文本阅读模型Platypus：能够从各种形式的图像中读取文本，无论是自然场景还是文档

阿里巴巴推出新型文本阅读模型Platypus，它能够从各种形式的图像中读取文本，无论是自然场景还是文档。这个模型的设计理念是结合专家模型（specialist models）的高精度和通用模型（generalist models）的广泛适用性，以提高文本识别的准确性和效率。例如，你是一名历史学家，正在研究古老的文献。使用Platypus，你可以拍摄文献的照片，然后模型会自动识别并转录出文档中的文本，即使这些文本是手写的或以艺术形式呈现。这大大加快了文档的数字化和研究过程。或者，如果你是一名教师，需要将黑板上的数学公式转换为电子格式以便进一步分析，Platypus也能够快速准确地完成这项任务。

GitHub：https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus
模型：https://modelscope.cn/datasets/yuekun/Worms

主要功能和特点：

多模态文本识别：Platypus能够识别自然场景、文档、手写文本和数学表达式等多种文本形式。
统一架构：它使用单一的统一架构来处理各种文本阅读任务，无需针对特定任务进行定制。
交互式提示机制：用户可以通过指定文本区域和选择输出粒度来提高文本识别的精度和可用性。
高效率：Platypus在保持高准确性的同时，还具有较高的运行效率，这对于实时翻译服务等应用场景非常有用。

工作原理：

Platypus模型基于编码器-解码器框架，利用预训练的视觉模型（如Swin-B Transformer）来提取图像特征，并通过特征金字塔网络（FPN）进一步增强这些特征。它还包含一个提示编码器（Prompt Encoder），用于处理各种提示信息，如任务类别、文本类型、输出粒度和文本位置信息。最后，一个基于Transformer的识别解码器（Recognition Decoder）生成最终的文本识别结果。