来自字节跳动、华东师范大学和华中科技大学的研究人员推出TextSquare系统,这是一个基于文本的视觉问答(VQA)模型,它利用了大型多模态语言模型(MLLMs)。TextSquare通过一个新颖的方法生成了一个大规模、高质量的指令调整数据集,称为Square-10M,这个数据集是通过使用闭源的MLLMs生成的。这项工作的目的是提高开源模型在文本中心的视觉问答任务上的性能,使其能够与领先的闭源模型如GPT4V和Gemini相媲美。
主要功能:
- 视觉问答:TextSquare能够理解图像中的文本内容,并回答与这些文本相关的问题。
主要特点:
- 大规模数据集:通过Square策略生成了包含数千万实例的Square-10M数据集,用于指令调整。
- 高质量数据:数据集通过自我提问、回答、推理和评估的四步过程生成,确保了数据的高质量。
- 减少幻觉:通过推理数据提供详尽的上下文信息,TextSquare在减少模型幻觉(即生成与现实不符的答案)方面表现出色。
工作原理:
- 自我提问:利用MLLM的文本图像分析和理解能力,生成与图像文本内容相关的问题。
- 回答:使用各种提示技术,如思维链(Chain-of-Thought)和少样本提示(few-shot prompting),回答这些问题。
- 推理:探究模型回答问题背后的原因,利用MLLM的强大推理能力。
- 评估:通过MLLM的评估能力,评估问题-答案对的有效性,提高数据质量并减少幻觉。
具体应用场景:
假设你正在开发一个智能助手,需要它能够理解用户上传的图表、文档或照片中的文本内容,并回答有关这些文本的问题。例如,如果用户上传了一张包含统计数据的图表图片,并询问:“哪个产品的销量最高?”TextSquare系统能够分析图表中的文本和数字,理解问题的含义,并提供正确的答案。
在实验中,TextSquare在多个基准测试中取得了显著的性能提升,甚至在6个文本中心的基准测试中超过了GPT4V和Gemini等顶级模型。此外,TextSquare在减少模型幻觉方面也表现出色,这表明它在提供准确答案的同时,还能够生成有意义的解释,增强了模型的可信度和透明度。
0条评论