用于视觉-语言模型的新型预训练范式S4

分类:大语言模型 | 热度:116 ℃

这篇论文提出了一种名为S4(Strongly Supervised pre-training with ScreenShots)的新型预训练范式,用于视觉-语言模型(Vision-Language Models,简称VLMs)。S4利用大规模网络截图渲染数据,通过丰富的视觉和文本线索来提升模型的性能,这些线索在使用图像-文本对时是不可用的。例如,在一个实际应用场景中,如果我们需要开发一个能够自动从网页截图中提取表格数据的系统,S4预训练模型可以通过表格检测和解析任务,学习到如何识别截图中的表格并理解其内容,从而在没有人工标注的情况下,自动完成数据提取。

主要功能:

S4的核心功能是通过精心设计的预训练任务,提高图像到文本模型在多种下游任务中的性能。这些任务包括屏幕解析、光学字符识别(OCR)、图像定位、元素定位、属性预测、节点关系预测、表格检测、表格解析、屏幕标题生成和布局分析等。

主要特点:

  1. 丰富的监督信息: S4利用HTML元素的树状层次结构和空间定位,从网络渲染中自动生成丰富的标签,这些标签获取成本低廉。
  2. 多样化的预训练任务: S4包含10个不同的预训练任务,这些任务在设计上与下游任务高度相关,能够提升模型在实际应用中的泛化能力。
  3. 显著的性能提升: 在多个流行的下游任务中,S4预训练方法相比现有的截图预训练目标,能够显著提升模型性能,例如在表格检测任务中提升了76.1%,在小部件标题生成任务中至少提升了1%。

工作原理: S4的工作原理是首先从CommonCrawl获取大规模网页数据集,然后使用Playwright工具将原始HTML文件渲染成截图,并提取相应的注释。这些注释包括文本、图像、表格和输入元素的位置、属性和关系。接着,研究者们设计了一系列预训练任务,这些任务能够充分利用这些注释信息,帮助模型学习到与下游任务相关的知识。

具体应用场景:

  1. 图表理解: 在需要从图表中提取信息并回答问题的任务中,S4预训练模型能够更好地理解和生成自然语言回答。
  2. 网页内容总结: 对于需要从网页截图中提取并总结内容的任务,S4预训练模型能够生成更准确的标题和摘要。
  3. 用户界面(UI)元素理解: 在需要为UI元素生成描述性标题的任务中,S4预训练模型能够更准确地识别和描述按钮、滑块等UI元素的功能。
  4. 表格检测和解析: 在需要识别和解析网页中的表格数据的任务中,S4预训练模型能够更准确地检测表格并理解其结构。
S4
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论