当前位置：首页 > 优惠 >大语言模型>文章详情

用于视觉-语言模型的新型预训练范式S4

推荐人：暴走AI| 商城: AI | 1年前 (2024-03-09)| 分类：大语言模型 | 热度：206 ℃

已关闭评论

这篇论文提出了一种名为S4（Strongly Supervised pre-training with ScreenShots）的新型预训练范式，用于视觉-语言模型（Vision-Language Models，简称VLMs）。S4利用大规模网络截图渲染数据，通过丰富的视觉和文本线索来提升模型的性能，这些线索在使用图像-文本对时是不可用的。例如，在一个实际应用场景中，如果我们需要开发一个能够自动从网页截图中提取表格数据的系统，S4预训练模型可以通过表格检测和解析任务，学习到如何识别截图中的表格并理解其内容，从而在没有人工标注的情况下，自动完成数据提取。

主要功能：

S4的核心功能是通过精心设计的预训练任务，提高图像到文本模型在多种下游任务中的性能。这些任务包括屏幕解析、光学字符识别（OCR）、图像定位、元素定位、属性预测、节点关系预测、表格检测、表格解析、屏幕标题生成和布局分析等。

主要特点：

丰富的监督信息： S4利用HTML元素的树状层次结构和空间定位，从网络渲染中自动生成丰富的标签，这些标签获取成本低廉。
多样化的预训练任务： S4包含10个不同的预训练任务，这些任务在设计上与下游任务高度相关，能够提升模型在实际应用中的泛化能力。
显著的性能提升： 在多个流行的下游任务中，S4预训练方法相比现有的截图预训练目标，能够显著提升模型性能，例如在表格检测任务中提升了76.1%，在小部件标题生成任务中至少提升了1%。

工作原理： S4的工作原理是首先从CommonCrawl获取大规模网页数据集，然后使用Playwright工具将原始HTML文件渲染成截图，并提取相应的注释。这些注释包括文本、图像、表格和输入元素的位置、属性和关系。接着，研究者们设计了一系列预训练任务，这些任务能够充分利用这些注释信息，帮助模型学习到与下游任务相关的知识。

具体应用场景：