当前位置：首页 > 优惠 >大语言模型>文章详情

谷歌发布论文探讨如何高效地训练能够理解和处理视觉丰富文档

推荐人：暴走AI| 商城: AI | 2年前 (2024-04-03)| 分类：大语言模型 | 热度：638 ℃

已关闭评论

这篇论文的主题是关于如何高效地训练能够理解和处理视觉丰富文档（Visually Rich Documents，简称VRD）的语言模型。VRD是指那些结合了视觉元素（如字体大小、颜色、布局等）和语言信息来传递内容的文档，比如发票、税表、水电费账单、信息图表和保险报价单等。这些文档在商业流程中非常常见，但是它们通常以PDF或图片的形式存在，而且布局和格式多变，给信息提取带来了挑战。

主要功能和特点：

噪声感知训练（Noise-Aware Training）： 论文提出了一种新的方法，称为噪声感知训练（NAT），它能够在训练过程中识别并处理带有噪声的、弱标注的样本，以提高模型的质量。
半监督式持续训练方法： NAT采用了一种半监督的学习方式，它结合了少量的人工标注样本和大量的未标注样本来训练模型，这样可以大幅减少人工标注的成本。
性能和效率的平衡： NAT在保持高效的同时，还能确保模型在信息提取任务上的性能，减少了获取可比性能所需的人工努力。

工作原理：

预训练和微调： 首先，使用预训练模型作为起点，这个模型已经在大量未标注的VRD上进行了训练。然后，通过弱监督源（比如其他模型）给一些未标注的文档赋予弱标签，并结合少量人工标注的文档进行微调。
噪声感知机制： 在微调过程中，NAT会估计每个训练样本的置信度，并将其作为一个不确定性度量纳入训练中。这样可以减少噪声样本对模型质量的负面影响。
合成数据增强： 通过基于规则的数据增强策略生成合成文档，并结合人工标注的文档进一步微调模型，以提高模型的泛化能力。

具体应用场景：