当前位置：首页 > 优惠 >大语言模型>文章详情

PiT：更细致地理解图像内容，而不是依赖于局部区域的信息

推荐人：暴走AI| 商城: AI | 1年前 (2024-06-17)| 分类：大语言模型 | 热度：279 ℃

已关闭评论

Meta AI和阿姆斯特丹大学的研究人员发布论文，论文的核心主题是对现代计算机视觉架构中一个长期存在的假设——局部性（locality）的必要性提出质疑。局部性是指在图像处理中，相邻像素之间的关联性比相隔较远的像素要强。传统上，包括卷积神经网络（ConvNets）在内的许多视觉模型都依赖于这种局部性偏见来设计和优化性能。论文的结论强调，尽管PiT在理论上具有挑战传统架构的潜力，但在实际应用中，由于其对计算资源的高需求，目前还不太实用。然而，这项研究提供了一个重要的视角，即在设计新一代计算机视觉模型时，局部性偏见可能并不是必需的。

例如，我们有一张图片，传统的方法会将图片分成很多16x16的小格子，每个格子是一个处理单元。但PiT不同，它将每个像素点视为一个单独的字母，就像在处理文本一样，每个字母都是独立的。这样，PiT就可以更细致地理解图像内容，而不是依赖于局部区域的信息。

主要功能和特点：

挑战传统假设：论文中提出了一种新的视角，即使用Transformer模型直接处理每个单独像素作为独立单元（token），而不是将像素组织成小块（例如16x16的patch）。
高效性能：尽管按像素处理在计算上不太实际，但研究结果表明，这种“像素Transformer”（PiT，Pixel Transformer）在多个计算机视觉任务上取得了与基于局部性偏见的模型相比更高的性能。
减少偏见：PiT通过消除局部性偏见，允许模型从数据中学习而非依赖预设的结构。

工作原理：

Transformer基础：Transformer模型最初是为处理自然语言设计的，它通过注意力机制（Self-Attention）来处理数据，允许模型在处理时考虑序列中所有元素的关系。
像素作为Token：在PiT中，每个像素都被当作一个独立的token输入到Transformer中，而不是将它们组织成更大的视觉单元。
学习位置嵌入：PiT使用从零开始学习的位置嵌入（position embeddings），而不是基于固定模式（如sin-cos函数）的位置信息。