当前位置：首页 > 优惠 >大语言模型>文章详情

适用于多种类型文档的新型信息检索范式“文档截图嵌入（DSE）”

推荐人：暴走AI| 商城: AI | 2年前 (2024-06-18)| 分类：大语言模型 | 热度：556 ℃

已关闭评论

适用于多种类型文档的新型信息检索范式“文档截图嵌入（DSE）”

AI

滑铁卢大学推出新型信息检索范式“文档截图嵌入”（Document Screenshot Embedding，简称DSE），DSE在实验中表现出与传统文本检索方法（如BM25）相比更高的检索准确性，并且在混合模态任务中也显示出其有效性。这表明DSE是一个有效的文档检索范式，适用于多种类型的文档。

例如，你正在寻找某个文档中的特定信息，但这个文档可能是网页、PDF、幻灯片等不同格式。传统的方法需要对这些文档进行解析和内容提取，这个过程不仅繁琐，还可能丢失信息。你是一名学生，正在准备考试，需要从一堆杂乱的课件和笔记中找到某个特定的概念解释。使用DSE，你只需上传这些课件的截图，系统就能帮你快速定位到包含这个概念的文档页面，而不需要你手动翻阅每一页。

主要功能：

DSE将文档的截图作为统一的输入格式，无需进行内容提取预处理，就能保留文档中的所有信息（如文本、图像和布局）。

主要特点：

统一格式：将不同格式和模态的文档统一为截图，简化了处理流程。
信息保留：截图自然地保留了文档的所有视觉信息，包括布局和元素重要性。
高效编码：使用大型视觉-语言模型直接将截图编码为密集的表示，用于检索。

工作原理：

截图获取：首先，将文档转换为截图，这可以是网页的快照或PDF的图像。
编码过程：然后，使用视觉编码器处理截图，生成一系列潜在表示。
语言模型融合：为了捕捉更细粒度的信息，使用大型视觉-语言模型进一步编码这些潜在表示。
检索匹配：在搜索时，用户的查询通过语言模型编码，以定位最接近的文档嵌入。

具体应用场景：

文本密集型文档检索：例如，使用Wiki-SS数据集，包含130万张维基百科网页的截图，DSE在回答自然问题数据集（Natural Questions）中的问题时表现出色。
混合模态任务：例如，在幻灯片检索任务中，DSE显著优于依赖OCR文本检索的方法。

DSE 文档截图嵌入

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇： MAGPIE：从大语言模型中合成高质量的指令数据

下一篇：一种基于L2范数的简单而有效的策略，用于压缩大语言模型中的键值（KV）缓存

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2026 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录