适用于多种类型文档的新型信息检索范式“文档截图嵌入(DSE)”

分类:大语言模型 | 热度:72 ℃

滑铁卢大学推出新型信息检索范式“文档截图嵌入”(Document Screenshot Embedding,简称DSE),DSE在实验中表现出与传统文本检索方法(如BM25)相比更高的检索准确性,并且在混合模态任务中也显示出其有效性。这表明DSE是一个有效的文档检索范式,适用于多种类型的文档。

例如,你正在寻找某个文档中的特定信息,但这个文档可能是网页、PDF、幻灯片等不同格式。传统的方法需要对这些文档进行解析和内容提取,这个过程不仅繁琐,还可能丢失信息。你是一名学生,正在准备考试,需要从一堆杂乱的课件和笔记中找到某个特定的概念解释。使用DSE,你只需上传这些课件的截图,系统就能帮你快速定位到包含这个概念的文档页面,而不需要你手动翻阅每一页。

主要功能:

  • DSE将文档的截图作为统一的输入格式,无需进行内容提取预处理,就能保留文档中的所有信息(如文本、图像和布局)。

主要特点:

  • 统一格式:将不同格式和模态的文档统一为截图,简化了处理流程。
  • 信息保留:截图自然地保留了文档的所有视觉信息,包括布局和元素重要性。
  • 高效编码:使用大型视觉-语言模型直接将截图编码为密集的表示,用于检索。

工作原理:

  1. 截图获取:首先,将文档转换为截图,这可以是网页的快照或PDF的图像。
  2. 编码过程:然后,使用视觉编码器处理截图,生成一系列潜在表示。
  3. 语言模型融合:为了捕捉更细粒度的信息,使用大型视觉-语言模型进一步编码这些潜在表示。
  4. 检索匹配:在搜索时,用户的查询通过语言模型编码,以定位最接近的文档嵌入。

具体应用场景:

  • 文本密集型文档检索:例如,使用Wiki-SS数据集,包含130万张维基百科网页的截图,DSE在回答自然问题数据集(Natural Questions)中的问题时表现出色。
  • 混合模态任务:例如,在幻灯片检索任务中,DSE显著优于依赖OCR文本检索的方法。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论