阿里巴巴和华中科技大学的研究人员推出一种新型视觉文本生成方法,称为SceneVTG(Scene Visual Text Generator),它能够在野外环境(即非受控的自然环境)中生成高质量的文本图像。这项技术特别关注于生成的文本图像需要满足三个关键标准:真实性(Fidelity)、合理性(Reasonability... 阅读全文
以色列赖希曼大学和亚马逊AWS AI 实验室的研究人员推出新型视觉文档理解方法VisFocus,它是一种无需光学字符识别(OCR)的技术,能够直接从图像中理解文档内容。这种方法特别适用于处理包含大量文本的密集文档,比如PDF文件或图像。 例如,你有一张包含许多文本的PDF文档的图像,并想知道文档中提到的某个特定信息(比... 阅读全文
微信 AI 模式识别中心的研究人员推出一种新的训练方法,名为“Patch-Level Training”,用于提高大语言模型(LLMs)的训练效率。这种方法通过将多个词元(tokens)压缩成一个“补丁”(patch),从而减少序列长度,降低计算成本。例如,我们有一个句子 "The quick brown fox ju... 阅读全文