苹果发布一种新颖的方法,用于将应用程序(App)的图片与人们可能用来发现该应用程序的搜索短语进行匹配。这种技术对于应用开发者来说非常有用,因为它可以帮助他们更好地推广自己的应用程序。例如,你在开发一个旅游应用,想要吸引用户下载。你可能会上传一些美丽的风景图片到应用商店。这项技术可以帮助你理解哪些图片最有可能吸引那些搜索“度假目的地”或“旅行规划”等短语的用户。通过分析这些图片和搜索短语之间的关联,系统可以推荐最合适的图片,以便在用户进行相关搜索时,你的应用能够出现在搜索结果的前列。
主要功能:
- 图像与文本匹配:自动将应用的图片与潜在用户的搜索查询短语进行匹配。
主要特点:
- 跨模态模型:使用预训练的跨模态模型,该模型能够处理图像和文本两种不同类型的数据。
- 微调方法:对预训练模型进行微调,以便更好地适应搜索文本和应用图片的数据。
- 性能提升:与现有技术相比,这种方法在匹配图像到搜索短语的任务上取得了8%到17%的性能提升。
工作原理:
- 预训练的跨模态架构:模型基于如LXMERT这样的预训练跨模态图像-文本匹配架构,它将输入文本通过WordPiece tokenizer分割并嵌入到词嵌入中,同时使用Faster R-CNN检测输入图像中的对象,并将这些对象嵌入到对象级别的图像嵌入中。
- 编码器应用:分别对词嵌入和检测到的对象应用语言编码器和对象-关系编码器。
- 相关性预测:使用基于Transformer的跨模态编码器预测给定搜索短语和图像对的相关性得分。
具体应用场景:
假设你是一个应用开发者,你希望你的应用能够在用户搜索特定关键词时出现在搜索结果中。使用这项技术,系统可以分析你的应用图片,并推荐与用户可能使用的搜索短语最匹配的图片。例如,如果你的应用是一个美食食谱App,系统可能会推荐使用包含美味佳肴的图片,因为这些图片与用户搜索“美味食谱”或“烹饪灵感”时可能使用的搜索短语高度相关。
0条评论