苹果推出Ferret-UI,它是一种专门为理解和交互移动用户界面(UI)屏幕而设计的多模态大语言模型(MLLM)。Ferret-UI旨在提高对移动UI屏幕的理解能力,具备引用、定位和推理等能力。与一般领域的MLLM相比,这些模型在理解和与UI屏幕有效交互方面往往存在不足。例如,如果用户想要在手机上预订餐厅,Ferret-UI可以帮助识别并操作预订应用的UI元素,如填写日期、时间和人数等。它还能够解释屏幕上的视觉元素,如图标代表的功能,或者在与UI元素交互时提供指导。这样的技术可以显著提高用户与移动应用交互的效率和准确性。
主要功能和特点:
- UI屏幕理解: Ferret-UI能够识别和理解UI屏幕上的各种元素,如图标、文本等。
- 灵活的输入格式: 支持多种输入格式,包括点、框、涂鸦等,以便更精确地引用和定位屏幕上的特定元素。
- 增强的视觉特征: 通过“任何分辨率”技术放大细节,以便更好地处理UI屏幕中的小对象。
- 执行开放式指令: 能够根据开放式的自然语言指令执行任务,如描述屏幕功能、进行交互对话等。
工作原理: Ferret-UI在模型架构上进行了创新,以适应不同宽高比的屏幕。它将屏幕分成两个子图像,分别编码后发送给语言模型。此外,它还利用预训练的图像编码器和投影层生成整个屏幕的视觉特征。对于需要区域引用的文本,视觉采样器会生成相应的连续区域特征。语言模型结合全图表示、子图表示、区域特征和文本嵌入来生成响应。
具体应用场景:
- 辅助功能: 可以帮助视觉障碍用户通过语音指令与手机应用进行交互。
- 多步骤UI导航: 通过理解屏幕上的元素和用户指令,自动导航到应用中的特定功能。
- 应用测试: 自动化测试移动应用的UI元素,确保它们按预期工作。
- 可用性研究: 分析用户与应用的交互,改进UI设计。
0条评论