当前位置：首页 > 优惠 >大语言模型>文章详情

苹果推出Ferret-UI：专门为理解和交互移动用户界面（UI）屏幕而设计的多模态大语言模型

推荐人：暴走AI| 商城: AI | 1年前 (2024-04-10)| 分类：大语言模型 | 热度：211 ℃

已关闭评论

苹果推出Ferret-UI：专门为理解和交互移动用户界面（UI）屏幕而设计的多模态大语言模型

AI

苹果推出Ferret-UI，它是一种专门为理解和交互移动用户界面（UI）屏幕而设计的多模态大语言模型（MLLM）。Ferret-UI旨在提高对移动UI屏幕的理解能力，具备引用、定位和推理等能力。与一般领域的MLLM相比，这些模型在理解和与UI屏幕有效交互方面往往存在不足。例如，如果用户想要在手机上预订餐厅，Ferret-UI可以帮助识别并操作预订应用的UI元素，如填写日期、时间和人数等。它还能够解释屏幕上的视觉元素，如图标代表的功能，或者在与UI元素交互时提供指导。这样的技术可以显著提高用户与移动应用交互的效率和准确性。

苹果推出Ferret-UI：专门为理解和交互移动用户界面（UI）屏幕而设计的多模态大语言模型

主要功能和特点：

UI屏幕理解： Ferret-UI能够识别和理解UI屏幕上的各种元素，如图标、文本等。
灵活的输入格式： 支持多种输入格式，包括点、框、涂鸦等，以便更精确地引用和定位屏幕上的特定元素。
增强的视觉特征： 通过“任何分辨率”技术放大细节，以便更好地处理UI屏幕中的小对象。
执行开放式指令： 能够根据开放式的自然语言指令执行任务，如描述屏幕功能、进行交互对话等。

工作原理： Ferret-UI在模型架构上进行了创新，以适应不同宽高比的屏幕。它将屏幕分成两个子图像，分别编码后发送给语言模型。此外，它还利用预训练的图像编码器和投影层生成整个屏幕的视觉特征。对于需要区域引用的文本，视觉采样器会生成相应的连续区域特征。语言模型结合全图表示、子图表示、区域特征和文本嵌入来生成响应。

具体应用场景：

辅助功能： 可以帮助视觉障碍用户通过语音指令与手机应用进行交互。
多步骤UI导航： 通过理解屏幕上的元素和用户指令，自动导航到应用中的特定功能。
应用测试： 自动化测试移动应用的UI元素，确保它们按预期工作。
可用性研究： 分析用户与应用的交互，改进UI设计。

Ferret-UI 苹果

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：针对长视频理解的视频-大语言模型Koala：帮助模型理解长达数分钟的视频内容，并能够回答关于视频的问题

下一篇： MA-LMM：更有效地理解长期视频内容而设计的记忆增强型大型多模态模型

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2024 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录