微软Build 2024开发者大会发布Phi-3-vision模型,可在小型设备上运行

分类:大语言模型 | 热度:161 ℃

在微软Build 2024开发者大会上,微软公布了Phi-3-vision模型,它小巧到足以在手机上执行,同时具备出色的视觉能力,能够理解文字和图片。Phi-3-vision是4月公布的Phi-3模型家族的最新成员,拥有42亿参数,介于Phi-3-mini(3.8亿)和Phi-3-small(7亿)之间。作为Phi-3家族首个多模态模型,Phi-3-vision的文字理解能力基于Phi-3-mini,继承了其轻量级特点,适合在移动设备上运行。它最大的特色是整合了图片识别能力,不仅能理解真实世界的图片,还能识别并提取图片中的文字。Phi-3-vision目前已在Hugging Face平台上以预览版公开。

图表与方块图理解优化

微软表示,Phi-3-vision特别针对图表与方块图理解进行了优化,可以用于产生洞见和回答问题。例如,用户上传不同世代员工使用的职场工具的图表图片后,Phi-3-vision能够分析并提供决策支持的洞见。

Phi-3-vision是基于经过指令调校的Phi-3-128K-Instruct模型,包含Phi-3-mini语言模型、图片编码器、连接器与投影器。其上下文长度为128k token,训练时间为2024年2月至4月。

微软Build 2024开发者大会发布Phi-3-vision模型,可在小型设备上运行

训练资料集

模型训练使用了500亿token的多种类型图片及文字资料,包括精选公开内容、高品质教育资料与代码、图文整合资料、新的"教科书等级"合成资料,以及高品质监督式聊天格式资料。在资料收集过程中,已筛选掉包含个人身份信息的资料,确保隐私保护。

效能比较

微软还提供了Phi-3-vision与其他模型如字节跳动的Llama3-Llava-Next(8亿参数)及LlaVA-1.6(7亿参数)、阿里巴巴的通义千问QWEN-VL-Chat模型的效能比较,显示出Phi-3-vision在多个项目上表现优异。微软的这一最新宣布也加剧了与苹果在本地端AI领域的竞争。在微软公布Phi-3系列后,苹果也公布了OpenELM模型,其最小模型仅含2.7亿参数。

微软Build 2024开发者大会发布Phi-3-vision模型,可在小型设备上运行

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论