当前位置：首页 > 优惠 >大语言模型>文章详情

微软Build 2024开发者大会发布Phi-3-vision模型，可在小型设备上运行

推荐人：暴走AI| 商城: AI | 9个月前 (05-22)| 分类：大语言模型 | 热度：244 ℃

已关闭评论

微软Build 2024开发者大会发布Phi-3-vision模型，可在小型设备上运行

在微软Build 2024开发者大会上，微软公布了Phi-3-vision模型，它小巧到足以在手机上执行，同时具备出色的视觉能力，能够理解文字和图片。Phi-3-vision是4月公布的Phi-3模型家族的最新成员，拥有42亿参数，介于Phi-3-mini（3.8亿）和Phi-3-small（7亿）之间。作为Phi-3家族首个多模态模型，Phi-3-vision的文字理解能力基于Phi-3-mini，继承了其轻量级特点，适合在移动设备上运行。它最大的特色是整合了图片识别能力，不仅能理解真实世界的图片，还能识别并提取图片中的文字。Phi-3-vision目前已在Hugging Face平台上以预览版公开。

图表与方块图理解优化

微软表示，Phi-3-vision特别针对图表与方块图理解进行了优化，可以用于产生洞见和回答问题。例如，用户上传不同世代员工使用的职场工具的图表图片后，Phi-3-vision能够分析并提供决策支持的洞见。

Phi-3-vision是基于经过指令调校的Phi-3-128K-Instruct模型，包含Phi-3-mini语言模型、图片编码器、连接器与投影器。其上下文长度为128k token，训练时间为2024年2月至4月。

微软Build 2024开发者大会发布Phi-3-vision模型，可在小型设备上运行

训练资料集

模型训练使用了500亿token的多种类型图片及文字资料，包括精选公开内容、高品质教育资料与代码、图文整合资料、新的"教科书等级"合成资料，以及高品质监督式聊天格式资料。在资料收集过程中，已筛选掉包含个人身份信息的资料，确保隐私保护。

效能比较

微软还提供了Phi-3-vision与其他模型如字节跳动的Llama3-Llava-Next（8亿参数）及LlaVA-1.6（7亿参数）、阿里巴巴的通义千问QWEN-VL-Chat模型的效能比较，显示出Phi-3-vision在多个项目上表现优异。微软的这一最新宣布也加剧了与苹果在本地端AI领域的竞争。在微软公布Phi-3系列后，苹果也公布了OpenELM模型，其最小模型仅含2.7亿参数。

微软Build 2024开发者大会发布Phi-3-vision模型，可在小型设备上运行