Hugging Face推出数据集WebSight和一个基于视觉-语言模型(VLM)的系统Sightseer,它们旨在自动化网页截图到HTML代码的转换过程。这项技术对于网页开发者来说非常有价值,因为它可以极大地提高开发效率,尤其是在无代码(no-code)解决方案中。
主要功能和特点:
- WebSight数据集: 包含200万对HTML代码和相应的网页截图,这些数据是合成的,意味着它们是通过大型语言模型生成的,以确保质量和一致性。
- Sightseer模型: 是一个经过WebSight数据集微调的基础VLM,它具备将网页截图转换成功能性HTML代码的能力。
- 高质量输出: Sightseer不仅能够处理简单的网页设计,还能在一定程度上处理手写的网页草图,并将其转换为HTML代码。
工作原理:
- 数据集构建: 首先,使用一个小型语言模型生成多样化的网站主题和设计概念。然后,将这些概念输入到一个专门训练于编码数据的大型语言模型中,以生成最终的HTML代码。
- 模型微调: 使用WebSight数据集对一个拥有80亿参数的基础VLM进行微调,以获得Sightseer模型。微调过程中采用了参数高效的DoRA方法,并手动检查生成的样本以选择最佳的模型检查点。
具体应用场景:
- UI开发: 网页开发者可以使用Sightseer将设计草图快速转换为HTML代码,从而加速UI组件的开发和迭代。
- 无代码工具: 这项技术可以集成到设计工具中,如Figma,允许用户通过提供截图或草图来创建和部署功能性的网页UI组件。
- 自动化测试和文档: WebSight数据集可以用于训练和评估VLMs在自动化网页截图到HTML代码转换任务上的性能。
总的来说,WebSight数据集和Sightseer模型为网页开发领域带来了一种新的自动化工具,它们可以简化开发流程,提高开发效率,并为无代码解决方案提供支持。通过开源这些资源,作者希望能够促进这一领域的进一步创新和研究。
0条评论