Hugging Face推出数据集WebSight和基于视觉-语言模型的系统Sightseer:它们旨在自动化网页截图到HTML代码的转换过程

分类:大语言模型 | 热度:192 ℃

Hugging Face推出数据集WebSight和一个基于视觉-语言模型(VLM)的系统Sightseer,它们旨在自动化网页截图到HTML代码的转换过程。这项技术对于网页开发者来说非常有价值,因为它可以极大地提高开发效率,尤其是在无代码(no-code)解决方案中。

主要功能和特点:

  • WebSight数据集: 包含200万对HTML代码和相应的网页截图,这些数据是合成的,意味着它们是通过大型语言模型生成的,以确保质量和一致性。
  • Sightseer模型: 是一个经过WebSight数据集微调的基础VLM,它具备将网页截图转换成功能性HTML代码的能力。
  • 高质量输出: Sightseer不仅能够处理简单的网页设计,还能在一定程度上处理手写的网页草图,并将其转换为HTML代码。

工作原理:

  • 数据集构建: 首先,使用一个小型语言模型生成多样化的网站主题和设计概念。然后,将这些概念输入到一个专门训练于编码数据的大型语言模型中,以生成最终的HTML代码。
  • 模型微调: 使用WebSight数据集对一个拥有80亿参数的基础VLM进行微调,以获得Sightseer模型。微调过程中采用了参数高效的DoRA方法,并手动检查生成的样本以选择最佳的模型检查点。

具体应用场景:

  • UI开发: 网页开发者可以使用Sightseer将设计草图快速转换为HTML代码,从而加速UI组件的开发和迭代。
  • 无代码工具: 这项技术可以集成到设计工具中,如Figma,允许用户通过提供截图或草图来创建和部署功能性的网页UI组件。
  • 自动化测试和文档: WebSight数据集可以用于训练和评估VLMs在自动化网页截图到HTML代码转换任务上的性能。

总的来说,WebSight数据集和Sightseer模型为网页开发领域带来了一种新的自动化工具,它们可以简化开发流程,提高开发效率,并为无代码解决方案提供支持。通过开源这些资源,作者希望能够促进这一领域的进一步创新和研究。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论