Jina AI 推出了 reader-lm-0.5b 和 reader-lm-1.5b 这两款小型大语言模型,它们是专门为从杂乱无章的原始 HTML 代码中直接生成清晰、格式良好的 Markdown 文档而训练的。这两款模型支持多语言输入,并且能够处理长达 256,000 个词汇单位的文本内容。尽管它们的体积只有大型语言模型的五十分之一,但它们在这项任务上的表现却达到了行业领先水平,甚至超过了一些体积更大的模型。(官方介绍)
模型地址:
- reader-lm-0.5b:https://huggingface.co/jinaai/reader-lm-0.5b
- reader-lm-1.5b:https://huggingface.co/jinaai/reader-lm-1.5b
- Demo:https://huggingface.co/spaces/maxiw/HTML-to-Markdown
0条评论