新型大语言模型LongWriter:能够生成超过10,000个词的超长文本

分类:大语言模型 | 热度:122 ℃

清华大学和智谱AI的研究人员推出新型大语言模型LongWriter,它能够生成超过10,000个词的超长文本。这在人工智能领域是一个重要的突破,因为现有的大型语言模型虽然能够处理长达100,000个词的输入,但在生成文本时却难以超过2,000个词的限制。例如,你是一位历史学家,需要写一篇关于罗马帝国历史的深入分析文章。使用LongWriter,你可以给出一个指令,比如“写一篇30,000词关于罗马帝国历史的文章”,然后LongWriter会帮你规划文章结构,生成每个部分的内容,最终合成一篇完整的长篇历史分析,而不需要你自己去组织和撰写每一个部分。这样,你就有更多时间专注于研究和审阅,而不是写作过程中的细节。

  • GitHub:https://github.com/THUDM/LongWriter
  • 数据:https://huggingface.co/datasets/THUDM/LongWriter-6k
  • Demo:https://huggingface.co/spaces/THUDM/LongWriter

主要功能和特点:

  1. 超长文本生成:LongWriter能够生成长达10,000个词甚至更多的连贯文本,这远超现有模型的能力。
  2. AgentWrite:一个基于代理的流水线,它将超长文本任务分解为多个子任务,使得现有的LLM能够生成超过20,000个词的连贯输出。
  3. 数据集构建:研究者创建了一个名为"LongWriter-6k"的数据集,包含6,000个监督式微调(SFT)数据,输出长度从2k到32k个词不等。
  4. 质量保持:在扩展输出长度的同时,LongWriter还能够保持输出的质量。

工作原理:

  • AgentWrite流水线:首先制定详细的写作计划,概述每个段落的结构和目标词数,然后根据这个计划依次提示模型生成每个段落的内容。
  • 数据集构建:使用AgentWrite流水线和现有的大型语言模型(如GPT-4o)生成长输出的SFT数据,构建了LongWriter-6k数据集。
  • 模型训练:将LongWriter-6k数据集纳入模型训练,通过直接偏好优化(DPO)进一步提升模型遵循长写作指令和生成高质量文本内容的能力。

具体应用场景:

  • 学术写作:LongWriter可以帮助学者和研究人员生成长篇的学术论文和报告。
  • 创意写作:对于需要创作长篇故事、小说或剧本的作家来说,LongWriter可以作为一个强大的辅助工具。
  • 技术文档:在需要编写详尽的技术手册或指南时,LongWriter能够提供连贯和一致的长文本输出。
  • 教育材料:教育工作者可以利用LongWriter生成详细的课程计划、教学大纲或学习材料。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论