清华大学和智谱AI的研究人员推出新型大语言模型LongWriter,它能够生成超过10,000个词的超长文本。这在人工智能领域是一个重要的突破,因为现有的大型语言模型虽然能够处理长达100,000个词的输入,但在生成文本时却难以超过2,000个词的限制。例如,你是一位历史学家,需要写一篇关于罗马帝国历史的深入分析文章。使用LongWriter,你可以给出一个指令,比如“写一篇30,000词关于罗马帝国历史的文章”,然后LongWriter会帮你规划文章结构,生成每个部分的内容,最终合成一篇完整的长篇历史分析,而不需要你自己去组织和撰写每一个部分。这样,你就有更多时间专注于研究和审阅,而不是写作过程中的细节。
- GitHub:https://github.com/THUDM/LongWriter
- 数据:https://huggingface.co/datasets/THUDM/LongWriter-6k
- Demo:https://huggingface.co/spaces/THUDM/LongWriter
主要功能和特点:
- 超长文本生成:LongWriter能够生成长达10,000个词甚至更多的连贯文本,这远超现有模型的能力。
- AgentWrite:一个基于代理的流水线,它将超长文本任务分解为多个子任务,使得现有的LLM能够生成超过20,000个词的连贯输出。
- 数据集构建:研究者创建了一个名为"LongWriter-6k"的数据集,包含6,000个监督式微调(SFT)数据,输出长度从2k到32k个词不等。
- 质量保持:在扩展输出长度的同时,LongWriter还能够保持输出的质量。
工作原理:
- AgentWrite流水线:首先制定详细的写作计划,概述每个段落的结构和目标词数,然后根据这个计划依次提示模型生成每个段落的内容。
- 数据集构建:使用AgentWrite流水线和现有的大型语言模型(如GPT-4o)生成长输出的SFT数据,构建了LongWriter-6k数据集。
- 模型训练:将LongWriter-6k数据集纳入模型训练,通过直接偏好优化(DPO)进一步提升模型遵循长写作指令和生成高质量文本内容的能力。
具体应用场景:
- 学术写作:LongWriter可以帮助学者和研究人员生成长篇的学术论文和报告。
- 创意写作:对于需要创作长篇故事、小说或剧本的作家来说,LongWriter可以作为一个强大的辅助工具。
- 技术文档:在需要编写详尽的技术手册或指南时,LongWriter能够提供连贯和一致的长文本输出。
- 教育材料:教育工作者可以利用LongWriter生成详细的课程计划、教学大纲或学习材料。
0条评论