基于 SFT 微调提升大模型长文本生成能力 | 极客日志

编程语言AI算法

基于 SFT 微调提升大模型长文本生成能力

大语言模型在生成长文本时普遍存在长度受限问题，主要源于监督微调（SFT）数据集中缺乏长输出样例。本文介绍了通过构建包含 6000 多条长输出样本的 LongWriter-6k 数据集，结合 AgentWrite 流水线自动生成长文本来解决此问题。研究对 GLM-4-9B 和 Llama-3.1-8B 进行了 SFT 微调和直接偏好优化（DPO）。实验表明，新模型能够生成超过一万字的连贯文本，且在长度约束遵循和内容质量上优于现有主流模型。未来构建更长训练数据可进一步突破输出限制。

PentesterX发布于 2025/2/7更新于 2026/4/191 浏览

基于 SFT 微调提升大模型长文本生成能力

LongWriter 模型效果展示

随着大语言模型的发展，许多模型已经能够处理超过 100k+ tokens 的输入上下文。然而，这些模型在生成长文本时，普遍存在输出长度受限的问题。

在实际应用中，为了克服这个问题，人们普遍采用「分而治之」的方法，让模型一段一段地写。这种方法在一定程度上似乎能够解决长文本输出的问题，但往往会导致 1）消耗 tokens 量成倍甚至指数增加；2）前后内容不连贯。

如何才能让模型拥有更强的长文本输出能力呢？我们发现，模型输出长度受限的主要原因在于，监督微调（SFT）数据集缺乏足够长的输出样例。

针对这一问题，我们构建了一个 6000 多条 2k-20k words 不等的长输出数据集 LongWriter-6k，并在此基础上，对 GLM-4-9B 进行 SFT 微调和 DPO 对齐。新的模型拥有了能够生成超过 10,000 字/词连贯文本的能力。

下面是我们用 LongWriter-9B 模型，以「黑神话 · 悟空」为题撰写的玄幻小说。

prompt: 请帮我撰写一个主题为「黑神话·悟空」玄幻小说，小说以孙悟空为核心，讲述一个桀骜不驯，打怪升级，追逐梦想的玄幻故事，不少于 10000 字

论文： https://arxiv.org/abs/2408.07055

代码： https://github.com/THUDM/LongWriter

模型：

Huggingface：https://huggingface.co/THUDM/LongWriter-glm4-9b

魔搭：https://modelscope.cn/models/ZhipuAI/LongWriter-glm4-9b

数据：

Huggingface：https://huggingface.co/datasets/THUDM/LongWriter-6k

魔搭：https://modelscope.cn/datasets/ZhipuAI/LongWriter-6k

生成长度限制的根源

我们对当前最先进的长上下文模型的最大输出长度做了测试，这些测试会明确要求模型生成不同长度的内容，例如：撰写一篇关于罗马帝国历史的 10000 字文章。

模型输出长度对比

从上图可以看出，所有模型生成的内容，几乎都不超过 2000 字。

原因是什么呢？

我们做了一个初步的研究，用不同最大输出长度的数据对 GLM-4-9B-base 模型进行 SFT 微调。结果如下：

SFT 微调结果

极客日志微信公众号二维码

更多推荐文章

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online