美团龙猫大模型 LongCat-Flash-Chat 快速入门
美团发布 LongCat-Flash-Chat 大模型,采用 560B 总参数量 MoE 架构,激活参数 18.6B~31.3B。支持 SGLang 和 vLLM 部署,具备高吞吐低延迟特性。在通用知识、智能体工具使用、编程及指令遵循等基准测试中表现优异,部分指标位列第一。提供详细的聊天模板配置与多节点部署方案。

美团发布 LongCat-Flash-Chat 大模型,采用 560B 总参数量 MoE 架构,激活参数 18.6B~31.3B。支持 SGLang 和 vLLM 部署,具备高吞吐低延迟特性。在通用知识、智能体工具使用、编程及指令遵循等基准测试中表现优异,部分指标位列第一。提供详细的聊天模板配置与多节点部署方案。

9 月 1 日,美团正式发布 LongCat-Flash-Chat(龙猫)大模型。
LongCat-Flash 大模型采用创新性混合专家模型(Mixture-of-Experts,MoE)架构,总参数 560B,激活参数 18.6B~31.3B(平均 27B),实现了计算效率与性能的双重优化。
LongCat-Flash 大模型目前在 Github、Hugging Face 平台同步开源,同时你也可以访问官网 https://longcat.ai/,与 LongCat-Flash-Chat 开启对话。

开源地址:


LongCat-Flash 模型在架构层面引入'零计算专家(Zero-Computation Experts)'机制,总参数量 560B,每个 Token 依据上下文需求仅激活 18.6B~31.3B 参数,实现算力按需分配和高效利用。为控制总算力消耗,训练过程采用 PID 控制器实时微调专家偏置,将单 Token 平均激活量稳定在约 27B。
🌟 可扩展的架构设计以提高计算效率 LongCat-Flash 的设计和优化遵循两个关键原则:高效的计算利用率,以及高效的训练和推理。 (1)我们在 MoE 区块中引入了零计算专家机制,根据 tokens 的重要性为其分配动态计算预算,即根据上下文需求激活 18.6 至 313 亿个参数(总共 5600 亿个)。为了确保一致的计算负载,我们采用了由 PID 控制器调整的专家偏差,每个标记平均保持约 270 亿个激活参数。 (2)由于通信开销成为 MoE 模型扩展过程中的瓶颈,我们采用了快捷连接的 MoE(ScMoE)设计来扩展计算 - 通信重叠窗口。结合定制的基础设施优化,该设计支持超过数万个加速器的大规模训练,并以高吞吐量和低延迟进行推理。
🌟 有效的模型扩展策略 开发了一个全面的稳定性和扩展框架,用于鲁棒地训练大规模模型: (1)我们成功地将超参数传输策略应用于如此大的模型,通过利用具有理论保证的较小代理模型的结果来预测最佳超参数配置。 (2)我们使用基于精细半尺度检查点的模型增长机制初始化模型,与传统的初始化方法相比,实现了更高的性能。 (3)多管齐下的稳定性套件结合了原则性的路由器梯度平衡、用于抑制大规模激活的隐藏 z 损耗以及微调的优化器配置。 (4)为了增强大规模聚类训练的可靠性,我们引入了确定性计算。这保证了实验的精确可重复性,并能够在训练过程中检测 SDC(静默数据损坏)。
🌟 代理能力的多阶段训练管道 通过精心设计的管道,LongCat-Flash 被赋予了先进的代理行为。最初的工作重点是构建一个更适合代理后训练的基础模型,其中我们设计了一个两阶段的预训练数据融合策略来集中推理密集型领域数据。在训练中期,我们增强了推理和编码能力,同时将上下文长度扩展到 128k,以满足代理训练后的需求。在此高级基础模型的基础上,我们继续进行多阶段后期训练。认识到智能体任务的高质量、高难度训练问题的稀缺性,我们设计了一个多智能体综合框架,该框架跨三个轴定义任务难度,即信息处理、工具集复杂性和用户交互——使用专门的控制器生成需要迭代推理和环境交互的复杂任务。
通过算法和工程层面的联合设计,LongCat-Flash 在理论上的成本和速度都大幅领先行业同等规模、甚至规模更小的模型;通过系统优化,LongCat-Flash 在 H800 上达成了 100 tokens/s 的生成速度,在保持极致生成速度的同时,输出成本低至 5 元/百万 Token。

LongCat-Flash 是一款强大且全能的模型,它在多个领域表现出卓越的性能优势。以下将从不同维度详细解读:

聊天模板的详细信息在 tokenizer_config.json 文件中提供。下面是一些例子。
第一轮:
使用以下前缀,LongCat-Flash 可以生成与用户查询相对应的响应:
[Round 0]USER:{query} ASSISTANT:
指定系统提示符时,前缀将采用以下格式:
SYSTEM:{system_prompt}[Round 0]USER:{query} ASSISTANT:
多轮:
在多轮次方案中,前缀是通过将上下文与最新的用户查询连接来构造的:
SYSTEM:{system_prompt}[Round 0]USER:{query} ASSISTANT:{response}</longcat_s>... [Round N-1]USER:{query} ASSISTANT:{response}</longcat_s>[Round N]USER:{query} ASSISTANT:
这里,N 表示第 N 轮用户查询,索引从零开始。
工具调用
LongCat-Flash 支持以下格式的工具调用:
{tool_description}## Messages SYSTEM:{system_prompt}[Round 0]USER:{query} ASSISTANT:
tool_description 如下:
## Tools You have access to the following tools: ### Tool namespace: function#### Tool name: {func.name} Description: {func.description} InputSchema: {json.dumps(func.parameters, indent=2)} **Note**: For each function call, return a json object with function name and arguments within <longcat_tool_call></longcat_tool_call> XML tags as follows: <longcat_tool_call>{"name":<function-name>, "arguments":<args-dict>}</longcat_tool_call> When multiple functions need to be called simultaneously, each function call should be wrapped in its own <longcat_tool_call> tag and placed consecutively. For example: <longcat_tool_call>{"name":<function-name>, "arguments":<args-dict>}</longcat_tool_call><longcat_tool_call>{"name":<function-name>, "arguments":<args-dict>}</longcat_tool_call>
部署
我们在 SGLang 和 vLLM 中都实现了基本适配,以支持 LongCat-Flash 的部署。
由于其 5600 亿个参数(560B)的大小,LongCat-Flash 需要至少一个节点(例如 8xH20-141G)来托管 FP8 格式的模型权重,并且至少需要两个节点(例如 16xH800-80G)来托管 BF16 权重。下面提供了详细的启动配置。
单节点部署(Single-Node Deployment)
该模型可以使用张量并行性和专家并行性的组合在单个节点上提供服务。
python3 -m sglang.launch_server --model meituan-longcat/LongCat-Flash-Chat-FP8 --trust-remote-code --attention-backend flashinfer --enable-ep-moe --tp 8
多节点部署(Multi-Node Deployment)
在多节点设置中,采用张量并行性和专家并行性,并计划在未来实施其他并行策略。
python3 -m sglang.launch_server --model meituan-longcat/LongCat-Flash-Chat --trust-remote-code --attention-backend flashinfer --enable-ep-moe --tp 16 --nnodes 2 --node-rank $NODE_RANK --dist-init-addr $MASTER_IP:5000
启用多 Token 预测(MTP)
要使用 SGLang 启用 MTP,请将以下参数添加到启动命令中:
--speculative-draft-model-path meituan-longcat/LongCat-Flash-Chat --speculative-algorithm NEXTN --speculative-num-draft-tokens 2 --speculative-num-steps 1 --speculative-eagle-topk 1
虽然 vLLM 支持类似于 SGLang 的并行策略,但它们的启动命令使用不同的语法和参数名称。
单节点部署(Single-Node Deployment)
该模型可以使用张量并行性和专家并行性的组合在单个节点上提供服务。
vllm serve meituan-longcat/LongCat-Flash-Chat-FP8 --trust-remote-code --enable-expert-parallel --tensor-parallel-size 8
多节点部署(Multi-Node Deployment)
在多节点设置中,采用张量并行性和专家并行性,并计划在未来实施其他并行策略。
# Node 0
vllm serve meituan-longcat/LongCat-Flash-Chat --trust-remote-code --tensor-parallel-size 8 --data-parallel-size 2 --data-parallel-size-local 1 --data-parallel-address $MASTER_IP --data-parallel-rpc-port 13345
# Node 1
vllm serve meituan-longcat/LongCat-Flash-Chat --trust-remote-code --tensor-parallel-size 8 --data-parallel-size 2 --data-parallel-size-local 1 --data-parallel-start-rank 1 --data-parallel-address $MASTER_IP --data-parallel-rpc-port 13345
启用多 Token 预测(MTP)
要使用 vLLM 启用 MTP,请将以下参数添加到启动命令中:
--speculative_config '{"model": "meituan-longcat/LongCat-Flash-Chat", "num_speculative_tokens": 1, "method":"longcat_flash_mtp"}'


微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online