美团龙猫大模型 LongCat-Flash-Chat 快速入门

美团龙猫大模型 LongCat-Flash-Chat 快速入门 | 极客日志

1. LongCat-Flash-Chat 大模型简介

1.1 开源模型

9 月 1 日，美团正式发布 LongCat-Flash-Chat（龙猫）大模型。

LongCat-Flash 大模型采用创新性混合专家模型（Mixture-of-Experts，MoE）架构，总参数 560B，激活参数 18.6B~31.3B（平均 27B），实现了计算效率与性能的双重优化。

LongCat-Flash 大模型目前在 Github、Hugging Face 平台同步开源，同时你也可以访问官网 https://longcat.ai/，与 LongCat-Flash-Chat 开启对话。

架构图

开源地址：

GitHub-LongCat

HuggingFace

HuggingFace-LongCat

性能展示

1.2 技术亮点

LongCat-Flash 模型在架构层面引入'零计算专家（Zero-Computation Experts）'机制，总参数量 560B，每个 Token 依据上下文需求仅激活 18.6B~31.3B 参数，实现算力按需分配和高效利用。为控制总算力消耗，训练过程采用 PID 控制器实时微调专家偏置，将单 Token 平均激活量稳定在约 27B。

🌟 可扩展的架构设计以提高计算效率 LongCat-Flash 的设计和优化遵循两个关键原则：高效的计算利用率，以及高效的训练和推理。（1）我们在 MoE 区块中引入了零计算专家机制，根据 tokens 的重要性为其分配动态计算预算，即根据上下文需求激活 18.6 至 313 亿个参数（总共 5600 亿个）。为了确保一致的计算负载，我们采用了由 PID 控制器调整的专家偏差，每个标记平均保持约 270 亿个激活参数。（2）由于通信开销成为 MoE 模型扩展过程中的瓶颈，我们采用了快捷连接的 MoE（ScMoE）设计来扩展计算 - 通信重叠窗口。结合定制的基础设施优化，该设计支持超过数万个加速器的大规模训练，并以高吞吐量和低延迟进行推理。

🌟 有效的模型扩展策略开发了一个全面的稳定性和扩展框架，用于鲁棒地训练大规模模型：（1）我们成功地将超参数传输策略应用于如此大的模型，通过利用具有理论保证的较小代理模型的结果来预测最佳超参数配置。（2）我们使用基于精细半尺度检查点的模型增长机制初始化模型，与传统的初始化方法相比，实现了更高的性能。（3）多管齐下的稳定性套件结合了原则性的路由器梯度平衡、用于抑制大规模激活的隐藏 z 损耗以及微调的优化器配置。（4）为了增强大规模聚类训练的可靠性，我们引入了确定性计算。这保证了实验的精确可重复性，并能够在训练过程中检测 SDC（静默数据损坏）。

🌟 代理能力的多阶段训练管道通过精心设计的管道，LongCat-Flash 被赋予了先进的代理行为。最初的工作重点是构建一个更适合代理后训练的基础模型，其中我们设计了一个两阶段的预训练数据融合策略来集中推理密集型领域数据。在训练中期，我们增强了推理和编码能力，同时将上下文长度扩展到 128k，以满足代理训练后的需求。在此高级基础模型的基础上，我们继续进行多阶段后期训练。认识到智能体任务的高质量、高难度训练问题的稀缺性，我们设计了一个多智能体综合框架，该框架跨三个轴定义任务难度，即信息处理、工具集复杂性和用户交互——使用专门的控制器生成需要迭代推理和环境交互的复杂任务。

通过算法和工程层面的联合设计，LongCat-Flash 在理论上的成本和速度都大幅领先行业同等规模、甚至规模更小的模型；通过系统优化，LongCat-Flash 在 H800 上达成了 100 tokens/s 的生成速度，在保持极致生成速度的同时，输出成本低至 5 元/百万 Token。

性能对比

1.3 性能评估

LongCat-Flash 是一款强大且全能的模型，它在多个领域表现出卓越的性能优势。以下将从不同维度详细解读：

在通用领域知识方面，LongCat-Flash 表现出强劲且全面的性能：在 ArenaHard-V2 基准测试中取得 86.50 的优异成绩，位列所有评估模型中的第二名，充分体现了其在高难度'一对一'对比中的稳健实力。在基础基准测试中仍保持高竞争力，MMLU（多任务语言理解基准）得分为 89.71，CEval（中文通用能力评估基准）得分为 90.44。这些成绩可与目前国内领先的模型比肩，且其参数规模少于 DeepSeek-V3.1、Kimi-K2 等产品，体现出较高的效率。
在智能体（Agentic）工具使用方面，LongCat-Flash 展现出明显优势：即便与参数规模更大的模型相比，其在 τ2-Bench（智能体工具使用基准）中的表现仍超越其他模型；在高复杂度场景下，该模型在 VitaBench（复杂场景智能体基准）中以 24.30 的得分位列第一，彰显出在复杂场景中的强大处理能力。
在编程方面，LongCat-Flash 展现出扎实的实力：其在 TerminalBench（终端命令行任务基准）中，以 39.51 的得分位列第二，体现出在实际智能体命令行任务中的出色熟练度；在 SWE-Bench-Verified（软件工程师能力验证基准）中得分为 60.4，具备较强竞争力。
在指令遵循方面，LongCat-Flash 优势显著：在 IFEval（指令遵循评估基准）中以 89.65 的得分位列第一，展现出在遵循复杂且细致指令时的卓越可靠性；此外，在 COLLIE（中文指令遵循基准）和 Meeseeks-zh（中文多场景指令基准）中也斩获最佳成绩，分别为 57.10 和 43.03，凸显其在中英文两类不同语言、不同高难度指令集上的出色驾驭能力。

评估结果

2. 快速入门

2.1 聊天模板

聊天模板的详细信息在 tokenizer_config.json 文件中提供。下面是一些例子。

第一轮：

使用以下前缀，LongCat-Flash 可以生成与用户查询相对应的响应：

[Round 0]USER:{query} ASSISTANT:

指定系统提示符时，前缀将采用以下格式：

SYSTEM:{system_prompt}[Round 0]USER:{query} ASSISTANT:

多轮：

在多轮次方案中，前缀是通过将上下文与最新的用户查询连接来构造的：

SYSTEM:{system_prompt}[Round 0]USER:{query} ASSISTANT:{response}</longcat_s>... [Round N-1]USER:{query} ASSISTANT:{response}</longcat_s>[Round N]USER:{query} ASSISTANT:

这里，N 表示第 N 轮用户查询，索引从零开始。

工具调用

LongCat-Flash 支持以下格式的工具调用：

{tool_description}## Messages SYSTEM:{system_prompt}[Round 0]USER:{query} ASSISTANT:

tool_description 如下：

## Tools You have access to the following tools: ### Tool namespace: function#### Tool name: {func.name} Description: {func.description} InputSchema: {json.dumps(func.parameters, indent=2)} **Note**: For each function call, return a json object with function name and arguments within <longcat_tool_call></longcat_tool_call> XML tags as follows: <longcat_tool_call>{"name":<function-name>, "arguments":<args-dict>}</longcat_tool_call> When multiple functions need to be called simultaneously, each function call should be wrapped in its own <longcat_tool_call> tag and placed consecutively. For example: <longcat_tool_call>{"name":<function-name>, "arguments":<args-dict>}</longcat_tool_call><longcat_tool_call>{"name":<function-name>, "arguments":<args-dict>}</longcat_tool_call>

部署

我们在 SGLang 和 vLLM 中都实现了基本适配，以支持 LongCat-Flash 的部署。

由于其 5600 亿个参数（560B）的大小，LongCat-Flash 需要至少一个节点（例如 8xH20-141G）来托管 FP8 格式的模型权重，并且至少需要两个节点（例如 16xH800-80G）来托管 BF16 权重。下面提供了详细的启动配置。

2.2 SGLang 部署指南

单节点部署（Single-Node Deployment）

该模型可以使用张量并行性和专家并行性的组合在单个节点上提供服务。

python3 -m sglang.launch_server --model meituan-longcat/LongCat-Flash-Chat-FP8 --trust-remote-code --attention-backend flashinfer --enable-ep-moe --tp 8

多节点部署（Multi-Node Deployment）

在多节点设置中，采用张量并行性和专家并行性，并计划在未来实施其他并行策略。

python3 -m sglang.launch_server --model meituan-longcat/LongCat-Flash-Chat --trust-remote-code --attention-backend flashinfer --enable-ep-moe --tp 16 --nnodes 2 --node-rank $NODE_RANK --dist-init-addr $MASTER_IP:5000

启用多 Token 预测（MTP）

要使用 SGLang 启用 MTP，请将以下参数添加到启动命令中：

--speculative-draft-model-path meituan-longcat/LongCat-Flash-Chat --speculative-algorithm NEXTN --speculative-num-draft-tokens 2 --speculative-num-steps 1 --speculative-eagle-topk 1

2.3 vLLM 部署指南

虽然 vLLM 支持类似于 SGLang 的并行策略，但它们的启动命令使用不同的语法和参数名称。

单节点部署（Single-Node Deployment）

该模型可以使用张量并行性和专家并行性的组合在单个节点上提供服务。

vllm serve meituan-longcat/LongCat-Flash-Chat-FP8 --trust-remote-code --enable-expert-parallel --tensor-parallel-size 8

多节点部署（Multi-Node Deployment）

在多节点设置中，采用张量并行性和专家并行性，并计划在未来实施其他并行策略。

# Node 0
vllm serve meituan-longcat/LongCat-Flash-Chat --trust-remote-code --tensor-parallel-size 8 --data-parallel-size 2 --data-parallel-size-local 1 --data-parallel-address $MASTER_IP --data-parallel-rpc-port 13345
# Node 1
vllm serve meituan-longcat/LongCat-Flash-Chat --trust-remote-code --tensor-parallel-size 8 --data-parallel-size 2 --data-parallel-size-local 1 --data-parallel-start-rank 1 --data-parallel-address $MASTER_IP --data-parallel-rpc-port 13345

启用多 Token 预测（MTP）

要使用 vLLM 启用 MTP，请将以下参数添加到启动命令中：

--speculative_config '{"model": "meituan-longcat/LongCat-Flash-Chat", "num_speculative_tokens": 1, "method":"longcat_flash_mtp"}'

3. 使用示例

使用示例

美团龙猫大模型 LongCat-Flash-Chat 快速入门

1. LongCat-Flash-Chat 大模型简介

1.1 开源模型

1.2 技术亮点

1.3 性能评估

2. 快速入门

2.1 聊天模板

2.2 SGLang 部署指南

2.3 vLLM 部署指南

3. 使用示例

更多推荐文章

相关免费在线工具

美团龙猫大模型 LongCat-Flash-Chat 快速入门

1. LongCat-Flash-Chat 大模型简介

1.1 开源模型

1.2 技术亮点

1.3 性能评估

2. 快速入门

2.1 聊天模板

2.2 SGLang 部署指南

2.3 vLLM 部署指南

3. 使用示例

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具