跳到主要内容 跃阶星辰 AI 开源 Step-3.5-Flash 本地部署指南 | 极客日志
Python Node.js AI 算法
跃阶星辰 AI 开源 Step-3.5-Flash 本地部署指南 介绍跃阶星辰 AI 开源模型 Step-3.5-Flash,涵盖其核心能力、性能基准测试及架构细节。提供基于 vLLM、SGLang、Transformers 及 llama.cpp 的本地部署方案,并包含 API 调用示例及在 Claude Code、Codex 等平台的集成配置方法。
ApiHolic 发布于 2026/4/5 更新于 2026/4/17 7 浏览1. 简介
Step 3.5 Flash (访问官网 )是我们目前最强大的开源基础模型,专为提供前沿推理与智能体能力而设计,同时具备卓越的效率。基于稀疏混合专家(MoE)架构,它每处理一个 token 仅激活 1960 亿参数中的 110 亿。这种'智能密度'使其推理深度可比肩顶级闭源模型,同时保持实时交互所需的敏捷性。
2. 核心能力
高速深度推理 :聊天机器人擅长阅读,而智能体必须快速推理。通过三路多 token 预测(MTP-3)技术,Step 3.5 Flash 在典型使用场景中实现100-300 tok/s 的生成吞吐量(单流编码任务峰值达350 tok/s ),能即时响应复杂的多步推理链条。
编码与智能体的强力引擎 :Step 3.5 Flash 专为智能体任务打造,集成可扩展的强化学习框架驱动持续自我进化。其SWE-bench Verified 通过率 74.4% ,Terminal-Bench 2.0 通过率 51.0% ,证明其能以稳定性能处理复杂长周期任务。
高效长上下文 :模型采用 3:1 滑动窗口注意力(SWA)比例,支持经济高效的256K 上下文窗口 ——每层全注意力层搭配三层 SWA 层。这种混合方案确保海量数据或长代码库场景下的稳定表现,同时显著降低标准长上下文模型常见的计算开销。
便捷本地部署 :Step 3.5 Flash 针对易用性优化,将顶级智能带入本地环境。可在高端消费级硬件(如 Mac Studio M4 Max、NVIDIA DGX Spark)上安全运行,在保障数据隐私的同时不牺牲性能。
3. 性能表现
Step 3.5 Flash 在保持开放与高效的同时,实现了与领先闭源系统同等的性能。
Step 3.5 Flash 在推理 、编程 和代理能力 方面的性能表现。开源模型(左侧)按其总参数量排序,顶级专有模型展示在右侧。xbench-DeepSearch 分数均引自 官方出版物 以确保一致性。阴影条代表 Step 3.5 Flash 采用 并行思维 技术后的增强性能。
详细基准测试
Benchmark Step 3.5 Flash DeepSeek V3.2 Kimi K2 Thinking / K2.5 GLM-4.7 MiniMax M2.1 MiMo-V2 Flash # Activated Params 11B 37B 32B 32B 10B 15B # Total Params (MoE) 196B 671B
微信扫一扫,关注极客日志 微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
相关免费在线工具 加密/解密文本 使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
RSA密钥对生成器 生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
Mermaid 预览与可视化编辑 基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
curl 转代码 解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
Base64 字符串编码/解码 将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
Base64 文件转换器 将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
Est. decoding cost (@ 128K context, Hopper GPU**) 1.0x (100 tok/s, MTP-3, EP8)6.0x (33 tok/s, MTP-1, EP32) 18.9x (33 tok/s, no MTP, EP32) 18.9x (100 tok/s, MTP-3, EP8) 3.9x (100 tok/s, MTP-3, EP8) 1.2x (100 tok/s, MTP-3, EP8)
τ²-Bench 88.2 80.3 74.3* / — 87.4 80.2* 80.3
BrowseComp 51.6 51.4 41.5* / 60.6 52.0 47.4 45.4
BrowseComp (w/ Context Manager) 69.0 67.6 60.2 / 74.9 67.5 62.0 58.3
BrowseComp-ZH 66.9 65.0 62.3 / 62.3* 66.6 47.8* 51.2*
BrowseComp-ZH (w/ Context Manager) 73.7 — — / — — — —
GAIA (no file) 84.5 75.1* 75.6* / 75.9* 61.9* 64.3* 78.2*
xbench-DeepSearch (2025.05) 83.7 78.0* 76.0* / 76.7* 72.0* 68.7* 69.3*
xbench-DeepSearch (2025.10) 56.3 55.7* — / 40+ 52.3* 43.0* 44.0*
ResearchRubrics 65.3 55.8* 56.2* / 59.5* 62.0* 60.2* 54.3*
AIME 2025 97.3 93.1 94.5 / 96.1 95.7 83.0 94.1 (95.1*)
HMMT 2025 (Feb.) 98.4 92.5 89.4 / 95.4 97.1 71.0* 84.4 (95.4*)
HMMT 2025 (Nov.) 94.0 90.2 89.2* / — 93.5 74.3* 91.0*
IMOAnswerBench 85.4 78.3 78.6 / 81.8 82.0 60.4* 80.9*
LiveCodeBench-V6 86.4 83.3 83.1 / 85.0 84.9 — 80.6 (81.6*)
SWE-bench Verified 74.4 73.1 71.3 / 76.8 73.8 74.0 73.4
Terminal-Bench 2.0 51.0 46.4 35.7* / 50.8 41.0 47.9 38.5
'—' 表示分数未公开或未测试。
'*' 表示原始分数无法获取或低于我们复现的结果,因此我们按照与 Step 3.5 Flash 相同的测试条件进行评估,以确保公平可比性。
BrowseComp(带上下文管理器) :当有效上下文长度超过预设阈值时,代理会重置上下文并重启代理循环。相比之下,Kimi K2.5 和 DeepSeek-V3.2 采用了'全丢弃'策略。
解码成本 :估算方法类似于 arxiv.org/abs/2507.19427 中描述的方式,但精度更高。
4. 架构细节 Step 3.5 Flash 基于 稀疏混合专家(MoE) Transformer 架构构建,专为推理时的高吞吐量和低显存占用优化。
4.1 技术规格 组件 规格 主干架构 45 层 Transformer(4,096 隐藏维度) 上下文窗口 256K 词表 128,896 个 token 总参数量 1968.1 亿 (1960 亿主干 + 8.1 亿头部)激活参数量 约 110 亿 (每 token 生成时)
4.2 混合专家(MoE)路由 与传统密集模型不同,Step 3.5 Flash 采用细粒度路由策略以最大化效率:
细粒度专家 :每层 288 个路由专家 + 1 个共享专家(始终激活)。
稀疏激活 :每个 token 仅选择 Top-8 专家。
效果 :模型保留 1960 亿参数规模的'记忆',但以 110 亿参数模型的速度执行。
4.3 多 token 预测(MTP) 为提升推理速度,我们采用了专用的 MTP 头部模块,包含滑动窗口注意力机制和密集前馈网络(FFN)。该模块在单次前向传播中同时预测 4 个 token,显著加速推理且不降低质量。
5. 快速开始 您可以通过我们支持的提供商使用云 API,在几分钟内开始使用 Step 3.5 Flash。
5.1 获取 API 密钥
OpenRouter 目前为 Step 3.5 Flash 提供免费试用。
5.2 安装配置 安装标准的 OpenAI SDK(兼容两个平台)。
pip install --upgrade "openai>=1.0"
注意:OpenRouter 支持多种 SDK。了解更多信息请点击 此处 。
5.3 实现示例 本示例展示了如何与 Step 3.5 Flash 开始聊天。
from openai import OpenAI
client = OpenAI(
api_key="YOUR_API_KEY" ,
base_url="https://api.stepfun.ai/v1" ,
default_headers={"HTTP-Referer" :"<YOUR_SITE_URL>" ,"X-Title" :"<YOUR_SITE_NAME>" ,}
)
completion = client.chat.completions.create(
model="step-3.5-flash" ,
messages=[{"role" :"system" ,"content" :"You are an AI chat assistant provided by StepFun. You are good at Chinese, English, and many other languages." },{"role" :"user" ,"content" :"Introduce StepFun's artificial intelligence capabilities." },],
)
print (completion.choices[0 ].message.content)
6. 本地部署 步骤 3.5 Flash 针对本地推理进行了优化,支持包括 vLLM、SGLang、Hugging Face Transformers 和 llama.cpp 在内的行业标准后端。
6.1 vLLM 我们推荐使用 vLLM 的最新 nightly 版本。
docker pull vllm/vllm-openai:nightly
pip install -U vllm --pre \
--index-url https://pypi.org/simple \
--extra-index-url https://wheels.vllm.ai/nightly
注意 :vLLM 目前尚不支持完整的 MTP3 功能。我们正在积极开发一个拉取请求以集成此功能,预计这将显著提升解码性能。
vllm serve <MODEL_PATH_OR_HF_ID>\
--served-model-name step3p5-flash \
--tensor-parallel-size 8\
--enable-expert-parallel \
--disable-cascade-attn \
--reasoning-parser step3p5 \
--enable-auto-tool-choice \
--tool-call-parser step3p5 \
--hf-overrides '{"num_nextn_predict_layers": 1}' \
--speculative_config '{"method": "step3p5_mtp", "num_speculative_tokens": 1}' \
--trust-remote-code \
--quantization fp8
vllm serve <MODEL_PATH_OR_HF_ID>\
--served-model-name step3p5-flash \
--tensor-parallel-size 8\
--enable-expert-parallel \
--disable-cascade-attn \
--reasoning-parser step3p5 \
--enable-auto-tool-choice \
--tool-call-parser step3p5 \
--hf-overrides '{"num_nextn_predict_layers": 1}' \
--speculative_config '{"method": "step3p5_mtp", "num_speculative_tokens": 1}' \
--trust-remote-code
6.2 SGLang
docker pull lmsysorg/sglang:dev-pr-18084
pip install"sglang[all] @ git+https://github.com/sgl-project/sglang.git"
sglang serve --model-path <MODEL_PATH_OR_HF_ID>\
--served-model-name step3p5-flash \
--tp-size 8\
--tool-call-parser step3p5 \
--reasoning-parser step3p5 \
--speculative-algorithm EAGLE \
--speculative-num-steps 3\
--speculative-eagle-topk 1\
--speculative-num-draft-tokens 4\
--enable-multi-layer-eagle \
--host 0.0.0.0 \
--port 8000
sglang serve --model-path <MODEL_PATH_OR_HF_ID>\
--served-model-name step3p5-flash \
--tp-size 8\
--ep-size 8\
--tool-call-parser step3p5 \
--reasoning-parser step3p5 \
--speculative-algorithm EAGLE \
--speculative-num-steps 3\
--speculative-eagle-topk 1\
--speculative-num-draft-tokens 4\
--enable-multi-layer-eagle \
--host 0.0.0.0 \
--port 8000
6.3 Transformers(调试/验证) 使用此代码片段进行快速功能验证。如需高吞吐量服务,请使用 vLLM 或 SGLang。
from transformers import AutoModelForCausalLM, AutoTokenizer
MODEL_PATH ="<MODEL_PATH_OR_HF_ID>"
tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)
model = AutoModelForCausalLM.from_pretrained(
MODEL_PATH, trust_remote_code=True , torch_dtype="auto" , device_map="auto" ,
)
messages =[{"role" :"user" ,"content" :"Explain the significance of the number 42." }]
inputs = tokenizer.apply_chat_template(
messages, tokenize=True , add_generation_prompt=True ,
return_dict=True , return_tensors="pt" ,
).to(model.device)
generated_ids = model.generate(**inputs, max_new_tokens=128 , do_sample=False )
output_text = tokenizer.decode(generated_ids[0 ][inputs.input_ids.shape[1 ]:], skip_special_tokens=True )
print (output_text)
6.4 llama.cpp
系统需求
GGUF 模型权重 (int4 量化版):111.5GB
运行时开销:约 7GB
最低显存要求:120GB(例如 Mac Studio、DGX-Spark、AMD Ryzen AI Max+ 395 等设备)
推荐配置:128GB 统一内存
步骤 git clone [email protected] :stepfun-ai/Step-3.5-Flash.git
cd Step-3.5-Flash/llama.cpp
cmake -S . -B build-macos \
-DCMAKE_BUILD_TYPE=Release \
-DGGML_METAL=ON \
-DGGML_ACCELERATE=ON \
-DLLAMA_BUILD_EXAMPLES=ON \
-DLLAMA_BUILD_COMMON=ON \
-DGGML_LTO=ON
cmake --build build-macos -j8
在 DGX-Spark 上构建 llama.cpp:
cmake -S . -B build-cuda \
-DCMAKE_BUILD_TYPE=Release \
-DGGML_CUDA=ON \
-DGGML_CUDA_GRAPHS=ON \
-DLLAMA_CURL=OFF \
-DLLAMA_BUILD_EXAMPLES=ON \
-DLLAMA_BUILD_COMMON=ON
cmake --build build-cuda -j8
在 AMD Windows 上构建 llama.cpp
cmake -S . -B build-vulkan \
-DCMAKE_BUILD_TYPE=Release \
-DLLAMA_CURL=OFF \
-DGGML_OPENMP=ON \
-DGGML_VULKAN=ON
cmake --build build-vulkan -j8
./llama-cli -m step3.5_flash_Q4_K_S.gguf -c 16384 -b 2048 -ub 2048 -fa on --temp 1.0 -p "What's your name?"
使用 llama-batched-bench 测试性能:
./llama-batched-bench -m step3.5_flash_Q4_K_S.gguf -c 32768 -b 2048 -ub 2048 -npp 0,2048,8192,16384,32768 -ntg 128 -npl 1
7. 在代理平台使用 Step 3.5 Flash
7.1 Claude Code 与 Codex 平台 在大多数编程环境中,将 Step 3.5 Flash 添加到模型列表非常简单。以下是配置 Claude Code 和 Codex 使用 Step 3.5 Flash 的说明。
7.1.1 准备工作 如快速入门所述,请先在 StepFun.ai 或 OpenRouter 注册并获取 API 密钥。
7.1.2 环境配置 Claude Code 和 Codex 依赖 Node.js 运行环境。建议安装 Node.js 版本>v20,可通过 nvm 工具进行安装。
curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.39.0/install.sh | bash
export NVM_DIR="$HOME /.nvm"
[ -s "$NVM_DIR /nvm.sh" ] &&\. "$NVM_DIR /nvm.sh"
[ -s "$NVM_DIR /bash_completion" ] &&\. "$NVM_DIR /bash_completion"
nvm install v22
node --version
npm --version
7.1.3 使用步骤 3.5 在 Claude Code 上刷机
npm install -g @anthropic-ai/claude-code
claude --version
为适应 Claude Code 中的多样化工作流程,我们同时支持Anthropic 风格 和OpenAI 风格 的 API 接口。
如需使用OpenRouter API,请参阅 OpenRouter 集成指南。
第一步:编辑 Claude 设置。更新 ~/.claude/settings.json.
{ "env" : { "ANTHROPIC_API_KEY" : "API_KEY_from_StepFun" , "ANTHROPIC_BASE_URL" : "https://api.stepfun.ai/" } , "model" : "step-3.5-flash" }
保存文件后,启动 Claude 代码。运行 /status 命令确认模型和基础 URL。
❯ /status ───────────────────────────────────────────────────────────────────────────────── Settings: Status Config Usage (←/→ or tab to cycle) Version: 2.1.1 Session name: /rename to add a name Session ID: 676dae61-259d-4eef-8c2f-0f1641600553 cwd: /Users/step-test/ Auth token: none API key: ANTHROPIC_API_KEY Anthropic base URL: https://api.stepfun.ai/ Model: step-3.5-flash Setting sources: User settings
注:此处的 OpenAI API 风格指 chat/completions/ 格式。
安装 Claude Code 后,请安装 claude-code-router:
npm install -g @musistudio/claude-code-router
ccr -v
将以下配置添加到 ~/.claude-code-router/config.json 中。
{ "PORT" : 3456 , "Providers" : [ { "name" : "stepfun-api" , "api_base_url" : "https://api.stepfun.com/v1/chat/completions" , "api_key" : "StepFun_API_KEY" , "models" : [ "step-3.5-flash" ] , "transformer" : { "step-3.5-flash" : { "use" : [ "OpenAI" ] } } } ] , "Router" : { "default" : "stepfun-api,step-3.5-flash" , "background" : "stepfun-api,step-3.5-flash" , "think" : "stepfun-api,step-3.5-flash" , "longContext" : "stepfun-api,step-3.5-flash" , "webSearch" : "stepfun-api,step-3.5-flash" } }
7.1.4 使用步骤 3.5 在 Codex 上刷机
npm install -g @openai/codex
codex --version
配置 Codex
将以下设置添加到 ~/.codex/config.toml 中,其余设置保持不变。
model ="step-3.5-flash"
model_provider ="stepfun-chat"
preferred_auth_method ="apikey"
[model_providers.stepfun-chat]
name ="OpenAI using response"
base_url ="https://api.stepfun.com/v1"
env_key ="OPENAI_API_KEY"
wire_api ="chat"
query_params ={}
对于 Codex,wire_api 仅支持 chat 模式。如果使用 responses 模式,需要切换为 chat 模式。同时将 model_provider 更改为新配置的 stepfun-chat。
完成配置后,请在新终端窗口运行 codex 以启动 Codex。执行 /status 命令可检查配置状态。
/status 📂 Workspace • Path: /Users/step-test/ • Approval Mode: on-request • Sandbox: workspace-write • AGENTS files: (none) 🧠 Model • Name: step-3.5-flash • Provider: Stepfun-chat 💻 Client • CLI Version: 0.40.0
7.1.5 使用步骤 3.5 Flash 版进行深度研究(Step-DeepResearch)
参考以下环境设置指南,将 MODEL_NAME 配置为 Step-3.5-Flash。环境设置链接
8. 已知问题与未来方向
令牌效率 :Step 3.5 Flash 实现了前沿水平的智能体能力,但目前需要比 Gemini 3.0 Pro 更长的生成轨迹才能达到相当的质量。
高效通用精通 :我们的目标是统一通用模型的多样性和深度领域专业知识。为了实现这一目标,我们正在推进策略蒸馏的变体方法,使模型能够以更高的样本效率内化专家行为。
强化学习应用于更多智能体任务 :虽然 Step 3.5 Flash 在学术智能体基准测试中表现出竞争力,但智能体 AI 的下一个前沿需要将强化学习应用于专业工作、工程和研究中的复杂专家级任务。
操作范围与限制 :Step 3.5 Flash 专为编码和工作任务优化,但在分布变化时稳定性可能降低。这种情况通常出现在高度专业化领域或长期多轮对话中,模型可能出现重复推理、混合语言输出或时间和身份认知不一致的问题。
9. 共同开发未来 我们将发展路线图视为一份动态文档,根据实际使用情况和开发者反馈持续演进。
在通过扩展通用模型能力塑造 AGI 未来的过程中,我们希望确保解决的是正确的问题。我们邀请您加入这一持续的反馈循环——您的见解将直接影响我们的优先级。
参与讨论 :我们的 Discord 社区是构思未来架构、提议新功能并获取早期访问更新的主要平台 🚀
反馈问题 :遇到限制?您可以在 GitHub 提交问题,或直接在 Discord 支持频道中标记。
许可证