跃阶星辰 AI 开源 Step-3.5-Flash 本地部署指南

介绍跃阶星辰 AI 开源模型 Step-3.5-Flash，涵盖其核心能力、性能基准测试及架构细节。提供基于 vLLM、SGLang、Transformers 及 llama.cpp 的本地部署方案，并包含 API 调用示例及在 Claude Code、Codex 等平台的集成配置方法。

ApiHolic发布于 2026/4/5更新于 2026/4/177 浏览

1. 简介

Step 3.5 Flash（访问官网）是我们目前最强大的开源基础模型，专为提供前沿推理与智能体能力而设计，同时具备卓越的效率。基于稀疏混合专家（MoE）架构，它每处理一个 token 仅激活 1960 亿参数中的 110 亿。这种'智能密度'使其推理深度可比肩顶级闭源模型，同时保持实时交互所需的敏捷性。

2. 核心能力

高速深度推理：聊天机器人擅长阅读，而智能体必须快速推理。通过三路多 token 预测（MTP-3）技术，Step 3.5 Flash 在典型使用场景中实现100-300 tok/s的生成吞吐量（单流编码任务峰值达350 tok/s），能即时响应复杂的多步推理链条。
编码与智能体的强力引擎：Step 3.5 Flash 专为智能体任务打造，集成可扩展的强化学习框架驱动持续自我进化。其SWE-bench Verified 通过率 74.4%，Terminal-Bench 2.0 通过率 51.0%，证明其能以稳定性能处理复杂长周期任务。
高效长上下文：模型采用 3:1 滑动窗口注意力（SWA）比例，支持经济高效的256K 上下文窗口——每层全注意力层搭配三层 SWA 层。这种混合方案确保海量数据或长代码库场景下的稳定表现，同时显著降低标准长上下文模型常见的计算开销。
便捷本地部署：Step 3.5 Flash 针对易用性优化，将顶级智能带入本地环境。可在高端消费级硬件（如 Mac Studio M4 Max、NVIDIA DGX Spark）上安全运行，在保障数据隐私的同时不牺牲性能。

3. 性能表现

Step 3.5 Flash 在保持开放与高效的同时，实现了与领先闭源系统同等的性能。

在这里插入图片描述

Step 3.5 Flash 在推理、编程和代理能力方面的性能表现。开源模型（左侧）按其总参数量排序，顶级专有模型展示在右侧。xbench-DeepSearch 分数均引自官方出版物以确保一致性。阴影条代表 Step 3.5 Flash 采用并行思维技术后的增强性能。

详细基准测试

Benchmark	Step 3.5 Flash	DeepSeek V3.2	Kimi K2 Thinking / K2.5	GLM-4.7	MiniMax M2.1	MiMo-V2 Flash
# Activated Params	11B	37B	32B	32B	10B	15B
# Total Params (MoE)	196B	671B

组件	规格
主干架构	45 层 Transformer（4,096 隐藏维度）
上下文窗口	256K
词表	128,896 个 token
总参数量	1968.1 亿（1960 亿主干 + 8.1 亿头部）
激活参数量	约 110 亿（每 token 生成时）

提供商	网站	基础网址
OpenRouter	https://openrouter.ai	https://openrouter.ai/api/v1
StepFun	https://platform.stepfun.ai	https://api.stepfun.ai/v1

跃阶星辰 AI 开源 Step-3.5-Flash 本地部署指南

1. 简介

2. 核心能力

3. 性能表现

详细基准测试

更多推荐文章

相关免费在线工具

4. 架构细节

4.1 技术规格

4.2 混合专家（MoE）路由

4.3 多 token 预测（MTP）

5. 快速开始

5.1 获取 API 密钥

5.2 安装配置

5.3 实现示例

6. 本地部署

6.1 vLLM

6.2 SGLang

6.3 Transformers（调试/验证）

6.4 llama.cpp

系统需求

步骤

7. 在代理平台使用 Step 3.5 Flash

7.1 Claude Code 与 Codex 平台

7.1.1 准备工作

7.1.2 环境配置

7.1.3 使用步骤 3.5 在 Claude Code 上刷机

7.1.4 使用步骤 3.5 在 Codex 上刷机

7.1.5 使用步骤 3.5 Flash 版进行深度研究（Step-DeepResearch）

8. 已知问题与未来方向

9. 共同开发未来

许可证

跃阶星辰 AI 开源 Step-3.5-Flash 本地部署指南

1. 简介

2. 核心能力

3. 性能表现

详细基准测试

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

4. 架构细节

4.1 技术规格

4.2 混合专家（MoE）路由

4.3 多 token 预测（MTP）

5. 快速开始

5.1 获取 API 密钥

5.2 安装配置

5.3 实现示例

6. 本地部署

6.1 vLLM

6.2 SGLang

6.3 Transformers（调试/验证）

6.4 llama.cpp

系统需求

步骤

7. 在代理平台使用 Step 3.5 Flash

7.1 Claude Code 与 Codex 平台

7.1.1 准备工作

7.1.2 环境配置

7.1.3 使用步骤 3.5 在 Claude Code 上刷机

7.1.4 使用步骤 3.5 在 Codex 上刷机

7.1.5 使用步骤 3.5 Flash 版进行深度研究（Step-DeepResearch）

8. 已知问题与未来方向

9. 共同开发未来

许可证