2小时完成大模型推理网关：一次AI Coding实战记录

优质文章学习记录

05 Apr 2026 — 6 min read

2小时完成大模型推理网关：一次AI Coding实战记录

在蚂蚁集团2026春季校园招聘的AI Coding笔试中，我用2小时完成了一个面向大模型推理场景的HTTP网关。这篇文章记录了我的设计思路、技术实现和AI协作体会。

一、写在前面

这次笔试的题目很有意思：实现一个面向大模型推理场景的HTTP网关，核心挑战是在提升KV Cache命中率和防止单机过载之间做动态平衡。

简单说就是：

相同前缀的请求路由到同一后端 → 可以复用KV Cache，延迟更低
但如果所有相同前缀请求都堆到同一台机器 → 热点形成，排队加剧

如何在两者之间权衡？这就是这次项目的核心命题。

时间限制：2小时
工具：网页内置IDE + AI辅助编程
技术栈：Java 17 + Spring Boot 3.2 + Maven

二、核心设计

整体架构

客户端请求 → 网关入口 → 路由决策层 → 负载均衡层 → 后端实例池 ↓ 指标采集层（命中率、延迟、负载分布）

模块拆解

模块	实现方案	设计考量
路由策略	前缀匹配 + 降级分流	优先让相同前缀请求打到同一实例；过载时自动降级
负载均衡	动态权重算法	综合命中率、当前负载、健康状态计算权重
健康检查	主动探测 + 熔断降权	后端不可用时自动摘除，恢复后重新加入
指标统计	滑动窗口 + P95计算	实时统计成功率、延迟分布、命中率

三、核心亮点

1. 动态权重算法

如果只追求命中率，会把相同前缀请求都打到同一实例，导致过载。我的方案是设计了一个联合打分函数：

实例权重 = (命中率权重 × 历史命中率) + (负载权重 × (1 - 当前负载率))

命中率权重和负载权重可配置，支持不同场景调优
实例过载时（并发数 > 阈值），命中率权重动态降低
支持策略切换，可与纯轮询策略对比

阈值设定：默认并发阈值100，压测发现超过后延迟明显上升，以此作为过载信号。

2. 工程化实践

虽然是2小时的限时开发，但我特别注意了工程化要求：

配置与代码分离：后端列表、阈值、策略参数全部放在application.yml，支持热加载
异常处理与降级：后端超时（3秒）自动降级到其他实例，全部失败时返回503
可观测性：实时输出请求总数、成功率、P95延迟、命中率、负载分布
代码可读性：核心类有职责注释，关键算法有设计说明，使用依赖注入便于测试

3. 压测验证

设计了4类测试场景，验证系统鲁棒性：

场景	测试方法	验证结果
正常流量	随机前缀并发请求	命中率约40%，负载相对均衡
热点前缀	80%请求使用同一前缀	动态权重将热点分散到2-3个实例，避免单机过载
过载场景	单实例并发数超阈值	自动降级分流，该实例权重降至最低
故障注入	手动停掉一个后端	自动摘除，流量平滑切换；恢复后重新加入

四、技术栈

组件	版本	说明
Java	17	稳定版本
Spring Boot	3.2.0	框架
Maven	3.8+	构建工具
HTTP客户端	RestClient (Spring 6.1+)	内置，无额外依赖

五、AI协作体会

这是我在时间压力下第一次用AI完成完整项目，有几点真实体会：

成功做法

任务拆解先行：我先写出模块列表（路由、负载均衡、健康检查…），再让AI逐个生成，避免一次性让AI生成全部导致失控。
版本管理意识：第一版完成后，我让AI调整项目目录结构，结果引发了连锁错误。因为没有保存中间版本，只能让AI重新生成。这让我意识到：AI协作也需要版本管理，每完成一个模块就本地备份一次，增量修改优于全量重构。
上下文管理：当对话达到100K tokens时，我开始注意精简提示词。当AI开始“忘记”早期约定时，我会重新锚定：“还记得我们的项目结构吗？”

踩过的坑

全量重构风险大：让AI一次性大改代码很容易出问题，最好用git或手动备份checkpoint
依赖版本冲突：我先让AI生成pom.xml确认无误，再生成代码
AI会过度设计：有时会给简单功能添加复杂配置，需要及时纠正

核心感悟

AI确实极大提升了开发效率，2小时内就能从零搭建一个完整系统。但真正决定代码质量的，仍然是人的工程化判断——什么时候该解耦、边界条件如何处理、异常怎么兜底，这些AI不会主动帮你做，需要人来把关和调控。AI是高效的执行者，而人是负责决策和兜底的那个。

六、可优化方向

如果时间更充裕，我会考虑：

流式响应转发：目前是同步转发，可以用WebClient的Flux实现真正的流式转发
更精细的KV Cache感知：目前用字符串前缀近似，可以引入Trie树做更精确的匹配
分布式扩展：当前指标统计是内存的，可以用Redis做分布式聚合，支持多网关实例

七、总结

这次AI Coding笔试让我收获颇丰：

技术上：实现了一个有挑战的系统，加深了对网关设计、负载均衡、可观测性的理解
协作上：建立了“人机协作”的方法论——清晰拆解、增量迭代、版本管理、及时复盘
认知上：AI是强大的执行工具，但工程化思维（解耦、边界处理、可维护性）仍然是人的核心竞争力

最后想说的是：AI不会取代工程师，但会用AI的工程师一定会取代不会用的。关键是找到人和AI的最佳协作模式——各司其职，效率最高。

附录：项目结构

inference-gateway/ ├── pom.xml ├── src/main/java/com/ant/gateway/ │ ├── InferenceGatewayApplication.java │ ├── config/ # 配置类 │ ├── controller/ # HTTP入口 │ ├── model/ # 数据模型 │ ├── router/ # 路由策略（前缀匹配、降级） │ ├── loadbalancer/ # 负载均衡（动态权重、轮询） │ ├── health/ # 健康检查 │ ├── metrics/ # 指标统计 │ └── client/ # HTTP客户端 └── src/main/resources/ ├── application.yml # 配置文件 └── logback-spring.xml

2026实测｜DeepSeek-R1-Distill-Qwen-1.5B部署全攻略（vLLM+Open WebUI，0.8GB显存就能跑，告别服务器瓶颈）

前言：2026年，轻量级大模型部署已成为开发者核心需求——专业GPU服务器成本高昂、边缘设备算力有限，多数1.5B级模型仍需3GB以上显存，让个人开发者与中小企业望而却步。而DeepSeek-R1-Distill-Qwen-1.5B（下称“DQ-1.5B”）的出现打破僵局，通过知识蒸馏技术在1.5B参数体量下实现接近7B级模型的推理能力，配合vLLM推理加速与Open WebUI可视化交互，实测0.8GB显存即可稳定运行，无需高端服务器，个人PC、边缘设备均可轻松落地。本文结合2026年最新实测数据，从核心原理、分步实操、实测验证、应用场景、落地案例到问题排查，打造零冗余、高可用的部署全攻略，兼顾专业性与实用性，助力开发者快速上手，轻松实现轻量级大模型本地化部署。一、核心技术解析部署前先理清三大核心组件的核心逻辑，无需深入底层源码，聚焦“为什么能用、为什么高效”，贴合开发者落地需求。 1.1 模型核心：DeepSeek-R1-Distill-Qwen-1.5B 优势解析 DQ-1.5B是DeepSeek团队基于Qwen-1.

【LLM】Ollama：本地大模型 WebAPI 调用实战指南

1. 为什么选择Ollama部署本地大模型最近两年大模型技术发展迅猛，但很多开发者面临一个现实问题：公有云API调用不仅费用高昂，还存在数据隐私风险。Ollama的出现完美解决了这个痛点，它就像是你本地的模型管家，可以一键部署各种开源大模型。我去年在开发智能客服系统时就深受其益，既避免了敏感客户数据外泄，又省下了大笔API调用费用。与传统方案相比，Ollama有三大优势：首先是安装简单，用Docker一条命令就能跑起来；其次是模型丰富，支持Llama、Mistral等主流开源模型；最重要的是API标准化，完全兼容OpenAI的接口规范。实测在16GB内存的MacBook Pro上运行7B参数的模型，响应速度可以控制在2秒以内，完全能满足大多数应用场景。 2. 五分钟快速搭建Ollama环境 2.1 准备工作就像搭积木在开始之前，我们需要准备两个基础组件：Docker和Python环境。这里有个小技巧分享——建议使用Docker Desktop的WSL2后端（Windows用户），性能比传统虚拟机模式提升30%以上。安装完成后，记得执行以下命令验证版本： docker

【前端开发】HTML+CSS+JavaScript前端三剑客的基础知识体系了解

前言 🌟🌟本期讲解关于HTML+CSS+JavaScript的基础知识，小编带领大家简单过一遍~~~ 🌈感兴趣的小伙伴看一看小编主页：GGBondlctrl-ZEEKLOG博客 🔥 你的点赞就是小编不断更新的最大动力 🎆那么废话不多说直接开整吧~~ 目录 1.HTML 1.1什么是HTML 1.2HTML的基本结构 1.3HTML的快速入门 1.4HTML常见的标签 1.段落标签 2.图片标签 3.超链接标签 4.input标签 5.⽆语义标签: div&span 2.CSS 2.1什么是CSS 2.2CSS基础结构 2.3CSS选择器 1.标签选择器 2.class选择器 3.id选择器 4.通配符选择器 5.

HarmonyOS ArkWeb 开发完整指南（上篇）：Hybrid 应用鸿蒙化与 JSBridge

背景 Hybrid 应用开发是介于 Web 应用和系统应用两者之间的应用开发技术，兼具"系统应用良好交互体验"的优势和"Web 应用跨平台开发"的优势。其主要原理是由 Native 通过 JSBridge 通道提供统一的 API，然后用 Html/CSS 实现界面，JS 来写业务逻辑，能够调用系统 API，最终的页面在 WebView 中显示。这篇文章聊聊 ArkWeb 开发的几个核心话题： 1. Hybrid 应用鸿蒙化方案（架构设计、JSBridge、API 鸿蒙化、组件鸿蒙化） 2. 同层渲染 Web（原理、实现、生命周期） 3.

2小时完成大模型推理网关：一次AI Coding实战记录

一、写在前面

二、核心设计

整体架构

模块拆解

三、核心亮点

1. 动态权重算法

2. 工程化实践

3. 压测验证

四、技术栈

五、AI协作体会

成功做法

踩过的坑

核心感悟

六、可优化方向

七、总结

附录：项目结构

Read more

2026实测｜DeepSeek-R1-Distill-Qwen-1.5B部署全攻略（vLLM+Open WebUI，0.8GB显存就能跑，告别服务器瓶颈）

【LLM】Ollama：本地大模型 WebAPI 调用实战指南

【前端开发】HTML+CSS+JavaScript前端三剑客的基础知识体系了解

HarmonyOS ArkWeb 开发完整指南（上篇）：Hybrid 应用鸿蒙化与 JSBridge