C++ 部署 ONNX 模型的低延迟高吞吐优化技巧

C++ 部署 ONNX 模型的低延迟高吞吐优化技巧 | 极客日志

// 初始化运行时环境
Ort::Env env(ORT_LOGGING_LEVEL_WARNING, "test");
Ort::SessionOptions session_options;
session_options.SetIntraOpNumThreads(1);
session_options.SetGraphOptimizationLevel(GraphOptimizationLevel::ORT_ENABLE_ALL);

// 加载模型
Ort::Session session(env, u8"model.onnx", session_options);

// 获取输入/输出节点信息
auto input_name = session.GetInputNameAllocated(0, allocator);
auto output_name = session.GetOutputNameAllocated(0, allocator);

// 构造输入张量（假设为 1x3x224x224 的 float 图像）
std::vector<float> input_tensor_values(3 * 224 * 224);
Ort::MemoryInfo memory_info = Ort::MemoryInfo::CreateCpu(OrtArenaAllocator, OrtMemTypeDefault);
Ort::Value input_tensor = Ort::Value::CreateTensor(memory_info, input_tensor_values.data(), input_tensor_values.size(), input_shape.data(), input_shape.size());

// 执行推理
auto output_tensors = session.Run(Ort::RunOptions{nullptr}, &input_name.get(), &input_tensor, 1, &output_name.get(), 1);

优化方法	适用场景	性能提升幅度
图优化（Graph Optimization）	CPU 推理	~20%
TensorRT 后端	NVIDIA GPU	~50%-70%
量化（INT8）	边缘设备	~60%

import torch
import torchvision.models as models

model = models.resnet18(pretrained=True)
model.eval()
dummy_input = torch.randn(1, 3, 224, 224)
torch.onnx.export(
    model, dummy_input, "resnet18.onnx",
    input_names=["input"], output_names=["output"],
    opset_version=11
)

Ort::Env env(ORT_LOGGING_LEVEL_WARNING, "test");
Ort::SessionOptions session_options;
session_options.SetIntraOpNumThreads(1);
session_options.SetGraphOptimizationLevel(GraphOptimizationLevel::ORT_ENABLE_ALL);
Ort::Session session(env, model_path, session_options);

find_package(onnxruntime REQUIRED)
target_link_libraries(your_app onnxruntime)

Ort::Env env(ORT_LOGGING_LEVEL_WARNING, "ONNXRuntime");
Ort::SessionOptions session_options;
session_options.SetIntraOpNumThreads(1);
Ort::Session session(env, "model.onnx", session_options);

属性	说明
name	输入节点名称
shape	张量维度，如 {1, 3, 224, 224}

格式	描述	适用场景
NCHW	通道优先，适合 GPU 计算优化	PyTorch 默认格式
NHWC	空间优先，利于内存连续访问	TensorFlow 在 CPU 上的优化格式

import torch
# 将 HWC 格式图像转换为 CHW 并归一化
img = torch.randn(224, 224, 3) # 原始图像 (H, W, C)
img = img.permute(2, 0, 1) # 转换为 (C, H, W)
img = img.unsqueeze(0) # 添加批次维度 → (N, C, H, W)
img = img.contiguous() # 确保内存连续

class InferenceWrapper:
    def __init__(self, model_path: str, device: str = "cpu"):
        self.model = self._load_model(model_path)
        self.device = device

    def _preprocess(self, input_data):
        return torch.tensor(input_data).to(self.device)

    def predict(self, data):
        tensor = self._preprocess(data)
        with torch.no_grad():
            output = self.model(tensor)
        return self._postprocess(output)

    def _postprocess(self, output):
        return output.cpu().numpy()

后端	平均延迟（ms）	内存占用（MB）
CPU	120	520
GPU	28	980
DML	35	860

# 指定执行设备
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)
inputs = inputs.to(device) # 数据迁移至目标设备

# 原始操作
y = tf.add(tf.multiply(x, w), b)
# 优化后：融合为单一 MatMul+BiasAdd 操作
y = tf.nn.bias_add(tf.matmul(x, w), b)

精度类型	延迟（ms）	相对提速
FP32	120	1.0x
INT8	35	3.4x

batch_size = 64 # 批次大小
prefetch_batches = 2 # 预取批次数量
parallelism = 4 # 并行处理线程数

批大小	吞吐量（条/秒）	平均延迟（ms）
16	8,500	12
64	22,000	45
256	38,000	180

ExecutorService executor = Executors.newFixedThreadPool(10);
for (List batch : dataBatches) {
    executor.submit(() -> processBatch(batch));
}
executor.shutdown();

模式	处理时间（秒）	CPU 利用率
单线程	86	32%
多线程	23	89%

class MemoryPool {
private:
    struct Block {
        Block* next;
    };
    Block* freeList;
    char* memory;
    size_t blockSize;
    size_t poolSize;
public:
    MemoryPool(size_t count, size_t size) : blockSize(size), poolSize(count) {
        memory = new char[count * size]; // 初始化空闲链表
        freeList = reinterpret_cast<Block*>(memory);
        for (size_t i = 0; i < count - 1; ++i) {
            freeList[i].next = &freeList[i + 1];
        }
        freeList[count - 1].next = nullptr;
    }
    void* allocate() {
        if (!freeList) return nullptr;
        Block* head = freeList;
        freeList = freeList->next;
        return head;
    }
    void deallocate(void* ptr) {
        Block* block = static_cast<Block*>(ptr);
        block->next = freeList;
        freeList = block;
    }
};

分配方式	平均耗时 (ns)	内存碎片风险
new/delete	85	高
内存池	12	低

data, err := syscall.Mmap(int(fd), 0, int(stat.Size), syscall.PROT_READ, syscall.MAP_SHARED)
if err != nil {
    log.Fatal("mmap failed:", err)
}
defer syscall.Munmap(data) // 直接解析 data，无需额外拷贝

方案	内存拷贝次数	延迟（ms）	吞吐（MB/s）
传统读取 + 解码	3	12.4	89
零拷贝预处理	0	5.1	210

import _ "net/http/pprof"
func main() {
    go func() {
        log.Println(http.ListenAndServe("localhost:6060", nil))
    }()
    // 正常业务逻辑
}

指标类型	采集命令	用途
CPU Profiling	go tool pprof http://localhost:6060/debug/pprof/profile	定位计算密集型函数
Heap Profiling	go tool pprof http://localhost:6060/debug/pprof/heap	发现内存泄漏点

apiVersion: networking.istio.io/v1beta1
kind: VirtualService
metadata:
  name: user-service-route
spec:
  hosts:
    - "user-api.example.com"
  http:
    - route:
        - destination:
            host: user-service
            subset: v1
          weight: 80
        - destination:
            host: user-service
            subset: v2
          weight: 20

平台	支持语言	冷启动均值	最大执行时间 (s)
AWS Lambda	Node.js, Python, Go	350ms	900
Cloudflare Workers (Wasm)	Rust, C/C++	8ms	50

C++ 部署 ONNX 模型的低延迟高吞吐优化技巧

第一章：机器学习模型的 C++ 部署与性能调优（ONNX Runtime）

环境准备与依赖集成

模型加载与推理流程

性能调优策略对比

第二章：ONNX 模型部署基础与环境搭建

2.1 ONNX 格式原理与模型导出流程

ONNX 模型结构解析

模型导出示例

2.2 配置 ONNX Runtime C++ 推理环境

环境准备与依赖引入

初始化推理会话

常见配置选项

2.3 使用 C++ 加载并运行第一个 ONNX 模型

环境准备与依赖引入

模型加载与会话创建

输入数据预处理与推理执行

2.4 输入输出张量的内存布局与数据预处理

常见的内存布局格式对比

数据预处理中的内存对齐

2.5 构建可复用的推理封装类实践

核心设计原则

第三章：推理性能关键影响因素分析

3.1 不同执行后端（CPU/GPU/DML）的性能对比

典型推理延迟对比

推理代码片段示例

3.2 计算图优化与模型量化对延迟的影响

计算图优化示例

模型量化对延迟的影响

3.3 批处理大小与吞吐量之间的权衡关系

性能影响因素分析

典型配置示例

不同批大小下的吞吐对比

第四章：高吞吐低延迟的四大优化技巧

4.1 技巧一：启用多线程会话与并行批处理

并行批处理配置示例

性能对比

4.2 技巧二：使用内存池减少动态分配开销

内存池基本结构

性能对比

4.3 技巧三：优化输入预处理流水线实现零拷贝

内存映射文件替代常规读取

零拷贝带来的性能收益

4.4 技巧四：结合 Profile 工具定位性能瓶颈

理解 CPU 与内存剖析

使用 pprof 进行性能分析

关键指标对比表

第五章：总结与展望

技术演进的持续驱动

安全与可观测性的协同增强

未来基础设施形态

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具