PyTorch 自定义算子开发：使用 C++ 与 CUDA 扩展

PyTorch 自定义算子开发：使用 C++ 与 CUDA 扩展 | 极客日志

# 示例：低效的逐元素加法组合
def slow_add(x, y):
    z = x + y
    mask = (z > 0)
    return z * mask.float()

docker run --gpus all -it \
  -p 8888:8888 \
  -p 2222:22 \
  pytorch-cuda:v2.8

import torch
print(torch.__version__)  # 应输出 2.8.x
print(torch.cuda.is_available())  # 应为 True
print(torch.cuda.get_device_name())  # 显示 GPU 型号

#include <torch/extension.h>
#include <cuda.h>
#include <cuda_runtime.h>

__global__ void add_kernel(const float* A, const float* B, float* C, int size) {
    int idx = blockIdx.x * blockDim.x + threadIdx.x;
    if (idx < size) {
        C[idx] = A[idx] + B[idx];
    }
}

torch::Tensor add_tensors_cuda(torch::Tensor A, torch::Tensor B) {
    // 输入检查
    TORCH_CHECK(A.is_cuda(), "A must be a CUDA tensor");
    TORCH_CHECK(B.is_cuda(), "B must be a CUDA tensor");
    TORCH_CHECK(A.size(0) == B.size(0), "Size mismatch between tensors");

    int size = A.numel();
    auto C = torch::empty_like(A);

    dim3 block(256);
    dim3 grid((size + block.x - 1) / block.x);

    add_kernel<<<grid, block>>>(
        A.data_ptr<float>(),
        B.data_ptr<float>(),
        C.data_ptr<float>(),
        size
    );

    // 注意：仅用于调试！生产代码应异步执行
    // cudaDeviceSynchronize();

    return C;
}

#include <torch/extension.h>

torch::Tensor add_tensors_cuda(torch::Tensor A, torch::Tensor B);

PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
    m.def("add", &add_tensors_cuda, "CUDA-accelerated tensor addition");
}

import torch
from torch.utils.cpp_extension import load

# 动态加载，自动检测变更并重建
custom_add = load(
    name="custom_add",
    sources=["bindings.cpp", "custom_kernel.cu"],
    verbose=True,
    extra_cflags=['-O2'],
    extra_cuda_cflags=['-O2', '--use_fast_math']
)

a = torch.ones(5).cuda()
b = torch.ones(5).cuda()
c = custom_add.add(a, b)
print(c)  # [2., 2., 2., 2., 2.]

from setuptools import setup
from torch.utils.cpp_extension import BuildExtension, CUDAExtension

setup(
    name='custom_add',
    ext_modules=[
        CUDAExtension(
            name='custom_add',
            sources=['bindings.cpp', 'custom_kernel.cu'],
            extra_compile_args={
                'cxx': ['-g', '-O2'],
                'nvcc': ['-O2', '--use-fast-math']
            }
        )
    ],
    cmdclass={
        'build_ext': BuildExtension
    }
)

pip install -v .

import custom_add
result = custom_add.add(a, b)

class MyModel(torch.nn.Module):
    def __init__(self):
        super().__init__()

    def forward(self, x):
        return custom_add.add(x, x)  # 使用自定义算子

model = MyModel().cuda()
x = torch.randn(1000).cuda()
out = model(x)

// 在 C++ 中定义 Autograd Function
struct AddFunction : public torch::autograd::Function<AddFunction> {
    static torch::Tensor forward(torch::autograd::AutogradContext* ctx, torch::Tensor A, torch::Tensor B) {
        return add_tensors_cuda(A, B);
    }
    static torch::autograd::tensor_list backward(
        torch::autograd::AutogradContext* ctx,
        torch::autograd::tensor_list grad_outputs) {
        return {grad_outputs[0].clone(), grad_outputs[0].clone()};
    }
};

a = torch.randn(5, requires_grad=True).cuda()
loss = custom_add.add(a, a).sum()
loss.backward()  # 梯度正常回传

template<typename scalar_t>
__global__ void add_kernel_template(...) {
    ...
}

torch::Tensor add_tensors_cuda(torch::Tensor A, torch::Tensor B) {
    return AT_DISPATCH_FLOATING_TYPES(A.scalar_type(), "add", [&] {
        add_kernel_template<scalar_t><<<...>>>();
    });
}

TORCH_CHECK(A.is_cuda(), "Input A must be on GPU");
TORCH_CHECK(A.dim() == 1, "Only 1D tensors supported");

rm -rf ~/.cache/torch_extensions/

PyTorch 自定义算子开发：使用 C++ 与 CUDA 扩展

PyTorch 自定义算子开发：使用 C++ 与 CUDA 扩展

更多推荐文章

相关免费在线工具

为什么需要自定义算子？

容器化环境：让 CUDA 扩展开发变得简单

编写你的第一个 CUDA 扩展

1. 核心 CUDA Kernel

2. 绑定到 Python 接口

构建方式一：动态加载（推荐用于开发）

构建方式二：静态安装（适合生产）

如何集成进模型？

实际工程中的最佳实践

✅ 合理划分算子粒度

✅ 支持多种数据类型

✅ 错误检查不可少

✅ 避免同步阻塞

✅ 利用缓存加速迭代

总结：从想法到落地的高速通道

PyTorch 自定义算子开发：使用 C++ 与 CUDA 扩展

PyTorch 自定义算子开发：使用 C++ 与 CUDA 扩展

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

为什么需要自定义算子？

容器化环境：让 CUDA 扩展开发变得简单

编写你的第一个 CUDA 扩展

1. 核心 CUDA Kernel

2. 绑定到 Python 接口

构建方式一：动态加载（推荐用于开发）

构建方式二：静态安装（适合生产）

如何集成进模型？

实际工程中的最佳实践

✅ 合理划分算子粒度

✅ 支持多种数据类型

✅ 错误检查不可少

✅ 避免同步阻塞

✅ 利用缓存加速迭代

总结：从想法到落地的高速通道