C++：实现字符编码转换utf-8/gbk（附带源码）

Ne0inhk

23 Mar 2026 — 5 min read

一、项目背景详细介绍

在实际软件开发过程中，字符编码问题几乎是所有 C/C++ 程序员绕不开的“经典难题”。

尤其在以下场景中，编码问题尤为突出：

Linux / Windows 跨平台开发
网络通信（HTTP、Socket）
旧系统（GBK）与新系统（UTF-8）交互
数据库读写
日志系统、配置文件解析

在 中文环境 下，最常见的两种编码就是：

UTF-8：国际通用 Unicode 编码，Linux / 网络默认
GBK：Windows 中文系统历史主流编码

如果处理不当，就会出现：

中文乱码
字符长度计算错误
字符串截断
程序逻辑异常

因此，掌握 UTF-8 与 GBK 的相互转换，是 C++ 工程实践中的一项必备技能。

本项目目标是：

使用 C++ 实现一个完整、稳定、可复用的 UTF-8 ⇄ GBK 编码转换工具

二、项目需求详细介绍

2.1 功能需求

支持 UTF-8 → GBK 转换
支持 GBK → UTF-8 转换
能正确处理中文字符
能处理任意长度字符串

2.2 技术要求

基于 Linux / Unix 环境
使用系统提供的 iconv 编码转换库
封装为独立函数，便于复用
错误处理清晰
代码教学友好、注释详细

2.3 设计要求

使用 C++ 封装 C 接口
所有代码集中在 一个代码块
用注释模拟多文件结构
不依赖第三方库（iconv 属于系统库）

三、相关技术详细介绍

3.1 常见字符编码概念

1️⃣ ASCII

1 字节
仅支持英文字符

2️⃣ GBK

兼容 ASCII
中文通常占 2 字节
Windows 中文环境常见

3️⃣ UTF-8

Unicode 编码的一种实现方式
可变长度编码：
- 英文：1 字节
- 中文：3 字节
Linux / 网络协议默认编码

3.2 为什么需要编码转换

举例：

Windows 程序（GBK）写文件
Linux 程序（UTF-8）读取文件

如果不做转换，中文必然乱码。

3.3 iconv 编码转换库

iconv 是什么？

Linux 系统提供的字符编码转换库
支持几乎所有主流编码
基于 字节流转换

核心 API

iconv_t iconv_open(const char* to, const char* from); size_t iconv(iconv_t cd, char** inbuf, size_t* inbytesleft, char** outbuf, size_t* outbytesleft); int iconv_close(iconv_t cd);

四、实现思路详细介绍

4.1 整体设计思路

使用 iconv_open 创建转换描述符
将输入字符串作为字节流传入
转换后写入输出缓冲区
返回 C++ std::string

4.2 关键实现要点

输入输出缓冲区必须是 char*
输出缓冲区要足够大
iconv 会修改指针地址
转换完成后需释放资源

4.3 封装设计

提供一个通用转换函数
再封装：
- utf8ToGbk
- gbkToUtf8

五、完整实现代码

/**************************************************** * 文件名：CharsetConvert.cpp * 描述：C++ UTF-8 / GBK 编码转换工具 ****************************************************/ #include <iostream> #include <string> #include <iconv.h> #include <cstring> using namespace std; /**************************************************** * 函数名：convertEncoding * 描述：通用字符编码转换函数 * 参数： * fromCharset - 原编码 * toCharset - 目标编码 * input - 输入字符串 * 返回值： * 转换后的字符串 ****************************************************/ string convertEncoding(const string& input, const string& fromCharset, const string& toCharset) { // 创建 iconv 转换描述符 iconv_t cd = iconv_open(toCharset.c_str(), fromCharset.c_str()); if (cd == (iconv_t)-1) { perror("iconv_open"); return ""; } // 准备输入缓冲区 size_t inLen = input.size(); char* inBuf = const_cast<char*>(input.c_str()); // 输出缓冲区大小一般设置为输入的 2~4 倍 size_t outLen = inLen * 4; char* outBuf = new char[outLen]; memset(outBuf, 0, outLen); char* outPtr = outBuf; // 执行转换 if (iconv(cd, &inBuf, &inLen, &outPtr, &outLen) == (size_t)-1) { perror("iconv"); iconv_close(cd); delete[] outBuf; return ""; } // 构造返回字符串 string result(outBuf); // 释放资源 iconv_close(cd); delete[] outBuf; return result; } /**************************************************** * UTF-8 转 GBK ****************************************************/ string utf8ToGbk(const string& utf8Str) { return convertEncoding(utf8Str, "UTF-8", "GBK"); } /**************************************************** * GBK 转 UTF-8 ****************************************************/ string gbkToUtf8(const string& gbkStr) { return convertEncoding(gbkStr, "GBK", "UTF-8"); } /**************************************************** * 主函数：测试编码转换 ****************************************************/ int main() { // UTF-8 中文字符串（Linux 默认） string utf8Str = "你好，世界"; // UTF-8 -> GBK string gbkStr = utf8ToGbk(utf8Str); cout << "UTF-8 转 GBK 完成" << endl; // GBK -> UTF-8 string utf8Result = gbkToUtf8(gbkStr); cout << "GBK 转 UTF-8 结果：" << utf8Result << endl; return 0; }

六、代码详细解读（仅解读方法作用）

convertEncoding：通用字符编码转换函数，封装 iconv
utf8ToGbk：UTF-8 编码字符串转 GBK
gbkToUtf8：GBK 编码字符串转 UTF-8
iconv_open：创建编码转换器
iconv：执行实际转换
iconv_close：释放转换器资源

七、项目详细总结

通过本项目，你已经系统掌握：

字符编码的本质
UTF-8 与 GBK 的差异
Linux 下字符编码转换的标准做法
iconv API 的正确使用方式
C++ 对 C 库的封装技巧

这是后续学习：

网络协议解析
HTTP / JSON 处理
跨平台系统开发
国际化（i18n）

的必备基础能力。

八、项目常见问题及解答

Q1：为什么输出缓冲区要放大？
A：UTF-8 到 GBK / Unicode 转换可能增加字节数。

Q2：Windows 可以用吗？
A：Windows 没有原生 iconv，需要 libiconv 或 WideChar API。

Q3：iconv 会修改指针吗？
A：会，必须使用临时指针变量。

九、扩展方向与性能优化

封装为 字符编码工具类
支持更多编码（UTF-16、BIG5）
处理文件级编码转换
网络流实时转换
Windows / Linux 双平台实现

【C++：C++11】C++11新特性深度解析：从可变参数模板到Lambda表达式

🎬 个人主页：艾莉丝努力练剑 ❄专栏传送门：《C语言》《数据结构与算法》《C/C++干货分享&学习过程记录》《Linux操作系统编程详解》《笔试/面试常见算法：从基础到进阶》《Python干货分享》 ⭐️为天地立心，为生民立命，为往圣继绝学，为万世开太平 🎬 艾莉丝的简介： 🎬 艾莉丝的C++专栏简介：文章目录 * C++学习阶段的三个参考文档 * 4 ~> 可变参数模版 * 4.5 emplace系列接口 * 4.5.1 不同容器emplace系列接口展示 * 4.5.2 浅谈emplace系列接口概念 * 4.5.3 emplace系列接口在list.h文件中的使用 * 4.5.4 emplace系列接口在Test.cpp文件中的使用 * 4.

【C/C++】一文带你彻底玩转C/C++中的指针！(万字解读，非常详细！适合初学者或老手回顾)

目录 * 一、指针简介 * 二、指针入门 * 1.初见指针 * 2.指针的解引用 * 3.指针的类型 * 4.野指针和空指针 * （1）野指针 * （2）空指针 * 5.指针的简单应用 * 6.结构体与指针 * 三、指针进阶 * 1.指针与数组 * 2.指针的运算 * 3.常量指针与指针常量 * （1）常量指针 * （2）指针常量 * （3）总结 * 3.字符指针与字符串、字符数组 * 4.指针数组与数组指针 * （1）指针数组 * （2）数组指针 * （3）总结 * 5.函数指针和指针函数 * （1）函数指针

华为OD机试双机位C卷:螺旋数字矩阵 (C/C++/Py/Java/Js/Go)

螺旋数字矩阵华为OD机试双机位C卷 - 华为OD上机考试2025年双机位C卷 100分题型华为OD机试双机位C卷真题目录点击查看: 华为OD机试双机位C卷真题题库目录｜机考题库 + 算法考点详解题目描述疫情期间，小明隔离在家，百无聊赖，在纸上写数字玩。他发明了一种写法：给出数字个数n和行数m（0 < n ≤ 999，0 < m ≤ 999），从左上角的1开始，按照顺时针螺旋向内写方式，依次写出2,3…n，最终形成一个m行矩阵。小明对这个矩阵有些要求： * 每行数字的个数一样多 * 列的数量尽可能少 * 填充数字时优先填充外部 * 数字不够时，使用单个*号占位输入描述输入一行，两个整数，空格隔开，依次表示n、m 输出描述符合要求的唯一矩阵示例1 输入 9 4 输出

线段树学习笔记（c++）

一、什么是线段树？线段树(Segment Tree)是一种的二叉树数据结构，基于分治思想，用于高效地处理区间操作。二、线段树的优点假设有一个数组 A，大小为 N。操作类型普通数组前缀和数组线段树单点修改O(1)O(N) (需重建) 区间查询O(N)O(1) 普通数组：修改快，但求区间和慢（要遍历）。前缀和：查询快，但只要修改一个数，整个前缀和数组都要更新。线段树：修改和查询都很快，是一种完美的平衡。三、线段树的结构原理线段树的核心思想是分治。线段树的每一个节点都代表一个区间。假设我们的数组长度为 4 [1, 2, 3, 4]：根节点：存整个区间 [1, 4] 的和。左子节点：