C++ string 模拟实现与底层细节深度解析

C++ string 模拟实现与底层细节深度解析 | 极客日志

namespace ljh { class string { }; }

namespace ljh { class string { private: size_t _size; size_t _capacity; char* _str; };

namespace ljh { class string { private: size_t _size; size_t _capacity; char* _str; public: static size_t npos; };
size_t string::npos = -1; // 库中的定义就是无符号整数的 -1 也就是无符号整数的最大值

// 全缺省构造函数：支持无参调用（默认空字符串），或传入 C 风格字符串
string(const char* str) {
    _size = strlen(str); // 计算字符串长度（不包含末尾的\0）
    _capacity = _size;   // 容量初始化为当前字符串长度
    _str = new char[_capacity + 1]; // 分配空间：额外多 1 个字节存\0
    // 【注意】strcpy 的特性：会自动拷贝到源字符串的\0为止（包括\0本身）
    // 但如果源字符串中间包含\0，strcpy 会提前终止，导致拷贝不完整
    // 当然对于标准 C 风格常量字符串（仅末尾含 \0）的场景，strcpy 能正常完成拷贝
    // 但是出于代码的统一性，所以我整个 string 拷贝相关的代码都用的是 memcpy
    // strcpy(_str, str);
    // 改用 memcpy：按指定字节数（有效字符数 + 1 个\0）拷贝，避免上述问题
    memcpy(_str, str, _size + 1);
}

// 析构函数
~string() {
    delete[] _str;
    _str = nullptr;
    _size = _capacity = 0;
}

string(const string& s) {
    _str = new char[s._capacity + 1];
    memcpy(_str, s._str, s._size + 1);
    _size = s._size;
    _capacity = s._capacity;
}

void swap(string& s) {
    std::swap(_str, s._str);
    std::swap(_size, s._size);
    std::swap(_capacity, s._capacity);
}
// 拷贝构造（现代写法）
string(const string& s) :_str(nullptr), _size(0), _capacity(0) {
    string tmp(s._str);
    swap(tmp);
}

string& operator=(string& s) {
    // 如果两个不相等
    if (*this != s) {
        char* tmp = new char[s._capacity + 1];
        memcpy(tmp, s._str, _size + 1);
        delete[] _str;
        _str = tmp;
        _size = s._size;
        _capacity = s._capacity;
    }
    return *this;
}

string& operator=(string tmp) {
    if(*this != tmp) {
        swap(tmp);
        return *this;
    }
}

// 用于预分配内存、扩容容器容量、缩容是非约束行为、不会对创建好的空间进行初始化
void reserve(size_t n) {
    // 仅当请求容量超过当前容量时执行扩容操作
    if (n > _capacity) {
        // 分配新的字符数组，额外+1 用于存储字符串终止符'\0'
        // 注意：_capacity 仅记录可存储的有效字符数，不包含终止符
        char* tmp = new char[n + 1];
        // 将原字符串内容（包括可能存在的中间'\0'）复制到新空间
        // _size+1 会将\0 也拷贝过去
        memcpy(tmp, _str, _size + 1);
        // 释放原空间，防止内存泄漏
        delete[] _str;
        // 更新字符串指针指向新空间
        _str = tmp;
        // 更新容量为新分配的大小（不包含终止符的空间）
        _capacity = n;
    }
}

void push_back(char ch) {
    if (_size == _capacity) {
        // 2 倍扩容
        reserve(_capacity == 0 ? 4 : _capacity * 2);
    }
    _str[_size] = ch;
    ++_size;
    // 补'\0'
    _str[_size] = '\0';
}

void append(const char* str) {
    assert(str);
    size_t len = strlen(str);
    // 如果 len+_size = _capacity 就代表刚好够
    // 大于代表空间不够了
    if (len + _size > _capacity) {
        // 至少扩容到 len+_size
        reserve(len + _size);
    }
    // 由于拷贝 len+1 个字符，所以\0 也被拷贝过去了
    memcpy(_str + _size, str, len + 1);
    _size += len;
}

// 在指定位置插入 n 个字符
void insert(size_t pos, size_t n, char ch) {
    // pos 等于_size 等于尾插
    assert(pos <= _size);
    // 扩容逻辑
    if (_size + n > _capacity) {
        // 这块不能随便二倍扩容，因为你也不知道_size + n 是大于 2 倍_size 还是小于
        reserve(_size + n);
    }
    // 挪动数据方法三：
    size_t end = _size + 1;
    while (end > pos) {
        _str[end + n - 1] = _str[end - 1];
        end--;
    }
    // 填充字符
    for (size_t i = 0; i < n; i++) {
        _str[pos + i] = ch;
    }
    _size += n;
    // 不用给_size 位置加\0，因为挪动数据时\0 也被挪到_size 位置了
}

size_t end = _size;
while (end >= pos) {
    _str[end + n] = _str[end];
    end--;
}

int end = _size;
while (end >= (int)pos) {
    _str[end + n] = _str[end];
    end--;
}

size_t end = _size;
// end != npos：拦截 end 减到 -1（无符号溢出值）的情况，避免死循环
// end >= pos：只挪动 pos 及之后的字符（含末尾'\0'）
while (end != npos && end >= pos) {
    _str[end + n] = _str[end];
    end--;
}

// 挪动数据方法三：
size_t end = _size + 1;
while (end > pos) {
    _str[end + n - 1] = _str[end - 1];
    end--;
}

// 在指定位置插入字符串
void insert(size_t pos, const char* str) {
    // pos 必须是有效数据
    // pos=_size 是尾插
    assert(pos <= _size);
    size_t len = strlen(str);
    // 扩容
    if (len + _size > _capacity) {
        reserve(len + _size);
    }
    // 挪动数据
    size_t end = _size;
    while (end >= pos && end != npos) {
        _str[end + len] = _str[end];
        end--;
    }
    // 插入数据
    for (size_t i = 0; i < len; i++) {
        _str[pos + i] = str[i];
    }
    _size += len;
}

void erase(size_t pos, size_t len = npos) {
    // 起始删除位置必须在有效字符范围内，防止越界访问
    // 同时避免了_size 为 0 的问题，当_size=0 时，pos 始终小于_size
    assert(pos < _size);
    // 场景 1：删除从 pos 到字符串末尾的所有字符（len 为默认值 或 待删除长度覆盖剩余全部字符）
    if (len == npos || pos + len >= _size) {
        // 直接在 pos 位置写入字符串结束符，截断后续字符
        _str[pos] = '\0';
        // 更新有效字符长度，完成逻辑删除（无需释放内存，仅修改长度标记）
        _size = pos;
    }
    // 场景 2：删除指定长度的字符（len 合法且未覆盖到字符串末尾）
    else {
        // 计算待删除区间的结束下一个位置（即需要保留的第一个字符位置）
        size_t end = pos + len;
        // 内存覆盖：将 end 开始的字符依次向前拷贝到 pos 位置，直至覆盖到原结束符
        // 循环终止条件包含_size，保证字符串结束符'\0'也被正确迁移
        while (end <= _size) {
            _str[pos++] = _str[end++];
        }
        // 更新有效字符长度：减去实际删除的字符数
        _size -= len;
    }
}

// 开空间、填值、删值（容量不会变化）
void resize(size_t n, char ch = '\0') {
    // 删值
    if (n < _size) {
        _size = n;
        _str[_size] = '\0';
    }
    // 填值
    else {
        // 如果 n 大于_capacity 才会扩容
        reserve(n);
        // 从已有的有效数据后开始填
        for (size_t i = _size; i < n; i++) {
            _str[i] = ch;
        }
        _size = n;
        _str[_size] = '\0';
    }
}

void clear() {
    _str[0] = '\0';
    _size = 0;
}

size_t size() const { return _size; }

size_t capacity() const { return _capacity; }

bool empty() const { return _size == 0; }

void swap(string& s) {
    std::swap(_str, s._str);
    std::swap(_size, s._size);
    std::swap(_capacity, s._capacity);
}

string& operator+=(char ch) {
    push_back(ch);
    return *this;
}
string& operator+=(const char* ch) {
    append(ch);
    return *this;
}

// 从字符串 pos 位置开始往后找字符 c
size_t find(char ch, size_t pos = 0) {
    assert(pos < _size);
    for (size_t i = pos; i < _size; i++) {
        if (_str[i] == ch) {
            return i;
        }
    }
    return npos;
}
// 从字符串 pos 位置开始往后找字符串 str
size_t find(const char* str, size_t pos = 0) {
    assert(pos < _size);
    const char* ptr = strstr(_str + pos, str);
    if (ptr) {
        return ptr - _str;
    } else {
        return npos;
    }
}

// 获取子串 从 pos 开始取 len 个字符，如果 len = npos，或者 pos+len 大于字符串长度，取 pos 后面的所有字符
string substr(size_t pos = 0, size_t len = npos) {
    assert(pos < _size);
    size_t n = len;
    // 如果 len = npos 或者 pos+len 大于字符串长度，更新应获取的字符串长度
    if (len == npos || pos + len > _size) {
        n = _size - pos;
    }
    string tmp;
    // 开空间
    tmp.reserve(n);
    // 拷贝数据 - 结束条件必须是 n+pos，因为 i 不一定是从 0 开始的
    for (size_t i = pos; i < n + pos; i++) {
        // 不用考虑'\0'，因为+=已经将'\0'补了
        tmp += _str[i];
    }
    return tmp;
}

class string {
public:
    typedef char* iterator;
    typedef const char* const_iterator;
    iterator begin() { return _str; }
    iterator end() { return _str + _size; }
    const_iterator begin() const { return _str; }
    const_iterator end() const { return _str + _size; }
};

char& operator[](size_t pos) {
    assert(pos < _size);
    return _str[pos];
}
const char& operator[](size_t pos) const {
    assert(pos < _size);
    return _str[pos];
}

const char* c_str() const { return _str; }

// 写法 1：
bool operator<(const string& s) const {
    size_t i1 = 0;
    size_t i2 = 0;
    while (i1 < _size && i2 < s._size) {
        if (_str[i1] < s._str[i2]) {
            return true;
        } else if (_str[i1] > s._str[i2]) {
            return false;
        } else {
            ++i1;
            ++i2;
        }
    }
    // 走到这还有这 3 种情况要处理
    // "hello" "hello" false
    // "helloxx" "hello" false
    // "hello" "helloxx" true
    // 处理写法 1：
    /*if (i1 == _size && i2 != s._size) {
        return true;
    } else {
        return false;
    }*/
    // 写法 2：
    // return i1 == _size && i2 != s._size;
    // 写法 3：
    // return _size < s._size;
}

bool operator<(const string& s) const {
    int ret = memcmp(_str, s._str, _size < s._size ? _size : s._size);
    // "hello" "hello" false
    // "helloxx" "hello" false
    // "hello" "helloxx" true
    // 如果 ret==0 考虑上面 3 种情况，否则直接返回结果
    return ret == 0 ? _size < s._size : ret < 0;
}

bool operator==(const string& s) const {
    return _size == s._size && memcmp(_str, s._str, _size) == 0;
}

bool operator<=(const string& s) const {
    return *this < s || *this == s;
}

bool operator>(const string& s) const {
    return !(*this <= s);
}

bool operator>=(const string& s) const {
    return !(*this < s);
}

bool operator!=(const string& s) const {
    return !(*this == s);
}

ostream& operator<<(ostream& out, const string& s) {
    /*for (size_t i = 0; i < s.size(); i++) {
        out << s[i];
    }*/
    for (auto e : s) {
        out << e;
    }
    return out;
}

istream& operator>>(istream& in, string& s) {
    s.clear();
    char ch = in.get();
    // 处理前缓冲区前面的空格或者换行
    while (ch == ' ' || ch == '\n') {
        ch = in.get();
    }
    char buff[128];
    int i = 0;
    while (ch != ' ' && ch != '\n') {
        buff[i++] = ch;
        if (i == 127) {
            buff[i] = '\0';
            s += buff;
            i = 0;
        }
        ch = in.get();
    }
    if (i != 0) {
        buff[i] = '\0';
        s += buff;
    }
    return in;
}

C++ string 模拟实现与底层细节深度解析

C++ string 模拟实现与底层细节深度解析

一、前置工作

二、默认成员函数

1、构造函数

2、析构函数

3、拷贝构造函数

4、赋值运算符重载

三、字符串操作接口

1、reserve

2、push_back

3、append

4、insert

5、erase

6、resize

7、clear

8、size

9、capacity

10、empty

11、swap

12、operator+=

四、字符串的'查找与子串操作'类接口

1、find

2、substr

五、字符串访问类接口

1、迭代器

2、operator[]

3、c_str

六、运算符重载接口

1、<

2、==

3、<=

4、>

5、>=

6、!=

七、<< 和 >> 重载接口

1、流插入运算符重载

2、流提取运算符重载

更多推荐文章

相关免费在线工具

C++ string 模拟实现与底层细节深度解析

C++ string 模拟实现与底层细节深度解析

一、前置工作

二、默认成员函数

1、构造函数

2、析构函数

3、拷贝构造函数

4、赋值运算符重载

三、字符串操作接口

1、reserve

2、push_back

3、append

4、insert

5、erase

6、resize

7、clear

8、size

9、capacity

10、empty

11、swap

12、operator+=

四、字符串的'查找与子串操作'类接口

1、find

2、substr

五、字符串访问类接口

1、迭代器

2、operator[]

3、c_str

六、运算符重载接口

1、<

2、==

3、<=

4、>

5、>=

6、!=

七、<< 和 >> 重载接口

1、流插入运算符重载

2、流提取运算符重载

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具