《C/C+++ Boost 轻量级搜索引擎实战:架构流程、技术栈与工程落地指南——构造正/倒排索引(中篇)》

《C/C+++ Boost 轻量级搜索引擎实战:架构流程、技术栈与工程落地指南——构造正/倒排索引(中篇)》
前引:这是一个聚焦基础搜索引擎核心工作流的实操项目,基于 C/C++ 技术生态落地:从全网爬虫抓取网页资源,到服务器端完成 “去标签 - 数据清洗 - 索引构建” 的预处理,再通过 HTTP 服务接收客户端请求、检索索引并拼接结果页返回 —— 完整覆盖了轻量级搜索引擎的端到端逻辑。项目采用 C++11、STL、Boost 等核心技术栈,搭配 CentOS 7 云服务器 + GCC 编译环境(或 VS 系列开发工具)部署,既适配后端工程的性能需求,也能通过可选的前端技术(HTML5/JS 等)优化用户交互,是理解搜索引擎底层原理与 C++ 工程实践的典型案例

目录

【一】Jieba分词工具

【二】正/倒排索引结构设计

【三】关键函数设计

(1)由文档ID返回文档内容

(2)由关键字返回倒排拉链

(3)说明

(4)建立索引

(5)建立正排索引

(6)建立倒排索引

【四】单例模式


【一】Jieba分词工具

我们在对使用倒排索引的时候需要用到“关键词”,这个关键词由每个.html文档的标题和内容而来,因此就涉及到分词,所以我们使用 cppjieba 分词工具来完成,下面是上传:

如果需要使用到cppjieba分词工具,可以在gitcode上面直接搜索使用Git命令上传,我这里是本地上传到服务器:

然后对 cppjieba/include/cppjieba和cppjieba/dict分别建立软链接:头文件和词库

我们把cppjieba移动到上级目录,然后更新一下这两个软链接:

【二】正/倒排索引结构设计

//正排结构 typedef struct Forward_index { //文档内容 std::string title; std::string source; std::string chain; //对应正排ID uint64_t doc_id; }Forwardindex; //倒排结构 typedef struct Inverted_index { //对应正排ID int doc_id; //涉及到的关键字 std::string word; //权重 int weight; }Invertedindex; 

正排:根据ID映射对应的文档(标题、内容、URL),这个ID刚好利用vector的下标!

倒排:根据“关键字”映射对应的ID,所以利用unordered_map快速的搜索特性

//正排存储 std::vector<Forwardindex> Forward; typedef std::vector<Invertedindex> Stock_Inverted; //倒排存储 std::unordered_map<std::string,Stock_Inverted> Inverted;

【三】关键函数设计

(1)由文档ID返回文档内容

含义:即正排外部的实现,根据ID返回vector中对应的具体内容

//根据ID返回文档内容 Forwardindex* GetForward_index(const long long& id) { if(id>=Forward.size()) { std::cerr<<"GetForward_index is errno"<<std::endl; return nullptr; } return &Forward[id]; }
(2)由关键字返回倒排拉链

含义:倒排外部实现,根据“关键字”返回对应的ID,即返回对应的vector<Invertedindex>成员

解释:每个关键词涉及到的ID肯定不止一个,所以需要vector<Invertedindex>代表一个关键字涉               及到的所有文档

//根据关键字返回倒排拉链 Stock_Inverted* GetInverted_index(const std::string word) { auto it =Inverted.find(word); if(it == Inverted.end()) { std::cerr<<"GetInverted_index is errno"<<std::endl; return {}; } return &it->second; }
(3)说明

现在我们已经有了给外部的接口:由ID返回文档内容、由关键词返回文档ID

那么接下来就是填变量、建立索引关系:

//正排存储 std::vector<Forwardindex> Forward; typedef std::vector<Invertedindex> Stock_Inverted; //倒排存储 std::unordered_map<std::string,Stock_Inverted> Inverted;
(4)建立索引

原理:利用上一篇文章完成的数据清洗,最终每个.html文档内容都被输出到了data_clean.txt中

我们先利用getline按行读取(也就是按单个文档读取,因为data_clean.txt中也是按行写的)到 line变量里面,这样就拿到了单个文档的内容,因此while就是拿取data_clean.txt的全部文档内容!

建索引也就是同时建立正排和倒排的内容,也就是填vector和Unordered_map的操作!

//建立索引 bool Buildindex(const std::string &input) { std::ifstream in(input,std::ios::in | std::ios::binary); if(!in.is_open()) { std::cerr<<"Buildindex is errno"<<std::endl; return false; } //存单个读取文档内容 std::string line; while(std::getline(in,line)) { //正排 Forwardindex * doc = BUild_Forward_Index(line); printf("正在建立索引:%lld\ntitle:%s\nchain:%s\n",doc->doc_id,doc->title.c_str(),doc->chain.c_str()); if(doc==nullptr)continue; //倒排 Build_Inverted_Index(*doc); } return true; }
(5)建立正排索引

思路:首先我们拿到了单个文档的内容,也就是 line(string)变量,然后对这个内容进行解析,提取出标题、内容、URL(每个line变量都是:标题 | 内容 | URL 的格式,分割即可!)然后填入到vector里面,该文档的ID刚好就是vector的下标,下面有正排的结构体,大家可以对照着看:

//建立正排索引 Forwardindex *BUild_Forward_Index(const std::string&line) { Forwardindex* index = new Forwardindex(); //截取title size_t set_pos1 = line.find('\3'); if(set_pos1 == std::string::npos) { delete index; return nullptr; } index->title = line.substr(0, set_pos1); if (index->title.empty()) index->title = "空"; //截取source size_t set_pos2 = line.find('\3', set_pos1+1); if(set_pos2 == std::string::npos) { delete index; return nullptr; } index->source = line.substr(set_pos1+1, set_pos2 - (set_pos1+1)); if (index->source.empty()) index->source = "空"; //截取URL(chain) index->chain = line.substr(set_pos2+1); if (index->chain.empty()) index->chain = "空"; index->doc_id = Forward.size(); Forward.push_back(*index); return index; }
//正排结构 typedef struct Forward_index { //文档内容 std::string title; std::string source; std::string chain; //对应正排ID uint64_t doc_id; }Forwardindex;
(6)建立倒排索引
//建立倒排索引 bool Build_Inverted_Index(const Forwardindex& doc) { //建立分词对象 JiebaUtil jieba; std::vector<std::string> S; //对标题统计 S=jieba.Tokenize(doc.title); //此时V存放的是每个标题的分词,然后统计结果和出现次数 struct culculate { int title_size=0; int source_size=0; }; std::unordered_map<std::string,culculate> V; //遍历S统计标题的出现次数 for(auto e:S) { (V[e].title_size)++; } //统计内容出现次数 S.clear(); S=jieba.Tokenize(doc.source); for(auto e:S) { (V[e].source_size)++; } //遍历V的结果写入到Inverted for(auto it:V) { Invertedindex index_t; index_t.word=it.first; index_t.doc_id=doc.doc_id; index_t.weight=((it.second.title_size)*2+(it.second.source_size)*1); Inverted[it.first].push_back(std::move(index_t)); } return true; }

【四】单例模式

单例模式:只允许创建一个Index对象,后面只能由 index 指针调用该对象

pthread_mutex_t mutex = PTHREAD_MUTEX_INITIALIZER; class Index { public: typedef std::vector<Invertedindex> Stock_Inverted; //禁止拷贝构造和赋值重载 Index(const Index&)=delete; Index& operator=(const Index&)=delete; static Index*handle() { if(instance==nullptr) { pthread_mutex_lock(&mutex); if (instance == nullptr) { instance = new Index; } pthread_mutex_unlock(&mutex); } return instance; } ...... }
 //静态成员初始化 Index* Index::instance=nullptr;

Read more

告别套壳 Chat!网易有道开源 LobsterAI:基于沙箱隔离与 Cowork 引擎的桌面级超级 Agent

告别套壳 Chat!网易有道开源 LobsterAI:基于沙箱隔离与 Cowork 引擎的桌面级超级 Agent

告别套壳 Chat!网易有道开源 LobsterAI:基于沙箱隔离与 Cowork 引擎的桌面级超级 Agent 当云端的大模型还在给你输出"建议代码"时,LobsterAI 已经通过你手机发来的钉钉消息,在本地沙箱里帮你跑完了数据分析,并把生成的 PPT 发到了你的工作群。 一、一场属于国产 Agent 的开源风暴 2026 年初,AI 圈的目光再次聚焦于 GitHub,网易有道开源的一个现象级项目——LobsterAI(有道龙虾),打破了长久以来"云端大模型"的路径依赖。 它不是一个简单的套壳聊天框,而是以一种极其硬核的姿态重写了"个人 AI 助理"定义的开源项目。 这不是普通的工具发布,这是对"脏活累活"的全面接管:

By Ne0inhk
工信部擘画“开源新基建”:推动工业互联网平台生态跃迁

工信部擘画“开源新基建”:推动工业互联网平台生态跃迁

当工业的庞大躯干寻求智能化的灵魂,一场围绕“连接”与“控制”的深层博弈正在展开。开源,这把曾经重塑了互联网世界的钥匙,如今被赋予了打开工业互联网下一道价值之门的使命。 1月13日,中华人民共和国工业和信息化部(以下简称“工信部”)发布了《推动工业互联网平台高质量发展行动方案(2026—2028年)》(以下简称《行动方案》)。面对工业互联网平台从“建设普及期”迈向“价值深耕期”的关键转折,数据孤岛林立、应用创新乏力、生态协同薄弱等瓶颈日益凸显的问题,在此背景下,《行动方案》将“探索平台开源机制,推动建设开源社区”提升至核心战略路径。这并非简单的技术选项,而是一次旨在通过开放、协作、共享的底层机制,对产业创新体系进行系统性重塑的顶层设计,其目标直指构建一个泛在互联、深度协同、开源开放的新一代工业互联网生态,为中国制造业的智能化跃迁铸就坚实基座。 一、破茧成蝶:开源成为顶层设计关键 工业互联网平台的深层挑战,就源于封闭与割裂,各平台如同数字时代的“孤岛”,数据协议不通、

By Ne0inhk
Answer 开源平台搭建:cpolar 内网穿透服务助力全球用户社区构建

Answer 开源平台搭建:cpolar 内网穿透服务助力全球用户社区构建

文章目录 * 前言 * 1. 本地安装Docker * 2. 本地部署Apache Answer * 2.1 设置语言选择简体中文 * 2.2 配置数据库 * 2.3 创建配置文件 * 2.4 填写基本信息 * 3. 如何使用Apache Answer * 3.1 后台管理 * 3.2 提问与回答 * 3.3 查看主页回答情况 * 4. 公网远程访问本地 Apache Answer * 4.1 内网穿透工具安装 * 4.2 创建远程连接公网地址 * 5. 固定Apache Answer公网地址 前言 在开源社区运营中,问答平台的全球化访问始终面临双重挑战:一方面需要保障数据主权与隐私安全,另一方面要实现低延迟的跨地域访问。Answer

By Ne0inhk

国内外开源与闭源大模型清单

国内外开源与闭源大模型清单 国外 * 开源 * LLaMA 3.x(Meta):通用基座,覆盖多尺寸,生态完善。 * Mixtral 8x7B / Mixtral 22B(Mistral AI):MoE 架构,高效推理。 * Gemma 1–3(Google):轻量高效,适合端侧与研究。 * Phi 系列 1.5/3/3.5/4(Microsoft):小型高效,推理能力强化。 * DBRX(Databricks):开源 MoE,面向通用与数据工作负载。 * Nemotron‑4 340B(NVIDIA):超大参数,含 Base/Instruct/Reward

By Ne0inhk