【Mac 实战】简单知识图谱搭建步骤详解(Neo4j + py2neo)

【Mac 实战】简单知识图谱搭建步骤详解(Neo4j + py2neo)

目录

一、Neo4j图数据库

1、neo4j 安装 - mac brew版

2、neo4j 快速入门

3、neo4j 基本操作

(1)增操作

(2)查操作

(3)改操作

(4)删操作

4、安装py2neo

二、数据预处理

1、数据清洗

2、知识建模

(1)识别实体

(2)识别实体属性

(3)识别关系

三、搭建知识图谱


博主的数据集是用的自己的数据集,大家练习时可以在网上找一个数据量小的数据集练手。

一、Neo4j图数据库

        Neo4j 是一个高性能的、原生的图数据库。它不采用传统的行和列的表格结构,而是使用节点关系的图结构来存储和管理数据。

1、neo4j 安装 - mac brew版

(1)安装neo4j

安装了Homebrew直接在终端输入以下命令即可



安装后,Neo4j 浏览器可通过 http://localhost:7474 访问。





(2)登录neo4j



【1】在登录页面填写信息:Connect URL:输入 neo4j://localhost:7687Authentication type:保持为 "Username / Password"Username:输入 neo4jPassword:首次连接时输入默认密码 neo4j点击蓝色的 Connect​ 按钮



【2】首次连接成功后,系统会强制要求修改默认密码:当前密码:neo4j设置一个新的安全密码(请务必记住)



【3】测试连接

连接成功后,在顶部的命令行中输入 Cypher 查询语句,例如:

2、neo4j 快速入门

【1】我们点击左边栏的星星图标,在Example Graphs中选择Movie Graph,点击运行,就会弹出一个关于电影图谱的教程





【2】创建图谱

点击灰色代码框,创建图谱的代码会自动复制到代码框



点击运行,即可看到创建的电影图谱





【3】查找

下面是一些关于查找的语句:查找名叫Tom Hanks的演员查找标题为Cloud Atlas的电影查找10个人查找在20世纪90年代上映的电影







【4】询问



后续还有一些查询语句教程不一一列举了,感兴趣的同学可以自行运行。

3、neo4j 基本操作

接下来我们以【麦当劳】为背景,用Neo4j的Cypher查询语言演示基本增删改查操作。

下面我们建立一个简单的图谱,包含两种节点和一种关系:

  • 节点类型1:餐厅
    • 属性:名称地址开业年份
  • 节点类型2:产品
    • 属性:名称价格类别
  • 关系类型:供应
    • 属性:自何时起供应
(1)增操作

【1】创建节点

【2】创建关系
(2)查操作

【1】查找所有餐厅





【2】查找特定餐厅供应的所有产品





【3】查找供应可乐的所有餐厅





因为前面没有创建这么多关系,下面只做操作语法展示



【4】多跳查询 - 查找与MC销售同类产品的其他餐厅

因为前面没有创建这么多关系,这里只做操作语法展示

【5】路径查询 - 查找两家餐厅通过共同产品产生的关联

(3)改操作

【1】更新节点属性

【2】新增节点属性

【3】更新关系属性
(4)删操作

【1】删除关系

【2】删除节点(必须先删除其所有关系)

【3】删除所有节点
通过以上麦当劳的例子,我们可以看到Neo4j的操作非常直观:CREATE/ MERGE: 对应SQL的INSERT,用于创建节点和关系。MATCH: 对应SQL的SELECT ... FROM,是查询的起点,用于定位图形中的模式。WHERE: 对应SQL的WHERE,用于过滤结果。SET: 对应SQL的UPDATE,用于更新属性。DELETE/ DETACH DELETE: 对应SQL的DELETE,用于删除元素。

Neo4j的核心优势在于通过MATCH子句描述关联模式,例如(餐厅)-[供应]->(产品),这使得查询复杂的关系网络变得简单和高效。
4、安装py2neo

py2neo 是 Python 连接和操作 Neo4j 图数据库的主要工具库,适用于需要处理复杂关系数据的应用场景。

二、数据预处理

数据预处理包括数据清洗、实体识别等步骤,目的是将原始数据转换为适合构建知识图谱的格式。

1、数据清洗

数据质量要求:补全缺失值:对于明显缺失的信息(如设备型号),可以标记为【缺失】或根据上下文推断。格式标准化:将日期统一为【YYYY-MM-DD】格式。去除重复值:删除重复的条目
2、知识建模

我们需要从业务角度理解数据,设计出合理的图谱结构。(1)识别实体

实体是知识图谱中的【节点】。在我的数据集中,可以识别出以下主要实体类型:订单记录:核心实体,每一笔订单就是一个销售事件。产品:订单中的商品。例如,“生日蛋糕”、“马卡龙”、“手冲咖啡”。数据中【产品名称】和【产品类别】是其属性。配方标准:制作产品的依据和标准。数据中【配方名称】、【配料序号】、【制作要点】等是其属性。客户反馈:客户对订单或产品的评价与建议。促销活动:与订单关联的营销方案。门店:订单发生的背景。

(2)识别实体属性

属性是描述实体的键值对。订单记录​ 的属性:下单时间、订单描述、订单金额、是否加急、订单状态、支付方式、配送地址。产品​ 的属性:产品名称、产品类别、规格、单价、保质期、产品编号。配方标准​ 的属性:配方名称、配料序号、制作步骤、所需时间、适用产品。客户反馈​ 的属性:反馈内容、评分。促销活动​ 的属性:活动名称、折扣力度、适用条件。门店​ 的属性:门店地址、营业时间、联系电话。

(3)识别关系

关系是连接实体的边,是图谱价值的体现。门店​ -- 提供 --> 产品订单记录​ -- 产生于 --> 门店订单记录​ -- 包含 --> 产品订单记录​ -- 触发 --> 促销活动订单记录​ -- 收到 --> 客户反馈产品​ -- 依据 --> 配方标准配方标准​ -- 适用于 --> 产品

三、搭建知识图谱

下面代码为简化后的模板代码,需要根据自己的数据集进行修改后再运行。



运行后效果如下图:

Read more

大学生AI写作工具全流程应用指南(从开题到答辩)

说明:本清单按论文写作时间线划分6个核心阶段,明确各阶段工具搭配、操作要点及注意事项,可直接对照执行,兼顾效率与学术合规性。 阶段1:开题阶段(核心目标:确定选题+完成开题报告) 工具搭配:豆包AI + PaperRed 操作步骤: 1. 选题构思:打开豆包AI,输入“XX专业(如汉语言文学)本科论文选题方向”,获取5-8套开题思路;同时用PaperRed的“学术热点图谱”功能,输入核心关键词,查看近3年文献增长趋势与研究空白区,筛选出兼具可行性与创新性的选题。 2. 框架及内容生成:在PaperRed中选择“开题报告”,输入确定的选题,选择自己学校的模板,生成包含“研究背景、目的意义、研究方法、进度安排”的标准框架及内容并且格式也是调整好的,生成基础内容后人工优化,确保逻辑连贯。 注意事项:选题需结合自身专业基础,避免过度依赖AI选择超出能力范围的课题。 阶段2:文献搜集与梳理阶段(核心目标:高效获取权威文献+

AI支持下的高水平学术论文写作:从前沿选题挖掘、智能写作工程、顶刊图表可视化、到精准选刊投稿与审稿博弈策略

AI支持下的高水平学术论文写作:从前沿选题挖掘、智能写作工程、顶刊图表可视化、到精准选刊投稿与审稿博弈策略

SCI论文写作是科学研究成果传播和学术交流的重要途径,不仅是研究者展示创新性和学术贡献的核心方式,也是提升个人学术影响力和职业发展的关键手段。你是否经历以下阶段:文献不知如何检索和管理?文献越读越多,却不知道下一步做什么?想法很多,却始终落不到一篇完整的论文?软件装了一堆,科研效率却没有本质提升?AI用过,但始终停留在“翻译+润色”的初级阶段?在AI时代,顶级科研者正在做的,已不只是“翻译和润色”,而是构建属于自己的科研第二大脑。本课程对SCI论文从准备到投稿全流程进行讲解,帮你搭建一条从文献→想法→写作→投稿→审稿的全流程清晰可复制的路径,通过顶刊逻辑×AI赋能×可复制科研能力,三个纬度提升SCI论文的写作效率和投稿命中率。 SCI论文写作是科学研究成果传播和学术交流的重要途径,不仅是研究者展示创新性和学术贡献的核心方式,也是提升个人学术影响力和职业发展的关键手段。你是否经历以下阶段:文献不知如何检索和管理?文献越读越多,却不知道下一步做什么?想法很多,却始终落不到一篇完整的论文?软件装了一堆,科研效率却没有本质提升?AI用过,但始终停留在“翻译+润色”的初级阶段?在AI时代,顶级

LLaMA-Factory微调(LoRA)Qwen2.5实战

为什么要微调(LoRA方法)Qwen2.5通用大模型?         微调后可让Qwen2.5在某些领域更专业化,例如使Qwen2.5更拟人、更温柔、语调生动。 LLaMA-Factory概述         LLaMA-Factory 是目前公认最好用、门槛最低的开源微调工具。它把复杂的代码封装成了可视化的界面,让你像填表一样就能训练模型。。它的核心目标是让普通开发者和研究者也能在消费级显卡(如 4090)上轻松微调千亿参数的大模型。         它的核心优势: 1. 零代码 WebUI:它提供了一个网页界面(如上图),你只需要在下拉菜单里选模型、选数据集、填参数,点“开始”就行,不用写一行 Python 代码。 2. 全能支持: * 模型:支持几乎所有主流模型(Llama 3, Qwen, Baichuan, ChatGLM, Mistral, Gemma, DeepSeek 等)。 * 方法:支持

拥抱开源生态:Llama-Factory统一接口简化多模型管理

拥抱开源生态:Llama-Factory统一接口简化多模型管理 在大语言模型(LLM)迅速渗透各行各业的今天,从智能客服到代码生成、从知识问答到个性化推荐,定制化模型已成为提升业务竞争力的关键手段。然而,现实却并不总是理想——尽管 Hugging Face 上已有成千上万的开源模型,真正能“拿来即用”的少之又少。每个主流架构——LLaMA、Qwen、ChatGLM、Baichuan——都有各自的加载方式、Tokenizer 规则和微调习惯,开发者往往需要为不同模型重写训练脚本、反复调试环境依赖,甚至因为显存不足而被迫放弃更大规模的尝试。 这正是 Llama-Factory 的价值所在。它不只是一款工具,更像是一个“翻译器”与“加速器”的结合体:将五花八门的大模型纳入同一套操作体系,让开发者无需深陷底层细节,就能高效完成从数据准备到部署上线的全流程任务。 统一接口如何打破模型壁垒? 想象一下这样的场景:你正在评估 Qwen-7B 和 LLaMA-3-8B 哪个更适合你的企业知识库问答系统。传统做法是分别克隆两个项目的代码仓库,阅读文档,配置不同的依赖项,