Prompt 辅助的实体识别（NER）实战案例

Prompt 辅助的实体识别（NER）实战案例 | 极客日志

对比维度	传统 NER	Prompt 辅助 NER
数据依赖	需大量人工标注的结构化数据（如 BIO 格式标注语料）	无需大规模标注数据，少量示例（Few-Shot）即可生效
技术门槛	需掌握深度学习框架（如 PyTorch/TensorFlow），熟悉 BERT、BiLSTM 等模型调优	无需模型开发经验，仅需设计符合任务需求的 Prompt
迭代效率	新增实体类别需重新标注数据、训练模型，周期长（数天至数周）	新增类别仅需修改 Prompt 中的实体定义，即时生效
泛化能力	对未见过的实体类型（如小众专业术语）适配性差	依托 LLM 的通用知识，对低频实体、跨领域实体识别能力更强
部署成本	需部署训练好的模型，需考虑算力、推理延迟问题	直接调用 LLM API（如 OpenAI、Claude），部署成本低

你是一名金融领域的实体识别助手，需从以下财报文本中提取指定实体。
任务要求：
1. 实体类别定义：
 - 公司名称：财报中提及的上市公司或关联公司全称；
 - 营收金额：包含具体数值和单位的年度营业收入（如"120 亿元"）；
 - 净利润：包含具体数值和单位的年度净利润（如"15.8 亿元"）；
 - 资产负债率：以百分比表示的资产负债率（如"58.2%"）；
 - 审计机构：负责财报审计的会计师事务所全称。
2. 输出格式：以 Markdown 表格输出，列名为'实体类别''实体内容''文本来源（原文片段）'；若某类别无对应实体，填写'无'。
3. 示例参考：
（示例文本：2023 年，贵州茅台实现营业收入 1400.53 亿元，净利润 735.72 亿元，资产负债率为 21.4%，财报由普华永道中天会计师事务所审计。）
（示例结果：
 | 实体类别 | 实体内容 | 文本来源（原文片段） |
 |------------|------------------------|--------------------------------------------------------|
 | 公司名称 | 贵州茅台 | 2023 年，贵州茅台实现营业收入 1400.53 亿元 |
 | 营收金额 | 1400.53 亿元 | 2023 年，贵州茅台实现营业收入 1400.53 亿元 |
 | 净利润 | 735.72 亿元 | 净利润 735.72 亿元，资产负债率为 21.4% |
 | 资产负债率 | 21.4% | 净利润 735.72 亿元，资产负债率为 21.4% |
 | 审计机构 | 普华永道中天会计师事务所 | 财报由普华永道中天会计师事务所审计 |
）
待处理财报文本：2023 年，比亚迪股份有限公司全年实现营业收入 4240.61 亿元，同比增长 10.6%；归属于上市公司股东的净利润 291.38 亿元，同比增长 44.1%；截至 2023 年末，公司资产负债率为 67.5%，较上年末下降 2.3 个百分点。本公司年度财务报告经立信会计师事务所（特殊普通合伙）审计，审计意见为标准无保留意见。

实体类别	实体内容	文本来源（原文片段）
公司名称	比亚迪股份有限公司	2023 年，比亚迪股份有限公司全年实现营业收入 4240.61 亿元，同比增长 10.6%
营收金额	4240.61 亿元	2023 年，比亚迪股份有限公司全年实现营业收入 4240.61 亿元，同比增长 10.6%
净利润	291.38 亿元	归属于上市公司股东的净利润 291.38 亿元，同比增长 44.1%
资产负债率	67.5%	截至 2023 年末，公司资产负债率为 67.5%，较上年末下降 2.3 个百分点
审计机构	立信会计师事务所（特殊普通合伙）	本公司年度财务报告经立信会计师事务所（特殊普通合伙）审计，审计意见为标准无保留意见

你是一名医疗领域的实体识别助手，需从以下门诊病历文本中提取指定医疗实体。
任务要求：
1. 实体类别定义：
 - 患者性别：男/女；
 - 患者年龄：包含数值和单位（如"52 岁""3 个月"）；
 - 主诉症状：患者就诊时描述的主要症状（如"咳嗽 3 天""腹痛伴恶心"）；
 - 既往病史：患者之前确诊的疾病（如"高血压 5 年""糖尿病 2 型"）；
 - 开具药品：医生为患者开具的药品名称（含通用名，不含剂量）。
2. 输出格式：以 JSON 格式输出，键为实体类别，值为实体列表（若某类别无对应实体，值为 []）；
3. 示例参考：
（示例文本：患者，女，38 岁，因'发热伴咽痛 2 天'就诊。既往有'甲状腺功能减退'病史 3 年，无药物过敏史。医嘱开具：左甲状腺素钠片、蓝芩口服液。）
（示例结果：
 { "患者性别": ["女"], "患者年龄": ["38 岁"], "主诉症状": ["发热伴咽痛 2 天"], "既往病史": ["甲状腺功能减退（3 年）"], "开具药品": ["左甲状腺素钠片", "蓝芩口服液"] }
）
待处理病历文本：患者，男，65 岁，因'反复胸痛 1 周，加重 1 天'来院就诊。追问病史，患者有'高血压病 10 年'"2 型糖尿病 8 年'，长期服用硝苯地平控释片、二甲双胍片。查体：血压 150/95mmHg，心率 78 次/分。医嘱新增：阿司匹林肠溶片，用法：100mg/次，每日 1 次。

{"患者性别":["男"],"患者年龄":["65 岁"],"主诉症状":["反复胸痛 1 周，加重 1 天"],"既往病史":["高血压病（10 年）","2 型糖尿病（8 年）"],"开具药品":["硝苯地平控释片","二甲双胍片","阿司匹林肠溶片"]}

你是一名法律领域的实体识别助手，需从以下房屋租赁合同文本中提取指定法律实体。
任务要求：
1. 实体类别定义：
 - 出租方：房屋所有权人或授权出租的主体（个人需含姓名，企业需含全称）；
 - 承租方：租赁房屋的主体（个人需含姓名，企业需含全称）；
 - 房屋地址：租赁房屋的详细地址（含省、市、区、街道、门牌号）；
 - 租赁期限：包含起止日期的租赁时间段（如"2024 年 6 月 1 日至 2027 年 5 月 31 日"）；
 - 租金金额：包含月租金/年租金数值和货币单位（如"每月 5000 元""每年 6 万元"）；
 - 违约责任：合同中约定的违约行为及对应责任（如'承租方逾期付款，按日支付租金 0.5% 的违约金'）。
2. 输出格式：以'实体类别：实体内容（原文依据）'的列表形式输出，若某类别无对应实体，标注'无'；
3. 示例参考：
（示例文本：出租方：张三（身份证号：1101011980XXXX1234），承租方：北京 XX 科技有限公司（统一社会信用代码：91110105XXXXXX1234）。双方约定：租赁房屋位于北京市朝阳区建国路 88 号 XX 小区 3 号楼 1 单元 501 室，租赁期限自 2023 年 1 月 1 日至 2025 年 12 月 31 日，月租金为每月 4800 元。若出租方提前收回房屋，需赔偿承租方 2 个月租金作为违约金。）
（示例结果：
 1. 出租方：张三（原文依据：出租方：张三（身份证号：1101011980XXXX1234））
 2. 承租方：北京 XX 科技有限公司（原文依据：承租方：北京 XX 科技有限公司（统一社会信用代码：91110105XXXXXX1234））
 3. 房屋地址：北京市朝阳区建国路 88 号 XX 小区 3 号楼 1 单元 501 室（原文依据：租赁房屋位于北京市朝阳区建国路 88 号 XX 小区 3 号楼 1 单元 501 室）
 4. 租赁期限：2023 年 1 月 1 日至 2025 年 12 月 31 日（原文依据：租赁期限自 2023 年 1 月 1 日至 2025 年 12 月 31 日）
 5. 租金金额：每月 4800 元（原文依据：月租金为每月 4800 元）
 6. 违约责任：出租方提前收回房屋，需赔偿承租方 2 个月租金作为违约金（原文依据：若出租方提前收回房屋，需赔偿承租方 2 个月租金作为违约金）
）
待处理合同文本：出租方：李华（身份证号：3101011975XXXX4321），承租方：王丽（身份证号：3101041990XXXX5678）。根据《中华人民共和国民法典》，双方达成如下协议：1. 租赁房屋地址：上海市浦东新区张江高科技园区博云路 2 号 XX 大厦 1508 室；2. 租赁期限：自 2024 年 9 月 1 日起至 2026 年 8 月 31 日止；3. 租金标准：每月 6500 元，按季度支付；4. 违约责任：承租方逾期支付租金超过 15 日，出租方有权解除合同，并要求承租方支付 1 个月租金作为违约金；出租方未按约定交付房屋，需赔偿承租方 5000 元。

实体类别	实体内容	文本来源
公司名称	（填写公司名称）	（填写原文片段）
营收金额	（填写营收金额）	（填写原文片段）
净利润	（填写净利润）	（填写原文片段）

你是芯片领域的实体识别助手，需从文本中提取'芯片型号'实体。
任务要求：
1. 芯片型号词典：包含以下型号：A17 Pro、骁龙 8 Gen3、天玑 9300、麒麟 9000S、RTX 4090；
2. 提取规则：从文本中匹配上述词典中的型号，若存在未在词典中的型号，标注为'未知型号'；
3. 输出格式：芯片型号列表（如 ["A17 Pro", "骁龙 8 Gen3"]）。
待处理文本：2024 年新款手机中，苹果 iPhone 15 Pro 搭载 A17 Pro 芯片，小米 14 搭载骁龙 8 Gen3 芯片，华为 Mate 60 Pro 搭载麒麟 9000S 芯片，某款小众手机搭载 X123 芯片。

请从文本 1 中提取'组织机构'实体，输出格式：["实体 1", "实体 2"]。文本 1：阿里巴巴集团与浙江大学在杭州合作成立'数字经济研究院'。

请从文本 2 中提取'组织机构'实体，然后与上一轮结果（["阿里巴巴集团", "浙江大学", "数字经济研究院"]）合并，去除重复实体，输出最终列表。文本 2：腾讯公司与浙江大学在深圳举办'AI 论坛'，邀请数字经济研究院专家参与。

import openai
response = openai.ChatCompletion.create(
    model="gpt-3.5-turbo",
    messages=[{"role":"user","content":"请从文本中提取地名实体，输出格式：["地名 1", "地名 2"]。文本：2024 年 3 月，在上海举办的进博会吸引了来自北京、广州的企业参与。"}],
    logit_bias={"上海":10,# 提高'上海'的生成权重
                "北京":10,# 提高'北京'的生成权重
                "广州":10,# 提高'广州'的生成权重
                "的":-10,# 降低'的'的生成权重
                "在":-10# 降低'在'的生成权重}
)
print(response.choices[0].message.content)

Prompt 辅助的实体识别（NER）实战案例

Prompt 辅助的实体识别（NER）实战案例

一、实体识别（NER）基础认知

（一）NER 核心定义

（二）NER 的行业价值

（三）传统 NER 与 Prompt 辅助 NER 的差异

二、Prompt 辅助 NER 的核心设计原则

（一）目标明确：清晰定义'实体类别'与'提取范围'

（二）约束清晰：限定'输出格式'与'错误处理'

（三）示例引导：用 Few-Shot 降低模型理解成本

三、多行业 Prompt 辅助 NER 案例实战

（一）案例 1：金融领域——财报文本实体识别

1. 任务背景

2. Prompt 设计

3. 预期输出

4. 技巧点分析

（二）案例 2：医疗领域——病历文本实体识别

1. 任务背景

2. Prompt 设计

3. 预期输出

4. 技巧点分析

（三）案例 3：法律领域——合同文本实体识别

1. 任务背景

2. Prompt 设计

3. 预期输出

4. 技巧点分析

四、Prompt 辅助 NER 的常见问题与解决方案

（一）问题 1：模型遗漏部分实体

1. 现象

2. 解决方案

（二）问题 2：模型识别错误实体（边界混淆）

1. 现象

2. 解决方案

（三）问题 3：输出格式不规范（难以自动化处理）

1. 现象

2. 解决方案

五、Prompt 辅助 NER 的进阶技巧

（一）结合'领域词典'提升专业实体识别精度

（二）用'多轮对话'处理跨文本 NER 任务

（三）用'Logit Bias'抑制无关实体生成（API 调用场景）

六、总结与实践建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具