PaddleNLP 命名实体识别 NER 任务全流程：从代码拉取到部署上线

PaddleNLP 命名实体识别 NER 任务全流程：从代码拉取到部署上线 | 极客日志

git clone https://github.com/PaddlePaddle/PaddleNLP.git
cd PaddleNLP

pip install -e .

import paddle
print(paddle.__version__)
print(paddle.is_compiled_with_cuda()) # 应返回 True（如有 GPU）

文本：北 京 协 和 医 院
标签：B-LOC I-LOC I-LOC I-LOC E-LOC

wget https://s3.cn-north-1.amazonaws.com.cn/datasets.msra.cn/msra_ner.zip
unzip msra_ner.zip -d ./datasets/msra_ner/

python examples/ner/ernie_crf/run_ner_crf.py \
 --model_type ernie \
 --model_name_or_path ernie-gram-zh \
 --train_set ./datasets/msra_ner/train.txt \
 --dev_set ./datasets/msra_ner/dev.txt \
 --test_set ./datasets/msra_ner/test.txt \
 --do_train True \
 --do_predict True \
 --max_seq_length 128 \
 --batch_size 32 \
 --learning_rate 5e-5 \
 --num_train_epochs 10 \
 --output_dir ./ernie_ner_checkpoints/

model_state.pdparams # 模型参数
training_args.json # 训练配置
vocab.txt # 分词表

from paddlenlp.transformers import ErnieTokenizer, ErnieForTokenClassification
from paddlenlp.datasets import load_dataset
import paddle

# 加载 tokenizer 和模型
tokenizer = ErnieTokenizer.from_pretrained('ernie-gram-zh')
model = ErnieForTokenClassification.from_pretrained('ernie-gram-zh', num_classes=7)

# 自定义数据处理函数
def tokenize_and_align_labels(example):
    words = example['tokens'] # 如 ['北', '京']
    labels = example['labels'] # 如 [0, 1]
    tokenized_inputs = tokenizer(
        words,
        is_split_into_words=True,
        max_seq_len=128,
        return_length=True,
        return_attention_mask=True
    )
    # 对齐标签（注意 subword 情况下的标签偏移）
    word_ids = tokenized_inputs.pop("word_ids")
    label_ids = []
    for word_id in word_ids:
        if word_id is None:
            label_ids.append(-100)
        else:
            label_ids.append(labels[word_id])
    tokenized_inputs["labels"] = label_ids
    return tokenized_inputs

# 加载并处理数据集
train_ds = load_dataset('msra_ner', splits='train')
train_ds = train_ds.map(tokenize_and_align_labels)

# 创建 DataLoader
train_loader = paddle.io.DataLoader(
    train_ds,
    batch_size=32,
    shuffle=True,
    collate_fn=lambda x: {k: paddle.stack([d[k] for d in x]) for k in x[0]}
)

python export_model.py \
 --model_type ernie \
 --model_path ./ernie_ner_checkpoints/best_model \
 --output_path ./inference_model/

pip install paddle_serving_server_gpu # GPU 版
pip install paddle_serving_client

port: 9292
workers: 4
model_config:
  - name: ner_model
    type: ernie_ner
    runtime: pd_gpu
    model_data_path: ./inference_model/

python -m paddle_serving_server.serve --config config.yml --thread 10

from paddle_serving_client import Client
client = Client()
client.load_client_config("./inference_model/inference.pdmodel")
client.connect(['127.0.0.1:9292'])
text = "张伟在北京协和医院就诊" # 需先分词并对齐输入格式
words = list(text)
feed = {"tokens": words}
result = client.predict(feed=feed, fetch=["labels"])
print(result)

curl -X POST http://127.0.0.1:9292/ner/prediction \
-H "Content-Type: application/json" \
-d '{"tokens": ["李", "强", "在", "浙", "江", "大", "学"]}'
# 返回示例
{"predictions": ["B-PER", "E-PER", "O", "B-LOC", "I-LOC", "I-LOC", "E-LOC"]}

优化手段	效果
启用 Batching	提升 GPU 利用率，吞吐翻倍
使用 TensorRT	显存占用降低 30%，延迟下降 40%
模型蒸馏为 TinyBERT	参数量缩小 80%，速度提升 3 倍

graph TD
A[客户端] --> B[Paddle Serving]
B --> C[Paddle Inference Engine]
C --> D{GPU/CPU 资源}
C --> E[PDModel 模型文件]
F[训练平台] --> G[PaddleNLP]
G --> H[导出静态图]
H --> E

PaddleNLP 命名实体识别 NER 任务全流程：从代码拉取到部署上线

PaddleNLP 命名实体识别 NER 任务全流程：从代码拉取到部署上线

为什么选 PaddleNLP 做中文 NER？

环境准备与代码获取

数据准备：让模型'看懂'你要识别什么

模型选择与训练：一键启动还是精细控制？

方式一：命令行快速训练（推荐初学者）

方式二：Python API 细粒度操控（适合进阶用户）

模型导出：从动态图到静态图推理

服务部署：用 Paddle Serving 暴露 API 接口

安装与配置

发起预测请求

实战中的常见问题与应对策略

1. 中文实体边界模糊怎么办？

2. 标注数据太少怎么破？

3. 推理性能跟不上 QPS 需求？

系统架构与工程实践建议

写在最后：这条技术链的价值在哪？

更多推荐文章

相关免费在线工具

PaddleNLP 命名实体识别 NER 任务全流程：从代码拉取到部署上线

PaddleNLP 命名实体识别 NER 任务全流程：从代码拉取到部署上线

为什么选 PaddleNLP 做中文 NER？

环境准备与代码获取

数据准备：让模型'看懂'你要识别什么

模型选择与训练：一键启动还是精细控制？

方式一：命令行快速训练（推荐初学者）

方式二：Python API 细粒度操控（适合进阶用户）

模型导出：从动态图到静态图推理

服务部署：用 Paddle Serving 暴露 API 接口

安装与配置

发起预测请求

实战中的常见问题与应对策略

1. 中文实体边界模糊怎么办？

2. 标注数据太少怎么破？

3. 推理性能跟不上 QPS 需求？

系统架构与工程实践建议

写在最后：这条技术链的价值在哪？

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具