Llama Factory 模型评估：如何科学衡量微调后的模型性能

Llama Factory 模型评估：如何科学衡量微调后的模型性能 | 极客日志

# 文本分类任务常用指标
from sklearn.metrics import classification_report
print(classification_report(y_true, y_pred))

# 生成任务常用指标
import evaluate
bleu = evaluate.load("bleu")
rouge = evaluate.load("rouge")

任务类型	推荐指标	说明
文本分类	Accuracy/F1/ROC-AUC	多分类需用 macro 平均
序列标注	Entity-level F1	需区分实体类型
文本生成	BLEU/ROUGE/BERTScore	人工评估仍不可替代
对话系统	Coherence/Engagement/Relevance	建议结合人工评分

# 使用 LLaMA-Factory 运行标准评估
python src/evaluate.py \
 --model_name_or_path your_finetuned_model \
 --eval_dataset mmlu \
 --batch_size 8

# 测试集拆分示例
from sklearn.model_selection import train_test_split

# 保留 10% 作为人工验证集
train_val, test_human = train_test_split(data, test_size=0.1, random_state=42)

# 剩余 90% 再拆分
train, eval = train_test_split(train_val, test_size=0.2, random_state=42)

# 安装评估依赖
pip install -r requirements_eval.txt

# 运行综合评估
python src/evaluate.py \
 --model_name_or_path ./finetuned_model \
 --tasks mmlu,ceval,race \
 --batch_size 4 \
 --load_in_4bit \
 --output_dir ./eval_results

# custom_eval.py
from datasets import load_dataset
from transformers import pipeline

# 加载微调模型
pipe = pipeline("text-generation", model="your_finetuned_model")

# 加载测试集
dataset = load_dataset("your_dataset")["test"]

def evaluate_sample(example):
    output = pipe(example["prompt"])
    return {
        "bleu": calculate_bleu(example["reference"], output),
        "accuracy": check_fact(output)
    }

results = dataset.map(evaluate_sample)
print(results["bleu"].mean(), results["accuracy"].mean())

import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_json("eval_results/all_results.json")

# 绘制指标对比图
df[["task", "accuracy"]].plot.bar(x="task")
plt.title("Accuracy Across Tasks")
plt.savefig("accuracy_comparison.png")

python src/evaluate.py \
 --load_in_4bit \
 --batch_size 2 \
 --gradient_checkpointing

import torch
import numpy as np
import random

def set_seed(seed):
    torch.manual_seed(seed)
    np.random.seed(seed)
    random.seed(seed)

# 自定义业务指标示例
def business_metric(output, reference):
    key_points = extract_key_points(reference)
    covered = 0
    for point in key_points:
        if point in output:
            covered += 1
    return covered / len(key_points)

Llama Factory 模型评估：如何科学衡量微调后的模型性能

Llama Factory 模型评估：如何科学衡量微调后的模型性能

为什么需要专门的模型评估方法

关键评估指标详解

1. 任务特定指标

2. 通用能力评估

3. 资源效率指标

构建有效的测试集

使用 LLaMA-Factory 进行系统评估

1. 基础评估流程

2. 自定义评估指标

3. 结果分析与可视化

典型问题与解决方案

问题 1：评估时显存不足

问题 2：评估结果波动大

问题 3：指标与人工评估不一致

总结与下一步建议

更多推荐文章

相关免费在线工具

Llama Factory 模型评估：如何科学衡量微调后的模型性能

Llama Factory 模型评估：如何科学衡量微调后的模型性能

为什么需要专门的模型评估方法

关键评估指标详解

1. 任务特定指标

2. 通用能力评估

3. 资源效率指标

构建有效的测试集

使用 LLaMA-Factory 进行系统评估

1. 基础评估流程

2. 自定义评估指标

3. 结果分析与可视化

典型问题与解决方案

问题 1：评估时显存不足

问题 2：评估结果波动大

问题 3：指标与人工评估不一致

总结与下一步建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具