PromptWizard 自动优化框架与 Level-Navi Agent 搜索代理实现思路

Level-Navi Agent 是一个中文网络搜索代理框架，包含 Planner 和 SearchAgent 组件，通过链式思维分解问题并评估搜索结果，提出了 Web24 数据集及多项评估指标。PromptWizard 是微软开源的提示词自动优化框架，通过变异、评分、批判和综合四个组件迭代优化提示指令，支持指令与示例的联合优化。两者均体现了 Agent 思想在提升大模型任务执行能力方面的应用。

云间漫步发布于 2025/2/7更新于 2026/4/190 浏览

PromptWizard 自动优化框架与 Level-Navi Agent 搜索代理实现思路

从源码侧和原理侧来理解 AI 搜索，总会有更多的思考。本文介绍两个相关工作：Level-Navi Agent 和 PromptWizard。

一、Level-Navi Agent 用于 AI 搜索场景

《Level-Navi Agent: A Framework and benchmark for Chinese Web Search Agents》提出了一个 Level-Navi Agent 的网络搜索代理框架，并提供了一个新的中文网络搜索数据集 Web24 和一个新的评估指标，以评估大模型在执行中文任务时的性能。

框架设计

该框架包括 Planner 和 SearchAgent 两个主要组件。

Level-Navi Agent 框架设计图

Planner 通过链式思维过程分解用户问题，并生成子问题列表。SearchAgent 根据子问题进行在线搜索，收集信息并反馈给 Planner。Planner 根据反馈信息迭代地调整计划，直到收集到足够的信息来回答问题。

Planner 工作流程

Planner 通过链式思维过程逐步分解问题。首先，将用户问题添加到历史上下文中，然后通过链式思维过程生成子问题列表。Planner 根据子问题列表并行搜索相关信息，并将搜索结果添加到上下文中。重复此过程，直到收集到足够的信息来回答问题。

Planner 迭代过程

SearchAgent 根据子问题进行在线搜索，使用搜索引擎 API 返回网页摘要。Planner 根据返回的摘要信息判断是否需要进一步打开相关网站。如果需要，SearchAgent 会调用函数选择并打开相关网站，获取更多信息后总结并回答。

数据集与评估指标

Web24 数据集包含了 145 个问题的详细信息，分为金融、游戏、体育、电影、事件五个领域，每个领域有 23 个问题。问题类型包括简单、条件、比较和多跳四种。所有问题和答案均来自中国互联网的新闻报道。

Web24 数据集示例

为了全面评估 LLMs 在网络搜索任务中的能力，采用了四个评分指标：正确性得分（Sco）、语义相似度得分（Ssimi）、相关性得分（Srele）和搜索次数（Sc）。最终得分为这四个指标加权和。

其中：

正确性得分（Sco）：通过一个 LLM 评估器来评估生成的答案与真实答案的一致性和准确性，评分范围为 0 到 1，比传统的 F1 分数更能反映模型回答的准确性；
语义相似度得分（Ssimi）：使用嵌入模型直接计算文本向量的相似度，提供另一个角度评估模型回答的准确性，反映了模型执行网络搜索任务的综合能力；
相关性得分（Srele）：基于 LLM 生成的回答，另一个评估 LLM 会生成多个推断问题，并计算这些推断问题与原始问题的语义相似度，取最大值作为最终得分，反映了模型对任务执行轨迹的忠实度和总结能力；