PromptWizard 自动优化框架与 Level-Navi Agent 搜索代理实现思路
从源码侧和原理侧来理解 AI 搜索,总会有更多的思考。本文介绍两个相关工作:Level-Navi Agent 和 PromptWizard。
一、Level-Navi Agent 用于 AI 搜索场景
《Level-Navi Agent: A Framework and benchmark for Chinese Web Search Agents》提出了一个 Level-Navi Agent 的网络搜索代理框架,并提供了一个新的中文网络搜索数据集 Web24 和一个新的评估指标,以评估大模型在执行中文任务时的性能。
框架设计
该框架包括 Planner 和 SearchAgent 两个主要组件。

Planner 通过链式思维过程分解用户问题,并生成子问题列表。SearchAgent 根据子问题进行在线搜索,收集信息并反馈给 Planner。Planner 根据反馈信息迭代地调整计划,直到收集到足够的信息来回答问题。

Planner 通过链式思维过程逐步分解问题。首先,将用户问题添加到历史上下文中,然后通过链式思维过程生成子问题列表。Planner 根据子问题列表并行搜索相关信息,并将搜索结果添加到上下文中。重复此过程,直到收集到足够的信息来回答问题。

SearchAgent 根据子问题进行在线搜索,使用搜索引擎 API 返回网页摘要。Planner 根据返回的摘要信息判断是否需要进一步打开相关网站。如果需要,SearchAgent 会调用函数选择并打开相关网站,获取更多信息后总结并回答。
数据集与评估指标
Web24 数据集包含了 145 个问题的详细信息,分为金融、游戏、体育、电影、事件五个领域,每个领域有 23 个问题。问题类型包括简单、条件、比较和多跳四种。所有问题和答案均来自中国互联网的新闻报道。

为了全面评估 LLMs 在网络搜索任务中的能力,采用了四个评分指标:正确性得分(Sco)、语义相似度得分(Ssimi)、相关性得分(Srele)和搜索次数(Sc)。最终得分为这四个指标加权和。
其中:
- 正确性得分(Sco):通过一个 LLM 评估器来评估生成的答案与真实答案的一致性和准确性,评分范围为 0 到 1,比传统的 F1 分数更能反映模型回答的准确性;
- 语义相似度得分(Ssimi):使用嵌入模型直接计算文本向量的相似度,提供另一个角度评估模型回答的准确性,反映了模型执行网络搜索任务的综合能力;
- 相关性得分(Srele):基于 LLM 生成的回答,另一个评估 LLM 会生成多个推断问题,并计算这些推断问题与原始问题的语义相似度,取最大值作为最终得分,反映了模型对任务执行轨迹的忠实度和总结能力;






