《Web 自动化测试入门:从概念到百度搜索实战全拆解》

《Web 自动化测试入门:从概念到百度搜索实战全拆解》

一、自动化的核心概念

  1. 定义:通过自动方式替代人工操作完成任务,生活中常见案例(自动洒水机、自动洗手液、超市闸机)体现了 “减少人力消耗、提升效率 / 质量” 的特点。
  2. 软件自动化测试的核心目的
    • 用于回归测试:软件迭代新版本时,验证新增功能是否影响历史功能的正常运行。
  3. 常见面试题解析
    • 自动化测试不能完全取代人工测试:需人工编写脚本,且功能变更后需维护更新,可靠性未必优于人工。
    • 自动化测试不能 “大幅度降低工作量”:仅能 “一定程度” 减少重复工作,需注意表述的严谨性。

二、自动化测试的分类

自动化是统称,包含多种类型,核心分类及说明如下:

分类说明
接口自动化针对软件接口的测试,目的是验证接口的功能、性能、稳定性等。
UI 自动化

针对软件界面的测试,包含:

1. 移动端自动化:通过模拟器在电脑上编写脚本,测试手机应用;稳定性较差(受设备、系统版本等环境因素影响)。

2. Web 自动化:模拟浏览器操作(如自动打开百度、执行搜索),替代人工完成网页操作与验证。

以 “百度搜索” 为例,Web 自动化的执行逻辑是:自动打开浏览器→访问百度首页→在搜索框输入内容→执行搜索→验证结果,以此替代人工的重复操作,提升测试效率。

三、自动化测试金字塔

1.理想的自动化测试金字塔
  1. 结构与逻辑
    • 从下到上依次为:单元测试 → API / 集成 / 组件测试 → UI 自动化测试 → 手动 / 探索性测试。
    • 核心特点:投入产出比从下到上递减—— 底层的单元测试消耗更少时间 / 精力,却能发现更多问题,投资回报率更高;上层的 UI 自动化、手动测试则需更多资源,但回报更低。
  2. 设计目的:倡导企业优先在底层(单元测试、接口测试)投入自动化,以更低成本保障软件质量。
2.企业实际的 “冰淇淋蛋筒模式”
  1. 结构与逻辑:与理想模型倒置:从下到上依次为:单元测试 → API / 集成 / 组件测试 → UI 自动化测试 → 手动 / 探索性测试。
    • 核心特点:投入产出比从下到上递增—— 企业实际中常将更多资源投入上层(UI 自动化、手动测试),但这些环节的投资回报率更低;底层的单元测试投入较少。
  2. 现实原因:自动化需大量初始投入(如脚本开发、框架搭建),企业往往优先选择 “看得见效果” 的上层测试,但长期来看,底层自动化的成本收益更优。
3.核心结论

自动化测试与手动测试并非互斥,而是互补:

  • 底层自动化(单元、接口)适合长期降本,保障基础质量;
  • 上层测试(UI、手动)适合覆盖复杂场景、探索性验证,提供短期保障。

四、Web 自动化测试

1.驱动的核心作用
  1. 类比理解:驱动类似于 “汽车的发动机”“电脑的设备驱动程序”—— 程序要操作浏览器(如打开、输入、点击),需要通过WebDriver(浏览器驱动) 建立程序与浏览器的通信,实现自动化操作。
  2. Web 自动化中的定位:手动测试需人工操作浏览器,而自动化程序需通过 WebDriver 作为 “桥梁”,让代码能控制浏览器执行预设流程。

计算机有了驱动程序就可以与设备(⽿机,摄像头,⻨克⻛,键盘,显⽰器等等设备)进⾏通信。

2.驱动管理工具:WebDriverManager
  1. 功能:是一个开源 Java 库,可自动管理 Selenium WebDriver 所需的浏览器驱动(如 ChromeDriver、GeckoDriver 等),包括自动下载、配置驱动版本,还能识别本地浏览器版本并匹配对应驱动。
  2. 使用方式(Maven 依赖示例):通过在项目中引入如下依赖,即可自动管理驱动:

WebDriverManager 解决了 “手动下载、匹配驱动版本” 的繁琐问题,降低了 Web 自动化测试的环境搭建成本,提升了自动化脚本的可维护性。

五、Selenium(Web 自动化测试工具)

1.Selenium 的定位

Selenium 是主流的 Web 自动化测试工具,提供丰富的 API(方法),用于模拟人工在浏览器中的操作(如打开页面、输入内容、点击按钮等),是编写 Web 自动化脚本的核心工具。

2.简单的 Selenium 自动化示例
1. 环境依赖(Maven)

需在项目中引入 Selenium 的 Java 库依赖:

2. 自动化脚本逻辑(以 “百度搜索” 为例)

代码实现 “打开 Chrome 浏览器→访问百度→搜索关键词→点击搜索→关闭浏览器” 的流程,核心步骤:

创建浏览器配置对象(ChromeOptions/EdgeOptions)
它的作用是 “给浏览器设置启动参数 / 规则”,就像你打开浏览器前先设置:

“要不要无痕模式?要不要允许跨域?要不要最大化窗口?”

如果没有这个配置对象:浏览器会以 “默认裸状态” 启动,可能触发跨域报错、窗口太小导致元素找不到、弹窗拦截操作等问题,自动化容易失败。

实例化驱动对象(WebDriver)并关联配置

这里的逻辑是:

  • ChromeDriver是驱动的具体实现(对应 Chrome);
  • 传入options后,驱动启动浏览器时会 “带着配置规则” 打开浏览器;
  • driver本质是 “驱动的实例”,不是 “浏览器实例”—— 你操作driver,就是驱动帮你控制浏览器。

把整个流程比作 “你指挥司机开汽车”:

  • 驱动(ChromeDriver)= 司机(懂怎么开 Chrome 这款 “车”);
  • 浏览器配置对象(ChromeOptions)= 你给司机的 “开车规则”(比如 “开之前先开窗、关空调、走高速”);
  • driver = 你和司机的 “沟通渠道”;
  • 你调用driver.get() = 你通过渠道告诉司机 “去百度这个地址”。
维度简写 XPath(相对 XPath)Full XPath(绝对 XPath)
定位逻辑从整个页面找 “id=chat-textarea” 的任意元素从 HTML 根节点(/html)开始,按 “层级路径” 找元素
稳定性高(只要 id 不变,页面结构变了也能找到)极低(页面任意层级改了,路径就失效)
长度 / 可读性短、易读、易维护超长、难读、难维护
依赖页面结构不依赖(通过属性定位,和层级无关)完全依赖(层级错 1 个就定位失败)
实际使用场景工作中首选(99% 的场景用这个)仅临时调试 / 无属性可定位的极端场景
3.Selenium + 驱动 + 浏览器的工作原理

三者通过HTTP 通信实现自动化,流程为:

  1. 启动服务:Selenium 脚本启动ChromeDriverService,创建本地服务(IP:localhost,端口由服务分配);
  2. 连接驱动:脚本通过服务地址向 WebDriver(浏览器驱动)发送 HTTP 请求;
  3. 驱动解析:WebDriver 解析请求,打开浏览器并生成sessionid(后续操作需携带此 ID 标识会话);
  4. 执行操作:Selenium 的所有操作(访问地址、定位元素等)通过服务发送请求到 WebDriver,再由 WebDriver 转发给浏览器;
  5. 浏览器执行:浏览器解析请求并执行对应操作,将结果通过 WebDriver 返回给 Selenium 脚本。

脚本的核心是「做事儿」,不是「造东西 / 练手」

特征是脚本不是脚本
核心目的完成具体的、落地的任务(比如搜百度、批量改文件、自动发消息)学习 / 验证语法、造工具 / 结构(比如练打印、写链表、算算法)
执行方式「一键运行」就能自动干完所有事,不用手动干预要么只输出一个结果,要么只是定义 “工具”(比如定义个类 / 链表),没实际干活
举例子 “开百度→输文字→关浏览器” 代码单行System.out.println("hello")、写个二叉树类、写冒泡排序
1. 为啥 “单行打印 hello” 不算脚本?
  • 目的:只是验证 “能不能输出文字”,没有完成任何「有价值的落地任务」(比如打印 hello 解决了啥问题?啥都没解决);
  • 执行:只输出一个字符串,没有 “步骤链”,也没有 “自动化价值”—— 就算跑 100 次,也只是打印 100 次 hello,没干任何实际活。
2. 那 “写个数据结构(比如链表 / 二叉树)” 算脚本吗?
  • 只写「数据结构的定义」(比如定义链表节点、写 add/delete 方法)→ 不算脚本:你只是造了个 “工具”,但没拿这个工具干任何事(比如用链表存 100 个学生成绩、排序),本质是 “练手写工具”,不是 “用工具做事”;
  • 若你写:「定义链表 + 往链表加 10 个数据 + 遍历打印所有数据 + 输出到文件」→ 算脚本:因为你用数据结构完成了「存数据→打印→存文件」的具体任务,是 “按步骤自动干活”。
代码内容算不算脚本?核心判断
写个 for 循环,打印 1 到 100算「极简脚本」完成了 “输出 1-100” 的具体小任务
写个计算器函数(加 / 减),但只定义不调用不算只造工具,没实际算任何数
写计算器函数 + 输入 2 个数 + 调用加法 + 打印结果算脚本完成了 “计算 2 数之和” 的具体任务

跑代码后,如果它能「自动完成一件你需要的具体事儿」,就是脚本;如果只是 “练语法 / 造工具 / 出个无意义结果”,就不是。

核心价值

Selenium 通过 “脚本→驱动→浏览器” 的分层通信,实现了代码对浏览器的无人工干预控制,是 Web 自动化测试的核心执行工具。

验证⽅式: 执⾏selenium编写的⾃动化脚本代码中,可以在终端看到创建的驱动服务地址。

Read more

乡村政务办公系统信息管理系统源码-SpringBoot后端+Vue前端+MySQL【可直接运行】

乡村政务办公系统信息管理系统源码-SpringBoot后端+Vue前端+MySQL【可直接运行】

摘要 随着信息技术的快速发展,数字化政务管理成为提升乡村治理效率的重要手段。传统的乡村政务办公模式依赖纸质文档和人工操作,存在效率低、信息传递滞后、数据易丢失等问题。乡村政务信息管理系统的建设能够有效解决这些问题,实现政务信息的数字化、规范化和高效化管理。该系统通过整合SpringBoot后端、Vue前端和MySQL数据库技术,构建了一个功能完善、操作便捷的乡村政务办公平台。关键词:乡村政务、数字化管理、SpringBoot、Vue、MySQL。 该系统采用SpringBoot作为后端框架,提供高效的接口服务和数据处理能力;Vue作为前端框架,实现用户友好的交互界面;MySQL作为数据库,确保数据的稳定存储和高效查询。系统功能涵盖村民信息管理、帮扶信息管理、新闻公告发布等模块,支持数据的增删改查、多条件筛选和统计分析。系统设计注重实用性和可扩展性,能够满足乡村政务办公的多样化需求。关键词:村民信息管理、帮扶信息管理、新闻公告、数据统计分析。 数据表设计 村民信息数据表 村民信息数据表用于存储村民的基本信息,包括姓名、身份证号、联系方式等。创建时间通过函数自动获取,村民ID是该

3步搞定通义千问3-14B部署:Ollama+WebUI双buff叠加教程

3步搞定通义千问3-14B部署:Ollama+WebUI双buff叠加教程 1. 为什么Qwen3-14B值得你花5分钟部署 你有没有遇到过这样的困境:想用一个真正能干活的大模型,但发现30B级别的性能动辄要双卡A100,本地跑不动;而能单卡运行的模型,又常常在长文档理解、复杂推理或多语言任务上“掉链子”? Qwen3-14B就是为这个痛点而生的——它不是“缩水版”,而是“精准裁剪版”。148亿参数全激活(非MoE稀疏结构),却在C-Eval、MMLU、GSM8K等权威榜单上交出接近30B模型的答卷。更关键的是,它原生支持128k上下文,实测轻松处理40万汉字的PDF报告、法律合同或技术白皮书,一次喂入,整篇理解。 它不靠参数堆砌,而是靠架构优化和训练策略升级:FP8量化后仅14GB显存占用,在RTX 4090(24GB)上就能全速推理,每秒生成80个token;同时提供两种推理模式——你可以让它“慢思考”,显式输出<think>中的逻辑链,专攻数学证明、代码调试、多步推理;也可以一键切到“快回答”

Clawdbot整合Qwen3-32B保姆级教程:Web网关18789端口调试全记录

Clawdbot整合Qwen3-32B保姆级教程:Web网关18789端口调试全记录 1. 为什么需要这个整合方案 你是不是也遇到过这样的问题:想用本地部署的大模型做聊天机器人,但发现直接调用Ollama的API在Web前端里跨域报错?或者Clawdbot配置完后一直连不上模型,控制台疯狂刷404?又或者好不容易跑起来了,发个消息却卡在“正在思考”半天没反应? 这正是我们搭建这套环境时踩过的坑。Clawdbot本身不直接对接Ollama,它需要一个中间层来处理协议转换、请求转发和端口映射。而18789这个端口,就是整个链路里最关键的“通关密码”——它不是随便选的,而是Clawdbot默认监听的Web网关入口。 整套方案的核心逻辑其实很朴素: * 你在浏览器里访问 http://localhost:18789,看到的是Clawdbot的聊天界面 * Clawdbot收到你的消息后,不自己去算答案,而是把请求转给内部代理 * 代理再把请求发到 http://localhost:8080(Ollama API地址) * Ollama调用本地的Qwen3-32B模型生成回复

企业级多模态应用落地|基于Qwen3-VL-WEBUI的API集成方案

企业级多模态应用落地|基于Qwen3-VL-WEBUI的API集成方案 在某大型银行智能客服系统的后台,一张用户上传的手机银行界面截图刚被接收,系统仅用2.8秒就返回了结构化诊断建议:“检测到‘转账’按钮处于不可点击状态,可能因当日额度已用尽。建议引导用户查看‘账户限额’设置。”整个过程无需人工介入——这正是Qwen3-VL-WEBUI这类企业级多模态模型带来的真实生产力跃迁。 传统图文混合任务需依赖OCR+CV+NLP多模块串联,链路长、误差累积严重。而Qwen3-VL-WEBUI通过统一架构实现了“感知-认知-行动”闭环,一个API即可完成从图像理解到操作决策的全流程。其内置的 Qwen3-VL-4B-Instruct 模型不仅支持256K超长上下文和32种语言OCR,更具备GUI元素识别与工具调用能力,真正实现“看图办事”。 本文将聚焦企业级生产环境下的API集成路径,结合实际项目经验,系统性拆解从镜像部署、服务暴露、客户端封装到高可用设计的完整技术链路,并提供可直接复用的工程化代码模板。 1. Qwen3-VL-WEBUI核心能力解析:不只是视觉问答 1.1 多模态