【k近邻】 K-Nearest Neighbors算法距离度量选择与数据维度归一化

【k近邻】 K-Nearest Neighbors算法距离度量选择与数据维度归一化
【k近邻】 K-Nearest Neighbors算法原理及流程

【k近邻】 K-Nearest Neighbors算法距离度量选择与数据维度归一化

【k近邻】 K-Nearest Neighbors算法k值的选择

【k近邻】 Kd树的构造与最近邻搜索算法

【k近邻】 Kd树构造与最近邻搜索示例
k近邻算法(K-Nearest Neighbors,简称KNN)是一种常用的监督学习算法,可以用于分类和回归问题。在OpenCV中,KNN算法的函数为`cv.ml.KNearest_create()。 

距离度量的选择

k近邻算法中需要按照距离递增次序排序,通常选取以下类型的距离:

x_{i}=\left(x_{i}^{(1)},x_{i}^{(2)},\cdots,x_{i}^{(n)}\right)^{\mathrm{T}}

L

\infty

距离:

L_{\infty}(x_{i},x_{j})=\max_{l}\mid x_{i}^{(l)}-x_{j}^{(l)}\mid

曼哈顿距离:

L_{1}(x_{i},x_{j})=\sum_{l=1}^{n}|x_{i}^{(l)}-x_{j}^{(l)}|

Lp距离:

L_{p}(x_{i},x_{j})=\left(\sum_{l=1}^{n}\mid x_{i}^{(l)}-x_{j}^{(l)}\mid^{p}\right)^{\frac{1}{p}}

欧式距离:

L_{2}(x_{i},x_{j})=\left(\sum_{l=1}^{n}|x_{i}^{(l)}-x_{j}^{(l)}|^{2}\right)^{\frac{1}{2}}

数据维度归一化

假设所使用的样本特征为

\{(x_{i1},x_{i2},\ldots,x_{in})\}_{i=1}^m

,取每一轴上的最大值减最小值

M_j=\max_{i=1,\ldots,m}x_{ij}-\min_{i=1,\ldots,m}x_{ij}

随后在计算距离时将每一个坐标轴除以相应的

M_j

以进行归一化

d((y_1,\ldots,y_n),(z_1,\ldots,z_n))=\sqrt{\sum_{j=1}^n\left(\frac{y_j}{M_j}-\frac{z_j}{M_j}\right)^2}

数据维度归一化的必要性

当使用多维度数据计算距离时,数据维度的归一化是及其必要的。

例如,以身高(cm)与脚码(尺码)大小作为特征值,判断男性或者女性。5个训练样本分布如下:

A [(179,42),男],B [(178,43),男],C [(165,36)女],D [(177,42),男],E [(160,35),女]

可以发现,第一维身高特征是第二维脚码特征的4倍左右,在计算距离度量的时候,如果不进行数据维度的归一化,算法就会偏向于第一维特征这会造成俩个特征并不是等价重要的,最终可能会导致距离计算错误,从而导致预测错误。

以测试样本 F[(167,43),男]为例,取k=3,分别算出F离训练样本的欧式距离,然后选取最近的3个,多数类别就是我们最终的结果,计算结果如下:

\begin{gathered} AF=\sqrt{\left(167-179\right)^2+\left(43-42\right)^2}=\sqrt{145} \\ BF=\sqrt{\left(167-178\right)^2+\left(43-43\right)^2}=\sqrt{121} \\ CF=\sqrt{\left(167-165\right)^2+\left(43-36\right)^2}=\sqrt{53} \\ DF=\sqrt{\left(167-177\right)^2+\left(43-42\right)^2}=\sqrt{101} \\ EF=\sqrt{\left(167-160\right)^2+\left(43-35\right)^2}=\sqrt{103} \end{gathered}

可以得到,最近的前三个分别是C,D,E三个样本,那么由C,E为女性,D为男性,得到预测结果为女性。

女性脚43码的可能性远远小于男性脚43码的可能性,算法却错误地预测F为女性,这不是算法的问题,这是各个特征量纲不同的问题,这里量纲直接导致身高的权重远大于脚码的权重,进而导致预测错误。所以在计算前应该让每个特征同等重要,这就是归一化的必要性。

Read more

用playwright封装一个处理web网页的爬虫,并隐藏自动化特征,自动处理反爬

更多内容请见: 《爬虫和逆向教程》 - 专栏介绍和目录 文章目录 * 一、脚本概述 * 1.1 脚本对应反爬措施 * 1.2 注意事项 * 1.3 反爬细节说明 * 二、完整代码 * 2.1 安装依赖 * 2.2 封装代码 * 2.3 使用示例 下面是一个使用 Playwright 封装的、具备反爬对抗能力的网页爬虫Python函数,返回原始 HTML 内容,并重点隐藏自动化特征,避免被检测为 bot。 一、脚本概述 该封装已在多个中等反爬网站(如电商、新闻站)验证有效,能绕过大多数基于 navigator.webdriver、chrome 对象、permissions 等的检测。

By Ne0inhk
Flutter for OpenHarmony: Flutter 三方库 flutter_cors 应对鸿蒙 Web 与混合开发中的跨域挑战(网络兼容方案)

Flutter for OpenHarmony: Flutter 三方库 flutter_cors 应对鸿蒙 Web 与混合开发中的跨域挑战(网络兼容方案)

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.ZEEKLOG.net 前言 在进行 OpenHarmony 的跨平台开发时,我们不仅开发原生 HAP,有时也会涉及 Flutter Web 或是在鸿蒙端侧运行 Webview 混合应用。这时,一个经典的“拦路虎”就会出现:CORS (跨源资源共享) 限制。当你的 Web 端尝试访问一个未配置跨域头部的后端 API 时,请求会被浏览器拦截,报错信息极其晦涩。 虽然 CORS 主要是后端的工作,但 flutter_cors 提供了一种客户端视角的辅助工具。它通过工具化手段帮助开发者分析、绕过或生成跨域适配规则,是保证鸿蒙跨平台 Web 项目顺利运行的调试利器。 一、跨域访问逻辑模型 CORS 是一种浏览器的安全保护机制,它在请求发出前先进行“预检(Preflight)

By Ne0inhk

Flutter 三方库 dart_webrtc 的鸿蒙化适配指南 - 在鸿蒙系统上构建极致、透明、基于 WebRTC 标准的工业级实时音视频通讯与低延迟流媒体引擎

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.ZEEKLOG.net Flutter 三方库 dart_webrtc 的鸿蒙化适配指南 - 在鸿蒙系统上构建极致、透明、基于 WebRTC 标准的工业级实时音视频通讯与低延迟流媒体引擎 在鸿蒙(OpenHarmony)系统的跨端视频会议、分布式安防监控、直播连麦或者是需要实现“端到端(P2P)”低延迟数据传输的场景中,如何通过一套 Dart 代码调用底层浏览器级的 WebRTC 算力?dart_webrtc 为开发者提供了一套工业级的、针对 Web 平台(JS 接口)进行高度封装的 WebRTC 适配方案。本文将深入实战其在鸿蒙 Web 入口应用中的音视频能力扩展。 前言 什么是 Dart WebRTC?它不仅是一个简单的。管理过程。由于由接口包装。

By Ne0inhk

服务器无法访问WebUI?这几个排查步骤必看

服务器无法访问WebUI?这几个排查步骤必看 当你兴冲冲地执行完 bash start_app.sh,终端上也清晰地打印出: ============================================================ WebUI 服务地址: http://0.0.0.0:7860 ============================================================ 可一打开浏览器输入 http://你的服务器IP:7860,却只看到“无法访问此网站”“连接被拒绝”或“该网页无法正常运作”……别急,这绝不是模型本身出了问题,而是典型的服务可达性故障——它发生在模型启动之后、用户访问之前那个关键的“中间层”。 本文不讲OCR原理,不聊ResNet18结构,也不展开ONNX导出细节。我们聚焦一个最实际、最高频、最让人抓狂的问题:WebUI明明启动了,为什么就是打不开? 针对 cv_resnet18_ocr-detection OCR文字检测模型(构建by科哥) 这一镜像,我将带你按真实运维节奏,逐层穿透网络、系统、服

By Ne0inhk