【论文阅读12】Circle Loss：一统 Softmax 与 Triplet，从“线性”到“圆形”的优化视角

优质文章学习记录

08 Apr 2026 — 10 min read

论文题目：《Circle Loss: A Unified Perspective of Pair Similarity Optimization》

前言：两大门派的恩怨

派系一：基于分类的学习 (Classification-based)

派系二：基于度量的学习 (Metric Learning / Pairwise Learning)

为什么要提这个？（Circle Loss 的动机）

1. 万物归一 —— 统一视角 ()

1.1 统一 Loss 公式

1.2 计算量的“降维打击”

2. 证明 Softmax 和 Triplet 都是“特例”

4. 几何解释 —— 为什么叫“Circle”？

4.1 决策边界的演变

4.2 圆形的意义

5. 梯度验证 —— 数学上的实锤

前言：两大门派的恩怨

派系一：基于分类的学习 (Classification-based)

代表：Softmax, SphereFace, CosFace, ArcFace。
原文描述：“优化样本和权重向量之间的相似性” (optimize the similarity between samples and weight vectors)。
通俗解释（找老师）：

公式特征：

。

训练目标：学生（样本

）必须尽可能靠近自己的班主任（

），远离别人的班主任。

逻辑：模型预先设立了 10,000 个“教室”（类别），每个教室有一个“班主任”（

）。

权重

：被看作是类中心（Class Center）或者代理（Proxy）。

派系二：基于度量的学习 (Metric Learning / Pairwise Learning)

代表：Triplet Loss, Contrastive Loss。
原文描述：“优化样本之间的相似性” (optimize the similarity between samples)。
通俗解释（找朋友）：
- 逻辑：模型从数据堆里随便抓两个人。
- 训练目标：如果这两个人是同一个人（Positive Pair），就拉近他们；如果是不同人（Negative Pair），就推开他们。

公式特征：

。

没有

：这里没有固定的“教室”和“班主任”。

为什么要提这个？（Circle Loss 的动机）

在 Circle Loss 之前，大家觉得这是两套完全不同的逻辑：

用 Softmax (ArcFace) 的人觉得 Triplet Loss 收敛太慢，采样太麻烦（组合爆炸）。
用 Triplet Loss 的人觉得 Softmax 只能处理闭集（Closed-set），不灵活。

Circle Loss 的伟大之处在于它说了一句：

“别吵了，其实你们俩在数学本质上是一回事！”

Circle Loss 认为：

Triplet：其实就是把另一个样本

当作临时的“中心”。

Softmax/ArcFace：其实就是把

当作一种特殊的“样本”（只有一个样本的类）。

它们的目标都是：最大化类内相似度 (

)，最小化类间相似度 (

)。

1. 万物归一 —— 统一视角 (

)

Circle Loss 的第一步贡献，是建立了一个统一的 Loss 框架。作者敏锐地发现，无论是分类还是配对，本质目标都是：最大化正样本分数

，最小化负样本分数

。

1.1 统一 Loss 公式

作者首先推导出了一个通用公式

(Unified Loss)：

$L_{uni} = \log \left[ 1 + \sum_{i=1}^K \sum_{j=1}^L \exp(\gamma(s_n^j - s_p^i + m)) \right]$

：间隔（Margin）。

：缩放因子（Scale Factor）。

：第

个负样本对的相似度。

：第

个正样本对的相似度。

这个公式的直观含义很简单：要在

最小化过程中，迫使

越小越好。

1.2 计算量的“降维打击”

上面的公式有一个双重求和

，这意味着要计算所有正负样本的配对，计算量是

。

利用指数运算法则

，作者做了一个精彩的数学变换：

$L_{uni} = \log \left[ 1 + \underbrace{\sum_{j=1}^L \exp(\gamma(s_n^j + m))}_{\text{}} \cdot \underbrace{\sum_{i=1}^K \exp(\gamma(-s_p^i))}_{\text{}} \right]$

负样本集合正样本集合

这一步变换至关重要。它将复杂的 “成对比较” 解耦成了独立的 “正样本组” 和 “负样本组” 计算。这解释了为什么 Circle Loss 能够像 Softmax 一样高效训练，而不需要像 Triplet Loss 那样进行繁重的样本挖掘。

2. 证明 Softmax 和 Triplet 都是“特例”

为了证明

是真正的大一统，我们看看它是如何退化成我们熟悉的 Loss 的。

2.1 退化为 Softmax (

)

如果我们设定只有一个正样本（

，即当前样本

和它的类中心

），忽略常数 1，公式就变成了：

$L_{am} = - \log \frac{\exp(\gamma(s_p - m))}{\exp(\gamma(s_p - m)) + \sum_{j=1}^{N-1} \exp(\gamma s_n^j)}$

解读： 这正是我们熟悉的 CosFace / AM-Softmax！

这意味着：分类 Loss 只是 Circle Loss 在

时的特例。

2.2 退化为 Triplet (

)

如果我们把

设为无穷大（

），根据 LogSumExp 的极限性质，公式变成了：

$L_{tri} = \lim_{\gamma \to +\infty} \frac{1}{\gamma} L_{uni} = \max [ s_n^j - s_p^i ]_+$

解读： 这正是 Triplet Loss 的核心逻辑（Hard Mining）！

这意味着：Triplet Loss 只是 Circle Loss 在

趋于无穷大时的极限情况。

3. 发现缺陷 —— 拒绝“死板”的优化

既然统一了江湖，为什么还需要 Circle Loss？

因为作者发现，之前的 CosFace/ArcFace 存在一个致命的“不够灵活”的问题。

3.1 什么是“不够灵活”？

在

中，我们是在优化

。当我们对它求导时，梯度是常数（或者说是 1）。

这意味着什么？

困难样本（分错了）：模型用 1 的力度去推它。
简单样本（分对了）：模型依然用 1 的力度去推它。

这就好比老师辅导学生，对考 30 分的学生和考 99 分的学生布置一样的作业。这显然浪费了算力，且效率低下。

3.2 引入动态权重 (

)

为了让模型懂得“因材施教”，作者引入了动态权重

：

$L_{circle} = \log \left[ 1 + \sum_{j=1}^L \exp(\gamma \alpha_n^j s_n^j) \cdot \sum_{i=1}^K \exp(-\gamma \alpha_p^i s_p^i) \right]$

其中，权重

的定义是“自我配速”（Self-paced）：

$\alpha_p^i = [O_p - s_p^i]_+, \quad \alpha_n^j = [s_n^j - O_n]_+$

机制详解：

如果样本简单（

接近目标

），

变小

几乎不练。

如果样本很难（

远小于目标

），

变大

加权猛练！

3.3 Circle Loss 最终形态

将动态权重

和 Margin 结合，我们就得到了最终公式：

$L_{circle} = \log \left[ 1 + \sum_{j=1}^L \exp(\gamma \alpha_n (s_n - \Delta_n)) \cdot \sum_{i=1}^K \exp(-\gamma \alpha_p (s_p - \Delta_p)) \right]$

4. 几何解释 —— 为什么叫“Circle”？

这是论文最精彩的几何视角。

4.1 决策边界的演变

Circle Loss: 由于引入了与

4.2 圆形的意义

从直线变成圆弧，不仅仅是好看。

这意味着模型在优化

和

时，不再是僵硬的 1:1 兑换，而是根据它们各自离“完美状态”

的距离来动态调整梯度方向。这就赋予了 Loss 更大的灵活性。

5. 梯度验证 —— 数学上的实锤

最后，为了证明“动态权重”真的有效，作者直接给出了梯度公式：

$\frac{\partial L}{\partial s_n} \propto \alpha_n = (s_n - O_n)$

$\frac{\partial L}{\partial s_p} \propto \alpha_p = (O_p - s_p)$

一句话总结：梯度的强弱，正比于样本的难度。

这彻底解决了传统 Loss 在简单样本上浪费梯度的问题，让模型能够全神贯注地攻克那些“死活分不开”的 Hard Cases。

如何利用简单的浏览器插件Web Scraper爬取知乎评论数据

一、简单介绍： Web Scraper 的优点就是对新手友好，在最初抓取数据时，把底层的编程知识和网页知识都屏蔽了，可以非常快的入门，只需要鼠标点选几下，几分钟就可以搭建一个自定义的爬虫。我在过去的半年里，写了很多篇关于 Web Scraper 的教程，本文类似于一篇导航文章，把爬虫的注意要点和我的教程连接起来。最快一个小时，最多一个下午，就可以掌握 Web Scraper 的使用，轻松应对日常生活中的数据爬取需求。像这样的网页数据，想要通过网页爬虫的方式获取数据，可以下载web scraper进行爬虫这是常见的网页类型： 1.单页单页是最常见的网页类型。我们日常阅读的文章，推文的详情页都可以归于这种类型。作为网页里最简单最常见的类型，Web Scraper 教程里就拿豆瓣电影作为案例，入门 Web Scraper 的基础使用。 2.分页列表分页列表也是非常常见的网页类型。互联网的资源可以说是无限的，当我们访问一个网站时，不可能一次性把所有的资源都加载到浏览器里。现在的主流做法是先加载一部分数据，随着用户的交互操作（

WEB小游戏开发之扫雷游戏项目说明

扫雷游戏项目说明 * 📖 引言 * 🎮 游戏介绍 * 📏 游戏规则 * 基本规则 * 游戏流程 * ✨ 功能特点 * 🚀 安装与运行 * 在线体验 * 本地运行 * 🎯 操作说明 * 桌面设备操作 * 移动设备操作 * 键盘操作 * 🧠 游戏技巧 * 基础技巧 * 高级策略 * 💻 技术实现 * 前端技术 * 核心算法 * 性能优化 * 📁 项目结构 * 🌐 浏览器兼容性 * 📱 移动设备支持 * 🛠 开发说明 * ❓ 常见问题 * 如何提高我的扫雷技巧？ * 为什么第一次点击总是安全的？ * 如何在移动设备上标记地雷？ * 双击功能有什么用？ * 游戏是否有时间限制？ * 👥 贡献指南 * 📄 许可证 📖 引言本篇是一款经典的单人逻辑推理（扫雷）游戏项目说明。 🎮 游戏介绍扫雷是一款经典的单人逻辑推理游戏，最早出现在1960年代的大型机系统上，后来在1990年代随着Windows操作系统的普及而广

麦橘超然Flux图像生成器实战：Gradio WebUI定制化部署

麦橘超然Flux图像生成器实战：Gradio WebUI定制化部署 1. 这不是另一个“点开即用”的AI绘图工具你可能已经试过十几个在线AI绘图平台，也下载过几款本地软件——有的要注册、有的限次数、有的生成一张图要等两分钟、有的画出来连主体都模糊。而今天要聊的这个，是真正能装进你那台显存只有8GB甚至6GB的笔记本里，还能稳稳跑出高清图的离线方案。它叫“麦橘超然”，名字听起来有点江湖气，但背后是实打实的技术取舍：不拼参数堆叠，不靠云端算力兜底，而是用float8量化把大模型“瘦身”到能在中低配设备上呼吸自如；界面没花里胡哨的菜单栏，就一个输入框、两个滑块、一个按钮；生成的图不是“差不多就行”，而是细节经得起放大、光影有真实感、构图不崩坏。这不是为极客准备的玩具，而是给设计师、插画师、内容创作者、甚至只是想安静画点东西的普通人的实用工具。它不承诺“秒出大师级作品”，但它保证：你写的每一句提示词，都会被认真理解；你调的每一个参数，都会真实影响结果；你点下的每一次“生成”，都在你自己的机器上完成——没有上传、

前端进阶课程二十四、：CSS核心进阶三定位（position）进阶与z-index

--静态定位/相对定位/绝对定位/固定定位/粘性定位/层叠等级全面掌握position的static、relative、absolute、fixed四大值及sticky粘性定位的特性与应用场景，理解“Parent is relative, child is absolute”定位逻辑和fixed的viewport定位规则。深入剖析z-index的层级计算规则与层级上下文，解决元素层级冲突核心问题。通过实操实现相对定位微调、绝对定位弹窗、固定导航、粘性导航等案例，搭配弹窗、层级布局等作业，让学员能精准运用定位实现各类布局，熟练管理元素层级，攻克定位与层级的核心难点。

前言：两大门派的恩怨

派系一：基于分类的学习 (Classification-based)

派系二：基于度量的学习 (Metric Learning / Pairwise Learning)

为什么要提这个？（Circle Loss 的动机）

1. 万物归一 —— 统一视角 (

)

1.1 统一 Loss 公式

1.2 计算量的“降维打击”

2. 证明 Softmax 和 Triplet 都是“特例”

2.1 退化为 Softmax (

)

2.2 退化为 Triplet (

)

3. 发现缺陷 —— 拒绝“死板”的优化

3.1 什么是“不够灵活”？

3.2 引入动态权重 (

)

3.3 Circle Loss 最终形态

4. 几何解释 —— 为什么叫“Circle”？

4.1 决策边界的演变

4.2 圆形的意义

5. 梯度验证 —— 数学上的实锤

Read more

如何利用简单的浏览器插件Web Scraper爬取知乎评论数据

WEB小游戏开发之扫雷游戏项目说明

麦橘超然Flux图像生成器实战：Gradio WebUI定制化部署

前端进阶 课程二十四、：CSS核心进阶三 定位（position）进阶与z-index

前端进阶课程二十四、：CSS核心进阶三定位（position）进阶与z-index