【论文阅读12】Circle Loss：一统 Softmax 与 Triplet，从“线性”到“圆形”的优化视角

优质文章学习记录

10 Apr 2026 — 10 min read

论文题目：《Circle Loss: A Unified Perspective of Pair Similarity Optimization》

前言：两大门派的恩怨

派系一：基于分类的学习 (Classification-based)

派系二：基于度量的学习 (Metric Learning / Pairwise Learning)

为什么要提这个？（Circle Loss 的动机）

1. 万物归一 —— 统一视角 ()

1.1 统一 Loss 公式

1.2 计算量的“降维打击”

2. 证明 Softmax 和 Triplet 都是“特例”

4. 几何解释 —— 为什么叫“Circle”？

4.1 决策边界的演变

4.2 圆形的意义

5. 梯度验证 —— 数学上的实锤

前言：两大门派的恩怨

派系一：基于分类的学习 (Classification-based)

代表：Softmax, SphereFace, CosFace, ArcFace。
原文描述：“优化样本和权重向量之间的相似性” (optimize the similarity between samples and weight vectors)。
通俗解释（找老师）：

公式特征：

。

训练目标：学生（样本

）必须尽可能靠近自己的班主任（

），远离别人的班主任。

逻辑：模型预先设立了 10,000 个“教室”（类别），每个教室有一个“班主任”（

）。

权重

：被看作是类中心（Class Center）或者代理（Proxy）。

派系二：基于度量的学习 (Metric Learning / Pairwise Learning)

代表：Triplet Loss, Contrastive Loss。
原文描述：“优化样本之间的相似性” (optimize the similarity between samples)。
通俗解释（找朋友）：
- 逻辑：模型从数据堆里随便抓两个人。
- 训练目标：如果这两个人是同一个人（Positive Pair），就拉近他们；如果是不同人（Negative Pair），就推开他们。

公式特征：

。

没有

：这里没有固定的“教室”和“班主任”。

为什么要提这个？（Circle Loss 的动机）

在 Circle Loss 之前，大家觉得这是两套完全不同的逻辑：

用 Softmax (ArcFace) 的人觉得 Triplet Loss 收敛太慢，采样太麻烦（组合爆炸）。
用 Triplet Loss 的人觉得 Softmax 只能处理闭集（Closed-set），不灵活。

Circle Loss 的伟大之处在于它说了一句：

“别吵了，其实你们俩在数学本质上是一回事！”

Circle Loss 认为：

Triplet：其实就是把另一个样本

当作临时的“中心”。

Softmax/ArcFace：其实就是把

当作一种特殊的“样本”（只有一个样本的类）。

它们的目标都是：最大化类内相似度 (

)，最小化类间相似度 (

)。

1. 万物归一 —— 统一视角 (

)

Circle Loss 的第一步贡献，是建立了一个统一的 Loss 框架。作者敏锐地发现，无论是分类还是配对，本质目标都是：最大化正样本分数

，最小化负样本分数

。

1.1 统一 Loss 公式

作者首先推导出了一个通用公式

(Unified Loss)：

$L_{uni} = \log \left[ 1 + \sum_{i=1}^K \sum_{j=1}^L \exp(\gamma(s_n^j - s_p^i + m)) \right]$

：间隔（Margin）。

：缩放因子（Scale Factor）。

：第

个负样本对的相似度。

：第

个正样本对的相似度。

这个公式的直观含义很简单：要在

最小化过程中，迫使

越小越好。

1.2 计算量的“降维打击”

上面的公式有一个双重求和

，这意味着要计算所有正负样本的配对，计算量是

。

利用指数运算法则

，作者做了一个精彩的数学变换：

$L_{uni} = \log \left[ 1 + \underbrace{\sum_{j=1}^L \exp(\gamma(s_n^j + m))}_{\text{}} \cdot \underbrace{\sum_{i=1}^K \exp(\gamma(-s_p^i))}_{\text{}} \right]$

负样本集合正样本集合

这一步变换至关重要。它将复杂的 “成对比较” 解耦成了独立的 “正样本组” 和 “负样本组” 计算。这解释了为什么 Circle Loss 能够像 Softmax 一样高效训练，而不需要像 Triplet Loss 那样进行繁重的样本挖掘。

2. 证明 Softmax 和 Triplet 都是“特例”

为了证明

是真正的大一统，我们看看它是如何退化成我们熟悉的 Loss 的。

2.1 退化为 Softmax (

)

如果我们设定只有一个正样本（

，即当前样本

和它的类中心

），忽略常数 1，公式就变成了：

$L_{am} = - \log \frac{\exp(\gamma(s_p - m))}{\exp(\gamma(s_p - m)) + \sum_{j=1}^{N-1} \exp(\gamma s_n^j)}$

解读： 这正是我们熟悉的 CosFace / AM-Softmax！

这意味着：分类 Loss 只是 Circle Loss 在

时的特例。

2.2 退化为 Triplet (

)

如果我们把

设为无穷大（

），根据 LogSumExp 的极限性质，公式变成了：

$L_{tri} = \lim_{\gamma \to +\infty} \frac{1}{\gamma} L_{uni} = \max [ s_n^j - s_p^i ]_+$

解读： 这正是 Triplet Loss 的核心逻辑（Hard Mining）！

这意味着：Triplet Loss 只是 Circle Loss 在

趋于无穷大时的极限情况。

3. 发现缺陷 —— 拒绝“死板”的优化

既然统一了江湖，为什么还需要 Circle Loss？

因为作者发现，之前的 CosFace/ArcFace 存在一个致命的“不够灵活”的问题。

3.1 什么是“不够灵活”？

在

中，我们是在优化

。当我们对它求导时，梯度是常数（或者说是 1）。

这意味着什么？

困难样本（分错了）：模型用 1 的力度去推它。
简单样本（分对了）：模型依然用 1 的力度去推它。

这就好比老师辅导学生，对考 30 分的学生和考 99 分的学生布置一样的作业。这显然浪费了算力，且效率低下。

3.2 引入动态权重 (

)

为了让模型懂得“因材施教”，作者引入了动态权重

：

$L_{circle} = \log \left[ 1 + \sum_{j=1}^L \exp(\gamma \alpha_n^j s_n^j) \cdot \sum_{i=1}^K \exp(-\gamma \alpha_p^i s_p^i) \right]$

其中，权重

的定义是“自我配速”（Self-paced）：

$\alpha_p^i = [O_p - s_p^i]_+, \quad \alpha_n^j = [s_n^j - O_n]_+$

机制详解：

如果样本简单（

接近目标

），

变小

几乎不练。

如果样本很难（

远小于目标

），

变大

加权猛练！

3.3 Circle Loss 最终形态

将动态权重

和 Margin 结合，我们就得到了最终公式：

$L_{circle} = \log \left[ 1 + \sum_{j=1}^L \exp(\gamma \alpha_n (s_n - \Delta_n)) \cdot \sum_{i=1}^K \exp(-\gamma \alpha_p (s_p - \Delta_p)) \right]$

4. 几何解释 —— 为什么叫“Circle”？

这是论文最精彩的几何视角。

4.1 决策边界的演变

Circle Loss: 由于引入了与

4.2 圆形的意义

从直线变成圆弧，不仅仅是好看。

这意味着模型在优化

和

时，不再是僵硬的 1:1 兑换，而是根据它们各自离“完美状态”

的距离来动态调整梯度方向。这就赋予了 Loss 更大的灵活性。

5. 梯度验证 —— 数学上的实锤

最后，为了证明“动态权重”真的有效，作者直接给出了梯度公式：

$\frac{\partial L}{\partial s_n} \propto \alpha_n = (s_n - O_n)$

$\frac{\partial L}{\partial s_p} \propto \alpha_p = (O_p - s_p)$

一句话总结：梯度的强弱，正比于样本的难度。

这彻底解决了传统 Loss 在简单样本上浪费梯度的问题，让模型能够全神贯注地攻克那些“死活分不开”的 Hard Cases。

爆火AI圈的OpenClaw（小龙虾）：能干活的本地AI智能体，一文吃透入门到实战

🔥个人主页：Cx330🌸 ❄️个人专栏：《C语言》《LeetCode刷题集》《数据结构-初阶》《C++知识分享》《优选算法指南-必刷经典100题》《Linux操作系统》:从入门到入魔《Git深度解析》:版本管理实战全解 🌟心向往之行必能至 🎥Cx330🌸的简介：目录前言：一、先搞懂：OpenClaw到底是什么？为什么这么火？ 1.1 项目核心定位 1.2 爆火的核心原因：踩中AI落地痛点 1.3 OpenClaw vs 传统AI vs 自动化工具二、OpenClaw核心架构：它是怎么干活的？三、保姆级部署：全平台一键安装，小白也能搞定 3.1 部署前置准备 3.2 官方一键脚本（新手首选，

【小程序】如何在微信小程序中使用AI模型？

微信小程序支持多种方式集成AI模型，主要包括云端API调用、本地推理（如ONNX模型）和外部API接入。这些方法可以实现文本生成、图像识别、语音处理等功能。根据你的具体需求（如实时性、隐私或成本），可以选择合适的方式。下面我将一步步说明常见实现路径，基于官方文档和开发者实践。 1. 使用微信云开发（CloudBase）集成AI大模型这是最简单的方式，适合调用腾讯云的AI服务（如Hunyuan大模型），无需部署模型，只需API调用。云开发提供免费额度，适合聊天机器人、文本生成等场景。步骤： * 开通云开发：在微信小程序开发者工具中，点击“云开发”按钮，创建环境（免费）。 * 处理响应：将AI输出渲染到页面UI中。 * 注意：需在微信公众平台绑定腾讯云账号，调用有配额限制。完整对话需结合上下文管理。调用模型：在页面逻辑中发送请求，例如生成文本。 hy.generate({ prompt:"请生成一个旅游攻略",// 输入提示

当AI成为开发伙伴，我们的代码架构该向何处去？

当AI成为开发伙伴，我们的代码架构该向何处去？过去三年，我一直在维护一套内部的后台管理系统。从最初几个人快速搭建的MVP，到现在支撑着公司六个业务线的核心运营，这个系统经历了一次彻底的重构。重构的原因很简单：代码变得“不可爱”了。不是不能跑，而是每次加新功能都像在雷区里跳舞。改一行代码，影响三个不相关页面；想引入一个新思路，发现老架构处处掣肘；团队成员越来越多，但代码的可理解性却在直线下降。这让我开始思考一个更本质的问题：当我们的代码不再只被人阅读，AI也将成为日常协作者时，架构应该为什么而设计？这不是一个遥远的技术幻想。Cursor、Copilot、Windsurf已经深度嵌入到我的日常开发中。它们读代码的速度比我快百倍，但它们“理解”代码的方式和人截然不同。这篇文章，我想聊聊在这个AI与人类混合编程的时代，我对代码架构的一些重新思考。先回顾一下：我们曾经追求过什么在谈未来之前，有必要理清我们走过的路。这里以我熟悉的React/Vue生态下的中后台项目为例。第一阶段：能跑就行最朴素的诉求是： * 别让我从零配置webpack/vite

腾讯云 AI 代码助手编程挑战赛 + 构建开发板垃圾图片识别AI对话的Copilot

一、前言：最近公司有一个项目需求需要使用到AI智能识别的功能《垃圾智能AI识别系统》，本人一直从事Web领域开发工作，也没接触过人工智能这个赛道，刚好现在借这个“腾讯云 AI 代码助手编程挑战赛”来了解一下AI写代码相关的流程。刚好也是接触新的技术领域，经过“腾讯云AI代码助手”来帮助我从0到1来实现这个《构建开发板垃圾图片识别AI对话的Copilot》的项目，在很多地方帮助程序员开发人员更好地理解和优化代码，提高软件的可维护性和可靠性、安全性。上图是通过“腾讯云AI代码助手”从硬件到软件、模型的应用、生成Flask Web API服务，再到最后工作中的最佳实践，通过本人测试了Vue、Js、Python、Go等语言的实际场景，“腾讯云AI代码助手”提供了智能代码补全、单元测试生成、问题修复等多项AI驱动的功能，使开发者能够专注于创造性工作而非繁琐的设置。【可以来看看我在B站录的一个视屏】：【腾讯云 AI 代码助手编程挑战赛】+构建开发板垃圾图片识别AI对话的Copilot 在实际使用中，我深刻体验到“腾讯云AI代码助手”的便利，特别是在代码质量的提升方面展

前言：两大门派的恩怨

派系一：基于分类的学习 (Classification-based)

派系二：基于度量的学习 (Metric Learning / Pairwise Learning)

为什么要提这个？（Circle Loss 的动机）

1. 万物归一 —— 统一视角 (

)

1.1 统一 Loss 公式

1.2 计算量的“降维打击”

2. 证明 Softmax 和 Triplet 都是“特例”

2.1 退化为 Softmax (

)

2.2 退化为 Triplet (

)

3. 发现缺陷 —— 拒绝“死板”的优化

3.1 什么是“不够灵活”？

3.2 引入动态权重 (

)

3.3 Circle Loss 最终形态

4. 几何解释 —— 为什么叫“Circle”？

4.1 决策边界的演变

4.2 圆形的意义

5. 梯度验证 —— 数学上的实锤

Read more

爆火AI圈的OpenClaw（小龙虾）：能干活的本地AI智能体，一文吃透入门到实战

【小程序】如何在微信小程序中使用AI模型？

当AI成为开发伙伴，我们的代码架构该向何处去？

腾讯云 AI 代码助手编程挑战赛 + 构建开发板垃圾图片识别AI对话的Copilot