DeepSeek 团队揭秘：清北应届生撑起大模型技术 | 极客日志

编程语言AI算法

DeepSeek 团队揭秘：清北应届生撑起大模型技术

DeepSeek 团队以年轻化的清北应届生为核心，在 MLA 注意力机制和 GRPO 强化学习算法上取得关键突破。组织文化类似 OpenAI，不设前置分工，重视软硬件协同，利用萤火 2 号集群实现高效训练。团队成员包括高华佐、曾旺丁、邵智宏等多位博士及实习生，展现了极强的技术潜力与创新活力。

DotNetGuy发布于 2025/2/7更新于 2026/4/190 浏览

DeepSeek 团队揭秘：清北应届生撑起大模型技术

DeepSeek-v3 大模型横空出世，以 1/11 算力训练出超过 Llama 3 的开源模型，震撼了整个 AI 圈。

紧接着，'雷军开千万年薪挖 DeepSeek 研究员罗福莉'的传闻，也使得人们把目光聚焦向DeepSeek 的人才。

这下不只科技圈，全网都在好奇，连小红书上都有人发帖询问，这究竟是一只怎样的团队？

DeepSeek 团队介绍

国际上，也有人把创始人梁文锋的访谈翻译成英语，还加了注释，试图从中寻找这家公司崛起的蛛丝马迹。

DeepSeek 团队分析

资料显示，DeepSeek 团队最大的特点是年轻。

应届生、在读生，特别是来自清北的应届生在其中非常活跃。

他们中的一些人，2024 年一边在 DeepSeek 搞研究，另一边新鲜热乎的博士学位论文刚评上奖。

DeepSeek 成员成果

DeepSeek 成员成果

他们中有的参与了从 DeepSeek LLM v1 到 DeepSeek-v3 的全程，有的只是实习了一段时间也做出重要成果。

为 DeepSeek 提出 MLA 新型注意力、GRPO 强化学习对齐算法等关键创新的，几乎都是年轻人。

DeepSeek 核心成员揭秘

2024 年 5 月发布的DeepSeek-V2，是致使这家大模型公司破圈的关键一环。

其中最重要的创新是提出了一种新型注意力，在 Transformer 架构的基础上，用MLA（Multi-head Latent Attention）替代了传统的多头注意力，大幅减少了计算量和推理显存。

DeepSeek-V2 架构图

在一众贡献者中，高华佐和曾旺丁为 MLA 架构做出了关键创新。

DeepSeek 核心成员

极客日志微信公众号二维码

更多推荐文章

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online