DeepSeek-v3 大模型横空出世,以 1/11 算力训练出超过 Llama 3 的开源模型,震撼了整个 AI 圈。
紧接着,'雷军开千万年薪挖 DeepSeek 研究员罗福莉'的传闻,也使得人们把目光聚焦向DeepSeek 的人才。
这下不只科技圈,全网都在好奇,连小红书上都有人发帖询问,这究竟是一只怎样的团队?

国际上,也有人把创始人梁文锋的访谈翻译成英语,还加了注释,试图从中寻找这家公司崛起的蛛丝马迹。

资料显示,DeepSeek 团队最大的特点是年轻。
应届生、在读生,特别是来自清北的应届生在其中非常活跃。
他们中的一些人,2024 年一边在 DeepSeek 搞研究,另一边新鲜热乎的博士学位论文刚评上奖。


他们中有的参与了从 DeepSeek LLM v1 到 DeepSeek-v3 的全程,有的只是实习了一段时间也做出重要成果。
为 DeepSeek 提出 MLA 新型注意力、GRPO 强化学习对齐算法等关键创新的,几乎都是年轻人。
DeepSeek 核心成员揭秘
2024 年 5 月发布的DeepSeek-V2,是致使这家大模型公司破圈的关键一环。
其中最重要的创新是提出了一种新型注意力,在 Transformer 架构的基础上,用MLA(Multi-head Latent Attention)替代了传统的多头注意力,大幅减少了计算量和推理显存。

在一众贡献者中,高华佐和曾旺丁为 MLA 架构做出了关键创新。



















