大模型与生成式 AI 的发展脉络及应用安全思考

2023 年被视为生成式人工智能元年，以大语言模型为代表的 AI 技术飞速发展。文章回顾了 Transformer 架构的提出及其在 NLP 和视觉领域的应用，梳理了 GPT 系列模型的演进历程及开源社区的发展。文中介绍了国内外主流大模型厂商的产品布局，以及文生图技术的原理与应用场景。针对 AI 应用，提出了提升业务效率、开发垂直领域应用及构建 AI Agents 等方向。最后探讨了 AI 安全中的价值观对齐与激励扭曲问题，强调了对齐人类价值观的重要性。

雾岛听风发布于 2025/2/7更新于 2026/4/202 浏览

1. 写在前面

自从 OpenAI 在 2022 年 11 月 30 日发布了引领新一轮 AI 革命浪潮的产品 ChatGPT 以来，大模型和生成式 AI 这把大火在 2023 年越烧越旺，各种技术和应用层出不穷；而 2023 年 11 月，同样是 OpenAI CEO 山姆·奥特曼 (Sam Altman) 被开除后有回归，这 100 小时的宫斗赚足了媒体和世界网名的关注，引出了大家对 AI 安全的遐想和担忧。

以 OpenAI 开始，以 OpenAI 收尾，至此已经一年有余了。这一年 AI 做出了令人瞩目的成绩，确似乎才刚刚开始。我、我的朋友、我的同事以及网络上的网友，都切实可行的从 AI 技术上获得了效率和便捷性大幅度提升的好处。

做为一名技术人，在 2023 年，笔者也参与了各种学习和实践，从大语言模型、多模态算法，文生图（Stable Diffusion）技术，到 prompt 工程实践和搭建文生图（Stable Diffusion）webui 实操环境。在此对谈谈对大模型和 AI 的认识与思考，是为总结。

2. 生成式 AI 元年

2023 无疑是生成式 AI 的元年，英伟达的 CEO 黄仁勋曾说过：人工智能已经到了 iPhone 时刻；或许离真正的 AGI 还有一定的距离，但 AI 确实展现出人类基本常识和推理的能力，特别是模型越来越大的加持下出现的涌现能力。就在最近 Google 发布最新人工智能模型 Gemini，声称性能超越 GPT-4 和人类专家，从宣传视频上看，Gemini 已经具备人类的视觉（图像识别），听觉（语音识别）和自然语言理解的基本技能。

我们一起来回顾下生成式 AI 的发展。

2.1 GPT 的发展

如果说大语言模型存在一个分水岭的话，我觉得是 2017 年 Google 提出了一种全新的模型 Transformer，Transformer 是典型的 encoder-decoder 结构，最早是用来做机器翻译的。Transformer 中最重要的结构是 Multi-Head 的 Self-Attention 机制。在 Transformer 之前，自然语言处理（NLP）一般采用循环神经网络 RNN，以及变种如双向的 RNN、LSTM 和 GRU 等，但都存在一定的问题，如长文本序列上下文遗忘，难以并行等，而 Transformer 较好的解决了这些问题。

对大模型和 AI 的认识与思考

Transformer 推出之后，被逐步应用到自然语言处理的各个领域，同样也在机器视觉领域和传统的 CNN 一较高下，并拔得头筹。Transformer 的火爆可见一斑，值得一提的当前 Transformer 的几个作者都开始加入大模型创业浪潮，深受资本青睐，如 Adept、Essential AI、Cohere。

对大模型和 AI 的认识与思考