1. 写在前面
自从 OpenAI 在 2022 年 11 月 30 日发布了引领新一轮 AI 革命浪潮的产品 ChatGPT 以来,大模型和生成式 AI 这把大火在 2023 年越烧越旺,各种技术和应用层出不穷;而 2023 年 11 月,同样是 OpenAI CEO 山姆·奥特曼 (Sam Altman) 被开除后有回归,这 100 小时的宫斗赚足了媒体和世界网名的关注,引出了大家对 AI 安全的遐想和担忧。
以 OpenAI 开始,以 OpenAI 收尾,至此已经一年有余了。这一年 AI 做出了令人瞩目的成绩,确似乎才刚刚开始。我、我的朋友、我的同事以及网络上的网友,都切实可行的从 AI 技术上获得了效率和便捷性大幅度提升的好处。
做为一名技术人,在 2023 年,笔者也参与了各种学习和实践,从大语言模型、多模态算法,文生图(Stable Diffusion)技术,到 prompt 工程实践和搭建文生图(Stable Diffusion)webui 实操环境。在此对谈谈对大模型和 AI 的认识与思考,是为总结。
2. 生成式 AI 元年
2023 无疑是生成式 AI 的元年,英伟达的 CEO 黄仁勋曾说过:人工智能已经到了 iPhone 时刻;或许离真正的 AGI 还有一定的距离,但 AI 确实展现出人类基本常识和推理的能力,特别是模型越来越大的加持下出现的涌现能力。就在最近 Google 发布最新人工智能模型 Gemini,声称性能超越 GPT-4 和人类专家,从宣传视频上看,Gemini 已经具备人类的视觉(图像识别),听觉(语音识别)和自然语言理解的基本技能。
我们一起来回顾下生成式 AI 的发展。
2.1 GPT 的发展
如果说大语言模型存在一个分水岭的话,我觉得是 2017 年 Google 提出了一种全新的模型 Transformer,Transformer 是典型的 encoder-decoder 结构,最早是用来做机器翻译的。Transformer 中最重要的结构是 Multi-Head 的 Self-Attention 机制。在 Transformer 之前,自然语言处理(NLP)一般采用循环神经网络 RNN,以及变种如双向的 RNN、LSTM 和 GRU 等,但都存在一定的问题,如长文本序列上下文遗忘,难以并行等,而 Transformer 较好的解决了这些问题。

Transformer 推出之后,被逐步应用到自然语言处理的各个领域,同样也在机器视觉领域和传统的 CNN 一较高下,并拔得头筹。Transformer 的火爆可见一斑,值得一提的当前 Transformer 的几个作者都开始加入大模型创业浪潮,深受资本青睐,如 Adept、Essential AI、Cohere。

说回到 Transformer 的生态树,Transformer 之后,出现了三个较大的分支:
一个是以 BERT 为代表的以 decoder-only 的模型,还有百度的 ERNIE
另一个是以 GPT 为代表的 encoder 模型,还有谷歌的 Bard,claude,cohere,百度的 ERNIE 3.0(当前的文心一言)
第三个分支则是 encoder+decoder 的模型(就是整个 Transformer),这里有清华系的 GLM 和 chatGLM,还有谷歌的 T5,Meta 的 LLAMa











