前言
当前技术迭代迅速,大模型作为新兴技术领域,吸引了大量关注。对于程序员而言,掌握相关技术有助于适应行业变化。
适用人群
本文适合以下人群阅读:
- 希望了解 AI 基本原理的小白和入门者;
- 有意转型从事 AI 相关产品或岗位的人员,包括产品经理、运营人员;
- 已初步了解 AI,希望进阶学习以减少认知焦虑的朋友;
- 有兴趣在 AI 领域探索创业机会的人士。
认识大模型
大模型通常指具有数百万或数十亿个参数的深度神经网络模型,经过专门训练,能对大规模数据进行复杂处理和任务执行。相比传统小模型,其规模更大,能力更强。 它就像一个拥有丰富知识的大脑,通过学习海量文字、图片和声音积累知识与经验。例如询问烹饪方法时,它能提供详细的步骤和技巧建议。只要是大模型学习过的知识,通常都能给出答案。
小白如何学习大模型?
第一阶段(10 天):初阶应用
建立对大模型的前沿认识,理解其核心心法及应用架构。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构与技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义、核心思想及典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
第二阶段(30 天):高阶应用
进入进阶实战,构造私有知识库,开发基于 Agent 的对话机器人。适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
第三阶段(30 天):模型训练
掌握微调技术,尝试训练自己的垂直大模型或开源多模态大模型。
- 模型训练基础
- 求解器 & 损失函数简介
- 实验:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer 结构简介
- 轻量化微调
- 实验数据集的构建
第四阶段(20 天):商业闭环
认知全球大模型性能、吞吐量及成本,掌握云端和本地部署方案。
- 硬件选型
- 全球大模型概览
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 开源 LLM 项目部署
- 内容安全与互联网信息服务算法备案
大模型就业方向
大致可分为四类:
- 做数据的:大模型数据工程师,负责爬虫、清洗、ETL、Data Engine/Pipeline。
- 做平台的:大模型平台工程师,负责分布式训练、大模型集群、工程基建。
- 做应用的:大模型算法工程师,涉及搜索、广告、推荐、对话机器人、AIGC。
- 做部署的:大模型部署工程师,负责推理加速、跨平台、端智能、嵌入式。
最先掌握 AI 技术的人,相较于晚掌握者将具备明显的竞争优势。


