前言:回顾这一路
2022 年 11 月 30 日,ChatGPT 发布。
从那天起,世界变了。
timeline
title 大模型发展简史
2017 : Transformer 诞生
: Attention Is All You Need
2018 : GPT-1, BERT
: 预训练时代开启
2019 : GPT-2
: "太危险不敢发布"
2020 : GPT-3
: 175B 参数震惊世界
2022 : ChatGPT
: 人人都能用的 AI
: 2个月1亿用户
2023 : GPT-4
: 多模态、更强大
: Claude, LLaMA 开源
2024 : GPT-4o, Claude 3
: Sora, Gemini 1.5
: Agent 元年
2025+ : AGI?
: 未知的未来
这个系列,我们从 Transformer 讲到 Agent,从原理讲到实践。
这最后一篇,让我们聊聊未来。
一、当前的技术边界
1.1 大模型能做什么?
mindmap
root((LLM 能力))
语言理解
阅读理解 ✓
情感分析 ✓
信息提取 ✓
语言生成
文章写作 ✓
代码生成 ✓
创意写作 ✓
推理
简单逻辑 ✓
数学计算 △
复杂推理 △
多模态
图像理解 ✓
视频理解 △
音频理解 ✓
交互
对话 ✓
Agent △
自主学习 ✗
图例:✓ 已实现 | △ 部分实现 | ✗ 尚未实现
1.2 大模型不能做什么?
1. 真正的理解
# LLM 可以回答
"中国的首都是哪里?" → "北京"
# 但它真的"理解"北京是什么吗?
# 它只是学会了统计模式2. 可靠的推理
# 简单数学可以
"1 + 1 = ?" → "2"
# 复杂一点就不行
"一个房间有 3 个人,进来 2 个,出去 1 个,又进来 4 个,
其中 2 个是之前出去的人回来了。现在房间里有多少人?"
# 经常算错3. 持续学习
# LLM 不能从对话中学习
User: "我叫张三"
AI: "你好张三"
# 下次对话
User: "我叫什么?"
AI: "抱歉,我不知道你的名字" # 忘了4. 真实世界交互
# LLM 只能处理文本/图像
# 不能直接:
# - 操作物理设备
# - 感知真实环境
# - 执行物理任务1.3 当前的关键挑战
| 挑战 | 问题 | 进展 |
|---|---|---|
| 幻觉 | 一本正经胡说八道 | RAG 缓解,未根治 |
| 推理 | 复杂逻辑易出错 | CoT 有帮助,仍有限 |
| 时效性 | 知识有截止日期 | 联网搜索、RAG |
| 成本 | 训练/推理都很贵 | 量化、MoE、优化 |
| 安全 | 可被滥用 | 对齐、过滤,持续博弈 |
| 可解释 | 黑盒决策 | 研究中,进展缓慢 |
二、正在发生的变革
2.1 Scaling Law 的延续与争议
Scaling Law:更多数据 + 更多参数 + 更多计算 = 更强能力
graph LR
subgraph Scaling Law
D[数据 ↑] --> P[性能 ↑]
C[计算 ↑] --> P
N[参数 ↑] --> P
end
subgraph 争议
Q1[还能 Scale 多久?]
Q2[数据会用完吗?]
Q3[成本能承受吗?]
end
乐观派:
- GPT-4 到 GPT-5 还有很大提升空间
- 合成数据可以突破数据瓶颈
- 算法优化可以降低成本
悲观派:
- 互联网数据即将用完
- 收益在递减
- 能耗不可持续
现实可能是:Scaling 会继续,但需要更聪明的方式。
2.2 推理时计算(Test-Time Compute)
一个新趋势:训练时少花钱,推理时多思考。
graph TB
subgraph 传统方式
T1[大量训练] --> M1[强模型]
M1 --> I1[快速推理]
end
subgraph 新趋势
T2[适量训练] --> M2[中等模型]
M2 --> I2[深度推理]
I2 --> I3[更好结果]
end
style I2 fill:#4ecdc4
代表:
- OpenAI o1/o3:推理时"思考"更久
- DeepSeek R1:开源的推理模型
- Chain-of-Thought:让模型一步步想
核心思想:
# 旧方式:一次给出答案
answer = model.generate(question)
# 新方式:多次推理、验证、修正
thought_1 = model.think(question)
thought_2 = model.verify(thought_1)
thought_3 = model.refine(thought_2)
answer = model.conclude(thought_3)2.3 Agent:从对话到行动
2024-2025:Agent 元年
graph TB
subgraph 进化路径
C[Chatbot
只能对话] --> R[RAG
能查资料] R --> F[Function Calling
能用工具] F --> A[Agent
能自主行动] A --> M[Multi-Agent
能协作] M --> AGI[AGI?
通用智能] end
只能对话] --> R[RAG
能查资料] R --> F[Function Calling
能用工具] F --> A[Agent
能自主行动] A --> M[Multi-Agent
能协作] M --> AGI[AGI?
通用智能] end
当前进展:
- Claude 的 Computer Use
- OpenAI 的 Operator(传闻)
- 各种 Coding Agent(Cursor、Devin)
- Browser Agent(浏览网页)
挑战:
- 可靠性不够(经常出错)
- 安全性(自主行动的风险)
- 效率(太慢、太贵)
2.4 多模态的融合
从"文字 AI"到"全感知 AI":
graph TB
subgraph 模态融合
Text[文本] --> U[统一模型]
Image[图像] --> U
Audio[音频] --> U
Video[视频] --> U
U --> Output[多模态输出]
end
里程碑:
- GPT-4V/GPT-4o:看图、听音、说话
- Gemini 1.5:100万 token,理解视频
- Sora:文字生成视频
趋势:
- 模态边界在消失
- "全能模型"正在出现
- 交互方式在革命
三、可能的未来方向
3.1 技术路线猜测
mindmap
root((未来方向))
架构创新
超越Transformer?
State Space Models
混合架构
训练范式
自我改进
合成数据
持续学习
推理增强
更深的思考
工具使用
世界模型
效率提升
更小更强
专用硬件
稀疏计算
应用突破
科学发现
代码自动化
个人助理
3.2 短期(1-2年)
几乎确定会发生:
模型继续变强
- GPT-5、Claude 4 等新一代
- 推理能力显著提升
- 多模态成为标配
Agent 逐渐成熟
- 代码生成更可靠
- 简单工作流自动化
- 但仍需人类监督
成本继续下降
- 更好的量化方法
- 更高效的推理框架
- 开源模型追赶闭源
监管逐步到位
- 各国出台 AI 法规
- 行业自律标准
- 安全要求提高
3.3 中期(3-5年)
可能发生:
个人 AI 助理普及
"帮我安排下周的行程,考虑我的会议、天气、和喜好" → AI 自动搞定所有细节编程方式革命
# 从"写代码"到"描述需求" "做一个电商网站,支持用户注册、商品浏览、购物车、支付" → AI 生成完整可用的代码科学研究加速
- AI 辅助药物发现
- AI 辅助材料设计
- AI 辅助定理证明
教育个性化
- AI 私人教师
- 自适应学习路径
- 实时答疑解惑
3.4 长期(5-10年+)
不确定但可能:
AGI 的曙光?
- 什么是 AGI?定义都有争议
- 乐观者说 5 年,悲观者说 50 年
- 可能是渐进的,没有"奇点时刻"
人机协作新范式
- 不是 AI 替代人,而是增强人
- 工作方式重新定义
- 创造力重新定义
社会深刻变革
- 就业结构变化
- 教育体系重构
- 新的伦理问题
四、对从业者的建议
4.1 技能发展路线
graph TB
subgraph 基础层
ML[机器学习基础]
DL[深度学习]
NLP[NLP 基础]
end
subgraph 核心层
LLM[大模型原理]
FT[微调技术]
Inf[推理优化]
end
subgraph 应用层
Prompt[Prompt Engineering]
RAG[RAG 系统]
Agent[Agent 开发]
end
subgraph 工程层
Sys[系统设计]
MLOps[MLOps]
Safe[安全对齐]
end
ML --> LLM
DL --> LLM
NLP --> LLM
LLM --> Prompt
LLM --> FT
FT --> RAG
Prompt --> RAG
RAG --> Agent
Agent --> Sys
Inf --> Sys
Sys --> MLOps
4.2 学什么最有价值?
短期高价值:
- Prompt Engineering(入门快、立即有用)
- RAG 系统开发(企业刚需)
- Agent 开发(新兴热点)
中期高价值:
- 模型微调(LoRA、全量)
- 推理优化(vLLM、量化)
- 系统架构(生产级应用)
长期高价值:
- 算法研究(需要深厚基础)
- 安全对齐(越来越重要)
- 跨学科应用(AI + X)
4.3 避免的陷阱
1. 只会调 API
# 这样的技能很快会贬值
response = openai.chat.completions.create(...)
# 要理解背后的原理
# 为什么 temperature 这样设?
# 为什么 prompt 这样写?
# 出问题怎么排查?2. 追逐每一个新模型
# 不要这样
"GPT-4 出了!学!"
"Claude 3 出了!学!"
"Gemini 出了!学!"
# 应该这样
理解核心原理,新模型只是参数不同3. 忽视工程能力
# 算法很重要,但
# - 怎么部署到生产?
# - 怎么处理高并发?
# - 怎么控制成本?
# - 怎么保证安全?
# 这些同样重要4. 低估变化速度
# AI 领域变化太快
# 今天的最佳实践,明天可能过时
# 保持学习,保持开放五、系列回顾
5.1 我们学了什么?
mindmap
root((LLM 从入门到放弃))
基础篇
01 Transformer
02 Attention 变体
03 GPT vs BERT
04 Tokenization
训练篇
05 预训练
06 SFT 指令微调
07 RLHF/DPO
08 LoRA/PEFT
部署篇
09 模型量化
10 vLLM 推理
应用篇
11 RAG
12 Agent
13 多模态
14 Prompt Engineering
15 评估
进阶篇
16 MoE
17 长上下文
18 安全对齐
19 应用架构
20 未来展望
5.2 核心知识点速查
| 主题 | 一句话总结 | 推荐阅读 |
|---|---|---|
| Transformer | Self-Attention 实现全局依赖 | 第1篇 |
| 预训练 | 大规模无监督学习语言规律 | 第5篇 |
| SFT | 用指令数据教会模型对话 | 第6篇 |
| RLHF | 用人类反馈对齐模型价值观 | 第7篇 |
| LoRA | 低秩分解实现高效微调 | 第8篇 |
| 量化 | 用更少的 bit 表示参数 | 第9篇 |
| vLLM | PagedAttention 提升推理效率 | 第10篇 |
| RAG | 检索增强让模型有外部知识 | 第11篇 |
| Agent | LLM + 工具 + 规划 = 自主行动 | 第12篇 |
| MoE | 稀疏激活实现大容量低计算 | 第16篇 |
5.3 推荐学习路径
入门路径(2-4周):
第1篇(Transformer) → 第14篇(Prompt) → 第11篇(RAG) → 第12篇(Agent)进阶路径(1-2月):
第5-7篇(训练) → 第8篇(LoRA) → 第9-10篇(部署) → 第19篇(架构)深入路径(持续):
第2篇(Attention) → 第16篇(MoE) → 第17篇(长上下文) → 第18篇(安全)六、写在最后
6.1 这个系列的初衷
两年前,我开始学习大模型。
那时候:
- 论文看不懂
- 代码跑不通
- 概念一团乱
于是我想:如果有一个系列,能用人话讲清楚这些东西就好了。
"从入门到放弃" 不是说要放弃学习,而是:
- 承认学习很难
- 接受不完美
- 但还是要继续
6.2 学习的心态
1. 不要怕"不懂"
第一次看 Transformer 论文:完全懵
第二次:有点懂了
第三次:原来这么简单
第N次:咦,还有这个细节
学习就是这样2. 动手比看书重要
# 看 100 篇文章不如
# 自己跑一遍代码
# 自己调一遍参数
# 自己踩一遍坑3. 教是最好的学
写这个系列的过程
让我自己理解得更深了6.3 AI 时代的生存之道
不管你是:
- 程序员
- 产品经理
- 设计师
- 学生
- 还是其他任何人
AI 都会影响你。
我的建议:
- 了解它:至少知道 AI 能做什么、不能做什么
- 使用它:让 AI 成为你的工具,提升效率
- 不要怕它:AI 是工具,不是对手
- 保持学习:这个领域变化太快
6.4 最后的最后
感谢你读到这里。
这个系列写了 20 篇,大约 15 万字。
希望对你有一点点帮助。
AI 的未来还很长,
我们都是这个时代的见证者和参与者。
一起加油。
—— 2025 年,写于某个深夜附录:资源汇总
学习资源
| 类型 | 推荐 | 链接 |
|---|---|---|
| 课程 | Stanford CS224N | 链接 |
| 课程 | Andrej Karpathy | YouTube |
| 书籍 | 《动手学深度学习》 | d2l.ai |
| 论文 | Attention Is All You Need | arxiv |
| 代码 | nanoGPT | GitHub |
| 社区 | Hugging Face | huggingface.co |
工具推荐
| 用途 | 工具 | 说明 |
|---|---|---|
| 模型训练 | transformers | HuggingFace 生态 |
| 高效微调 | PEFT | LoRA 等方法 |
| 推理加速 | vLLM | PagedAttention |
| 向量数据库 | Chroma/Milvus | RAG 必备 |
| Agent 框架 | LangChain | 快速开发 |
| 本地部署 | Ollama | 最简单的方式 |
值得关注
| 公司/项目 | 关注点 |
|---|---|
| OpenAI | GPT 系列、前沿研究 |
| Anthropic | Claude、安全研究 |
| Google DeepMind | Gemini、科研 |
| Meta AI | LLaMA、开源 |
| 阿里/智谱/月之暗面 | 国内大模型 |
| Hugging Face | 开源生态 |