前言:这个被DeepSeek震撼的春节
DeepSeek的声势已成,中国甚至世界的大部分人都已经知道了这样一个免费好用的工具,涌进来使用的人越来越多,大家对AI的认知已经从听说到上手使用了。
而我作为一个相关从业者,我的反应不是兴奋,而是一种说不出的复杂情绪:敬畏、焦虑,以及深深的自我怀疑。
作为一个 AI Architect,过去两年我都在干什么?
一、DeepSeek 给我的三重暴击
暴击一:成本神话的崩塌
OpenAI GPT-4 训练成本:约 1 亿美元
DeepSeek-R1 训练成本:557 万美元
成本比:约 18:1这不是简单的"省钱",这是对整个行业认知的颠覆。
我曾经以为,大模型是巨头的游戏,是算力的军备竞赛。DeepSeek 告诉我:算法创新可以打败算力堆砌。
MLA(Multi-head Latent Attention)、MoE 架构优化、FP8 混合精度训练……这些技术不是凭空出现的,而是在有限资源下被逼出来的智慧。
暴击二:开源精神的胜利
DeepSeek 选择了 MIT 协议完全开源。
模型权重、训练细节、技术报告,全部公开。这不是商业策略,这是一种宣言:
"AI 不应该被少数公司垄断。"
当 OpenAI 越来越"Closed",当 Google 把 Gemini 藏在 API 后面,一个中国团队站出来说:来,拿去用。
这让我想起了 Linux、Wikipedia、Bitcoin 的早期岁月。历史总是惊人地相似。
暴击三:我错过了什么
这才是最痛的。
过去两年,我:
- 知道 ChatGPT 很强,但只是当工具用用
- 知道应该学习 LLM,但总觉得"还早"
- 做了一些 YOLO 的项目,却没深入理解 Transformer
- 写了很多技术文章,却没有一篇关于大模型
我自诩为一个 AI Architect,却在 AI 最大的浪潮面前,选择了观望。
二、全员 AI 时代已来
这次不一样
我经历过很多"风口":
- 云计算:确实改变了基础设施
- 移动互联网:确实改变了生活方式
- 区块链:呃……至少改变了一些人的钱包
- 元宇宙:改变了 Meta 的市值(往下)
但 生成式 AI 不一样。
这不是一个新的"赛道",而是一个新的"底层"。它不是要取代某个行业,而是要 渗透进所有行业。
第四次工业革命的号角
| 工业革命 | 核心驱动力 | 关键变革 |
|---|---|---|
| 第一次 | 蒸汽机 | 机械化生产 |
| 第二次 | 电力 | 大规模生产 |
| 第三次 | 计算机 | 自动化、信息化 |
| 第四次 | AI | 智能化、认知自动化 |
前三次革命,机器替代的是人类的 体力。
第四次革命,AI 替代的是人类的 脑力,甚至替代人类存在的意义。
这不是危言耸听。看看 2024 年发生了什么:
- 律师事务所开始用 AI 审合同
- 金融机构用 AI 写研报
- 程序员用 AI 写代码(并且 AI 写得越来越好)
- 设计师用 AI 生成初稿
全员 AI 时代,不是说每个人都要成为 AI 专家,而是说 每个人都必须学会与 AI 协作。
不会用 AI 的人,就像不会用电脑的人一样,会被时代淘汰。
三、奇点临近:这次我身处洪流
从书本到现实
2005 年,Ray Kurzweil 写了《奇点临近》。
那时候我还在读书,觉得这是科幻小说。2045 年?太遥远了。
2025 年,我开始怀疑,奇点可能比我们想象的更近。
我不再是旁观者
以前读技术史,读互联网浪潮,总有一种"事后诸葛亮"的感觉:
"哇,那时候的人真幸运,赶上了好时代。"
现在我意识到:我就在那个时代里。
2025 年的大模型,可能就是 1995 年的互联网、2007 年的智能手机、2009 年的比特币。
区别是:这次我不能再错过了。
四、2025:我的逆袭计划
反思:为什么我会落后
诚实地面对自己:
- 舒适区陷阱:支付系统、分布式架构,这些我很熟,做起来有安全感
- 完美主义作祟:"等我有完整的时间再系统学习"——然后就没有然后了
- 低估了变化速度:以为还有时间,结果一觉醒来,世界变了
那 5% 的大模型学习?基本就是用用Copilot和Cursor写写代码。
行动:2025 学习路径
目标:用 AI 做成更多项目
| 项目 | 描述 | AI 赋能点 |
|---|---|---|
| 智能博客系统 | 自动排版、多平台分发 | n8n + LLM 自动化 |
| 支付风控助手 | 交易异常检测、欺诈识别 | RAG + 领域微调 |
| 代码审查 Agent | 自动 Review PR | Function Calling |
| 技术文档生成器 | API 文档自动化 | 多模态理解 |
| 个人知识库 | 跨平台知识管理 | Embedding + 向量检索 |
输出:从入门到放弃系列(大模型篇)
既然要学,就要输出。计划产出 20+ 篇 大模型系列文章:
📚 大模型从入门到放弃系列
├── 01. Transformer:一切的起点
├── 02. Attention:注意力是个好东西
├── 03. GPT vs BERT:两条路的故事
├── 04. Tokenization:大模型的碎碎念
├── 05. 预训练:如何喂出一个大模型
├── 06. SFT:让大模型学会听话
├── 07. RLHF:人类反馈的艺术
├── 08. LoRA:穷人的微调指南
├── 09. 量化:大模型的瘦身之路
├── 10. vLLM:推理加速黑魔法
├── ...
└── 20. Agent:让大模型自己干活五、写在最后
致两年前的自己
嘿,2023 年的我,我知道你很忙,支付系统的 bug 永远修不完,支付的架构重构忙的焦头烂额。
但我想告诉你:抽出 20% 的时间学大模型,不是浪费,是投资。
那些你以为"以后有时间再学"的东西,等你回过头来,会发现已经是一座大山。
不过没关系,现在开始也不晚。种一棵树最好的时间是十年前,其次是现在。
致正在阅读的你
如果你也和我一样,在 AI 浪潮面前有过犹豫、观望、甚至逃避——
没关系,我们一起追。
DeepSeek 告诉我们:后来者也可以弯道超车,关键是 开始行动。
2025 年,全员 AI 时代已来。
我们不是在书本上读历史,我们就在历史之中。
这是一个最好的时代,也是一个最卷的时代。
但无论如何,这是属于我们的时代。