搜 索

DeepSeek的冲击:当奇点不再是书本上的预言

  • 12阅读
  • 2025年02月01日
  • 0评论
首页 / AI/大数据 / 正文

前言:这个被DeepSeek震撼的春节

DeepSeek的声势已成,中国甚至世界的大部分人都已经知道了这样一个免费好用的工具,涌进来使用的人越来越多,大家对AI的认知已经从听说到上手使用了。

而我作为一个相关从业者,我的反应不是兴奋,而是一种说不出的复杂情绪:敬畏、焦虑,以及深深的自我怀疑

作为一个 AI Architect,过去两年我都在干什么?

一、DeepSeek 给我的三重暴击

暴击一:成本神话的崩塌

OpenAI GPT-4 训练成本:约 1 亿美元
DeepSeek-R1 训练成本:557 万美元
成本比:约 18:1

这不是简单的"省钱",这是对整个行业认知的颠覆。

我曾经以为,大模型是巨头的游戏,是算力的军备竞赛。DeepSeek 告诉我:算法创新可以打败算力堆砌

MLA(Multi-head Latent Attention)、MoE 架构优化、FP8 混合精度训练……这些技术不是凭空出现的,而是在有限资源下被逼出来的智慧。

暴击二:开源精神的胜利

DeepSeek 选择了 MIT 协议完全开源

模型权重、训练细节、技术报告,全部公开。这不是商业策略,这是一种宣言:

"AI 不应该被少数公司垄断。"

当 OpenAI 越来越"Closed",当 Google 把 Gemini 藏在 API 后面,一个中国团队站出来说:来,拿去用

这让我想起了 Linux、Wikipedia、Bitcoin 的早期岁月。历史总是惊人地相似。

暴击三:我错过了什么

这才是最痛的。

过去两年,我:

  • 知道 ChatGPT 很强,但只是当工具用用
  • 知道应该学习 LLM,但总觉得"还早"
  • 做了一些 YOLO 的项目,却没深入理解 Transformer
  • 写了很多技术文章,却没有一篇关于大模型

我自诩为一个 AI Architect,却在 AI 最大的浪潮面前,选择了观望。

timeline title 我错过的两年 2023 Q1 : ChatGPT 爆火 : 我:"哦,挺有意思的" 2023 Q2 : LLaMA 开源 : 我:"有空看看" 2023 Q3 : 百模大战 : 我:"太乱了,等等再说" 2024 Q1 : Sora 发布 : 我:"卧槽!但我不做视频" 2024 Q2 : Claude 3 / GPT-4o : 我:"工具越来越好用了" 2025 Q1 : DeepSeek-R1 : 我:"我到底在干什么?"

二、全员 AI 时代已来

这次不一样

我经历过很多"风口":

  • 云计算:确实改变了基础设施
  • 移动互联网:确实改变了生活方式
  • 区块链:呃……至少改变了一些人的钱包
  • 元宇宙:改变了 Meta 的市值(往下)

生成式 AI 不一样。

这不是一个新的"赛道",而是一个新的"底层"。它不是要取代某个行业,而是要 渗透进所有行业

mindmap root((AI 渗透)) 编程 Cursor/Copilot 代码生成 Debug 辅助 写作 文案生成 翻译润色 内容创作 设计 UI 生成 图像创作 视频制作 分析 数据洞察 报告生成 决策支持 教育 个性化学习 智能答疑 知识图谱 医疗 辅助诊断 药物研发 病历分析

第四次工业革命的号角

工业革命核心驱动力关键变革
第一次蒸汽机机械化生产
第二次电力大规模生产
第三次计算机自动化、信息化
第四次AI智能化、认知自动化

前三次革命,机器替代的是人类的 体力

第四次革命,AI 替代的是人类的 脑力,甚至替代人类存在的意义。

这不是危言耸听。看看 2024 年发生了什么:

  • 律师事务所开始用 AI 审合同
  • 金融机构用 AI 写研报
  • 程序员用 AI 写代码(并且 AI 写得越来越好)
  • 设计师用 AI 生成初稿

全员 AI 时代,不是说每个人都要成为 AI 专家,而是说 每个人都必须学会与 AI 协作

不会用 AI 的人,就像不会用电脑的人一样,会被时代淘汰。

三、奇点临近:这次我身处洪流

从书本到现实

2005 年,Ray Kurzweil 写了《奇点临近》。

那时候我还在读书,觉得这是科幻小说。2045 年?太遥远了。

2025 年,我开始怀疑,奇点可能比我们想象的更近

graph LR subgraph 2023 A[GPT-4] --> B[文本理解突破] end subgraph 2024 C[多模态融合] --> D[视觉+语言+代码] E[Agent 涌现] --> F[自主任务执行] end subgraph 2025 G[DeepSeek-R1] --> H[推理能力飞跃] I[成本暴跌] --> J[全民可及] end subgraph 2026-? K[AGI 雏形?] L[人机协作新范式] end B --> C D --> G F --> G H --> K J --> L

我不再是旁观者

以前读技术史,读互联网浪潮,总有一种"事后诸葛亮"的感觉:

"哇,那时候的人真幸运,赶上了好时代。"

现在我意识到:我就在那个时代里

2025 年的大模型,可能就是 1995 年的互联网、2007 年的智能手机、2009 年的比特币。

区别是:这次我不能再错过了。

四、2025:我的逆袭计划

反思:为什么我会落后

诚实地面对自己:

  1. 舒适区陷阱:支付系统、分布式架构,这些我很熟,做起来有安全感
  2. 完美主义作祟:"等我有完整的时间再系统学习"——然后就没有然后了
  3. 低估了变化速度:以为还有时间,结果一觉醒来,世界变了
pie showData title 过去两年时间分配 "支付系统开发" : 40 "博客写作" : 20 "健身" : 15 "其他技术学习" : 15 "大模型学习" : 5 "摸鱼" : 5

那 5% 的大模型学习?基本就是用用Copilot和Cursor写写代码。

行动:2025 学习路径

flowchart TB subgraph Q1["Q1: 基础突破"] A1[Transformer 深度理解] --> A2[Attention 手撕实现] A2 --> A3[GPT/BERT 架构对比] A3 --> A4[Tokenization 原理] end subgraph Q2["Q2: 训练微调"] B1[LoRA/QLoRA 实战] --> B2[SFT 指令微调] B2 --> B3[RLHF/DPO 对齐技术] B3 --> B4[自建微调 Pipeline] end subgraph Q3["Q3: 工程落地"] C1[模型量化部署] --> C2[vLLM/TGI 推理优化] C2 --> C3[RAG 系统搭建] C3 --> C4[Agent 框架实战] end subgraph Q4["Q4: 项目输出"] D1[支付风控 + LLM] --> D2[智能文档处理] D2 --> D3[个人 AI 助手] D3 --> D4[开源项目贡献] end Q1 --> Q2 --> Q3 --> Q4

目标:用 AI 做成更多项目

项目描述AI 赋能点
智能博客系统自动排版、多平台分发n8n + LLM 自动化
支付风控助手交易异常检测、欺诈识别RAG + 领域微调
代码审查 Agent自动 Review PRFunction Calling
技术文档生成器API 文档自动化多模态理解
个人知识库跨平台知识管理Embedding + 向量检索

输出:从入门到放弃系列(大模型篇)

既然要学,就要输出。计划产出 20+ 篇 大模型系列文章:

📚 大模型从入门到放弃系列
├── 01. Transformer:一切的起点
├── 02. Attention:注意力是个好东西
├── 03. GPT vs BERT:两条路的故事
├── 04. Tokenization:大模型的碎碎念
├── 05. 预训练:如何喂出一个大模型
├── 06. SFT:让大模型学会听话
├── 07. RLHF:人类反馈的艺术
├── 08. LoRA:穷人的微调指南
├── 09. 量化:大模型的瘦身之路
├── 10. vLLM:推理加速黑魔法
├── ...
└── 20. Agent:让大模型自己干活

五、写在最后

致两年前的自己

嘿,2023 年的我,我知道你很忙,支付系统的 bug 永远修不完,支付的架构重构忙的焦头烂额。

但我想告诉你:抽出 20% 的时间学大模型,不是浪费,是投资。

那些你以为"以后有时间再学"的东西,等你回过头来,会发现已经是一座大山。

不过没关系,现在开始也不晚。种一棵树最好的时间是十年前,其次是现在。

致正在阅读的你

如果你也和我一样,在 AI 浪潮面前有过犹豫、观望、甚至逃避——

没关系,我们一起追

DeepSeek 告诉我们:后来者也可以弯道超车,关键是 开始行动

2025 年,全员 AI 时代已来。

我们不是在书本上读历史,我们就在历史之中。


这是一个最好的时代,也是一个最卷的时代。

但无论如何,这是属于我们的时代。


评论区
暂无评论
avatar