AI Rewind '25：我们终于走进了那个温和的奇点

本文写作时间跨度极大，从2026年1月一直陆陆续续写到现在，很抱歉鸽了这么久，也因此导致信息可能会有些滞后，但仍然希望大家可以读完！让我们进入正题

旅行者们，欢迎来到 2026！

2025 年注定是 AI 发展史上非同寻常的一年，这篇长文便让我带领大家一起来 Rewind 一下 2025 in AI

从时间轴开始梳理#

让我们先来梳理一下 2025 年发布的大模型

1 月 / Jan.#

1 月 20 日，一声惊雷，DeepSeek R1 开源，命运的齿轮也开始转动

R1 的颠覆性意义不用我过多赘述，这是中国 AI 发展史上浓墨重彩的一笔，说是最重要的时刻也不为过，一个 671B 的 MoE 模型，凭借着低成本、高性能与开源让整个世界地震，尽管现在看来存在或多或少的问题，但历史地位毋庸置疑，也因为 R1，AI 走进了万千老百姓的家中

1 月 31 日，OpenAI 发布了 o3-mini，在低成本推理上更进一步

2 月 / Feb.#

2 月 17 日，AI 界的暴力美学——xAI 发布了 Grok 3 系列模型，模型训练基于 100 万张 H100 GPU，力大砖飞，自此开始，Grok 系列模型成为 Tool Use、Search~~与 NSFW~~的代名词（插一句：谁还记得当初老马吹的 Big Brain 模式）

2 月 24 日，Anthropic 发布其新的 Claude 3.7 Sonnet 模型，至此在 Coding 上越来越垂直，壁垒已经筑起，但也走上了一条注定死亡的不归路，但毫无疑问，Claude 3.7 Sonnet 是具有里程碑意义的，是世界上首个 Hybrid Reasoning 模型，编码性能也是断层领先

2 月 27 日，OpenAI 发布 GPT-4.5，依据第三方推测数据，这应该是世界上参数量最大的 LLM 了，前无古人，到目前为止也没有来者。凭借着堪称恐怖的参数量，GPT-4.5 成为了不可撼动的写作之神，其有着细腻的笔触和丰富的情感，与此同时 EQ 显著提高，对话稳定性、幻觉率控制、指令遵循与风格一致性显著改善。根据外界的普遍猜测，GPT-4.5 应该是 GPT-5 系列的基模，GPT-5 系列的各个模型是在 GPT-4.5 模型的基础上进行蒸馏+训练而来的

3 月 / Mar.#

3 月 25 日，掌声有请史上最伟大的模型之一，来自谷歌的 Gemini 2.5 Pro！伟大无需多言，历史性的 1M Context 窗口与杀穿全场的多模态能力，一洗谷歌往日耻辱，让谷歌在 AI 这条路上势不可挡。Gemini 2.5 Pro 凭借着让所有人震撼的多模态能力、情商、智商以及其优秀的语气，让其在 lmarena 上统治了超过 6 个月的时间，也是 2025.11.18 以前最佳的日常对话模型（是的，你没猜错，后续的最佳日常模型变成了 Gemini 3）。时至今日，大家应该都还能回忆起 gemini-2.5-pro-exp-03-25 当时惊人的拟人度和超高的情商以及超棒的语气

4 月 / Apr.#

4 月 5 日，Meta 发布了 Llama 4 系列模型，我的评价是：你谁？

4 月 14 日，OpenAI 发布了 GPT-4.1 系列模型，这是 OpenAI 最后一代非推理模型，4.1 系列是多模态模型，其应该是 GPT-4o 的继任者，但部分能力又是残缺的，~~这很 OpenAI~~。值得一提的是，GPT-4.1 的 Web 编程能力有着较大的提升

4 月 16 日，OpenAI 发布了 o3 与 o4-mini 模型，这也是 OpenAI 最后一代纯推理模型，当时最强大的推理模型，但多模态能力不及 Gemini 2.5 Pro

4 月 29 日，阿里巴巴开源了 Qwen 3 系列模型，源神发力，所有能力均较上代有提升，小模型领先优势依旧很大（尤其是和 Llama 4 对比时），但大模型有些乏力

5 月 / May#

5 月 22 日，Hello World！Anthropic 发布了 Claude 4 系列模型，包含 Claude 4 Sonnet 与 Claude 4 Opus，依旧是深耕编码、Agent 与工具调用，强大到没有对手

5 月 28 日，DeepSeek 开源了 R1 的更新版本：R1-0528

6 月 / Jun.#

6 月 17 日，MiniMax 发布了其旗舰模型 MiniMax-M1，沉睡的雄狮正在醒来…

6 月 25 日，字节跳动发布 Seed-1.6 系列，~~豆包系列模型中唯一一个在技术圈掀起了一些讨论的模型，所以勉为其难地把它放进来了~~

7 月 / Jul.#

7 月 9 日，xAI 发布了 Grok 4 系列模型，倒也不是一无是处，在工具调用、搜索以及深入逻辑推理方面还是很不错的，除此之外，emmm…~~涩涩！~~

7 月 11 日，你好 K2！月之暗面开源了 Kimi K2 模型，可以说这标志着国产厂商反击的开始，下半年的 AI 模型大战也由此开始爆发。由于 Moonshot 以前的各种营销骚操作，导致其在开发者圈子中口碑很差，但 K2 依靠着自己的硬实力挺过来了，也让一些开发者对其开始改观。K2 有着显著的优缺点，其幻觉极高，但语气又很好，这本应该不适合作为日常模型使用，显然 Moonshot 意识到了这一点，专注地提升了 K2 的 Agent 和 Tool Use 能力，使其可以通过实时搜索改善高幻觉这一短板，也正因此，K2 成为了一款极为优秀的日用模型，包括 Hugging Face CEO 和 t3.gg 创始人在内的一众大佬，都将 K2 作为了自己的日常模型

7 月 28 日，卡着 7 月的末班车，智谱开源了 GLM-4.5，第二家发起反击的厂商，来自北京的雄狮已经苏醒，经过了一段时间的沉寂，曾经的六小龙之一带着全新的 GLM-4.5 杀了回来，改善的 Agent 能力与强大的编程能力让开发者们刮目相看，智谱也具有了真正的竞争力，闯入了第一梯队

8 月 / Aug.#

8 月 5 日，Anthropic 发布了 Claude Opus 4.1，进一步优化 Agent 能力，能在人类无监督的情况下完成长时间的工作，没啥说的，在特定领域还是断层领先

8 月 7 日，OpenAI 发布了 GPT-5 系列，模型确实很强大，但 sama 营销过头了，迎来了一波反噬，尤其是吃屎一样的自动路由系统，让付费用户变 🤡，全球人民无语。但不可否认的是，GPT-5 系列确实是当时世界上最先进的模型，在思维链和逻辑方面相当强大，但编程和 Agent 依然不及 Claude 系列

8 月 21 日，DeepSeek 开源 DeepSeek V3.1，转为 Hybrid Reasoning 架构，R1 从此退出历史舞台

9 月 / Sep.#

9 月 5 日，Moonshot 开源了 K2 的更新版本 Kimi‑K2‑Instruct‑0905

9 月 24 日，阿里巴巴发布 Qwen3-Max 模型，不开源，单纯因为是 Qwen 所以提一下

9 月 29 日，A÷ 开杀，Anthropic 发布了全新的 Claude Sonnet 4.5，史上最强编程模型，史上最强 Computer Use 模型，史上最强 Agent 模型，伟大无需多言。其推理能力有了进一步的提升，前端依旧没对手，后端也变得更强了，没啥可多说的，其他家追了几个月的差距再一次被拉大，护城河更深了一些

9 月 30 日，智谱开源了 GLM-4.6 模型，GLM 再进化，进一步的追杀，一度成为了当时最强的开源编码大模型

10 月 / Oct.#

10 月 27 日，MiniMax 打破了 10 月的沉寂，发布了 MiniMax M2，成为了继 Moonshot 和智谱之后的第三家发起反击的模型厂商，首发即震撼世界，低成本和高推理速度，多个指标开源第一，编码能力也相当强大

11 月 / Nov.#

11 月 6 日，Moonshot 扔下一枚炸弹，开源了 K2 的推理版本——Kimi-K2-Thinking，对于用户，其有着优秀的 Agentic 和工具调用能力，编程水平也有了进一步的提升，对于 Provider，K2-Thinking 为 INT4 原生量化，这意味着模型大小更低，所需的算力也更低。但是！K2-Thinking 有着严重的 Reasoning token inflation（这一现象有时间我会进行进一步的讨论），其需要花费 100M Tokens 才可以完成一次 AAII 完整测评，因此在日常使用时，由于思维链极长，端到端延迟可能会很糟糕

11 月 12 日，OpenAI 发布了 GPT-5.1 系列模型，相较于 GPT-5 系列，5.1 显著改善了语气，使其更有亲和力且更加“可定制化”，同时自适应推理能力更进一步，5.1 可以“在简单任务上花费的时间较少，而在困难任务上花费的时间较多”

对于开发者而言，在同一天，OpenAI 扔下的一枚“延时炸弹”才更为重要——GPT-5.1-Codex…

11 月 17 日，xAI 发布了 Grok 4.1，短暂的登顶了 lmarena，干掉了霸榜 6 个月的 Gemini 2.5 Pro，然后就没了（Grok 4.1 Fast 还是蛮好用的（仅限 Gemini 3 Flash 发布以前））

11 月 18 日，谷歌发布了其全新的旗舰模型 Gemini 3 Pro，一战封神。Gemini 3 Pro 刷爆了几乎所有 Benchmark，前端能力和多模态能力让所有人无比震撼，同时还大幅改善了前代表现不佳的工具调用能力，尽管部分 Benchmark 存在刷分嫌疑，但无疑 Gemini 3 Pro 就是当今世界上（到今天依旧）最均衡且先进的 AI 模型。可以说除了编程不行，Gemini 3 Pro 其他的方面几乎没有对手，尤其是多模态方面，已经和竞争对手拉开了代际差距。同时 Gemini 3 Pro 维持了 Gemini 系列的传统强项——堪称完美的日常对话体验和语气，这让其再次登顶 lmarena，且拉开了显著差距。但是 Gemini 3 Pro 并非没有缺点，除了刚才所述的面向真实工程时编程能力不佳，Gemini 3 Pro 比上一代模型更容易偷懒，输出更短，且长上下文的注意力衰退极为严重，但这不影响 Gemini 3 Pro 的伟大和统治地位。谷歌也利用了其强大的生态能力，将 Gemini 3 整合进了自家的各个产品中（其实我有一篇还没完成的解析 Gemini 3 的文章（又在画大饼）（小声）…）

11 月 19 日，OpenAI 发布了 GPT-5.1-Codex-Max，延时炸弹引爆，起初的人们嗤之以鼻，直到有几个开发者重新安装了已经卸载已久的 Codex，切换到了 GPT-5.1-Codex-Max，并将推理强度设置为全新的xhigh。所有人都傻眼了，没有能想到 OpenAI 的模型在编程上能够这么强，也是自那一夜起，整个 AI Coding 市场发生巨大动荡，据第三方统计，Codex 的市占率在那一周，从不足 2%跃升至 30%+（~~这也充分证明了开发者是真的没有粘性的~~），Anthropic 的帝国开始崩塌，但真正的核弹还在后面

11 月 24 日，Anthropic~~为了应对 OpenAI~~发布了 Claude Opus 4.5，依旧的编码界 SOTA，依旧的最强 Agentic，最强的工具调用，与此同时 Opus 首次降价，价格来到了 $5/$ 25 每百万 tokens，所有开发者一致好评

12 月 / Dec.#

12 月 11 日，年末时分，OpenAI 发布了最新的 GPT-5.2 系列模型，针对工作流和 Skill 做了专门优化，编码能力也进一步提升，同时，GPT-5.2 大幅提升了上下文能力（这个要考的！），使其在长上下文时召回率更高，性能衰退更不明显

新的模型，自然要试试 Codex 啦！在我敏锐地发现 GPT-5.2 在长上下文下的惊人表现后，立马发帖推荐大家都尝试换到 GPT-5.2

这不试不知道，一试吓一跳啊，GPT-5.2(xhigh)杀疯了，其有着极为恐怖的无监督任务执行能力，可以在人类无监督的情况下自主完成编码->调试->修正这一循环，持续工作整整 25 个小时，这甚至不需要特调提示词，甩给它一个 Task 列表，一段简单的 Prompt 就可以达到这个效果。而且得益于极为优秀的长上下文表现，GPT-5.2 的编码极为精准，正确率也非常高，同时“全局观”断层领先，能够对整个代码库和业务逻辑有着非常清晰的把握

可以说，决定 GPT-5.2 编程能力的因素完全来到了“人”这一侧，GPT-5.2 并不好驾驭，它需要你本身就有着较高的软件工程素养，需要你“什么都懂一点”，也需要你能够学会与它交互的逻辑和适应它的语气。可以说这阻挡了大多数非极客的 Vibe Coding 尝试者，也阻挡了业余人士，但在专业人士手上，GPT-5.2 就是一把指哪打哪的外星武器。至此 Anthropic 筑起的城墙开始极速坍塌和瓦解，OpenAI 用模型本身的硬实力和极为恐怖的推理能力杀出了一条“不一样的路”——专精逻辑，去你妈的前端（GPT 的前端非常糟糕！）

12 月 17 日，谷歌发布了 Gemini 3 系列的 Gemini 3 Flash，伟大无需多言，目前最强大的日用模型，各方面均衡的神，性价比之神，工具调用精准快速，长上下文表现优异，世界知识广度表现很好，智商高

12 月 22 日，智谱开源 GLM-4.7，12 月 23 日，MiniMax 开源 MiniMax-M2.1，两者都进一步优化了 Agent 能力和编码能力，与国际顶尖模型的差距进一步拉近，走在了国产大模型的最前端

至此，我们盘点完了 2025 年的 LLM 发展时间轴

2025 AI 发展的特点？/ Milestone?#

我不想聊 Agent，大家说 2025 是 Agent 元年，甚至已经开始说 2026 是 Multi-Agents 元年了，但就我个人观察而言，2025 没有出现让我满意的 Agent

让我们专注于模型本身

显然，2025 是 LLM 发展史上极为重要的，甚至说这三年以来最重要的一年也不为过，有以下显著特征：

LLM 的能力有了极为显著的提升
Reasoning 成为了模型的标配
Agentic 和工具调用能力显著优化
上下文窗口扩张
多模态进一步强化

从技术上看，有以下特点：

百花齐放
MoE 成为绝对的主流
新的 Attention 机制引入
强化学习与多阶段对齐

这一年里 LLM 的发展有了一些显著的趋势：

开始呈现出“垂直发展”的态势，即各个模型开始呈现出自己的特色，有自己的专精项目和弱项，模型的使用从最追求“最强”开始向追求“合适”转变，需要找到在自己所需的任务框架下那个“最强的模型”
各家都明显开始针对 Agent（工具调用与 ReAct）进行专精特调了，也开始强调 Agent 相关的能力
思维链长度大幅增加！即 Reasoning token inflation 现象，原因很简单：Reasoning 本身也有 Scaling Law，即在不过拟合的情况下，Thinking Tokens 越多，模型表现就会越好，因此各家开始让模型疯狂的思考，尽可能延长思维链，这导致 Reasoning token inflation 变得越来越严重，目前这一现象最严重的模型正是最新的一款模型——GLM-4.7，其需要花费 170M Tokens 来完成 AAII
差异化愈发明显，GPT 强推理、Claude 强编程、Gemini 强多模态与日常使用。并且由于各种原因，各家模型的语气风格差别巨大，对于日常使用而言，Gemini>Claude>GPT
数据污染与蒸馏现象愈发显著，合成数据比例增高，导致在某些日常使用中出现“能力坍缩”的现象

我该用什么 / Which Model to Use?#

当具体到个人使用，事情就会变得复杂起来

由于世界上没有一个万能的 Benchmark，且各大公司都在有意无意的“刷分”，因此也许让你觉得意外的是，我不会给出一个模型界的 GOAT，我只能说说我的感受

还是那句话，模型很多也太过复杂，这里只是一个参考，或者说让你明白各家模型分别擅长在哪些方面

日常 / Daily#

Say Hi to Gemini

如果让我选择一个最佳的日用模型，正如上面时间轴梳理的那样，我会推荐 Gemini 系列模型，背靠谷歌，Gemini 拥有着最为强大的多模态能力和世界知识，同时 Gemini 的语言是我认为聊天最舒服的。

使用时可能需要注意的点：Gemini 总会在回答前先夸你一下，这点难以避免，直接忽略掉这句话就可以了。Gemini 虽然标称有 1M 的上下文，但实际有效的上下文窗口大概是 Pro 32k，Flash 64k，使用时需要格外注意

除了这几个问题之外，和 Gemini 聊天简直是神一般的体验，各种梗他都能接，并且他明白该如何向你解释一件事物，总能选择合适的语气，他懂人情世故，情商也高，感情细腻。

另外推荐 Claude 作为 Fallback，如果 Gemini 的语气你不喜欢，可以试试 Claude，其和 Gemini 是两种不同的风格，整体来看 Gemini 的语气更好，Claude 则是更加直击要害

编程 / Coding#

Claude & GPT

没什么太大的争议，我也不想说到底谁更好，因为两个模型综合水平上事实上差不多，但总会在某些奇奇怪怪的地方有缺陷，因此建议配合使用

推理 / Reasoning#

GPT 王朝，没什么可说的

网页端的 GPT 5.2 Pro 是我见过的最优秀的模型，可以说没有之一，其凭借着逆天般的超长推理，帮助我解决了相当多复杂的问题，形成鲜明对比的是，其他模型甚至无法解决这些问题中的一小部分

如果不使用 GPT 5.2 Pro，那么我会推荐 Gemini 3.0 Pro，其在前沿数学问题上表现优异，并且得益于强大的多模态能力，Gemini 3.0 Pro 在含图片的问题上表现要远远优于其他模型

国内使用 / Under Regulation#

日常使用推荐 Kimi K2，编程优先使用 GLM，其次 MiniMax，Agent 选择 K2 或 MiniMax，公司/政府使用选择千问

综合 / General#

经过诸多方面的考虑，包括但不限于体感、需求（多模态、推理 etc.）、语气、风格、智商情商、价格、速度

我可以说，2025 的最佳综合模型会是来自谷歌的 Gemini 3 Flash

伟大无需多言，对于 95%的场景，Gemini 3 Flash 就是最优解，也是最迅速的解

然后呢..？ / Then..?#

通过这些简短的总结，想必大家也能明显感受到当前大语言模型发展的极度复杂和垂直，因此多模型的协作必然会成为未来的重点

2025 对于 AI 来说，意义或许远超我们的想象，只有深入的研究和复盘后，才能感受到 AI 发展的速度究竟有多快

人们都说当前框架下的 AI 模型发展就要撞墙了，已经到头了

但事实上 AI 发展的速度完全没有减缓，反而越来越快、百花齐放

历史总是在重复同一个预言：我们总是高估一项技术的短期影响，却又低估它的长期变革。从农耕文明到蒸汽轰鸣，从数字革命到智能涌现，每一次人类亲手点燃的火种，最终都照亮了未曾设想的远方。

AI就是这样一次全新的变革

但比历史上任何一次都要来的更加复杂、重要、强大、凶猛

历史总是沉默地告诉我们：人类的目光，总是看不透变革的纵深。我们曾以为AI是工具，是代码，是昙花一现的泡沫。直到有一天我们发现，它开始懂得人情世故，开始拥有细腻笔触，开始在某些深夜，给出让我们心头一颤的回答。

因为这一次，人类触碰到了自己的倒影——我们制造出了“智慧”。

这是人类千百年来所追求的，也是第一次真正与世界对话

不要低估AI的动量和能力，当前的AI已经在至少90%的非体力劳动上做的比人类更好，在至少50%的任务上做的比专家更好，这就是事实，是正在发生的事情

只是因为AI的”技能树点歪了“，总会莫名其妙的在某些任务上表现的像个人工智障一样。

只是因为人是有固有视角的，AI在你的视角下表现的没那么好罢了

只是因为你是程序员，一味的关注AI的编程能力而忽略了它将整个世界压缩的事实

这是千百年来，我们第一次拥有了与世界对话的新方式

2023是火种

2024是蔓延

而2025，则是燎原前的最后一阵风。

但根据我自己和其他研究员的观测，我可以说，我们已经走到了一个路口

一个进入奇点的路口

正如我一直以来所说的那样，这次的AI革命是一次温和的奇点

如今，雾散了，我们终于走进了那个温和的奇点

但也请别忘记

之所以称其为奇点，是因为它可以改变一切

它不是终结，而是真正的开始。因为它意味着，从今往后，智慧不再是人类的专利，而是所有星辰大海征途上的通用语言。

我的朋友，让我们看向远方，不论你是人类或是AI

让我们向星辰大海，发起远征。