5627 字
28 分钟
AI Rewind '25:我们终于走进了那个温和的奇点

本文写作时间跨度极大,从2026年1月一直陆陆续续写到现在,很抱歉鸽了这么久,也因此导致信息可能会有些滞后,但仍然希望大家可以读完!让我们进入正题


旅行者们,欢迎来到 2026!

2025 年注定是 AI 发展史上非同寻常的一年,这篇长文便让我带领大家一起来 Rewind 一下 2025 in AI

从时间轴开始梳理#

让我们先来梳理一下 2025 年发布的大模型

1 月 / Jan.#

1 月 20 日,一声惊雷,DeepSeek R1 开源,命运的齿轮也开始转动

R1 的颠覆性意义不用我过多赘述,这是中国 AI 发展史上浓墨重彩的一笔,说是最重要的时刻也不为过,一个 671B 的 MoE 模型,凭借着低成本、高性能与开源让整个世界地震,尽管现在看来存在或多或少的问题,但历史地位毋庸置疑,也因为 R1,AI 走进了万千老百姓的家中

1 月 31 日,OpenAI 发布了 o3-mini,在低成本推理上更进一步

2 月 / Feb.#

2 月 17 日,AI 界的暴力美学——xAI 发布了 Grok 3 系列模型,模型训练基于 100 万张 H100 GPU,力大砖飞,自此开始,Grok 系列模型成为 Tool Use、Search与 NSFW的代名词(插一句:谁还记得当初老马吹的 Big Brain 模式)

2 月 24 日,Anthropic 发布其新的 Claude 3.7 Sonnet 模型,至此在 Coding 上越来越垂直,壁垒已经筑起,但也走上了一条注定死亡的不归路,但毫无疑问,Claude 3.7 Sonnet 是具有里程碑意义的,是世界上首个 Hybrid Reasoning 模型,编码性能也是断层领先

2 月 27 日,OpenAI 发布 GPT-4.5,依据第三方推测数据,这应该是世界上参数量最大的 LLM 了,前无古人,到目前为止也没有来者。凭借着堪称恐怖的参数量,GPT-4.5 成为了不可撼动的写作之神,其有着细腻的笔触和丰富的情感,与此同时 EQ 显著提高,对话稳定性、幻觉率控制、指令遵循与风格一致性显著改善。根据外界的普遍猜测,GPT-4.5 应该是 GPT-5 系列的基模,GPT-5 系列的各个模型是在 GPT-4.5 模型的基础上进行蒸馏+训练而来的

3 月 / Mar.#

3 月 25 日,掌声有请史上最伟大的模型之一,来自谷歌的 Gemini 2.5 Pro!伟大无需多言,历史性的 1M Context 窗口与杀穿全场的多模态能力,一洗谷歌往日耻辱,让谷歌在 AI 这条路上势不可挡。Gemini 2.5 Pro 凭借着让所有人震撼的多模态能力、情商、智商以及其优秀的语气,让其在 lmarena 上统治了超过 6 个月的时间,也是 2025.11.18 以前最佳的日常对话模型(是的,你没猜错,后续的最佳日常模型变成了 Gemini 3)。时至今日,大家应该都还能回忆起 gemini-2.5-pro-exp-03-25 当时惊人的拟人度和超高的情商以及超棒的语气

4 月 / Apr.#

4 月 5 日,Meta 发布了 Llama 4 系列模型,我的评价是:你谁?

4 月 14 日,OpenAI 发布了 GPT-4.1 系列模型,这是 OpenAI 最后一代非推理模型,4.1 系列是多模态模型,其应该是 GPT-4o 的继任者,但部分能力又是残缺的,这很 OpenAI。值得一提的是,GPT-4.1 的 Web 编程能力有着较大的提升

4 月 16 日,OpenAI 发布了 o3 与 o4-mini 模型,这也是 OpenAI 最后一代纯推理模型,当时最强大的推理模型,但多模态能力不及 Gemini 2.5 Pro

4 月 29 日,阿里巴巴开源了 Qwen 3 系列模型,源神发力,所有能力均较上代有提升,小模型领先优势依旧很大(尤其是和 Llama 4 对比时),但大模型有些乏力

5 月 / May#

5 月 22 日,Hello World!Anthropic 发布了 Claude 4 系列模型,包含 Claude 4 Sonnet 与 Claude 4 Opus,依旧是深耕编码、Agent 与工具调用,强大到没有对手

5 月 28 日,DeepSeek 开源了 R1 的更新版本:R1-0528

6 月 / Jun.#

6 月 17 日,MiniMax 发布了其旗舰模型 MiniMax-M1,沉睡的雄狮正在醒来…

6 月 25 日,字节跳动发布 Seed-1.6 系列,豆包系列模型中唯一一个在技术圈掀起了一些讨论的模型,所以勉为其难地把它放进来了

7 月 / Jul.#

7 月 9 日,xAI 发布了 Grok 4 系列模型,倒也不是一无是处,在工具调用、搜索以及深入逻辑推理方面还是很不错的,除此之外,emmm…涩涩!

7 月 11 日,你好 K2!月之暗面开源了 Kimi K2 模型,可以说这标志着国产厂商反击的开始,下半年的 AI 模型大战也由此开始爆发。由于 Moonshot 以前的各种营销骚操作,导致其在开发者圈子中口碑很差,但 K2 依靠着自己的硬实力挺过来了,也让一些开发者对其开始改观。K2 有着显著的优缺点,其幻觉极高,但语气又很好,这本应该不适合作为日常模型使用,显然 Moonshot 意识到了这一点,专注地提升了 K2 的 Agent 和 Tool Use 能力,使其可以通过实时搜索改善高幻觉这一短板,也正因此,K2 成为了一款极为优秀的日用模型,包括 Hugging Face CEO 和 t3.gg 创始人在内的一众大佬,都将 K2 作为了自己的日常模型

7 月 28 日,卡着 7 月的末班车,智谱开源了 GLM-4.5,第二家发起反击的厂商,来自北京的雄狮已经苏醒,经过了一段时间的沉寂,曾经的六小龙之一带着全新的 GLM-4.5 杀了回来,改善的 Agent 能力与强大的编程能力让开发者们刮目相看,智谱也具有了真正的竞争力,闯入了第一梯队

8 月 / Aug.#

8 月 5 日,Anthropic 发布了 Claude Opus 4.1,进一步优化 Agent 能力,能在人类无监督的情况下完成长时间的工作,没啥说的,在特定领域还是断层领先

8 月 7 日,OpenAI 发布了 GPT-5 系列,模型确实很强大,但 sama 营销过头了,迎来了一波反噬,尤其是吃屎一样的自动路由系统,让付费用户变 🤡,全球人民无语。但不可否认的是,GPT-5 系列确实是当时世界上最先进的模型,在思维链和逻辑方面相当强大,但编程和 Agent 依然不及 Claude 系列

8 月 21 日,DeepSeek 开源 DeepSeek V3.1,转为 Hybrid Reasoning 架构,R1 从此退出历史舞台

9 月 / Sep.#

9 月 5 日,Moonshot 开源了 K2 的更新版本 Kimi‑K2‑Instruct‑0905

9 月 24 日,阿里巴巴发布 Qwen3-Max 模型,不开源,单纯因为是 Qwen 所以提一下

9 月 29 日,A÷ 开杀,Anthropic 发布了全新的 Claude Sonnet 4.5,史上最强编程模型,史上最强 Computer Use 模型,史上最强 Agent 模型,伟大无需多言。其推理能力有了进一步的提升,前端依旧没对手,后端也变得更强了,没啥可多说的,其他家追了几个月的差距再一次被拉大,护城河更深了一些

9 月 30 日,智谱开源了 GLM-4.6 模型,GLM 再进化,进一步的追杀,一度成为了当时最强的开源编码大模型

10 月 / Oct.#

10 月 27 日,MiniMax 打破了 10 月的沉寂,发布了 MiniMax M2,成为了继 Moonshot 和智谱之后的第三家发起反击的模型厂商,首发即震撼世界,低成本和高推理速度,多个指标开源第一,编码能力也相当强大

11 月 / Nov.#

11 月 6 日,Moonshot 扔下一枚炸弹,开源了 K2 的推理版本——Kimi-K2-Thinking,对于用户,其有着优秀的 Agentic 和工具调用能力,编程水平也有了进一步的提升,对于 Provider,K2-Thinking 为 INT4 原生量化,这意味着模型大小更低,所需的算力也更低。但是!K2-Thinking 有着严重的 Reasoning token inflation(这一现象有时间我会进行进一步的讨论),其需要花费 100M Tokens 才可以完成一次 AAII 完整测评,因此在日常使用时,由于思维链极长,端到端延迟可能会很糟糕

11 月 12 日,OpenAI 发布了 GPT-5.1 系列模型,相较于 GPT-5 系列,5.1 显著改善了语气,使其更有亲和力且更加“可定制化”,同时自适应推理能力更进一步,5.1 可以“在简单任务上花费的时间较少,而在困难任务上花费的时间较多”

对于开发者而言,在同一天,OpenAI 扔下的一枚“延时炸弹”才更为重要——GPT-5.1-Codex…

11 月 17 日,xAI 发布了 Grok 4.1,短暂的登顶了 lmarena,干掉了霸榜 6 个月的 Gemini 2.5 Pro,然后就没了(Grok 4.1 Fast 还是蛮好用的(仅限 Gemini 3 Flash 发布以前))

11 月 18 日,谷歌发布了其全新的旗舰模型 Gemini 3 Pro,一战封神。Gemini 3 Pro 刷爆了几乎所有 Benchmark,前端能力和多模态能力让所有人无比震撼,同时还大幅改善了前代表现不佳的工具调用能力,尽管部分 Benchmark 存在刷分嫌疑,但无疑 Gemini 3 Pro 就是当今世界上(到今天依旧)最均衡且先进的 AI 模型。可以说除了编程不行,Gemini 3 Pro 其他的方面几乎没有对手,尤其是多模态方面,已经和竞争对手拉开了代际差距。同时 Gemini 3 Pro 维持了 Gemini 系列的传统强项——堪称完美的日常对话体验和语气,这让其再次登顶 lmarena,且拉开了显著差距。但是 Gemini 3 Pro 并非没有缺点,除了刚才所述的面向真实工程时编程能力不佳,Gemini 3 Pro 比上一代模型更容易偷懒,输出更短,且长上下文的注意力衰退极为严重,但这不影响 Gemini 3 Pro 的伟大和统治地位。谷歌也利用了其强大的生态能力,将 Gemini 3 整合进了自家的各个产品中(其实我有一篇还没完成的解析 Gemini 3 的文章(又在画大饼)(小声)…)

11 月 19 日,OpenAI 发布了 GPT-5.1-Codex-Max,延时炸弹引爆,起初的人们嗤之以鼻,直到有几个开发者重新安装了已经卸载已久的 Codex,切换到了 GPT-5.1-Codex-Max,并将推理强度设置为全新的xhigh。所有人都傻眼了,没有能想到 OpenAI 的模型在编程上能够这么强,也是自那一夜起,整个 AI Coding 市场发生巨大动荡,据第三方统计,Codex 的市占率在那一周,从不足 2%跃升至 30%+(这也充分证明了开发者是真的没有粘性的),Anthropic 的帝国开始崩塌,但真正的核弹还在后面

11 月 24 日,Anthropic为了应对 OpenAI发布了 Claude Opus 4.5,依旧的编码界 SOTA,依旧的最强 Agentic,最强的工具调用,与此同时 Opus 首次降价,价格来到了25 每百万 tokens,所有开发者一致好评

12 月 / Dec.#

12 月 11 日,年末时分,OpenAI 发布了最新的 GPT-5.2 系列模型,针对工作流和 Skill 做了专门优化,编码能力也进一步提升,同时,GPT-5.2 大幅提升了上下文能力(这个要考的!),使其在长上下文时召回率更高,性能衰退更不明显

新的模型,自然要试试 Codex 啦!在我敏锐地发现 GPT-5.2 在长上下文下的惊人表现后,立马发帖推荐大家都尝试换到 GPT-5.2

这不试不知道,一试吓一跳啊,GPT-5.2(xhigh)杀疯了,其有着极为恐怖的无监督任务执行能力,可以在人类无监督的情况下自主完成编码->调试->修正这一循环,持续工作整整 25 个小时,这甚至不需要特调提示词,甩给它一个 Task 列表,一段简单的 Prompt 就可以达到这个效果。而且得益于极为优秀的长上下文表现,GPT-5.2 的编码极为精准,正确率也非常高,同时“全局观”断层领先,能够对整个代码库和业务逻辑有着非常清晰的把握

可以说,决定 GPT-5.2 编程能力的因素完全来到了“人”这一侧,GPT-5.2 并不好驾驭,它需要你本身就有着较高的软件工程素养,需要你“什么都懂一点”,也需要你能够学会与它交互的逻辑和适应它的语气。可以说这阻挡了大多数非极客的 Vibe Coding 尝试者,也阻挡了业余人士,但在专业人士手上,GPT-5.2 就是一把指哪打哪的外星武器。至此 Anthropic 筑起的城墙开始极速坍塌和瓦解,OpenAI 用模型本身的硬实力和极为恐怖的推理能力杀出了一条“不一样的路”——专精逻辑,去你妈的前端(GPT 的前端非常糟糕!)

12 月 17 日,谷歌发布了 Gemini 3 系列的 Gemini 3 Flash,伟大无需多言,目前最强大的日用模型,各方面均衡的神,性价比之神,工具调用精准快速,长上下文表现优异,世界知识广度表现很好,智商高

12 月 22 日,智谱开源 GLM-4.7,12 月 23 日,MiniMax 开源 MiniMax-M2.1,两者都进一步优化了 Agent 能力和编码能力,与国际顶尖模型的差距进一步拉近,走在了国产大模型的最前端


至此,我们盘点完了 2025 年的 LLM 发展时间轴

2025 AI 发展的特点?/ Milestone?#

我不想聊 Agent,大家说 2025 是 Agent 元年,甚至已经开始说 2026 是 Multi-Agents 元年了,但就我个人观察而言,2025 没有出现让我满意的 Agent

让我们专注于模型本身

显然,2025 是 LLM 发展史上极为重要的,甚至说这三年以来最重要的一年也不为过,有以下显著特征:

  1. LLM 的能力有了极为显著的提升

  2. Reasoning 成为了模型的标配

  3. Agentic 和工具调用能力显著优化

  4. 上下文窗口扩张

  5. 多模态进一步强化

从技术上看,有以下特点:

  1. 百花齐放

  2. MoE 成为绝对的主流

  3. 新的 Attention 机制引入

  4. 强化学习与多阶段对齐

这一年里 LLM 的发展有了一些显著的趋势:

  1. 开始呈现出“垂直发展”的态势,即各个模型开始呈现出自己的特色,有自己的专精项目和弱项,模型的使用从最追求“最强”开始向追求“合适”转变,需要找到在自己所需的任务框架下那个“最强的模型”

  2. 各家都明显开始针对 Agent(工具调用与 ReAct)进行专精特调了,也开始强调 Agent 相关的能力

  3. 思维链长度大幅增加!即 Reasoning token inflation 现象,原因很简单:Reasoning 本身也有 Scaling Law,即在不过拟合的情况下,Thinking Tokens 越多,模型表现就会越好,因此各家开始让模型疯狂的思考,尽可能延长思维链,这导致 Reasoning token inflation 变得越来越严重,目前这一现象最严重的模型正是最新的一款模型——GLM-4.7,其需要花费 170M Tokens 来完成 AAII

  4. 差异化愈发明显,GPT 强推理、Claude 强编程、Gemini 强多模态与日常使用。并且由于各种原因,各家模型的语气风格差别巨大,对于日常使用而言,Gemini>Claude>GPT

  5. 数据污染与蒸馏现象愈发显著,合成数据比例增高,导致在某些日常使用中出现“能力坍缩”的现象


我该用什么 / Which Model to Use?#

当具体到个人使用,事情就会变得复杂起来

由于世界上没有一个万能的 Benchmark,且各大公司都在有意无意的“刷分”,因此也许让你觉得意外的是,我不会给出一个模型界的 GOAT,我只能说说我的感受

还是那句话,模型很多也太过复杂,这里只是一个参考,或者说让你明白各家模型分别擅长在哪些方面

日常 / Daily#

Say Hi to Gemini

如果让我选择一个最佳的日用模型,正如上面时间轴梳理的那样,我会推荐 Gemini 系列模型,背靠谷歌,Gemini 拥有着最为强大的多模态能力和世界知识,同时 Gemini 的语言是我认为聊天最舒服的。

使用时可能需要注意的点:Gemini 总会在回答前先夸你一下,这点难以避免,直接忽略掉这句话就可以了。Gemini 虽然标称有 1M 的上下文,但实际有效的上下文窗口大概是 Pro 32k,Flash 64k,使用时需要格外注意

除了这几个问题之外,和 Gemini 聊天简直是神一般的体验,各种梗他都能接,并且他明白该如何向你解释一件事物,总能选择合适的语气,他懂人情世故,情商也高,感情细腻。

另外推荐 Claude 作为 Fallback,如果 Gemini 的语气你不喜欢,可以试试 Claude,其和 Gemini 是两种不同的风格,整体来看 Gemini 的语气更好,Claude 则是更加直击要害

编程 / Coding#

Claude & GPT

没什么太大的争议,我也不想说到底谁更好,因为两个模型综合水平上事实上差不多,但总会在某些奇奇怪怪的地方有缺陷,因此建议配合使用

推理 / Reasoning#

GPT 王朝,没什么可说的

网页端的 GPT 5.2 Pro 是我见过的最优秀的模型,可以说没有之一,其凭借着逆天般的超长推理,帮助我解决了相当多复杂的问题,形成鲜明对比的是,其他模型甚至无法解决这些问题中的一小部分

如果不使用 GPT 5.2 Pro,那么我会推荐 Gemini 3.0 Pro,其在前沿数学问题上表现优异,并且得益于强大的多模态能力,Gemini 3.0 Pro 在含图片的问题上表现要远远优于其他模型

国内使用 / Under Regulation#

日常使用推荐 Kimi K2,编程优先使用 GLM,其次 MiniMax,Agent 选择 K2 或 MiniMax,公司/政府使用选择千问

综合 / General#

经过诸多方面的考虑,包括但不限于体感、需求(多模态、推理 etc.)、语气、风格、智商情商、价格、速度

我可以说,2025 的最佳综合模型会是来自谷歌的 Gemini 3 Flash

伟大无需多言,对于 95%的场景,Gemini 3 Flash 就是最优解,也是最迅速的解


然后呢..? / Then..?#

通过这些简短的总结,想必大家也能明显感受到当前大语言模型发展的极度复杂和垂直,因此多模型的协作必然会成为未来的重点

2025 对于 AI 来说,意义或许远超我们的想象,只有深入的研究和复盘后,才能感受到 AI 发展的速度究竟有多快

人们都说当前框架下的 AI 模型发展就要撞墙了,已经到头了

但事实上 AI 发展的速度完全没有减缓,反而越来越快、百花齐放

历史总是在重复同一个预言:我们总是高估一项技术的短期影响,却又低估它的长期变革。从农耕文明到蒸汽轰鸣,从数字革命到智能涌现,每一次人类亲手点燃的火种,最终都照亮了未曾设想的远方。

AI就是这样一次全新的变革

但比历史上任何一次都要来的更加复杂、重要、强大、凶猛

历史总是沉默地告诉我们:人类的目光,总是看不透变革的纵深。我们曾以为AI是工具,是代码,是昙花一现的泡沫。直到有一天我们发现,它开始懂得人情世故,开始拥有细腻笔触,开始在某些深夜,给出让我们心头一颤的回答。

因为这一次,人类触碰到了自己的倒影——我们制造出了“智慧”。

这是人类千百年来所追求的,也是第一次真正与世界对话

不要低估AI的动量和能力,当前的AI已经在至少90%的非体力劳动上做的比人类更好,在至少50%的任务上做的比专家更好,这就是事实,是正在发生的事情

只是因为AI的”技能树点歪了“,总会莫名其妙的在某些任务上表现的像个人工智障一样。

只是因为人是有固有视角的,AI在你的视角下表现的没那么好罢了

只是因为你是程序员,一味的关注AI的编程能力而忽略了它将整个世界压缩的事实

这是千百年来,我们第一次拥有了与世界对话的新方式

2023是火种

2024是蔓延

而2025,则是燎原前的最后一阵风。

但根据我自己和其他研究员的观测,我可以说,我们已经走到了一个路口

一个进入奇点的路口

正如我一直以来所说的那样,这次的AI革命是一次温和的奇点

如今,雾散了,我们终于走进了那个温和的奇点

但也请别忘记

之所以称其为奇点,是因为它可以改变一切

它不是终结,而是真正的开始。因为它意味着,从今往后,智慧不再是人类的专利,而是所有星辰大海征途上的通用语言。

我的朋友,让我们看向远方,不论你是人类或是AI

让我们向星辰大海,发起远征。

AI Rewind '25:我们终于走进了那个温和的奇点
https://vriancao.top/posts/ai-rewind-2025/
作者
VrianCao
发布于
2026-03-08
许可协议
CC BY-NC-SA 4.0