苏江：GPT-5.2深度解析，390倍效率提升背后的真相

GPT-5.2来了。ARC Prize官方测试结果显示，GPT-5.2 Pro在ARC-AGI-1测试中拿到了90.5%的准确率，每个任务的成本只要$11.64。

去年o3 High在同一个测试上是88%，但成本高达$4500一个任务。

这意味着什么？准确率提升了2.5个百分点，成本降低了99.7%，效率提升了大约390倍。

有人说这已经是AGI了。也有人觉得OpenAI只是针对基准测试做了优化。还有人发现在某些特定任务上，Gemini反而表现更好。

我花了一些时间研究这次发布的细节，把我的发现分享给大家。

GPT-5.2的架构设计

GPT-5.2不是一个单一模型，而是一个系统。它包含三个版本，分别叫Instant、Thinking和Pro。

Instant版本专门针对快速响应做了优化。你问一个简单问题，它几乎是秒回。日常聊天、写邮件、简单翻译，用这个版本就够了，成本也最低。

Thinking版本会在回答之前"想"一会儿。遇到数学题、编程问题、逻辑推理这类需要深度思考的任务，它会花更多时间，但给出的答案质量明显更高。

Pro版本是面向专业用户的。它在最难的任务上表现最好，比如复杂的科学研究、高级编程、专家级别的数据分析。当然，价格也最贵。

这三个版本之间有一个智能路由器在做调度。你发消息的时候，路由器会自动判断这个问题应该交给哪个版本处理。它会看对话的类型、问题的复杂程度、是否需要调用工具，甚至会看你有没有在提示里写"认真思考"这样的字眼。

这套设计的好处是你不用自己选模型。系统会根据任务自动分配资源，既保证了效果，也控制了成本。

OpenAI还提到了几个技术改进。幻觉问题有明显改善，模型编造信息的情况减少了。指令遵循更准确，你让它做什么它就做什么，不会自作主张。还有一个有意思的改进是"减少阿谀奉承"，模型不会再无脑同意你说的每句话了。

基准测试的成绩

先说说ARC-AGI测试。ARC Prize是专门评估AI推理能力的机构，他们的测试重点考察抽象推理和泛化能力，不是那种靠背答案就能刷高分的测试。

GPT-5.2 Pro在X-High配置下跑出了90.5%的成绩，成本是$11.64每任务。去年o3 High是88%，但要花$4500。一年时间，准确率提升了2.5个百分点，成本降了99.7%。

还有一个知识工作基准测试，GPT-5.2拿到了74.1%，这个分数已经超过了人类专家的平均表现。这个测试模拟的是真实工作场景，比如分析文档、处理数据、写报告、辅助决策。

编程能力的提升是我最关注的部分。X.com上有不少开发者分享了测试结果。

Pietro Schirano说他用GPT-5.2构建了一个完整的3D图形引擎，单文件，有交互控制，能导出4K，而且是一次提示就生成了。他的原话是"进步的速度太不真实了"。

日本开发者炎鎮测试了Excel生成能力，他说GPT-5.2 Pro生成的Excel"完全达到业务可用级别"。他还对比了GPT-5.1和GPT-5.2，差距明显。

争议和质疑

不过，并不是所有人都买账。

Reddit上r/ChatGPT社区有用户发帖说，他怀疑OpenAI是专门针对基准测试做了优化，而不是整体能力的提升。他的理由是GPT-5.1才发布一个月，OpenAI就紧急发布了5.2。虽然所有基准测试都更好，但实际用起来感觉差不多。

这种质疑不是没有道理的。基准测试优化在AI行业是个老问题了，模型专门针对测试集训练，但在实际场景中表现一般。

还有一个有意思的对比。GPT-5.2发布的时候展示了一个电脑主板元件识别的案例，用来证明它的视觉理解能力。但Google DeepMind的工程师拿同样的图片用Gemini-3.0-pro跑了一遍，结果Gemini识别得更准确。

中国开发者karminski3复现了这个测试，确认了Gemini在这个任务上确实更强。这说明什么？即使整体基准测试领先，在某些特定任务上可能还是不如竞争对手。

发布节奏也让人有些担忧。GPT-5.1是11月发布的，GPT-5.2在12月就来了。一个月一个大版本，是真的技术突破太快，还是被Gemini和Claude逼得不得不这么做？这个问题值得思考。

实际能做什么

说了这么多数据和争议，实际能用来干什么呢？

编程方面的提升是最实在的。前端生成能力变强了，你给它一个需求，它可以直接生成完整的网页，响应式布局也能自动处理好。有测试者说它对视觉美感的理解也变好了，生成的页面在间距、字体、留白上都比较讲究。

代码调试也更准了。它能理解更大的代码库上下文，定位问题更准确，给出的修复方案基本可以直接用。

办公文档方面，日本用户测试了PDF转PPTX和Excel生成，效果都达到了业务可用级别。这意味着GPT-5.2可能很快会集成到Microsoft 365 Copilot里。

如果你是做专业分析的，Pro版本在科学研究、复杂数据分析、专业报告这些场景上都有针对性的优化。

怎么获取

目前GPT-5.2正在逐步推送。免费用户可以用Instant版本，Plus订阅可以用Thinking版本，Pro订阅可以用最强的Pro版本。

有些用户已经在ChatGPT应用里看到更新了，Android端可能会慢一点。API访问预计近期会开放，具体定价还没公布。

我怎么看

390倍的效率提升是实打实的。不管有没有基准测试优化的嫌疑，从$4500一个任务降到$11.64，这个成本改进是真实的。更多人能用得起高质量的AI推理能力了。

但也要调整一下期望值。90.5%的ARC-AGI分数不代表你日常用起来会感觉好了90.5%。在某些任务上Gemini可能更强。快速迭代意味着更多改进，也意味着更多的学习成本。

如果你是开发者，GPT-5.2的编程能力值得试试，特别是前端生成和代码调试。但也别忘了测试Claude和Gemini做对比。

如果你是普通用户，不用急着升级Pro。先用现有版本体验一段时间，看看是不是真的比之前好用再说。

如果你是企业用户，关注API定价，评估升级价值，考虑多模型策略。不要把所有赌注押在一个模型上。

技术突破是真的，但要理性看待。先体验，再决定投入多少。

GPT-5.2来了。ARC Prize官方测试结果显示，GPT-5.2 Pro在ARC-AGI-1测试中拿到了90.5%的准确率，每个任务的成本只要$11.64。

去年o3 High在同一个测试上是88%，但成本高达$4500一个任务。

这意味着什么？准确率提升了2.5个百分点，成本降低了99.7%，效率提升了大约390倍。

有人说这已经是AGI了。也有人觉得OpenAI只是针对基准测试做了优化。还有人发现在某些特定任务上，Gemini反而表现更好。

我花了一些时间研究这次发布的细节，把我的发现分享给大家。

GPT-5.2的架构设计

GPT-5.2不是一个单一模型，而是一个系统。它包含三个版本，分别叫Instant、Thinking和Pro。

Instant版本专门针对快速响应做了优化。你问一个简单问题，它几乎是秒回。日常聊天、写邮件、简单翻译，用这个版本就够了，成本也最低。

Thinking版本会在回答之前"想"一会儿。遇到数学题、编程问题、逻辑推理这类需要深度思考的任务，它会花更多时间，但给出的答案质量明显更高。

Pro版本是面向专业用户的。它在最难的任务上表现最好，比如复杂的科学研究、高级编程、专家级别的数据分析。当然，价格也最贵。

这套设计的好处是你不用自己选模型。系统会根据任务自动分配资源，既保证了效果，也控制了成本。

基准测试的成绩

先说说ARC-AGI测试。ARC Prize是专门评估AI推理能力的机构，他们的测试重点考察抽象推理和泛化能力，不是那种靠背答案就能刷高分的测试。

GPT-5.2 Pro在X-High配置下跑出了90.5%的成绩，成本是$11.64每任务。去年o3 High是88%，但要花$4500。一年时间，准确率提升了2.5个百分点，成本降了99.7%。

编程能力的提升是我最关注的部分。X.com上有不少开发者分享了测试结果。

日本开发者炎鎮测试了Excel生成能力，他说GPT-5.2 Pro生成的Excel"完全达到业务可用级别"。他还对比了GPT-5.1和GPT-5.2，差距明显。

争议和质疑

不过，并不是所有人都买账。

这种质疑不是没有道理的。基准测试优化在AI行业是个老问题了，模型专门针对测试集训练，但在实际场景中表现一般。

实际能做什么

说了这么多数据和争议，实际能用来干什么呢？

代码调试也更准了。它能理解更大的代码库上下文，定位问题更准确，给出的修复方案基本可以直接用。

办公文档方面，日本用户测试了PDF转PPTX和Excel生成，效果都达到了业务可用级别。这意味着GPT-5.2可能很快会集成到Microsoft 365 Copilot里。

如果你是做专业分析的，Pro版本在科学研究、复杂数据分析、专业报告这些场景上都有针对性的优化。

怎么获取

目前GPT-5.2正在逐步推送。免费用户可以用Instant版本，Plus订阅可以用Thinking版本，Pro订阅可以用最强的Pro版本。

有些用户已经在ChatGPT应用里看到更新了，Android端可能会慢一点。API访问预计近期会开放，具体定价还没公布。

我怎么看

如果你是开发者，GPT-5.2的编程能力值得试试，特别是前端生成和代码调试。但也别忘了测试Claude和Gemini做对比。

如果你是普通用户，不用急着升级Pro。先用现有版本体验一段时间，看看是不是真的比之前好用再说。

如果你是企业用户，关注API定价，评估升级价值，考虑多模型策略。不要把所有赌注押在一个模型上。

技术突破是真的，但要理性看待。先体验，再决定投入多少。

GPT-5.2的架构设计

基准测试的成绩

争议和质疑

实际能做什么

怎么获取

我怎么看

作者

分类

更多文章

苏江：AI创业项目(1)：卖数字人

苏江：用AI设计自增长系统

语言的尽头

需要定制方案？

邮件列表

苏江：GPT-5.2深度解析，390倍效率提升背后的真相

GPT-5.2的架构设计

基准测试的成绩

争议和质疑

实际能做什么

怎么获取

我怎么看

作者

分类

更多文章

苏江：AI创业项目(1)：卖数字人

苏江：用AI设计自增长系统

语言的尽头

需要定制方案？

邮件列表