
苏江:GPT-5.2深度解析,390倍效率提升背后的真相
GPT-5.2刚发布就引发争议。ARC-AGI测试90.5%创纪录,成本降低390倍。但Reddit用户质疑:基准测试优化还是真实提升?这篇文章带你完整理解GPT-5.2的技术突破、实际表现和行业争议。
GPT-5.2来了。ARC Prize官方测试结果显示,GPT-5.2 Pro在ARC-AGI-1测试中拿到了90.5%的准确率,每个任务的成本只要$11.64。
去年o3 High在同一个测试上是88%,但成本高达$4500一个任务。
这意味着什么?准确率提升了2.5个百分点,成本降低了99.7%,效率提升了大约390倍。
有人说这已经是AGI了。也有人觉得OpenAI只是针对基准测试做了优化。还有人发现在某些特定任务上,Gemini反而表现更好。
我花了一些时间研究这次发布的细节,把我的发现分享给大家。
GPT-5.2的架构设计
GPT-5.2不是一个单一模型,而是一个系统。它包含三个版本,分别叫Instant、Thinking和Pro。
Instant版本专门针对快速响应做了优化。你问一个简单问题,它几乎是秒回。日常聊天、写邮件、简单翻译,用这个版本就够了,成本也最低。
Thinking版本会在回答之前"想"一会儿。遇到数学题、编程问题、逻辑推理这类需要深度思考的任务,它会花更多时间,但给出的答案质量明显更高。
Pro版本是面向专业用户的。它在最难的任务上表现最好,比如复杂的科学研究、高级编程、专家级别的数据分析。当然,价格也最贵。
这三个版本之间有一个智能路由器在做调度。你发消息的时候,路由器会自动判断这个问题应该交给哪个版本处理。它会看对话的类型、问题的复杂程度、是否需要调用工具,甚至会看你有没有在提示里写"认真思考"这样的字眼。
这套设计的好处是你不用自己选模型。系统会根据任务自动分配资源,既保证了效果,也控制了成本。
OpenAI还提到了几个技术改进。幻觉问题有明显改善,模型编造信息的情况减少了。指令遵循更准确,你让它做什么它就做什么,不会自作主张。还有一个有意思的改进是"减少阿谀奉承",模型不会再无脑同意你说的每句话了。
基准测试的成绩
先说说ARC-AGI测试。ARC Prize是专门评估AI推理能力的机构,他们的测试重点考察抽象推理和泛化能力,不是那种靠背答案就能刷高分的测试。
GPT-5.2 Pro在X-High配置下跑出了90.5%的成绩,成本是$11.64每任务。去年o3 High是88%,但要花$4500。一年时间,准确率提升了2.5个百分点,成本降了99.7%。
还有一个知识工作基准测试,GPT-5.2拿到了74.1%,这个分数已经超过了人类专家的平均表现。这个测试模拟的是真实工作场景,比如分析文档、处理数据、写报告、辅助决策。
编程能力的提升是我最关注的部分。X.com上有不少开发者分享了测试结果。
Pietro Schirano说他用GPT-5.2构建了一个完整的3D图形引擎,单文件,有交互控制,能导出4K,而且是一次提示就生成了。他的原话是"进步的速度太不真实了"。
日本开发者炎鎮测试了Excel生成能力,他说GPT-5.2 Pro生成的Excel"完全达到业务可用级别"。他还对比了GPT-5.1和GPT-5.2,差距明显。
争议和质疑
不过,并不是所有人都买账。
Reddit上r/ChatGPT社区有用户发帖说,他怀疑OpenAI是专门针对基准测试做了优化,而不是整体能力的提升。他的理由是GPT-5.1才发布一个月,OpenAI就紧急发布了5.2。虽然所有基准测试都更好,但实际用起来感觉差不多。
这种质疑不是没有道理的。基准测试优化在AI行业是个老问题了,模型专门针对测试集训练,但在实际场景中表现一般。
还有一个有意思的对比。GPT-5.2发布的时候展示了一个电脑主板元件识别的案例,用来证明它的视觉理解能力。但Google DeepMind的工程师拿同样的图片用Gemini-3.0-pro跑了一遍,结果Gemini识别得更准确。
中国开发者karminski3复现了这个测试,确认了Gemini在这个任务上确实更强。这说明什么?即使整体基准测试领先,在某些特定任务上可能还是不如竞争对手。
发布节奏也让人有些担忧。GPT-5.1是11月发布的,GPT-5.2在12月就来了。一个月一个大版本,是真的技术突破太快,还是被Gemini和Claude逼得不得不这么做?这个问题值得思考。
实际能做什么
说了这么多数据和争议,实际能用来干什么呢?
编程方面的提升是最实在的。前端生成能力变强了,你给它一个需求,它可以直接生成完整的网页,响应式布局也能自动处理好。有测试者说它对视觉美感的理解也变好了,生成的页面在间距、字体、留白上都比较讲究。
代码调试也更准了。它能理解更大的代码库上下文,定位问题更准确,给出的修复方案基本可以直接用。
办公文档方面,日本用户测试了PDF转PPTX和Excel生成,效果都达到了业务可用级别。这意味着GPT-5.2可能很快会集成到Microsoft 365 Copilot里。
如果你是做专业分析的,Pro版本在科学研究、复杂数据分析、专业报告这些场景上都有针对性的优化。
怎么获取
目前GPT-5.2正在逐步推送。免费用户可以用Instant版本,Plus订阅可以用Thinking版本,Pro订阅可以用最强的Pro版本。
有些用户已经在ChatGPT应用里看到更新了,Android端可能会慢一点。API访问预计近期会开放,具体定价还没公布。
我怎么看
390倍的效率提升是实打实的。不管有没有基准测试优化的嫌疑,从$4500一个任务降到$11.64,这个成本改进是真实的。更多人能用得起高质量的AI推理能力了。
但也要调整一下期望值。90.5%的ARC-AGI分数不代表你日常用起来会感觉好了90.5%。在某些任务上Gemini可能更强。快速迭代意味着更多改进,也意味着更多的学习成本。
如果你是开发者,GPT-5.2的编程能力值得试试,特别是前端生成和代码调试。但也别忘了测试Claude和Gemini做对比。
如果你是普通用户,不用急着升级Pro。先用现有版本体验一段时间,看看是不是真的比之前好用再说。
如果你是企业用户,关注API定价,评估升级价值,考虑多模型策略。不要把所有赌注押在一个模型上。
技术突破是真的,但要理性看待。先体验,再决定投入多少。
更多文章
需要定制方案?
遇到问题或想让我帮你完成繁重的工作?给我发条消息,我会在24小时内回复——简单咨询永远免费。
邮件列表
加入我们的社区
订阅邮件列表,及时获取最新消息和更新


