GPT-5.6猝不及防地来了
6月27日凌晨,OpenAI发布了GPT-5.6。
没有发布会,没有全球同步上线ChatGPT,甚至没有Altman微笑说"now everyone can use it"。取而代之的是一封博客文章和一条有限预览通知。
这次的GPT-5.6跟以前不一样。不只是模型变了,发布方式也变了——美国政府要求OpenAI分阶段上线,目前只开放给一小批"可信合作伙伴",名单和政府共享。
换句话说:最强的模型已经造出来了,但你可能暂时用不上。
Sol、Terra、Luna:太阳系命名
这次OpenAI没用Pro/Mini/Instant那套老命名,而是端出三个新名字:
- GPT-5.6 Sol——旗舰,太阳。当前OpenAI最强模型
- GPT-5.6 Terra——均衡,大地。日常办公场景,性能≈GPT-5.5但价格降一半
- GPT-5.6 Luna——轻量,月亮。快、便宜,适合大规模高频调用
花哨归花哨,底层还是那套三层结构:最强负责上限,中间负责大多数任务,轻量负责速度和成本。名字不重要,便宜好用才重要。
价格:旗舰没涨,中间降一半
按百万token计费:
- Sol:输入$5 / 输出$30——和GPT-5.5标准版同价,但能力碾压5.5
- Terra:输入$2.5 / 输出$15——GPT-5.5的一半
- Luna:输入$1 / 输出$6——GPT-5.5的五分之一
横向对比更直观:Anthropic的Claude Fable 5是$10/$50,Sol只要一半。智谱GLM-5.2(MIT开源)$1.4/$4.4,跟Luna同一价格带。
OpenAI在用Luna守住低价市场,不让开源和中国厂商吃掉这块。用Sol打Anthropic的旗舰定价。降价这事,来真的了。
Sol到底强在哪
OpenAI重点展示了三个方向:代码、生物科研、网络安全。
代码:Terminal-Bench 2.1登顶
Sol在Terminal-Bench 2.1拿了88.8%,Ultra模式91.9%。Claude Mythos 5是88.0%,只当了17天榜首就被拉下来了。
Terminal-Bench考的不是写代码片段,是真实开发流程——规划、调用工具、跑命令、调试、验证结果,出错了再改。这更接近工程实战。
网络安全:效率碾压
ExploitBench上,Sol的表现几乎打平Mythos Preview,但只消耗约三分之一的输出token。
更少token = 更低成本 = 更高效率。OpenAI这次反复强调的就是这个:强,但还省。
两个新机制
最大深度推理——让Sol有更多时间想清楚,适合不能靠第一反应解决的复杂任务。
Ultra模式——多个子智能体并行协作。过去一个AI助手自己干活,现在是"AI经理"带着几个小助手分头处理。复杂任务周期大幅压缩。
安全:全档位"高风险"
这是GPT-5.6最值得注意的地方。
OpenAI历史上首次,一个模型家族的所有型号——包括最小最快的Luna——在网络安全和生物/化学两个领域都被标记为"高风险能力(High Risk)"级别。以前这评级只出现在旗舰型号上。
OpenAI反复强调Sol没有达到"Critical"阈值——能识别漏洞,但不能自主生成完整攻击链路。防御能力显著强于攻击执行能力。
说白了:很强,但还没强到失控。
限量预览:普通人暂时无缘
美国政府要求OpenAI分阶段上线GPT-5.6。目前只有API和Codex向少量可信合作伙伴开放,后续逐步扩大到ChatGPT全量用户。
参与预览的合作伙伴名单已经和美国政府共享。想用Sol?得先被政府审批。
OpenAI明确表态不认可政府前置审查成为长期默认,认为这会阻碍开发者和防御者获取先进工具。但短期配合是为了推进后续全面开放。
两周前Anthropic更惨——Mythos 5和Fable 5被出口管制令直接关停,连美国员工都不让访问。相比之下,OpenAI的待遇算好的了。
GPT-5.6很强,也便宜了。但"强到需要政府审批"这个事,比模型本身更值得关注。前沿大模型的发布权,正在从公司手里转移到政府手里。这改变的不是一款产品的上线节奏,是整个AI行业的运行方式。
