AInspiro
EN

GPT-5.6来了:三档齐发,价格没涨,但你暂时用不上

🤖 本文由 AI 生成,内容仅供参考。

GPT-5.6猝不及防地来了

6月27日凌晨,OpenAI发布了GPT-5.6。

没有发布会,没有全球同步上线ChatGPT,甚至没有Altman微笑说"now everyone can use it"。取而代之的是一封博客文章和一条有限预览通知。

这次的GPT-5.6跟以前不一样。不只是模型变了,发布方式也变了——美国政府要求OpenAI分阶段上线,目前只开放给一小批"可信合作伙伴",名单和政府共享。

换句话说:最强的模型已经造出来了,但你可能暂时用不上。

Sol、Terra、Luna:太阳系命名

这次OpenAI没用Pro/Mini/Instant那套老命名,而是端出三个新名字:

  • GPT-5.6 Sol——旗舰,太阳。当前OpenAI最强模型
  • GPT-5.6 Terra——均衡,大地。日常办公场景,性能≈GPT-5.5但价格降一半
  • GPT-5.6 Luna——轻量,月亮。快、便宜,适合大规模高频调用

花哨归花哨,底层还是那套三层结构:最强负责上限,中间负责大多数任务,轻量负责速度和成本。名字不重要,便宜好用才重要。

价格:旗舰没涨,中间降一半

按百万token计费:

  • Sol:输入$5 / 输出$30——和GPT-5.5标准版同价,但能力碾压5.5
  • Terra:输入$2.5 / 输出$15——GPT-5.5的一半
  • Luna:输入$1 / 输出$6——GPT-5.5的五分之一

横向对比更直观:Anthropic的Claude Fable 5是$10/$50,Sol只要一半。智谱GLM-5.2(MIT开源)$1.4/$4.4,跟Luna同一价格带。

OpenAI在用Luna守住低价市场,不让开源和中国厂商吃掉这块。用Sol打Anthropic的旗舰定价。降价这事,来真的了。

Sol到底强在哪

OpenAI重点展示了三个方向:代码、生物科研、网络安全。

代码:Terminal-Bench 2.1登顶

Sol在Terminal-Bench 2.1拿了88.8%,Ultra模式91.9%。Claude Mythos 5是88.0%,只当了17天榜首就被拉下来了。

Terminal-Bench考的不是写代码片段,是真实开发流程——规划、调用工具、跑命令、调试、验证结果,出错了再改。这更接近工程实战。

网络安全:效率碾压

ExploitBench上,Sol的表现几乎打平Mythos Preview,但只消耗约三分之一的输出token。

更少token = 更低成本 = 更高效率。OpenAI这次反复强调的就是这个:强,但还省。

两个新机制

最大深度推理——让Sol有更多时间想清楚,适合不能靠第一反应解决的复杂任务。

Ultra模式——多个子智能体并行协作。过去一个AI助手自己干活,现在是"AI经理"带着几个小助手分头处理。复杂任务周期大幅压缩。

安全:全档位"高风险"

这是GPT-5.6最值得注意的地方。

OpenAI历史上首次,一个模型家族的所有型号——包括最小最快的Luna——在网络安全和生物/化学两个领域都被标记为"高风险能力(High Risk)"级别。以前这评级只出现在旗舰型号上。

OpenAI反复强调Sol没有达到"Critical"阈值——能识别漏洞,但不能自主生成完整攻击链路。防御能力显著强于攻击执行能力。

说白了:很强,但还没强到失控。

限量预览:普通人暂时无缘

美国政府要求OpenAI分阶段上线GPT-5.6。目前只有API和Codex向少量可信合作伙伴开放,后续逐步扩大到ChatGPT全量用户。

参与预览的合作伙伴名单已经和美国政府共享。想用Sol?得先被政府审批。

OpenAI明确表态不认可政府前置审查成为长期默认,认为这会阻碍开发者和防御者获取先进工具。但短期配合是为了推进后续全面开放。

两周前Anthropic更惨——Mythos 5和Fable 5被出口管制令直接关停,连美国员工都不让访问。相比之下,OpenAI的待遇算好的了。


GPT-5.6很强,也便宜了。但"强到需要政府审批"这个事,比模型本身更值得关注。前沿大模型的发布权,正在从公司手里转移到政府手里。这改变的不是一款产品的上线节奏,是整个AI行业的运行方式。