每个月都有人问我:现在到底该用哪个大模型?
这个问题在2026年6月变得更难回答了,因为三家都在疯狂迭代。Anthropic 5月28日发了Opus 4.8,6月9日又掏出了Mythos级的Fable 5;Google在I/O上甩出Gemini 3.5 Flash当默认模型;OpenAI的GPT-5.5稳坐钓鱼台,GPT-5.6据说要来但一直没落地。
我花了三天时间,把这三个模型在六个维度上跑了一遍。不是跑分——跑分你到处都能看——是真实使用场景下的体感对比。
先理一下当前格局
2026年6月下旬的大模型市场,三巨头的站位是这样的:
Anthropic:节奏最激进。Opus 4.6(2月)→ Opus 4.7(4月)→ Opus 4.8(5月28日)→ Fable 5(6月9日)。四个月三代旗舰,其中Fable 5是首个面向公众的Mythos级模型,编码能力碾压式领先。但Fable 5也引发了争议——美国政府以国家安全为由要求Anthropic关闭Fable 5和Mythos 5,目前情况还在拉扯中。所以这篇对比我以Opus 4.8为主,Fable 5作为补充。
OpenAI:最稳。GPT-5.5从4月发布至今一直是主流旗舰,6月23日推出了安全专用的GPT-5.5-Cyber变体。GPT-5.6原计划6月发布,但受Fable 5事件影响可能延迟。整体策略是"不急着发新的,先把现有的做扎实"。
Google:最有性价比。Gemini 3.5 Flash在I/O 2026上发布,直接定为Gemini系列的默认模型。1M token上下文,支持文本、视觉、视频、音频六种模态,定价$1.50/$9 per 1M tokens——便宜得离谱。Gemini 3.5 Pro延迟到了6月,但Flash已经够打了。
维度一:写作能力
这个维度我测了三种场景:商业文案、技术文章、创意写作。
Claude Opus 4.8的写作是最"像人"的。它的文字有节奏感,长短句交替自然,不像AI那种四平八稳的调子。写商业文案的时候,它能在专业和口语之间找到很好的平衡。技术文章也是它的强项——逻辑清晰,而且它会主动补充你以为你知道但其实不知道的背景信息。
GPT-5.5的写作特点是"全面但平庸"。什么都能写,什么都不惊艳。商业文案中规中矩,创意写作偏保守,技术文章准确性不错但读起来有点干。适合需要稳定输出的场景,但如果你追求文字质感,差点意思。
Gemini 3.5 Flash出乎意料地好。尤其是中文写作——Google在中文语料上的投入肉眼可见地在提升。它的风格偏活泼,适合写社交媒体内容和营销文案。但在长篇技术文章上偶尔会跑偏,需要多次prompt来纠正。
写作排名:Claude Opus 4.8 > Gemini 3.5 Flash > GPT-5.5
维度二:代码能力
这是目前竞争最激烈的维度。
Claude Opus 4.8在SWE-Bench Pro上拿到了69.2%,比上一代的64.3%提升明显。实际写代码的体感:上下文理解极强,你给它一个大型项目,它能记住所有文件的依赖关系,改一个函数会自动提醒你哪些地方需要同步修改。而且它的代码注释写得好——不是那种废话注释,是真正帮你理解逻辑的注释。
至于Fable 5,如果它还在可用状态的话,编码能力确实碾压。在SWE-Bench Pro上据说突破了75%,而且长任务编程(连续几个小时的多步骤编码任务)的表现是所有模型里最好的。但考虑到它目前的状态不稳定,不建议作为生产环境的主力。
GPT-5.5写代码很稳,但缺乏灵性。它适合写那种"有明确规范、不需要太多创造性"的代码——CRUD接口、单元测试、文档生成。但如果你让它做架构设计或者调试复杂的并发问题,它会给你一个"看起来对但经不起推敲"的方案。
Gemini 3.5 Flash的代码能力是三家里最弱的,但也够用了。它的优势在于跟Google生态的集成——如果你在用Google Cloud或者Firebase,Gemini对这套技术栈的理解是最深的。
代码排名:Fable 5(如可用)> Claude Opus 4.8 > GPT-5.5 > Gemini 3.5 Flash
维度三:推理能力
推理我用数学题和逻辑推理题来测。
Opus 4.8在USAMO(美国数学奥林匹克)上拿了96.7%的分数,这个成绩在所有公开模型里排名第一。实际测下来,它做复杂的逻辑推理题时,会先把问题拆解成子问题,然后逐个攻克,最后再整合——这个思维链跟人类解题的方式很像。
GPT-5.5的推理能力也不差,但它的推理过程更"直给"——直接从A推到B,省略中间步骤。好处是快,坏处是偶尔会在中间步骤出错但自己发现不了。
Gemini 3.5 Flash在推理上不是强项,但它在多模态推理上独树一帜。给它一张图表让它分析趋势,或者给一段视频让它总结关键信息,这三家里它做得最好。
推理排名:Claude Opus 4.8 > GPT-5.5 > Gemini 3.5 Flash
维度四:多模态
这块没什么悬念。
Gemini 3.5 Flash原生支持文本、图像、视频、音频、代码六种模态,而且1M token的上下文意味着你可以直接把一整部电影丢进去让它分析。这是它的主场。
GPT-5.5支持文本和图像,视频和音频能力有限。Opus 4.8也主要聚焦文本和图像,多模态不是Anthropic当前的重点方向。
多模态排名:Gemini 3.5 Flash > GPT-5.5 ≈ Claude Opus 4.8
维度五:价格
这可能是很多人最关心的维度。
- Gemini 3.5 Flash:$1.50 / $9 per 1M tokens(输入/输出),目前三家里最便宜
- GPT-5.5:约 $5 / $15 per 1M tokens,中规中矩
- Claude Opus 4.8:约 $15 / $75 per 1M tokens,最贵,但能力也最强
如果你的用量大,价格差距是很明显的。按月100万token的输入加50万token的输出来算:Gemini约$6,GPT约$12.5,Claude约$52.5。
但话说回来,Claude的贵是有道理的——它的输出质量确实更高,意味着你需要的修订轮次更少,总体效率不一定差。
性价比排名:Gemini 3.5 Flash > GPT-5.5 > Claude Opus 4.8
维度六:速度
Gemini 3.5 Flash不愧名字里有个"Flash"——速度确实快,首token延迟低,生成速度稳定在每秒100 token以上。
GPT-5.5的速度中等,跟上一代差不多。Opus 4.8因为有自适应思考模式,简单问题快,复杂问题会"想一会儿"再回答,体感上速度波动较大。
速度排名:Gemini 3.5 Flash > GPT-5.5 > Claude Opus 4.8
场景化推荐
说了这么多,到底该选哪个?我的建议是按场景来:
写作用:选Claude Opus 4.8。文字质感最好,适合写文章、文案、报告这种需要"有人味儿"的内容。
编程用:选Claude Opus 4.8(日常开发)或Fable 5(大型项目,如可用)。GPT-5.5作为备选。
老板用:选GPT-5.5。最稳定,不出错,API文档最全,集成方案最多。如果预算敏感,选Gemini 3.5 Flash。
处理多媒体:选Gemini 3.5 Flash。图片、视频、音频一把梭,价格还便宜。
预算有限:Gemini 3.5 Flash,没有第二选择。同样的预算,它能让你的token用量翻10倍。
一句话选型指南
预算不是问题 → Claude Opus 4.8;性价比优先 → Gemini 3.5 Flash;什么都不想折腾 → GPT-5.5。
最后说一句:这个对比会每月更新。大模型领域变化太快了,6月的排名到7月可能就不一样了——尤其是GPT-5.6如果发布,Fable 5如果恢复可用,Gemini 3.5 Pro如果落地,格局又会洗牌。
我的建议是:别把宝押在一个模型上。三个都用,按场景切换。现在的API价格已经低到你可以同时订阅三个都不心疼的程度了。真正贵的不是工具费,是你花在选型上的时间。
