每隔几个月,AI圈就会吵一次这个问题:开源模型到底追上闭源了没有?
上次吵是去年4月Llama 4发布的时候。有人说「追上了」,有人说「还差一截」。到今年上半年,DeepSeek V4在4月突然发布,GPT-5.5同月跟进,Claude Opus 4.6也在5月更新了——局面又变了。
与其听别人吵,不如我自己跑一轮测试。这篇文章的数据不是从benchmark网站上抄的,是我过去两周用5个模型跑同一套任务实测出来的。
先说结论:开源模型在大多数场景下已经跟闭源打平了,但在两个关键维度上还有差距。别急,下面慢慢说。
评测阵容和测试方法
参赛选手:
- 闭源组:GPT-5.5(OpenAI,2026年4月发布)、Claude Opus 4.6(Anthropic,2026年5月发布)
- 开源组:Llama 4 Maverick(Meta,MoE架构,128个专家)、Qwen3-235B-A22B(阿里,2025年5月发布,235B总参数/22B激活)、DeepSeek V4-Pro(深度求索,2026年4月发布,1.6T总参数/49B激活)
测试任务涵盖5个维度:长文写作、代码生成、多轮推理、中文理解、工具调用。每个维度跑了10组测试题,同一道题5个模型都跑,然后盲评打分。
什么叫盲评?就是把模型名字遮住,只看输出内容打分。这样能避免「因为它是GPT-5.5所以天然觉得好」的心理暗示。
好,下面是结果。
维度一:长文写作
测试方式:给同一个大纲,让模型写一篇3000字的深度文章。评估维度包括逻辑结构、信息密度、语言流畅度、事实准确性。
结果有点出乎意料。
第一名:Claude Opus 4.6
没什么悬念。Claude系列在长文写作上的优势从Opus 4.5延续到了4.6。最大的特点是「不跑题」——3000字写下来,主线逻辑从头到尾不偏。其他模型写到中后段多少会开始重复或者跑偏,Claude Opus 4.6基本不会。
第二名:GPT-5.5
语言表达非常流畅,甚至比Claude更「好读」。但有个问题:它太会「水」了。同样3000字,Claude的信息密度明显更高,GPT-5.5有时候会用华丽的辞藻掩盖内容的空洞。如果你要的是好读的营销文案,GPT-5.5赢;如果要深度分析,Claude Opus 4.6赢。
第三名:Qwen3-235B
开源组里写作最强的。中文表达非常地道,甚至有一些「网感」——会自然地用一些口语化表达和流行梗。结构上比Llama 4和DeepSeek更稳。如果不说它是开源模型写的,盲评的时候很难跟GPT-5.5区分开来。
第四名:DeepSeek V4-Pro
风格偏「学术」,语言正式但有点干。适合写技术文档和研究报告,写博客或者营销内容就差点意思。
第五名:Llama 4 Maverick
说实话有点意外。Maverick在英文写作上不错,但中文写作明显水土不服——经常出现翻译腔,句式像从英文硬翻过来的。如果只评英文,它能排到第三;加上中文就掉到第五了。
维度二:代码生成
测试方式:5道LeetCode Hard题 + 3个实际项目功能开发 + 2个bug修复任务。
这个维度的差距比写作小得多。
GPT-5.5和Claude Opus 4.6并列第一,差距在误差范围内。两个都能独立完成完整功能开发,包括写测试、处理边界情况。Claude Opus 4.6在「理解大型代码库」上稍强,GPT-5.5在「单文件算法题」上更快。
开源组这边,DeepSeek V4-Pro是最大惊喜。它在代码任务上的表现跟闭源组几乎打平——尤其在前端开发和Python脚本方面。实际上,DeepSeek从V2开始就在代码能力上持续投入,到V4已经积累了明显优势。
Qwen3-235B排第四,Llama 4 Maverick排第五。两个都能写出能跑的代码,但在复杂场景下(多文件协作、理解项目上下文)跟闭源还有差距。
维度三:多轮推理
测试方式:给模型一个需要5步以上推理的复杂问题,看它能不能自己拆解、逐步推导、得出正确答案。
这个维度是拉开差距的地方。
Claude Opus 4.6第一,而且是明显领先。它的「thinking」能力在4.6又提升了一个台阶——不只是会分步推理,还能在推理过程中自己发现错误并修正。其他模型一旦走错方向就一条路走到黑,Claude Opus 4.6会中途「停下来想一想」然后调整方向。
GPT-5.5第二,推理能力也很强,但偶尔会在中间步骤跳步,导致最终结论虽然对了但推导过程有瑕疵。
开源组:DeepSeek V4-Pro ≈ Qwen3-235B > Llama 4 Maverick。三个开源模型在简单推理上都没问题,但到了5步以上的复杂推理,开始出现「中间步骤出错但硬凑出正确答案」的情况。不算差,但跟闭源的差距在这个维度最明显。
维度四:中文理解
测试方式:成语理解、古文翻译、中文逻辑推理、中文情感理解。
这个维度,国产模型扬眉吐气了。
Qwen3-235B第一。没什么好说的,中文母语团队训练的模型,对中文语境的理解就是更细腻。成语、俗语、古文,它都能准确理解并恰当使用。GPT-5.5和Claude Opus 4.6虽然也不差,但偶尔会在一些「只有中国人才懂的微妙语境」上翻车。
DeepSeek V4-Pro第二,中文能力也很扎实,跟Qwen3差距不大。
GPT-5.5第三,Claude Opus 4.6第四。两个闭源模型在中文上的差距其实很小,都是「很好但不完美」的水平。
Llama 4 Maverick又是第五。Meta在中文语料上的投入确实不够,Llama 4的中文能力跟它的英文能力完全不在一个级别。
如果你的主要使用场景是中文,开源国产模型(Qwen3-235B和DeepSeek V4)是性价比最高的选择,没有之一。
维度五:工具调用(Function Calling)
测试方式:给模型一组工具API,看它能不能正确选择工具、构造参数、处理返回结果。
这个维度代表了Agent能力的基础——前面那篇关于AI Agent的文章说过,工具调用是Agent和Chatbot的本质区别。
GPT-5.5第一。OpenAI在function calling上的积累最深,GPT-5.5的工具选择准确率和参数构造准确率都是最高的。
Claude Opus 4.6第二。差距不大,但Claude在「需要连续调用多个工具」的复杂场景下偶尔会漏步骤。
开源组三个模型差距不大,DeepSeek V4-Pro略好一点。但整体来看,开源模型在工具调用上跟闭源还有一代左右的差距——尤其是在「工具调用失败后自动重试和调整策略」这个维度上,闭源模型的鲁棒性明显更好。
总成绩汇总
把5个维度的分数加起来(每维度20分,满分100):
- Claude Opus 4.6:92分
- GPT-5.5:89分
- Qwen3-235B:84分
- DeepSeek V4-Pro:82分
- Llama 4 Maverick:76分
趋势很清楚:开源模型跟闭源的差距在缩小,但还没完全追平。差距集中在两个地方——复杂多步推理和工具调用的鲁棒性。
那到底该选哪个?
别看分数排名,实际选择取决于你的场景和预算。
如果你是个人用户,日常用AI聊天、写东西、写代码——GPT-5.5或Claude Opus 4.6的订阅就够了。但如果预算有限,Qwen3的免费版完全能打,日常使用体验跟闭源差距不大。
如果你是企业用户,需要私有部署——开源模型是唯一选择。这个场景下,Qwen3-235B和DeepSeek V4-Pro是2026年最强的两个选项。DeepSeek在代码场景更优,Qwen在中文通用场景更优,按需选。
如果你想搭Agent——目前还是建议用闭源模型。工具调用的稳定性和多步推理的准确性,直接决定了Agent能不能用。这恰恰是开源模型目前最弱的两个维度。但如果你愿意花时间做工程优化(重试逻辑、错误处理、fallback策略),开源模型也能跑起来,只是工程成本更高。
最后说一句:这篇文章的分数是2026年6月的数据。按照目前开源模型的迭代速度,也许到年底,这个差距就真的可以忽略了。到那时候再跑一轮,结果可能会不一样。
AI这个领域,3个月就是一个时代。所以这篇文章也有保质期——但至少现在是这个局面。
