Gemini 3 Pro 能力退步
哈基米3 Pro Preview,实际测试下来,大失所望。最失望的是,哈基米有往营销式模型的歧路走的趋势。
何以见得
Gemini 2.5 Pro 的优势
2.5 Pro是我今年的主力模型,虽然在代码能力本身上并不如Claude顶尖,但胜在问题分析能力,确实可以解决问题,且听话,指令遵从绝对可以。
编程有效上下文长度能接近100K,注意力也足够聪明,可以做到丢一堆代码,中间放问题(相同场景测试下国内模型普遍无法做到),照样正常回答,这在复杂问题的提示很重要,真正能实现上下文工程的指令接收而非一次性提示词。
系统提示词遵从效果较好,可以有效抑制对代码无关修改部分的擅自变动,输出的代码在大多数情况下可以很放心,单次输出长度极限测试大概能到4千行(与具体场景有关)
然而上述优势,Gemini 3 Pro Preview 却几乎完全抛弃!
1、有效上下文长度暴降至32K ;
2、指令遵从连国内最不听话的DeepSeek都打不过了;
3、系统提示词几乎失效,遵循程度全然抽奖看心情;
4、偷懒程度巨幅度提升,省略代码尚可以避免,尤其喜欢擅自简化代码,忍无可忍;
5、输出长度已经不是腰斩的幅度了,除了前端长度尚可,后端输出长度超过1000行都费劲,且充斥大量擅自的简化与省略,难以像2.5 Pro一样通过提示词限制。
高情商:谷歌:降低了模型“奉承”的程度
低情商:用户:TMD听不懂人话,不遵从指令,S******
是,前端能力是提升了
但是却从真正生产可用的生产力模型,自降身份成为一个纯纯大号玩具。
2.5 Pro 一次性可以解决的任务,3 Pro现在需要重复多次,且因自作聪明引入新BUG的概率大幅提升。
总结
作为32K以内上下文长度的推理模型,不要求长篇幅复杂任务能力、不要求指令遵循能力、低血压用户:哈基米3确实升级了,而且是大幅提升!
100K长上下文、复杂任务解决、不是玩玩具,真正上生产的:老老实实继续2.5 Pro吧,笨是笨了点,起码听得懂人话。
