Gemini 3 Pro 能力退步

Gemini 3 Pro 能力退步

哈基米3 Pro Preview,实际测试下来,大失所望。最失望的是,哈基米有往营销式模型的歧路走的趋势。

何以见得

Gemini 2.5 Pro 的优势

2.5 Pro是我今年的主力模型,虽然在代码能力本身上并不如Claude顶尖,但胜在问题分析能力,确实可以解决问题,且听话,指令遵从绝对可以。

编程有效上下文长度能接近100K,注意力也足够聪明,可以做到丢一堆代码,中间放问题(相同场景测试下国内模型普遍无法做到),照样正常回答,这在复杂问题的提示很重要,真正能实现上下文工程的指令接收而非一次性提示词。

系统提示词遵从效果较好,可以有效抑制对代码无关修改部分的擅自变动,输出的代码在大多数情况下可以很放心,单次输出长度极限测试大概能到4千行(与具体场景有关)

然而上述优势,Gemini 3 Pro Preview 却几乎完全抛弃!

1、有效上下文长度暴降至32K ;

2、指令遵从连国内最不听话的DeepSeek都打不过了;

3、系统提示词几乎失效,遵循程度全然抽奖看心情;

4、偷懒程度巨幅度提升,省略代码尚可以避免,尤其喜欢擅自简化代码,忍无可忍;

5、输出长度已经不是腰斩的幅度了,除了前端长度尚可,后端输出长度超过1000行都费劲,且充斥大量擅自的简化与省略,难以像2.5 Pro一样通过提示词限制。

高情商:谷歌:降低了模型“奉承”的程度
低情商:用户:TMD听不懂人话,不遵从指令,S******

是,前端能力是提升了

但是却从真正生产可用的生产力模型,自降身份成为一个纯纯大号玩具。

2.5 Pro 一次性可以解决的任务,3 Pro现在需要重复多次,且因自作聪明引入新BUG的概率大幅提升。

总结

作为32K以内上下文长度的推理模型,不要求长篇幅复杂任务能力、不要求指令遵循能力、低血压用户:哈基米3确实升级了,而且是大幅提升!

100K长上下文、复杂任务解决、不是玩玩具,真正上生产的:老老实实继续2.5 Pro吧,笨是笨了点,起码听得懂人话。

看看正式版能不能优化这些问题 :rofl:

在cursor、antigravity中使用gemini3的模型生成代码,并没有很惊艳,反而很拉垮;
上周做一个群聊分析,用cursor同时对比了一下gemini3pro和claude sonnet 4.5,差异显著:
1、效果上:gemini3pro 不可用程度,soonet4.5 超预期;
2、token消耗:gemini3pro 5美金左右,soonet4.5 5美金左右;
3、生成速度:gemini3pro 20分钟不到,soonet4.5 1.5小时左右;

在aistudio中使用gemini3生成网站确实强,但感觉是工程方面的贡献更大一些;
在ide中生成代码,还是倾向于使用sonnet3和gpt5.1;

我在antigravity里面两个轮着用,没啥感觉 :rofl: