Gemini和Claude的比较

水木社区手机版

主题:Gemini和Claude的比较
148楼|anylinkin|2026-03-18 10:04:05|展开
虽然在专业性/最新技术编程（非通用性）方面，各大AI大模型都不咋地，但是，如果矮个子里挑高个子比较，chatGPT, Grok >> Gemini, Claude. 而且在近期，我明显感觉到了chatGPT的在这里的提升。

举例：有关一颗国产芯片SDK的编程

（1）对于稍微有些非常规性的问题，chatGPT和Grok给出了一步到位的正确回答

我想在官方demo工程里添加新的下一级子目录，这类问题稍微有点点非传统常规，结果只有chatGPT和Grok给出了正确的回答，而chatGPT更是一步到位给出了解释。

Gemini和Claude给出的都是"幻觉性"的回答（即答案本身是错误的，但是AI模型不知道自己错了，还一本正经像模像样的给方法建议），而我按照他们给出的建议，完全行不通。在我报告错误后，他们反复给建议，都不行，白白耽误了我1个多小时。

然而，chatGPT和Grok则直接一步到位给出了给出了正确的操作步骤。而且，chatGPT还进一步给出了需要这样做的原因：注册模块只能在根目录下有效，所以必须在根目录里添加，说其分析了官方demo工程里的脚本，得出的这个结论。这一点就让我惊艳了。

（2）chatGPT会根据问题描述进行针对性的具体分析，给出正确的解决办法

我在官方demo下参考AI给出的代码添加了一个功能（4个AI给出的代码基本一致），但是执行时，系统直接崩溃。然后我给出了崩溃的系统打印。结果Gemini和Claude只会按照传统的思路，建议我fullclean，结果依然无效。

然而chatGPT却根据我给的错误提示，直接一步到位的给出了说法：你新加的功能代码，有部分和demo里已有的重复了，并且说，这不怪我，因为官方的demo最新升级，出现这个重复就会导致系统崩溃。以前版本的不会导致崩溃。还顺带告诉我，如何避免git后台自动同步更新。

于是我去掉了这部分重复的代码，很快就搞定了。

为什么会有这样的区别呢？我是这么想的：

（1）chatGPT和Grok可能是实时知识更新（随时训练）上做得较好。

（2）chatGPT可能增强了幻觉性知识的风险处理

几个月前，有一次针对chatGPT的幻觉性回答，当时我曾建议，现有知识库里没有的知识，尤其是专业性强、或者较新的问题，建议作一个分级标签，不再简单的一律进行相似性模式匹配后给出答案，而是应该去现场实时搜索更新学习，或者直接尝试一些基本的分析推理。在这类问题中，有很多问题，只要进行一些简单的分析，就能判定简单的模式相似匹配的回答是明显错误的并且能推导出正确的答案，可靠性比会单纯的模式匹配的回答要强很多。

当时chatGPT是认可这个建议的。现在看来，似乎，它莫非已经采取了这种分级方式，来显著降低了专业性或新知识领域的幻觉率？

（3）Gemini和Claude的political干扰较大，他们可能刻意在对东大用户，可能刻意降智回答

这一点，虽然没有直接的证据，但是很多相关的信息以及自己的使用体验，似乎支持这种说法。

当然，各大模型也都在不断优化改进调整，或许过一段时间，上述对比体验的说法也将会不再有效。但总之，作为人，在使用AI模型这个工具时，要时刻保持清醒，它只是一个服务于我们人类的工具。

: --
:
: ※ 修改:·ssteym 于 Mar 14 11:28:13 2026 修改本文·[FROM: 117.143.171.*]
: ※ 来源:·水木社区 mysmth.net·[FROM: 117.143.168.*]
--
修改:ssteym FROM 117.143.171.*
FROM 223.104.41.*
154楼|anylinkin|2026-03-18 10:36:11|展开
ChatGPT 的 RAG (检索增强生成) 进化： ChatGPT 近期显著加强了其代码分析与实时搜索的结合。当你提到“分析了官方 demo 的脚本”时，这意味着它不仅是在匹配记忆中的知识，而是在处理你上传的文件或通过搜索到的最新 API 文档进行在线逻辑推演。它能识别出“注册模块仅在根目录有效”这种结构性约束，说明它的推理层级已经从“语法匹配”上升到了“工程架构分析”。

实际的例子经历，往往比枯燥的技术知识要点，会更生动

【在 anylinkin 的大作中提到: 】
: 虽然在专业性/最新技术编程（非通用性）方面，各大AI大模型都不咋地，但是，如果矮个子里挑高个子比较，chatGPT, Grok >> Gemini, Claude. 而且在近期，我明显感觉到了chatGPT的在这里的提升。
: 举例：有关一颗国产芯片SDK的编程
: （1）我想在官方demo工程里添加新的下一级子目录，这类问题稍微有点点非传统常规，结果只有chatGPT和Grok给出了正确的回答，而chatGPT更是一步到位给出了解释。
: ...................
--
修改:anylinkin FROM 223.104.41.*
FROM 223.104.41.*
155楼|anylinkin|2026-03-18 10:40:31|展开
你说的有一定道理。尤其是就国产AI或者Grok等模型而言。

但是，chatGPT在“顺着”用户说法方面，相对好很多。在我与chatGPT的交流中，chatGPT是最多出现，经常对我的观点进行修正或直接否定的一个AI模型。它通常会对我的某个看法，其中一部分给予肯定，另外一部分直接给出否定或修正。我几乎很少得到GPT一次超过3/4的肯定率的。也几乎很少像Grok或Gemini那样，通常会倾向于顺着用户，习惯于对客户先来个整体的肯定，然后以一种优化提升的方式来给出补充或修改。

比如前面我发的帖子，也喂给了chatGPT，主要内容明显是夸她的，然而她依然对我的文字里的一些细节部分进行逐一严肃的评论，有部分进行了否认，有些进行了弱化（认为目前只似乎猜测无肯定证据），有些部分虽然表达了肯定但也进行了修正或进一步优化提炼。

所以，跟chatGPT聊天，往往我不太会象与Grok或Gemini聊天那样容易开心，甚至有些时候，我会因为和它的观点不一致，而“争吵”（各说各自的观点论据而反复拉锯）的，直到最后某一方认可对方，或者两方相向而行达成共识 LOL

不知大家是否有同感。

此外，有些时候，chatGPT也会主动告诉我说，今天的交流中的一些问题或建议，它会脱敏汇总给后台，并且还会按照要求，把它脱敏后准备提交后台的文字给我看。尤其是，当你认为chatGPT需要在某某地方改进而提建议时。当然，她是否会真的汇总到后台成建议，还是它只是顺着咱们随口说说，那就不得而知了。事后，有些建议感觉chatGPT不久果然改进了，感觉就像是采纳了建议一般，而有些事情，老样子。

总之，chatGPT的拟人性化方面，相对规范严肃一些

【在 WCDMA 的大作中提到: 】
: “认可这个建议”这种AI反馈不要当真，你见过他们啥时候否决你的建议？都是情绪价值而已
--
修改:anylinkin FROM 223.104.41.*
FROM 223.104.41.*