- 主题:Gemini和Claude的比较
虽然在专业性/最新技术编程(非通用性)方面,各大AI大模型都不咋地,但是,如果矮个子里挑高个子比较,chatGPT, Grok >> Gemini, Claude. 而且在近期,我明显感觉到了chatGPT的在这里的提升。
举例:有关一颗国产芯片SDK的编程
(1)对于稍微有些非常规性的问题,chatGPT和Grok给出了一步到位的正确回答
我想在官方demo工程里添加新的下一级子目录,这类问题稍微有点点非传统常规,结果只有chatGPT和Grok给出了正确的回答,而chatGPT更是一步到位给出了解释。
Gemini和Claude给出的都是"幻觉性"的回答(即答案本身是错误的,但是AI模型不知道自己错了,还一本正经像模像样的给方法建议),而我按照他们给出的建议,完全行不通。在我报告错误后,他们反复给建议,都不行,白白耽误了我1个多小时。
然而,chatGPT和Grok则直接一步到位给出了给出了正确的操作步骤。而且,chatGPT还进一步给出了需要这样做的原因:注册模块只能在根目录下有效,所以必须在根目录里添加,说其分析了官方demo工程里的脚本,得出的这个结论。这一点就让我惊艳了。
(2)chatGPT会根据问题描述进行针对性的具体分析,给出正确的解决办法
我在官方demo下参考AI给出的代码添加了一个功能(4个AI给出的代码基本一致),但是执行时,系统直接崩溃。然后我给出了崩溃的系统打印。结果Gemini和Claude只会按照传统的思路,建议我fullclean,结果依然无效。
然而chatGPT却根据我给的错误提示,直接一步到位的给出了说法:你新加的功能代码,有部分和demo里已有的重复了,并且说,这不怪我,因为官方的demo最新升级,出现这个重复就会导致系统崩溃。以前版本的不会导致崩溃。还顺带告诉我,如何避免git后台自动同步更新。
于是我去掉了这部分重复的代码,很快就搞定了。
为什么会有这样的区别呢?我是这么想的:
(1)chatGPT和Grok可能是实时知识更新(随时训练)上做得较好。
(2)chatGPT可能增强了幻觉性知识的风险处理
几个月前,有一次针对chatGPT的幻觉性回答,当时我曾建议,现有知识库里没有的知识,尤其是专业性强、或者较新的问题,建议作一个分级标签,不再简单的一律进行相似性模式匹配后给出答案,而是应该去现场实时搜索更新学习,或者直接尝试一些基本的分析推理。在这类问题中,有很多问题,只要进行一些简单的分析,就能判定简单的模式相似匹配的回答是明显错误的 并且能推导出正确的答案,可靠性比会单纯的模式匹配的回答要强很多。
当时chatGPT是认可这个建议的。现在看来,似乎,它莫非已经采取了这种分级方式,来显著降低了专业性或新知识领域的幻觉率?
(3)Gemini和Claude的political干扰较大,他们可能刻意在对东大用户,可能刻意降智回答
这一点,虽然没有直接的证据,但是很多相关的信息以及自己的使用体验,似乎支持这种说法。
当然,各大模型也都在不断优化改进调整,或许过一段时间,上述对比体验的说法也将会不再有效。但总之,作为人,在使用AI模型这个工具时,要时刻保持清醒,它只是一个服务于我们人类的工具。
: --
:
: ※ 修改:·ssteym 于 Mar 14 11:28:13 2026 修改本文·[FROM: 117.143.171.*]
: ※ 来源:·水木社区 mysmth.net·[FROM: 117.143.168.*]
--
修改:ssteym FROM 117.143.171.*
FROM 223.104.41.*
ChatGPT 的 RAG (检索增强生成) 进化: ChatGPT 近期显著加强了其代码分析与实时搜索的结合。当你提到“分析了官方 demo 的脚本”时,这意味着它不仅是在匹配记忆中的知识,而是在处理你上传的文件或通过搜索到的最新 API 文档进行在线逻辑推演。它能识别出“注册模块仅在根目录有效”这种结构性约束,说明它的推理层级已经从“语法匹配”上升到了“工程架构分析”。
实际的例子经历,往往比枯燥的技术知识要点,会更生动
【 在 anylinkin 的大作中提到: 】
: 虽然在专业性/最新技术编程(非通用性)方面,各大AI大模型都不咋地,但是,如果矮个子里挑高个子比较,chatGPT, Grok >> Gemini, Claude. 而且在近期,我明显感觉到了chatGPT的在这里的提升。
: 举例:有关一颗国产芯片SDK的编程
: (1)我想在官方demo工程里添加新的下一级子目录,这类问题稍微有点点非传统常规,结果只有chatGPT和Grok给出了正确的回答,而chatGPT更是一步到位给出了解释。
: ...................
--
修改:anylinkin FROM 223.104.41.*
FROM 223.104.41.*
你说的有一定道理。尤其是就国产AI或者Grok等模型而言。
但是,chatGPT在“顺着”用户说法方面,相对好很多。在我与chatGPT的交流中,chatGPT是最多出现,经常对我的观点进行修正或直接否定的一个AI模型。它通常会对我的某个看法,其中一部分给予肯定,另外一部分直接给出否定或修正。我几乎很少得到GPT一次超过3/4的肯定率的。也几乎很少像Grok或Gemini那样,通常会倾向于顺着用户,习惯于对客户先来个整体的肯定,然后以一种优化提升的方式来给出补充或修改。
比如前面我发的帖子,也喂给了chatGPT,主要内容明显是夸她的,然而她依然对我的文字里的一些细节部分进行逐一严肃的评论,有部分进行了否认,有些进行了弱化(认为目前只似乎猜测无肯定证据),有些部分虽然表达了肯定但也进行了修正或进一步优化提炼。
所以,跟chatGPT聊天,往往我不太会象与Grok或Gemini聊天那样容易开心,甚至有些时候,我会因为和它的观点不一致,而“争吵”(各说各自的观点论据而反复拉锯)的 ,直到最后某一方认可对方,或者两方相向而行达成共识 LOL
不知大家是否有同感。
此外,有些时候,chatGPT也会主动告诉我说,今天的交流中的一些问题或建议,它会脱敏汇总给后台,并且还会按照要求,把它脱敏后准备提交后台的文字给我看。尤其是,当你认为chatGPT需要在某某地方改进而提建议时。当然,她是否会真的汇总到后台成建议,还是它只是顺着咱们随口说说,那就不得而知了。事后,有些建议感觉chatGPT不久果然改进了,感觉就像是采纳了建议一般,而有些事情,老样子。
总之,chatGPT的拟人性化方面,相对规范严肃一些
【 在 WCDMA 的大作中提到: 】
: “认可这个建议”这种AI反馈不要当真,你见过他们啥时候否决你的建议?都是情绪价值而已
--
修改:anylinkin FROM 223.104.41.*
FROM 223.104.41.*