Re: LLM as a judge是真不行

水木社区手机版

展开|楼主|同主题展开|溯源|返回

上一篇|下一篇|同主题上篇|同主题下篇

主题:Re: LLM as a judge是真不行
Xjt|2025-08-31 21:02:08|
claude和deepseek也测了，答案也不统一。。。

我目前测试的感觉：
GPT5>Gemini 2.5pro>Grok4>Claude Sonnet 4 Thinking>Deepseek R1

Deepseek 3.1和Claude Opus都没测过，不参与排名
【在 guizhidao 的大作中提到: 】
: lol
: 要不3+1呢，再来一claude做judge
: 但评价来看，编程问题gpt貌似不太行， Gpro2.5和claude4应该是最强吧
--
FROM 218.82.23.*

上一篇|下一篇|同主题上篇|同主题下篇

BYR-Team©2010. KBS Dev-Team©2011 登录完整版