Re: LLM as a judge是真不行

水木社区手机版

展开|楼主|同主题展开|溯源|返回

上一篇|下一篇|同主题上篇|同主题下篇

主题:Re: LLM as a judge是真不行
smthhz|2025-08-31 14:00:00|
这么玩一次花多少钱

【在 Xjt (Voldemort) 的大作中提到: 】
:  最近我有一个很复杂的编程问题（超过50K tokens）。然后让Gemini Pro 2.5，Grok，GPT5，分别给出答案。
:
:  接着我把3个答案放一起，分别让3个LLM判断，谁的答案更好。结果Gemini Pro 2.5，Grok，GPT5这三个LLM居然每个人都说自己的答案是最好，最完善的，最优秀的。。。。
:  --
--
FROM 117.133.82.*

上一篇|下一篇|同主题上篇|同主题下篇

BYR-Team©2010. KBS Dev-Team©2011 登录完整版