- 主题:DS V2.5 V3 R1的幻觉率分别是2.4% 3.9% 14.3% 为何越新的模型幻
- 来源:huggingface vectara
 
 为什么越后面的模型,幻觉率越高? R1甚至还出现了一个断崖式的降低?
 
 其他的大模型,基本上都是越新的模型,幻觉率越低。
 
 
 是不是DS只顾着优化节约资源去了?
 --
 FROM 223.104.40.*
 
- R1会thinking,本质也是output,输出越多就越容易出幻觉。你如果和孩子聊天就知道了,你直接问什么基本没问题。你让孩子自己先分析和描述一段话,然后慢慢他就会自己产生幻觉,编出很多奇怪的东西。
 
 大模型无论训练还说output和儿童都非常相似
 【 在 anylinkin 的大作中提到: 】
 : 来源:huggingface vectara
 : 为什么越后面的模型,幻觉率越高? R1甚至还出现了一个断崖式的降低?
 : 其他的大模型,基本上都是越新的模型,幻觉率越低。
 : ...................
 --
 修改:Xjt FROM 202.47.106.*
 FROM 202.47.106.*
 
- 应该和 reansoning 无关。
 
 其他模型,同一个系列的,都是越新的模型,幻觉率越低。
 
 【 在 Xjt 的大作中提到: 】
 : R1会thinking,本质也是output,输出越多就越容易出幻觉。你如果和孩子聊天就知道了,你直接问什么基本没问题。你让孩子自己先分析和描述一段话,然后慢慢他就会自己产生幻觉,编出很多奇怪的东西。
 : 大模型无论训练还说output和儿童都非常相似
 --
 FROM 223.104.41.*
 
- 估计DS对幻觉没做很好的RL优化呗。我觉得这思路是非常正确的。幻觉应该用RAG解决而不是强行压制幻觉。等于压制了儿童的创造力
 【 在 anylinkin 的大作中提到: 】
 : 应该和 reansoning 无关。
 : 其他模型,同一个系列的,都是越新的模型,幻觉率越低。
 :
 --
 FROM 202.47.106.*
 
- R1有14.3%的幻觉率,一些要求严谨准确的场合可能就不敢用R1了。社区里有不少人提到
 这个话题。那个R1不按规则走棋而且还认为它就是规则的话题,可能反映出的就是幻觉
 。
 
 
 【 在 Xjt 的大作中提到: 】
 : 估计DS对幻觉没做很好的RL优化呗。我觉得这思路是非常正确的。幻觉应该用RAG解决而不是强行压制幻觉。等于压制了儿童的创造力
 --
 FROM 223.104.41.*
 
- 我仔细看了下,对这个测试的准确性存疑
 
 OpenAI的o1是准备的幻觉多,而且我自己用的时候也感觉幻觉很多。但是居然得分很高。估计题目设计的有问题。
 【 在 anylinkin 的大作中提到: 】
 : 来源:huggingface vectara
 : 为什么越后面的模型,幻觉率越高? R1甚至还出现了一个断崖式的降低?
 : 其他的大模型,基本上都是越新的模型,幻觉率越低。
 : ...................
 --
 FROM 202.47.106.*
 
- 好像R1蒸馏版比原版的指令跟随要更差?
 【 在 Xjt 的大作中提到: 】
 : 我仔细看了下,对这个测试的准确性存疑
 : OpenAI的o1是准备的幻觉多,而且我自己用的时候也感觉幻觉很多。但是居然得分很高。估计题目设计的有问题。
 --
 FROM 111.162.221.*
 
- Ds r1训练的时候,和人对齐的偏少了
 【 在 Xjt 的大作中提到: 】
 : 估计DS对幻觉没做很好的RL优化呗。我觉得这思路是非常正确的。幻觉应该用RAG解决而不是强行压制幻觉。等于压制了儿童的创造力
 --
 FROM 39.144.137.*
 
- 所以你会发现,让R1去写一些创造性的内容,会领先其他一大截。。
 
 【 在 Xjt 的大作中提到: 】
 : 估计DS对幻觉没做很好的RL优化呗。我觉得这思路是非常正确的。幻觉应该用RAG解决而不是强行压制幻觉。等于压制了儿童的创造力
 --
 FROM 125.84.68.*
 
- 请问V3和R1有什么区别呢
 【 在 huaxinjuedui 的大作中提到: 】
 : 所以你会发现,让R1去写一些创造性的内容,会领先其他一大截。。
 :
 --
 FROM 223.104.78.*