- 主题:deepseek原来是蒸馏的啊,怪不得训练成本低
- 白高兴一场
 --
 FROM 39.144.154.*
 
- 我早说了,关键是他的R1的训练过程,目前看有点东西,可能是真创新。Deepseek V3只能说很一般。
 
 Hugging face已经在企图复原R1的训练过程了
 【 在 artech51 的大作中提到: 】
 : 白高兴一场
 --
 FROM 114.102.121.*
 
- 以为什么神奇算法呢
 --
 FROM 39.144.181.*
 
- openai不开源,数据只有输出,实际上常规蒸馏根本就不可能,别在污蔑了好吗?
 【 在 artech51 的大作中提到: 】
 : 白高兴一场
 --
 FROM 117.136.47.*
 
- 污蔑啥啊,deepseek论文就说训练第一步是蒸馏
 数据只有输出就不能蒸馏了?你不是做技术的料
 
 【 在 dqxl 的大作中提到: 】
 : openai不开源,数据只有输出,实际上常规蒸馏根本就不可能,别在污蔑了好吗?
 --
 FROM 39.144.155.*
 
- 它说是蒸馏的openai吗?蒸馏别的开源的,本来就可以。
 【 在 artech51 的大作中提到: 】
 : 污蔑啥啊,deepseek论文就说训练第一步是蒸馏
 : 数据只有输出就不能蒸馏了?你不是做技术的料
 --
 FROM 117.136.47.*
 
- 不管是蒸馏啥,都是蒸馏。我说蒸馏openai了吗?
 
 【 在 dqxl 的大作中提到: 】
 : 它说是蒸馏的openai吗?蒸馏别的开源的,本来就可以。
 --
 FROM 39.144.155.*
 
- 人家花了巨资做原始大模型,蒸馏出来说600万.  这哪能这么比成本。都不去创新,都去等死吧
 
 【 在 dqxl 的大作中提到: 】
 : 它说是蒸馏的openai吗?蒸馏别的开源的,本来就可以。
 --
 FROM 119.125.216.*
 
- 你提个方案,蒸馏下开源的,能达到deepseek的水平吗?
 【 在 artech51 的大作中提到: 】
 : 不管是蒸馏啥,都是蒸馏。我说蒸馏openai了吗?
 --
 FROM 117.136.47.*
 
- 我当然不行,deepseek有多少人我才几个?
 
 【 在 dqxl 的大作中提到: 】
 : 你提个方案,蒸馏下开源的,能达到deepseek的水平吗?
 --
 FROM 39.144.155.*