- 主题:看了一遍DeepSeek的论文才知道只有671B版本才是原汁原味的
- 其他的版本都是DeepSeek训练时生成的数据集用在其他开源模型基础上fine tuning出来的。
 比如1.5B,7B,14B和32B版本基于Qwen训练获得(Qwen应该是阿里巴巴的千问)
 8B和70B版本基于Meta 的Llama训练获得。
 也就是说这几个版本根本就不是DeepSeek架构。。。
 --
 FROM 223.101.86.*
 
- 你这反应速度够慢的了!
 
 【 在 booble 的大作中提到: 】
 : 其他的版本都是DeepSeek训练时生成的数据集用在其他开源模型基础上fine tuning出来的。
 : 比如1.5B,7B,14B和32B版本基于Qwen训练获得(Qwen应该是阿里巴巴的千问)
 : 8B和70B版本基于Meta 的Llama训练获得。
 : ...................
 --
 FROM 123.191.87.*
 
- 刚开始看论文,尴尬
 
 【 在 heideggerr 的大作中提到: 】
 : 你这反应速度够慢的了!
 :
 --
 修改:booble FROM 223.101.86.*
 FROM 223.101.86.*
 
- 还有量化低精度的671『满血版』
 --
 FROM 221.222.240.*
 
- 那些模型名字上已经写了蒸馏 qwen 啊
 
 【 在 booble 的大作中提到: 】
 : 其他的版本都是DeepSeek训练时生成的数据集用在其他开源模型基础上fine tuning出来的。
 : 比如1.5B,7B,14B和32B版本基于Qwen训练获得(Qwen应该是阿里巴巴的千问)
 : 8B和70B版本基于Meta 的Llama训练获得。
 : ...................
 --
 FROM 222.129.6.*
 
- 这么说也不算是满血了。
 
 【 在 x97 的大作中提到: 】
 : 还有量化低精度的671『满血版』
 --
 FROM 223.101.86.*
 
- 以前没注意看模型信息。
 
 【 在 omelet 的大作中提到: 】
 : 那些模型名字上已经写了蒸馏 qwen 啊
 :
 --
 FROM 223.101.86.*