我看过deepseek的技术资料,基本就是模仿openAI 的chatGPT,完全基于transformer神经网络架构。
从下面的事实也能看出deepseek就是一个普通大模型,和国内其他大模型没啥区别:
1、chatgpt早期有开源,国内很多人(尤其高校院所等)下载、备份了源码,供自己或自己公司研究。
2、微软meta腾讯阿里百度科大讯飞等公司都是沿用chatgpt研发、训练模式、路径。而deepseek在训练上采用的是“蒸馏”法,属于投机取巧的路径,采用“蒸馏”法可以去掉很多无关数据,从而在数据检索上提高性能。正是因为这个原因,所以deepseek只是表面、短暂超过chatgpt几天,很快又被chatgpt甩在后面
3、deepseek找的技术人员大部分是北大、清华刚毕业的博士或者实习生,刚毕业的博士或者实习生能有多高的经验、水平,很多人写程序代码还在模仿、学习阶段。
【 在 aKong 的大作中提到: 】
: 不是哥们,就这?
: 你评价一个大模型就靠砖家在讲座上的发言?
: 一不看技术报告二不讲应用场景三没有数据支持
: ...................
--
修改:Y93SSYS711 FROM 123.112.16.*
FROM 123.112.16.*