DeepSeek算力非常差,它有16000亿参数,但是平时绝大部分都冻结不激活,只用其中几百亿参数。DeepSeek采用混合专家模型,目前用户从1.2亿涨到两亿,用户聊天时,要同时调用几个专家模块,结果是高峰时极易拥堵,造成全局崩溃,卡顿,限流。它只用了几万块低端算力卡,主力卡是H20,,算力不如ChatGPT的百分之一,ChatGPT采用十万张blackwellGB200, 算力,互联,带宽都碾压DeepSeek。之所以DeepSeek用moe,就是因为moe训练不需要多少算力。
【 在 MyRina 的大作中提到: 】
: 结果chatgpt读的准,出的结果也准,deepseep有偏差,估计是阅读能力不行
: --
:
: FROM 75.181.39.* [美国–北卡罗来纳州–梅克伦堡–夏洛特–斯蒂尔溪 Charter_Communications]
--发自 ismth(丝滑版)
--
FROM 14.18.99.*