已经尽了最大努力了,这次美国过来,也没有给DeepSeek算力卡啊,十家公司每家买75000 H200,但没有DeepSeek。
【 在 MyRina 的大作中提到: 】
: 想不到狗狗家这么落后
:
: 估计被阿三祸害惨了
: 【 在 lili2030 的大作中提到: 】
: : DeepSeek算力非常差,它有16000亿参数,但是平时绝大部分都冻结不激活,只用其中几百亿参数。DeepSeek采用混合专家模型,目前用户从1.2亿涨到两亿,用户聊天时,要同时调用几个专家模块,结果是高峰时极易拥堵,造成全局崩溃,卡顿,限流。它只用了几万块低端算力卡,主力卡是H20,,算力不如ChatGPT的百分之一,ChatGPT采用十万张blackwellGB200, 算力,互联,带宽都碾压DeepSeek。之所以DeepSeek用moe,就是因为moe训练不需要多少算力。
: --
--发自 ismth(丝滑版)
--
FROM 14.18.99.*