27b模型4bit量化的话占16g左右显存
想要开256k的context的话,kv-cache需要320g的显存。
显存不够会把kv-cache放内存,速度狂降,
内存不够会把kv-cache放硬盘,速度暴降,这种情况下会把ssd寿命搞死,而且每秒出不了一个token
昨天4090开128k上下文强跑claude code,跑了一个下午,没写出几行代码。
把上下文改小,再开启kv 8bit量化,速度倒是很快,比在线api快,但是不能用来写代码了,娱乐一下还行
【 在 mingtong 的大作中提到: 】
: 跑qwen3.5速度怎样?秒回吗
: 发自「今日水木 on iPhone 15」
--
FROM 123.118.9.*