你这个KV cache值的估算就不对,我单张32G的MI50跑Qwen3.5 27B Q4可以用到200k+的上下文。
而且推理引擎都是优先把KV cache放在显存里面的,不够的话是把权重放到内存。
【 在 sleepbear 的大作中提到: 】
: 27b模型4bit量化的话占16g左右显存
: 想要开256k的context的话,kv-cache需要320g的显存。
: 显存不够会把kv-cache放内存,速度狂降,
: ...................
--
FROM 114.246.239.*