我看这个测试华为的数据里,token数和时间不是线性的,感觉像是载入模型花了不少时间
是不是云环境里模型的文件在内存里有缓存,在华为的机器测的时候没有先缓存?
【 在 iwannabe 的大作中提到: 】
: 弄了三个测试环境,都安装gpustack+vllm(华为用mindie)
: 1. MAC Studio MAX M3 512G,号称可以运行deepseek 671b。
: 2. 华为910b 8卡, 512G内存,512G显存
: ...................
--
修改:adamhj FROM 182.85.137.*
FROM 182.85.137.*