弄了三个测试环境,都安装gpustack+vllm(华为用mindie)
1. MAC Studio MAX M3 512G,号称可以运行deepseek 671b。
2. 华为910b 8卡, 512G内存,512G显存
3. A100 8卡,云主机,1T内存, 48*8G显存
使用dify跑了一个智能体流程,客户使用自然语言提问,然后从知识库中获取数据,或者
转换成SQL从数据库中提取数据。流程如下。大模型使用qwen3-32b和qwen3-coder。
智能体用了三个LLM会话,分别是600tokens, 8k tokens和 1.3k tokens
llm6 llm1 llm7
mac 23.153s 1m27.157s 30.787
hw910b 9.627s 22.681s 14.168
nv a100 1.839s 10.759s 4.885s
可以看到,mac基本是个玩具,生产环境下使用太慢,nv最为丝滑,hw尚待努力
--
修改:iwannabe FROM 111.55.204.*
FROM 111.55.204.*