- 主题:测试了一下不同硬件平台LLM的性能
弄了三个测试环境,都安装gpustack+vllm(华为用mindie)
1. MAC Studio MAX M3 512G,号称可以运行deepseek 671b。
2. 华为910b 8卡, 512G内存,512G显存
3. A100 8卡,云主机,1T内存, 48*8G显存
使用dify跑了一个智能体流程,客户使用自然语言提问,然后从知识库中获取数据,或者
转换成SQL从数据库中提取数据。流程如下。大模型使用qwen3-32b和qwen3-coder。
智能体用了三个LLM会话,分别是600tokens, 8k tokens和 1.3k tokens
llm6 llm1 llm7
mac 23.153s 1m27.157s 30.787
hw910b 9.627s 22.681s 14.168
nv a100 1.839s 10.759s 4.885s
可以看到,mac基本是个玩具,生产环境下使用太慢,nv最为丝滑,hw尚待努力
--
修改:iwannabe FROM 111.55.204.*
FROM 111.55.204.*
应该不至于,hw是生产环境,gpustack是一直加载的
云主机反而是刚装好。
另外,llm用的不是相同的模型,有一个是nl2sql的
【 在 adamhj 的大作中提到: 】
: 我看这个测试华为的数据里,token数和时间不是线性的,感觉像是载入模型花了不少
: 时间
: 是不是云环境里模型的文件在内存里有缓存,在华为的机器测的时候没有先缓存?
--
修改:iwannabe FROM 111.55.204.*
FROM 111.55.204.*
7w/120w/150w
【 在 overcomeunic 的大作中提到: 】
: mac studio是里面最便宜的吧
--
FROM 111.55.204.*
支持面很广的,gguf格式的都支持,去huggingface或者modelscope上找
【 在 overcomeunic 的大作中提到: 】
: 老师,给讲讲 mac studio本地部署市面上的各种开源coder,能不能打呀
--
FROM 111.55.204.*