- 主题:问下本地部署入门问题
Qwen3.5 35B-A3B Q4或者Q3量化,用 llama.cpp 推理,部分权重放到内存上用CPU跑,如果不需要视觉功能可以不加载视觉部分的权重。
【 在 dadou 的大作中提到: 】
: 16G的5060Ti卡能部署什么大模型,能达到什么水平,千问,DS还是哪个更好?
: --发自 ismth(丝滑版)
--
FROM 114.246.237.*
大多数开放权重的大模型都是商业公司训练的,真正的开源(包括数据集)模型像Allen AI OLMo和NVIDIA Nemotron这些也是有公司搞的。
【 在 ssteym 的大作中提到: 】
: 个人为什么一定要考虑自己配大模型呢?
: 开源的再好,能比官方的更好?
: 我不明白的是:开源大模型是怎么训练的啊?如果不是商业公司的话,普通人无法无力
: ...................
--
FROM 114.246.237.*
4个PCIe口要上服务器主板了吧,另外这卡好像要自己改散热。
【 在 xeh 的大作中提到: 】
: 我作为过来人
: 建议如下:堆便宜的tesla 16g(P100)4个 ubuntu ollama(vllm好像需要某个级别以上跑不了) 64g可以跑比较有用的ollama模型了
: 16g的实在不建议
: ...................
--
FROM 114.246.237.*