问下本地部署入门问题

水木社区手机版

主题:问下本地部署入门问题
1楼|ArchLinux|2026-03-18 09:47:35|展开
Qwen3.5 35B-A3B Q4或者Q3量化，用 llama.cpp 推理，部分权重放到内存上用CPU跑，如果不需要视觉功能可以不加载视觉部分的权重。

【在 dadou 的大作中提到: 】
: 16G的5060Ti卡能部署什么大模型，能达到什么水平，千问，DS还是哪个更好？
: --发自 ismth(丝滑版)
--
FROM 114.246.237.*
6楼|ArchLinux|2026-03-18 14:08:52|展开
大多数开放权重的大模型都是商业公司训练的，真正的开源（包括数据集）模型像Allen AI OLMo和NVIDIA Nemotron这些也是有公司搞的。

【在 ssteym 的大作中提到: 】
: 个人为什么一定要考虑自己配大模型呢？
: 开源的再好，能比官方的更好？
: 我不明白的是：开源大模型是怎么训练的啊？如果不是商业公司的话，普通人无法无力
: ...................
--
FROM 114.246.237.*
8楼|ArchLinux|2026-03-18 14:25:33|展开
4个PCIe口要上服务器主板了吧，另外这卡好像要自己改散热。

【在 xeh 的大作中提到: 】
: 我作为过来人
: 建议如下：堆便宜的tesla 16g（P100）4个 ubuntu ollama(vllm好像需要某个级别以上跑不了） 64g可以跑比较有用的ollama模型了
: 16g的实在不建议
: ...................
--
FROM 114.246.237.*

BYR-Team©2010. KBS Dev-Team©2011 登录完整版