- 主题:巨震!谷歌发布六倍大模型存储压缩技术,将导致内存价格巨跌
斯文那
【 在 isxb2 的大作中提到: 】
: 671 8b 精度的,纯内存是512g还是1t来着。
: 后悔没这样搞一把啊,用一年多,现在卖掉就爽了
:
: --发自 ismth(丝滑版)
: --
发自「今日水木 on iPhone 13 Pro」
--
FROM 223.104.3.*
纯内存一秒蹦不出几个字,心累。
【 在 hut 的大作中提到: 】
: 我观察过大模型的运行时候的内存情况,基本上就是大模型本体载入需要的空间,比如32b的本体占硬盘大小20g,那么内存需要20g多点
: 你说的大模型70b不是70g,参数是700亿,这个需要43g的内存或者显存空间,这个模型我也装过几次
:
: 还有,你这里说的缓存跟你主楼说的不一样,主楼的意思有点像网页浏览器的缓存,你现在说的这个有点动态规划的思想,但是大模型推理起来是没法控制细节的,所以你说的不可行,只能是你我问的问题差不多,然后直接不要调用大模型了,直接把答案给后一个问的就可以了,就是网页缓存那种,当然了,问题相似度可以用小模样判断一下
: 【 在 Barbarossa 的大作中提到: 】
: : 那你的内存,够用了。显存要存大模型权重数据的,比如你的大模型70G,参数70亿,这些参数都要存的,所以说大模型很吃内存。标题说的是为什么谷歌算法能省内存,因为大模型开起来后,有大量中间数据要存,现在引入缓存,这些中间数据就不需要存了。也就不需要那么多内存
--发自 ismth(丝滑版)
--
FROM 27.211.205.*
当然了,我都装过多少次了
我计算机基本上都是没有独显
一般是1500一台(内存涨价前买的价格)
我有好多台,板上都发过
内存32g,跑deepseek 32b,它只需要20多g内存
没有独显,cpu做推理,也就慢点而已,个人玩玩,无所谓
【 在 Barbarossa 的大作中提到: 】
: 没有独显也能工作?难以置信。你的大模型应该配个RTX5090比较合适,否则运行太慢了。三万块绰绰有余了
:
--
FROM 112.2.77.*
稳拿,不要嘲笑我等地青
【 在 liangf 的大作中提到: 】
: 斯文那
: 【 在 isxb2 的大作中提到: 】
: : 671 8b 精度的,纯内存是512g还是1t来着。
: : 后悔没这样搞一把啊,用一年多,现在卖掉就爽了
--发自 ismth(丝滑版)
--
FROM 27.211.205.*
至少是可以的
所以我说楼主找来的资料乱乱的
【 在 isxb2 的大作中提到: 】
: 纯内存一秒蹦不出几个字,心累。
:
--
FROM 112.2.77.*
那都说了几十条了,且完整的历史发过去也不能改变根本问题,他仍然要去数据库调用原始素材,且他的时间线真是太糟糕了,这也是所有AI的共性问题,基本没有时间概念,得反复提醒。
【 在 liangf 的大作中提到: 】
: 每次调用要把完整的历史送过去
: 发自「今日水木 on iPhone 13 Pro」
--
FROM 124.17.26.*
时间概念大模型管不了,这可以交给大模型前端处理,大模型只是按段落里的字词顺序来生成
【 在 klbs 的大作中提到: 】
: 那都说了几十条了,且完整的历史发过去也不能改变根本问题,他仍然要去数据库调用原始素材,且他的时间线真是太糟糕了,这也是所有AI的共性问题,基本没有时间概念,得反复提醒。
--
FROM 112.2.77.*
说的就是产品本身的缺陷
【 在 hut 的大作中提到: 】
: 时间概念大模型管不了,这可以交给大模型前端处理,大模型只是按段落里的字词顺序来生成
--
FROM 124.17.26.*
他是富人,不需要了解穷人怎么活
【 在 hut 的大作中提到: 】
: 至少是可以的
: 所以我说楼主找来的资料乱乱的
:
: 【 在 isxb2 的大作中提到: 】
: : 纯内存一秒蹦不出几个字,心累。
--发自 ismth(丝滑版)
--
FROM 27.211.205.*
而且他连大模型的参数数量大小也不是很明白
一会70g一会70亿的
再加上他没搞明白大模型的推理运行机理
内存显存缓存混乱
所以我说他不是搞it的,他还不服
【 在 isxb2 的大作中提到: 】
: 他是富人,不需要了解穷人怎么活
:
--
FROM 112.2.77.*