- 主题:巨震!谷歌发布六倍大模型存储压缩技术,将导致内存价格巨跌
楼主这个斯文那囤的内存都砸手上了吧
【 在 Barbarossa 的大作中提到: 】
: 这是事实,但现在内存价格翻了好几倍,现在谷歌这种技术能让内存涨价歪风戛然而止
:
: --发自 ismth(丝滑版)
: --
发自「今日水木 on iPhone 13 Pro」
--
FROM 223.104.3.*
标题跟内容有什么关系呢
内容就是第一段,说的就是缓存
然后后面也没说什么模型压缩
然后,内容里面的大模型gpu配内存那句
很少这样说的
我去年在自己没有独显的计算机上部署了
deepseek 32b,载入内存就可以了
gpu不是必需
大模型本体能载入到内存或者显存就可以了
所以我说后面的内容扯的挺乱
【 在 Barbarossa 的大作中提到: 】
: 你指出一下,哪里乱七八糟,你随便说一个地方。这里我精心编辑过了,比古代文言文还要言简意赅
:
--
FROM 112.2.77.*
这种功能目前看基本不可能,我昨天和豆包的对话,今天再跟他说同一个话题他都跟个白痴一样,完全忘干净了,每次都需要重新调用。
【 在 Barbarossa 的大作中提到: 】
: 原理很简单,比如豆包,如果你问它一个问题,它存起来,下次别人问同样的问题,大模型不需要去动用宝贵的算力资源去算,直接搜索cache里的答案就可以了。
: 大模型GPU必须配套内存(显存+系统内存),且是核心配置。其中GPU显存直接决定跑多大模型,它主要用来存储模型权重,中间数据计算,比如常见的70BDeepSeek需要80GB显存,极简版7B大模型也要13GB。显存不足会直接导致内存溢出,无法运行。
: 除此以外, 系统内存用来辅助加载、预处理数据,通常要求系统内存≥显存容量,如80GB显存配≥128GB内存。显存越大,系统内存需同步增大,否则会导致数据瓶颈。
--
FROM 124.17.26.*
内容很简单
【 在 isxb2 的大作中提到: 】
: 看得出来。
: 你即使平时胡言乱语也经常脉络清晰
:
: 【 在 Barbarossa 的大作中提到: 】
: : 一共三段,第一段介绍谷歌技术工作原理,第二段说大模型显存配置,第三段说系统配置,非常清楚简洁。
: :
--发自 ismth(丝滑版)
--
FROM 14.18.99.*
醍醐灌顶
【 在 liangf 的大作中提到: 】
: 楼主这个斯文那囤的内存都砸手上了吧
: 【 在 Barbarossa 的大作中提到: 】
: : 这是事实,但现在内存价格翻了好几倍,现在谷歌这种技术能让内存涨价歪风戛然而止
: --
:
: FROM 223.104.3.* [北京–朝阳区 移动]
--发自 ismth(丝滑版)
--
FROM 14.18.99.*
每次调用要把完整的历史送过去
【 在 klbs 的大作中提到: 】
: 这种功能目前看基本不可能,我昨天和豆包的对话,今天再跟他说同一个话题他都跟个白痴一样,完全忘干净了,每次都需要重新调用。
: --
发自「今日水木 on iPhone 13 Pro」
--
FROM 223.104.3.*
那你的内存,够用了。显存要存大模型权重数据的,比如你的大模型70G,参数70亿,这些参数都要存的,所以说大模型很吃内存。标题说的是为什么谷歌算法能省内存,因为大模型开起来后,有大量中间数据要存,现在引入缓存,这些中间数据就不需要存了。也就不需要那么多内存
【 在 hut 的大作中提到: 】
: 标题跟内容有什么关系呢
: 内容就是第一段,说的就是缓存
: 然后后面也没说什么模型压缩
: 然后,内容里面的大模型gpu配内存那句
: 很少这样说的
: 我去年在自己没有独显的计算机上部署了
--发自 ismth(丝滑版)
--
FROM 14.18.99.*
没有独显也能工作?难以置信。你的大模型应该配个RTX5090比较合适,否则运行太慢了。三万块绰绰有余了
【 在 hut 的大作中提到: 】
: 标题跟内容有什么关系呢
: 内容就是第一段,说的就是缓存
: 然后后面也没说什么模型压缩
: 然后,内容里面的大模型gpu配内存那句
: 很少这样说的
: 我去年在自己没有独显的计算机上部署了
--发自 ismth(丝滑版)
--
FROM 14.18.99.*
我观察过大模型的运行时候的内存情况,基本上就是大模型本体载入需要的空间,比如32b的本体占硬盘大小20g,那么内存需要20g多点
你说的大模型70b不是70g,参数是700亿,这个需要43g的内存或者显存空间,这个模型我也装过几次
还有,你这里说的缓存跟你主楼说的不一样,主楼的意思有点像网页浏览器的缓存,你现在说的这个有点动态规划的思想,但是大模型推理起来是没法控制细节的,所以你说的不可行,只能是你我问的问题差不多,然后直接不要调用大模型了,直接把答案给后一个问的就可以了,就是网页缓存那种,当然了,问题相似度可以用小模样判断一下
【 在 Barbarossa 的大作中提到: 】
: 那你的内存,够用了。显存要存大模型权重数据的,比如你的大模型70G,参数70亿,这些参数都要存的,所以说大模型很吃内存。标题说的是为什么谷歌算法能省内存,因为大模型开起来后,有大量中间数据要存,现在引入缓存,这些中间数据就不需要存了。也就不需要那么多内存
:
--
FROM 112.2.77.*
671 8b 精度的,纯内存是512g还是1t来着。
后悔没这样搞一把啊,用一年多,现在卖掉就爽了
【 在 Barbarossa 的大作中提到: 】
: 没有独显也能工作?难以置信。你的大模型应该配个RTX5090比较合适,否则运行太慢了。三万块绰绰有余了
:
: 【 在 hut 的大作中提到: 】
: : 标题跟内容有什么关系呢
: : 内容就是第一段,说的就是缓存
: : 然后后面也没说什么模型压缩
--发自 ismth(丝滑版)
--
FROM 27.211.205.*