我观察过大模型的运行时候的内存情况,基本上就是大模型本体载入需要的空间,比如32b的本体占硬盘大小20g,那么内存需要20g多点
你说的大模型70b不是70g,参数是700亿,这个需要43g的内存或者显存空间,这个模型我也装过几次
还有,你这里说的缓存跟你主楼说的不一样,主楼的意思有点像网页浏览器的缓存,你现在说的这个有点动态规划的思想,但是大模型推理起来是没法控制细节的,所以你说的不可行,只能是你我问的问题差不多,然后直接不要调用大模型了,直接把答案给后一个问的就可以了,就是网页缓存那种,当然了,问题相似度可以用小模样判断一下
【 在 Barbarossa 的大作中提到: 】
: 那你的内存,够用了。显存要存大模型权重数据的,比如你的大模型70G,参数70亿,这些参数都要存的,所以说大模型很吃内存。标题说的是为什么谷歌算法能省内存,因为大模型开起来后,有大量中间数据要存,现在引入缓存,这些中间数据就不需要存了。也就不需要那么多内存
:
--
FROM 112.2.77.*