简单来说,算力资源的利用效率更高了。同样的存储资源,可以吞吐更多数量的Token。
市场对此演绎2种逻辑:
1、利空存储厂商。之前AI基建扩张,导致存储产能严重不足。现在这玩意出来,市场部分观点,认为存储紧缺状况将会缓解。
2、继续利好存储厂商。算力效率提升,Token成本极大下降,AI应用加速普及。整体存储需求更加旺盛,产能短缺问题暂时难解。这是市场另一部分观点。
这种分歧,短期恐怕难求一致。看后续怎么演绎了。
我个人偏向第二种。
【 在 Barbarossa 的大作中提到: 】
: 原理很简单,比如豆包,如果你问它一个问题,它存起来,下次别人问同样的问题,大模型不需要去动用宝贵的算力资源去算,直接搜索cache里的答案就可以了。
: 大模型GPU必须配套内存(显存+系统内存),且是核心配置。其中GPU显存直接决定跑多大模型,它主要用来存储模型权重,中间数据计算,比如常见的70BDeepSeek需要80GB显存,极简版7B大模型也要13GB。显存不足会直接导致内存溢出,无法运行。
: 除此以外, 系统内存用来辅助加载、预处理数据,通常要求系统内存≥显存容量,如80GB显存配≥128GB内存。显存越大,系统内存需同步增大,否则会导致数据瓶颈。
: ...................
--
FROM 39.171.200.*