好像rotorquant号称吊打turboquant了
【 在 z16166 的大作中提到: 】
: 目前在开源社区(尤其是 LocalLLM 和 llama.cpp 圈子)里主要指向两个核心实现,它们是让 3090 这种 24G 显存老卡强行吃下 10 万上下文(100k Context)的关键:
: 1. 核心复现库:OmarHory / TurboQuant
: 这是在 Google 论文发布后 48 小时内出现的第一个高质量第三方实现。
: ...................
--
FROM 117.11.95.*