+
31
-

回答

是学术性算法研究,还没有用于实战

谷歌研究院于 2026 年 3 月 25 日 发布的 AI 模型压缩算法TurboQuant

核心目标:压缩大语言模型的 键值缓存(KV Cache),解决内存瓶颈问题

技术原理:结合 PolarQuant(极坐标压缩) + QJL(量化 Johnson-Lindenstrauss 变换) 的双阶段压缩框架 

官方宣称效果:内存占用降低 6 倍,推理速度提升 8 倍,且不损失模型精度 

网友回复

我知道答案,我要回答