Google发布了新压缩算法TurboQuant,目标是在降低大语言模型(LLM)内存占用的同时,提高运行效率。 据外媒Ars Technica当地时间25日报道,TurboQuant主要针对大语言模型中用于存储上下文信息的Key-Value Cache(KV缓存)。Google表示,该算法旨在在减少内存使用的同时 ...