Комментарии 14
Уменьшение размера KV-кеша напрямую снимает основное ограничение для увеличения контекстного окна т.е. количество памяти VRAM под KV кэш, так что это очень хорошо.
Говоря по-русски, bottleneck
Сильное утверждение. Текст точно не написан ИИ, и конечно же "честно честно проходил вычитку.
А почему только кэш?
Сами сетки давно пора сжимать. Да, на обработке запроса будут потери, но это же копейки, процентов 10 при и так очень большой скорости (в сравнении с генерацией). Зато генерацию это ускорит в разы.
В общем гуглы как-то примитивно к вопросу подошли. Сказали А, нужно и Б сказать.
Друзья, скрестим пальцы, что это хоть немного собьёт цены на RAM/VRAM память..
это позволить увеличить мощность за так - теперь они могут дешевле все это обрабатывать, спрос то не будет уменьшаться, больше приятности что для локальных моделей это будет бустом
Не собьёт. Там экономии сотни мегабайт для 32КБ контекста (KV было 600МБ, стало 150МБ? при самой модели 34ГБ). Если проигнорировать производительность и ухудшение качества, то в настройках LLM можно для KV кэша включить Q4 квантизацию, вместо FP16, и получить примерно такой же выигрыш (уменьшится ровно в 4 раза). Просто чтобы примрено оценить на реальных моделях, сколько памяти удастся выиграть. У TurboQuant сжатие обещают без ухудшения качества, да ещё и рост скорости и это круто, но на потребности в памяти это никак не скажется, цены из-за этого не упадут.
А это правда или нет, что в статье авторов есть серьёзный изъян?
https://dtf.ru/id2624260/4919452-kriticheskaya-oshibka-v-statie-google-o-turboquant
https://x.com/gaoj0017/status/2037532673812443214
https://openreview.net/forum?id=tO3ASKZlok
Какое совпадение, как раз пару месяцев назад с Gemini ИИ разбирал/разрабатывал подобные идеи, только более продвинутые в конечном итоге. Странно.

TurboQuant. Новый алгоритм сжатия от Google