meliksetyan25 мар в 20:46

TurboQuant. Новый алгоритм сжатия от Google

Средний

4 мин

18K

Сжатие данных * Алгоритмы * Исследования и прогнозы в IT *

Обзор

Recovery Mode

+12

Комментарии 14

Triton5 25 мар в 23:01

Уменьшение размера KV-кеша напрямую снимает основное ограничение для увеличения контекстного окна т.е. количество памяти VRAM под KV кэш, так что это очень хорошо.

Petr_axeman 26 мар в 05:39

Проблема в том что внимание в контексте очень неравномерное, так что если к примеру контекст увеличится в 2 раза, возможно мы получим ещё больший разрыв во внимании модели к краям и к центру контекста.

Petr_axeman 26 мар в 05:34

Говоря по-русски, bottleneck

Сильное утверждение. Текст точно не написан ИИ, и конечно же "честно честно проходил вычитку.

meliksetyan 26 мар в 07:41

Я рад, что вы оценили прикол.

Либо это я сейчас не выкупил ваш сарказм.

Zirgius 26 мар в 12:32

Це был сарказм, рад что хоть кто-то оценил

Winand 30 мар в 22:36

А точнее - ирония

mz_1350 30 мар в 13:10

ИИ точно есть, но и бог с ним

Здесь важно понимать, что выигрыш идёт не из «магии алгоритма», а из более прозаичной вещи - нужно просто меньше читать из памяти.

murkin-kot 26 мар в 08:50

А почему только кэш?

Сами сетки давно пора сжимать. Да, на обработке запроса будут потери, но это же копейки, процентов 10 при и так очень большой скорости (в сравнении с генерацией). Зато генерацию это ускорит в разы.

В общем гуглы как-то примитивно к вопросу подошли. Сказали А, нужно и Б сказать.

GidraVydra 26 мар в 11:53

Сетки и так уже сжимают так, что аж треск стоит.

memfd 27 мар в 06:51

Друзья, скрестим пальцы, что это хоть немного собьёт цены на RAM/VRAM память..

Zombieleaver 28 мар в 06:38

это позволить увеличить мощность за так - теперь они могут дешевле все это обрабатывать, спрос то не будет уменьшаться, больше приятности что для локальных моделей это будет бустом

maaGames 28 мар в 08:28

Не собьёт. Там экономии сотни мегабайт для 32КБ контекста (KV было 600МБ, стало 150МБ? при самой модели 34ГБ). Если проигнорировать производительность и ухудшение качества, то в настройках LLM можно для KV кэша включить Q4 квантизацию, вместо FP16, и получить примерно такой же выигрыш (уменьшится ровно в 4 раза). Просто чтобы примрено оценить на реальных моделях, сколько памяти удастся выиграть. У TurboQuant сжатие обещают без ухудшения качества, да ещё и рост скорости и это круто, но на потребности в памяти это никак не скажется, цены из-за этого не упадут.

trig-ger 30 мар в 07:36

А это правда или нет, что в статье авторов есть серьёзный изъян?
https://dtf.ru/id2624260/4919452-kriticheskaya-oshibka-v-statie-google-o-turboquant
https://x.com/gaoj0017/status/2037532673812443214
https://openreview.net/forum?id=tO3ASKZlok

qcwa 30 мар в 09:07

Какое совпадение, как раз пару месяцев назад с Gemini ИИ разбирал/разрабатывал подобные идеи, только более продвинутые в конечном итоге. Странно.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий