Обновить

Комментарии 14

Уменьшение размера KV-кеша напрямую снимает основное ограничение для увеличения контекстного окна т.е. количество памяти VRAM под KV кэш, так что это очень хорошо.

Проблема в том что внимание в контексте очень неравномерное, так что если к примеру контекст увеличится в 2 раза, возможно мы получим ещё больший разрыв во внимании модели к краям и к центру контекста.

Говоря по-русски, bottleneck

Сильное утверждение. Текст точно не написан ИИ, и конечно же "честно честно проходил вычитку.

Я рад, что вы оценили прикол.

Либо это я сейчас не выкупил ваш сарказм.

Це был сарказм, рад что хоть кто-то оценил

А точнее - ирония

ИИ точно есть, но и бог с ним

 Здесь важно понимать, что выигрыш идёт не из «магии алгоритма», а из более прозаичной вещи - нужно просто меньше читать из памяти.

А почему только кэш?

Сами сетки давно пора сжимать. Да, на обработке запроса будут потери, но это же копейки, процентов 10 при и так очень большой скорости (в сравнении с генерацией). Зато генерацию это ускорит в разы.

В общем гуглы как-то примитивно к вопросу подошли. Сказали А, нужно и Б сказать.

Сетки и так уже сжимают так, что аж треск стоит.

Друзья, скрестим пальцы, что это хоть немного собьёт цены на RAM/VRAM память..

это позволить увеличить мощность за так - теперь они могут дешевле все это обрабатывать, спрос то не будет уменьшаться, больше приятности что для локальных моделей это будет бустом

Не собьёт. Там экономии сотни мегабайт для 32КБ контекста (KV было 600МБ, стало 150МБ? при самой модели 34ГБ). Если проигнорировать производительность и ухудшение качества, то в настройках LLM можно для KV кэша включить Q4 квантизацию, вместо FP16, и получить примерно такой же выигрыш (уменьшится ровно в 4 раза). Просто чтобы примрено оценить на реальных моделях, сколько памяти удастся выиграть. У TurboQuant сжатие обещают без ухудшения качества, да ещё и рост скорости и это круто, но на потребности в памяти это никак не скажется, цены из-за этого не упадут.

Какое совпадение, как раз пару месяцев назад с Gemini ИИ разбирал/разрабатывал подобные идеи, только более продвинутые в конечном итоге. Странно.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации