Обновить

Комментарии 26

Это лучшая новость в области ML за последние недели! Разворот рынка, удар по повышении цен и новые форки от энтузиастов с Qwen/SoloHeaven/llama.cpp

Ждем, чтобы unsloth выпустил новые кванты)

А ещё лучше один бит, угадал / не угадал.

Зачем 2 угадал / не угадал на 2 бита если можно на 1!

Не побоюсь этого слова, но выглядит слишком хорошо, чтобы быть правдой. я не смотрел источники - каюсь - но думаю, что окажется, что в реальности “точность ответов модели составляет 95%, чего достаточно для всех, кто спрашивает про погоду и рецепт приготовления глазуньи”

И - мне очень трудо поверить, что научная статья повлияла на биржу. не тот масштаб. вот когда новые NVIDIA H101 с этой технологией появятся - тогда может быть…

Эту технологию не нужно вставлять в железо, она интегрируется прямо в нейросети.

Даже если модель чуть-чуть отупеет, экономия VRAM в 5-6 раз окупит эту потерю с лихвой. Для бизнеса запустить агента поддержки, который глупее на 5%, но дешевле в обслуживании в 6 раз считай сделка века)

Не очень понятно почему нейросети не кэшируют ответы. Например миллион человек спросит "что такое бит?". Можно было бы не тратить можности и не генерировать каждый раз новый ответ.

Потому что они учитывают бэкграунд разговоров, личность говорящего, его персональные данные и тд

Так такое по сути гугл уже 20 лет фиксирует, кто что спросил и что ему ответили.

Чисто технически, кэш на это присутствует, но в данном случае это сработает, если это будет единственным запросом. Модель знает историю чата, только потому что туда заносится вся история чата с контекстом и поэтому этот контекст постоянно увеличивается. Есть интсрументы по типу LMCache но данная статья направлена на обучение моделей с уже квантованием, если я правильно понял

Кэшируют, но не на уровне генерации токенов. Запрос "что такое бит" от Василисы, которой 10 лет, и от Семена, который пишет диплом по информатике, имеет разный контекст

Выдача закэшированного ответа убьет суть персонализированного диалогового ИИ

А почему высчитаете, что не кеширует? Не в лоб «вопрос-ответ», конечно, а более глубокие слои?

Изучал это исследование, отличный подход для сжатия памяти, но это не значит, что вычислений станет меньше, просто станет ещё более доступным

Майрософт с ее BitNet опять все рынки игнорируют :)

Релиз был еще полтора года назад, видать для промышленной генерации не подходит.

Ещё вариант: Уолл Стрит была не на статью Google

Для BitNet нужно новое железо, а для TurboQuant - нет.

Так ИИ индустрия итак переоценена :)

Инженеры Нвилии годами впаривали рынку все более дорогие чипы, а тут пришел гугловский математик с бумажкой и формулой из линейной алгебры и обрушил акции на миллиарды долларов, вот что значит сила науки!

 сжать так называемый KV-кэш (память, в которой нейросеть удерживает контекст диалога) до 3 бит

Не пойму, почему никто не спросил, есть ли у них алгоритм разархивирования KV-кэша из этих 3 бит.

Но только почему-то вывод делается противоположный. Ну, т.е. если я колебался, купить ли мне карточку RTX PRO 6000 Blackwell, то теперь, когда оно эффективнее чуть ли не на порядок, этот вопрос решается сам собой. Более того, нужно срочно купить их на всю кредитоспособность!

Это как с паровой машиной Джеймса Уатта, КПД которой было в разы выше:

Экономисты ликовали считая, что потребление угля после этого сократится в несколько раз. Но произошло обратное. Уатт снизил расход угля настолько, что двигатель стал экономически выгодным не только в шахтах, а в любом месте — на текстильных фабриках, мельницах, металлургических заводах. И это запустило промышленную революцию. В результате потребление угля в Британии за XIX век выросло примерно в 20 раз. Этим заинтересовался английский философ и экономист Уильям Стэнли Джевонс, написавший книгу «Угольный вопрос». В честь него этот эффект получил название «Парадокс Джевонса»: рост эффективности использования ресурса ведет не к уменьшению, а к увеличению его потребления.

этот алгоритм применяется только для сжатия kv кеша

Гемини-фдеш в последнее время начала слишком быстро терять контекст (заметил в веб-версии), а 3.1-про через api несколько раз у меня уходила в цикл рассуждений и не могла из него выйти. Надеюсь, это временно и никак не связано с их новой технологией

Очень интересно, но ничего не понятно. Но если серьезно, то тут есть сходство с ДНК-алгоритмами, там 4-х битное кодирование, вроде бы с пространственной коррекцией. Видимо Google ведет в этом большие исследования. Потом останется добавить ЭГО в ИИ и все, пипец =)

“есть три битА, и больше ни черта” (с)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости