ARad26 мар в 07:28

Новый 3-битный алгоритм Google заставил рынок переоценить ИИ-индустрию

2 мин

11K

Искусственный интеллектКомпьютерное железоIT-компанииМашинное обучение * Алгоритмы *

+27

Комментарии 26

Annsky 26 мар в 08:12

Это лучшая новость в области ML за последние недели! Разворот рынка, удар по повышении цен и новые форки от энтузиастов с Qwen/SoloHeaven/llama.cpp

tvivan 26 мар в 09:02

Ждем, чтобы unsloth выпустил новые кванты)

vadimr 26 мар в 08:18

А ещё лучше один бит, угадал / не угадал.

hbotv1t 26 мар в 13:23

Зачем 2 угадал / не угадал на 2 бита если можно на 1!

Junecat 26 мар в 08:24

Не побоюсь этого слова, но выглядит слишком хорошо, чтобы быть правдой. я не смотрел источники - каюсь - но думаю, что окажется, что в реальности “точность ответов модели составляет 95%, чего достаточно для всех, кто спрашивает про погоду и рецепт приготовления глазуньи”

И - мне очень трудо поверить, что научная статья повлияла на биржу. не тот масштаб. вот когда новые NVIDIA H101 с этой технологией появятся - тогда может быть…

BlackMokona 26 мар в 08:33

Эту технологию не нужно вставлять в железо, она интегрируется прямо в нейросети.

akuli 26 мар в 12:58

Даже если модель чуть-чуть отупеет, экономия VRAM в 5-6 раз окупит эту потерю с лихвой. Для бизнеса запустить агента поддержки, который глупее на 5%, но дешевле в обслуживании в 6 раз считай сделка века)

zabelinleo 26 мар в 08:27

Не очень понятно почему нейросети не кэшируют ответы. Например миллион человек спросит "что такое бит?". Можно было бы не тратить можности и не генерировать каждый раз новый ответ.

BlackMokona 26 мар в 08:34

Потому что они учитывают бэкграунд разговоров, личность говорящего, его персональные данные и тд

freeExec 26 мар в 08:59

Так такое по сути гугл уже 20 лет фиксирует, кто что спросил и что ему ответили.

tvivan 26 мар в 09:01

Чисто технически, кэш на это присутствует, но в данном случае это сработает, если это будет единственным запросом. Модель знает историю чата, только потому что туда заносится вся история чата с контекстом и поэтому этот контекст постоянно увеличивается. Есть интсрументы по типу LMCache но данная статья направлена на обучение моделей с уже квантованием, если я правильно понял

akuli 26 мар в 13:04

Кэшируют, но не на уровне генерации токенов. Запрос "что такое бит" от Василисы, которой 10 лет, и от Семена, который пишет диплом по информатике, имеет разный контекст

Выдача закэшированного ответа убьет суть персонализированного диалогового ИИ

Ilusha 26 мар в 23:28

А почему высчитаете, что не кеширует? Не в лоб «вопрос-ответ», конечно, а более глубокие слои?

tvivan 26 мар в 08:43

Изучал это исследование, отличный подход для сжатия памяти, но это не значит, что вычислений станет меньше, просто станет ещё более доступным

StriganovSergey 26 мар в 08:59

Майрософт с ее BitNet опять все рынки игнорируют :)

ARad 26 мар в 12:40

Релиз был еще полтора года назад, видать для промышленной генерации не подходит.

weerf 26 мар в 18:22

Ещё вариант: Уолл Стрит была не на статью Google

Ingref 27 мар в 12:56

Для BitNet нужно новое железо, а для TurboQuant - нет.

Dmitry_604 26 мар в 11:21

Так ИИ индустрия итак переоценена :)

akuli 26 мар в 12:50

Инженеры Нвилии годами впаривали рынку все более дорогие чипы, а тут пришел гугловский математик с бумажкой и формулой из линейной алгебры и обрушил акции на миллиарды долларов, вот что значит сила науки!

Nikita_64 26 мар в 13:20

сжать так называемый KV-кэш (память, в которой нейросеть удерживает контекст диалога) до 3 бит

Не пойму, почему никто не спросил, есть ли у них алгоритм разархивирования KV-кэша из этих 3 бит.

Smolensk 26 мар в 16:15

Но только почему-то вывод делается противоположный. Ну, т.е. если я колебался, купить ли мне карточку RTX PRO 6000 Blackwell, то теперь, когда оно эффективнее чуть ли не на порядок, этот вопрос решается сам собой. Более того, нужно срочно купить их на всю кредитоспособность!

Это как с паровой машиной Джеймса Уатта, КПД которой было в разы выше:

Экономисты ликовали считая, что потребление угля после этого сократится в несколько раз. Но произошло обратное. Уатт снизил расход угля настолько, что двигатель стал экономически выгодным не только в шахтах, а в любом месте — на текстильных фабриках, мельницах, металлургических заводах. И это запустило промышленную революцию. В результате потребление угля в Британии за XIX век выросло примерно в 20 раз. Этим заинтересовался английский философ и экономист Уильям Стэнли Джевонс, написавший книгу «Угольный вопрос». В честь него этот эффект получил название «Парадокс Джевонса»: рост эффективности использования ресурса ведет не к уменьшению, а к увеличению его потребления.

Urichi 30 мар в 09:05

этот алгоритм применяется только для сжатия kv кеша

SmDn 27 мар в 01:16

Гемини-фдеш в последнее время начала слишком быстро терять контекст (заметил в веб-версии), а 3.1-про через api несколько раз у меня уходила в цикл рассуждений и не могла из него выйти. Надеюсь, это временно и никак не связано с их новой технологией

sergo44 27 мар в 06:55

Очень интересно, но ничего не понятно. Но если серьезно, то тут есть сходство с ДНК-алгоритмами, там 4-х битное кодирование, вроде бы с пространственной коррекцией. Видимо Google ведет в этом большие исследования. Потом останется добавить ЭГО в ИИ и все, пипец =)

kaptnemo 27 мар в 07:05

“есть три битА, и больше ни черта” (с)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий