Комментарии 16
Смело...
Называть китайцев главными конкурентами, и тут же обещать в открытый доступ свою самую крутую версию ИИ? Даже просто запускать 500гб нейронки могут далеко не каждые компании, а вот те кто пилит свою, вполне себе могут этим воспользоваться, а помятуя как китайцы относятся к копирайтам и лицензиям, можно считать что эти наработки будут использованы китайцами для себя.
Так вот возникает вопрос, а нет ли тут какого-то троянского коня? например модель, доступная открыто, будет содержать какой-нибудь незаметный фатальный изъян, который при обычном использовании не критичен, а вот для использования для обучения и дистиляции своих моделей, станет вредить.
Бизнес еще как может. Сколько там десяток-два видеокарт надо? Это порядка миллиона рублей в месяц на аренду. Это несущественные расходы даже для среднего бизнеса.
Добавляйте пару ноликов к цене и проблему в принципе приобрести за рубли и доставить такой объем в россию. Железо тут должно быть серверное, оно дорогое и требовательное.
Десктопное железо гуляет в лучшем случае с 8х 24гб (48гб существует от китайцев но добыть сложно), делите, получаете уже кластер. А из десктопного железа собрать кластер будет сложно, нет соответствующих аппаратных возможностей или софт накладывает ограничения.. в общем это сложно.
Про аренду я не сообразил, у меня стойкое (но в случае с gpu возможно ошибочное) убеждение, что как ни крути но на долгосрок (год или даже пол года) выгоднее собирать свое железо чем арендовать, ведь даже если по деньгам это будет сравнимо, то если сравнивать по итогам, после этого срока железо останется и можно использовать дальше, а вот деньги за аренду тупо сгорят.
p.s. открываю калькулятор по ссылке, луший конфиг по vram что набирается это 4x a100 80gb, это 320гб vram, а для grok2 нужно 500гб
Так два-три хоста возьмите. Не влазит столько gpu в типовой сервер. Достаточную сеть я думаю сделают.
И пропадет вся эффективность на разбиение контекста по сети.
Надо делать все же правильно. Проц с 80 pci линий и 7 карт по 8 линий на карту. Еще 24 линии остается на nvme ssd и про запас.
Не дешево но по бюджету доступно не только для среднего бизнеса но и для селф предпринимателя в сфере ии
В текущих реалиях оборудование супер быстро морально устаревает.
У меня компьютер пятилетней давности тащит все модели. Да, скорость не очень, но время это всего лишь абстракция.
Не всем нужно быстро. Я могу и подождать. Прогнать длинный текст и получить портянку в ответ приватно - бесценно.
А как модель сможет различить эти ситуации? Мне в голову приодит только частота запросов и повторение схожих вопросов. Но и то, и то, имхо, можно легко обойти, например, запустив несколько независимых моделей. Или другим способом.
В опенсорс пойдет Грок-3.
А топовая в данный момент Грок-4 Хэви
Маск пообещал релиз Grok 3 в опенсорсе через полгода