Обновить

Комментарии 16

Называть китайцев главными конкурентами, и тут же обещать в открытый доступ свою самую крутую версию ИИ? Даже просто запускать 500гб нейронки могут далеко не каждые компании, а вот те кто пилит свою, вполне себе могут этим воспользоваться, а помятуя как китайцы относятся к копирайтам и лицензиям, можно считать что эти наработки будут использованы китайцами для себя.

Так вот возникает вопрос, а нет ли тут какого-то троянского коня? например модель, доступная открыто, будет содержать какой-нибудь незаметный фатальный изъян, который при обычном использовании не критичен, а вот для использования для обучения и дистиляции своих моделей, станет вредить.

Бизнес еще как может. Сколько там десяток-два видеокарт надо? Это порядка миллиона рублей в месяц на аренду. Это несущественные расходы даже для среднего бизнеса.

Добавляйте пару ноликов к цене и проблему в принципе приобрести за рубли и доставить такой объем в россию. Железо тут должно быть серверное, оно дорогое и требовательное.

Десктопное железо гуляет в лучшем случае с 8х 24гб (48гб существует от китайцев но добыть сложно), делите, получаете уже кластер. А из десктопного железа собрать кластер будет сложно, нет соответствующих аппаратных возможностей или софт накладывает ограничения.. в общем это сложно.

В России есть любое количество любого железа в аренду. Цены я в ВК облаке проверил перед тем как постить.

Делить ничего никуда не надо. Можно не парясь прямо нвидии a100 брать.

Цены тут.

Про аренду я не сообразил, у меня стойкое (но в случае с gpu возможно ошибочное) убеждение, что как ни крути но на долгосрок (год или даже пол года) выгоднее собирать свое железо чем арендовать, ведь даже если по деньгам это будет сравнимо, то если сравнивать по итогам, после этого срока железо останется и можно использовать дальше, а вот деньги за аренду тупо сгорят.

p.s. открываю калькулятор по ссылке, луший конфиг по vram что набирается это 4x a100 80gb, это 320гб vram, а для grok2 нужно 500гб

Так два-три хоста возьмите. Не влазит столько gpu в типовой сервер. Достаточную сеть я думаю сделают.

И пропадет вся эффективность на разбиение контекста по сети.

Надо делать все же правильно. Проц с 80 pci линий и 7 карт по 8 линий на карту. Еще 24 линии остается на nvme ssd и про запас.

Не дешево но по бюджету доступно не только для среднего бизнеса но и для селф предпринимателя в сфере ии

Такие машинки у кого-то тоже были. Вроде у Яндекса.

А как оно работает на еще более больших сетках? Которые точно в один сервер не влазят? Явно же есть решения которые не особо производительность ухудшают.

В текущих реалиях оборудование супер быстро морально устаревает.

Да не супер и не быстро. Rtx 3090 24гб для домашней ии фермы вполне еще торт. А с учетом их цены на вторичке просто подарок.

Речь всё же о передовых моделях, а не их выжимках; и о бизнесе, а не личном пользовании, где ты готов попить кофе, прежде чем увидеть результат.

У меня компьютер пятилетней давности тащит все модели. Да, скорость не очень, но время это всего лишь абстракция.
Не всем нужно быстро. Я могу и подождать. Прогнать длинный текст и получить портянку в ответ приватно - бесценно.

А как модель сможет различить эти ситуации? Мне в голову приодит только частота запросов и повторение схожих вопросов. Но и то, и то, имхо, можно легко обойти, например, запустив несколько независимых моделей. Или другим способом.

В опенсорс пойдет Грок-3.

А топовая в данный момент Грок-4 Хэви

Ну всё равно не плохо. Опенаи даже gpt3 не выложили, а сделали отдельную новую. Возможно по бенчам новая лучше и оптимальнее, но в плане поизучать gpt3/3.5T было бы интереснее. Да и с русским было у нее намного лучше чем у oss

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Информация

Сайт
bothub.ru
Дата регистрации
Дата основания
Численность
11–30 человек
Местоположение
Россия
Представитель
Greg Ewin