Комментарии 2
Mistral выпустила Small 4 — MoE-модель на 119B параметров и 4 активных с контекстом в 256k токенов, мультимодальностью и лицензией Apache 2.0.
На huggingface сказано, что 6.5B активных параметров (и 4 эксперта из 128):
Mistral Small 4 includes the following architectural choices:
MoE: 128 experts, 4 active.
119B parameters, with 6.5B activated per token.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Информация
- Сайт
- timeweb.cloud
- Дата регистрации
- Дата основания
- Численность
- 201–500 человек
- Местоположение
- Россия
- Представитель
- Timeweb Cloud
GPT-5.4 mini, Tesla строит свой TSMC, омары в Китае и $100 за буллинг ИИ