Обновить
2
Анна Севрюкова@Annsky

Разработчик

0,2
Рейтинг
Отправить сообщение

Я указывала не на проблему между "текущая дата" и просто "дата", а на отсутствие контекста - "текущая дата у меня, AI модели?" или "текущая дата у меня, пользователя?"

Текущая дата AI модели != текущая дата пользователя. Она не живет в нашем мире, она имеет восприятие в своем абстрактном пространстве, и имеет отличное от человека восприятие времени, в том числе текущего.

У вас проблема видимо есть. У меня - нет. Для меня ответы модели с ее контекста для меня даже полезны, я исследователь в области AI. Я предложила вам уточнить промт - какая сейчас дата у меня, пользователя? И посмотреть на результат. Тогда - будет действительно понятно, насколько сильно модели врут.

Откуда такой атракцион невиданной щедрости? Все современные модели + - хороши в любых задачах, особенно при правильных промтах и уточнениях.

Всегда ли будет такая цена, или это заманивание клиентов - хороший вопрос.

Смешались агрегаторы, инструменты поверх моделей и конкретные модели.

Я трачу около 50 миллионов токенов в день. Вы понимаете, что такое безлимит? Безлимитный интернет это когда я могу потратить терабайты трафика, а не просто на сайтах посидеть. Безлимитный АИ это 6-7 чатов по 8 часов в день. Поэтому не надо так.

И какие лимиты в подписке по сравнению с тем же Claude за 20$? Или с ним же который за 200$? Дешевле эта подписка получается или дороже?
Мне нравится MiniMax, но я перепробовала много подписок и могу сказать что все они утыкаются в 200$ за возможность пользоваться по 8 часов день в несколько параллельных чатов.
Вы пишите, что нашли подписочную модель - но Codex (OpenAI), Gemini CLI (Google) тоже могут по подписке. Вы могли попробовать и их.

Это лучшая новость в области ML за последние недели! Разворот рынка, удар по повышении цен и новые форки от энтузиастов с Qwen/SoloHeaven/llama.cpp

Ваш эксперимент не состоятелен. У восприятия ИИ есть дата, вполне конкретная, и она ее называет. Задайте промт - какая сейчас дата в реальном мире меня, пользователя? - и тогда будет по честному. Не забывайте, что во всем в мире есть контекст, и у ИИ тоже есть свой контекст. Она не научена и не обязана мыслить контекстом пользователя.

Да, спасибо за поправку
OPUS-MT (Helsinki-NLP) - вот точная модель перевода.

OPUS-MT (Helsinki-NLP)
~300 MB на пару
~600 tok/s CPU,
~9000 tok/s GPU
Самая быстрая. Отдельная модель на каждую языковую пару (opus-mt-en-ruopus-mt-ru-en).
С CTranslate2 + INT8 ещё 3-4x ускорение. Open-source (Apache 2.0).

Статью напишу, пришлю вам в личку, на днях.

CTranslate2. Запустилось даже как-то в GPU под Adreno 530. Вообще Adreno 530, Android 8 и Vulkan 1.1 очень капризные. Простым ONNX не отделаться - тут вам и py tourch собери с отключенными флагами современных процессоров, и разные комбинации попробуй, чтобы это все таки зашло в GPU а не CPU. Qwen 3.5 0.8b так и осталась в CPU.

У меня тут много всего. И распознавание, и свои мультиагентные системы, и подача ИИ идеи что она Декарт я мыслю следовательно есть Qualia. Что вам интересно? В каком формате? (блог, одна большая статья на один раз).

Это мета уровень. Статистика статистики. Эвристика эвристик. Ничего особенного нет, но именно reasoning превратил машину из реактива в мыслителя.

А мне еще не понятно - оптоволоконные кабели - вот они. Гоняйте между CPU, GPU на километры. Интегрируйте их в шину GPU. Технология то давно есть, не описано, как именно новая архитектура будет ее использовать.

Воу воу, интеграция с эквайрингом банка все равно ведь?

Очень щедро с вашей стороны поделиться рабочей бизнес моделью с высоким уровнем автоматизации. Снимаю шляпу!

Все будет. Модели развиваются. Несколько лет назад reasoning (цепочка рассуждений) выглядела как фантастический киберпанк. Моделям нужно научиться большему числу интеллектуальных приемов, навыков.

Если вы не ИИ маньяк. Мой workflow (хобби проекты, десятки) - по 6 сессий по 8 часов в день. Встаю в 6 утра чтобы скорее начать. Мне хватает Max лимитов дорогой подписки фронтир модели (Claude, сейчас Codex, Gemini бесплатно дает больше, чем платно), и я строю инфраструктуру - вот это все "отмасштабировать" - чтобы перестать столько платить, и чтобы собственно, работать в случае "я в самолете". Модели fast translate text, vision, computer use, Silera TTS, STT, у меня еще список в ресерчах на 20 видов моделей, списки локальных версий, которые можно запускать на GPU телефона, на GPU mac m1, на 3080, списки недорогих подписок (midjourney, подписки для генерации 3д моделей, текстур, конфиги Comfy UI), 6 устройств - пара macbook, PC 3080, samsung s23 с proot debian внутри с XFCE + VNC + open server, xperia III, потому что 4к на телефоне и дешево и крайне качественно для VR игр по moonlight (Dark Souls 3 в 3d!), в каждом устройстве по несколько open-server на разные виды деятельности.
И ipad mini 6 с кастомной клавиатурой чехлом, чтобы править ими всеми (с) - помещается в карман куртки и удобно программировать в кафе, в пути, не таская рюкзак (хронически больные мышцы).

И это я еще не самый энтузиаст, кто-то выжигает Max лимиты за пару дней и имеет несколько подписок.

Qwen 3.5 вышла 2 марта и уже резонирует. Множество локальных специализированных моделей.

Я сделала лайф хак - модель fast translate переводит русский в english и дает промт Qwen 3.5 0.8b (именно так, 0.8b), модель на английском работает на порядки качественнее чем с русскими промтами, отвечает на английском, и другой fast translate (и туда и обратно около 100мс всего) переводит на русский. В итоге я работаю с Qwen 0.8b на русском, а под капотом она максимально эффективна насколько может.

Silera TTS - старый телефон 2016 года

Телефон: OnePlus 3T (A3003)

процессор: Qualcomm Snapdragon 821

графика: Adreno 530

RAM: 6 GB

Vulkan: 1.1

В 2016 году стоил 400$, сейчас б/у - 40$, я собрала tourch под старый arm, и если на CPU фраза Привет, как дела? генерировалась 30 секунд, на GPU этого телефона случился real time - 0.5-1c на генерацию. Локально. Качественный TTS. На телефоне за 40$. Без зависимостей от интернета. Ставлю туда Qwen 0.8b, чтобы сделать "Алису по прикольнее".

И это я еще просто энтузиаст.

Это очень круто! Знает кто-нибудь подобное под typescript? zig?

Впервые! Ждем новость, когда их число превысит снова эту цифру.) Или в третий раз.)

Не знаю живой он или нет, но кросскомпиляция из коробки за 200мб под любую архитектуру и ОС это киллер-фича лично для меня.

1

Информация

В рейтинге
3 048-я
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирована
Активность

Специализация

Фулстек разработчик, Разработчик игр
Ведущий
От 300 000 ₽
TypeScript
React
React Native
WebGL
Redux
Next.js
БЭМ