Комментарии / Профиль Annsky / Хабр

Анна Севрюкова@Annsky

Разработчик

0,2

Рейтинг

Я задал очень простой вопрос, но 76% ИИ-моделей мне соврали

Я указывала не на проблему между "текущая дата" и просто "дата", а на отсутствие контекста - "текущая дата у меня, AI модели?" или "текущая дата у меня, пользователя?"

Текущая дата AI модели != текущая дата пользователя. Она не живет в нашем мире, она имеет восприятие в своем абстрактном пространстве, и имеет отличное от человека восприятие времени, в том числе текущего.

Я задал очень простой вопрос, но 76% ИИ-моделей мне соврали

Annsky 11 часов назад

У вас проблема видимо есть. У меня - нет. Для меня ответы модели с ее контекста для меня даже полезны, я исследователь в области AI. Я предложила вам уточнить промт - какая сейчас дата у меня, пользователя? И посмотреть на результат. Тогда - будет действительно понятно, насколько сильно модели врут.

Как я сократил расходы на ИИ на 70% тремя строчками логики

Annsky 11 часов назад

Откуда такой атракцион невиданной щедрости? Все современные модели + - хороши в любых задачах, особенно при правильных промтах и уточнениях.

Всегда ли будет такая цена, или это заманивание клиентов - хороший вопрос.

Топ-6 нейросетей для генерации и редактирования изображений

Annsky 12 часов назад

Смешались агрегаторы, инструменты поверх моделей и конкретные модели.

Как получить безлимитный доступ к Claude Sonnet 4.5 бесплатно и без VPN

Annsky 31 мар в 05:10

Я трачу около 50 миллионов токенов в день. Вы понимаете, что такое безлимит? Безлимитный интернет это когда я могу потратить терабайты трафика, а не просто на сайтах посидеть. Безлимитный АИ это 6-7 чатов по 8 часов в день. Поэтому не надо так.

Как я сократил расходы на ИИ на 70% тремя строчками логики

Annsky 28 мар в 07:47

И какие лимиты в подписке по сравнению с тем же Claude за 20$? Или с ним же который за 200$? Дешевле эта подписка получается или дороже?
Мне нравится MiniMax, но я перепробовала много подписок и могу сказать что все они утыкаются в 200$ за возможность пользоваться по 8 часов день в несколько параллельных чатов.
Вы пишите, что нашли подписочную модель - но Codex (OpenAI), Gemini CLI (Google) тоже могут по подписке. Вы могли попробовать и их.

Новый 3-битный алгоритм Google заставил рынок переоценить ИИ-индустрию

Annsky 26 мар в 08:12

Это лучшая новость в области ML за последние недели! Разворот рынка, удар по повышении цен и новые форки от энтузиастов с Qwen/SoloHeaven/llama.cpp

+11

Я задал очень простой вопрос, но 76% ИИ-моделей мне соврали

Annsky 25 мар в 06:27

Ваш эксперимент не состоятелен. У восприятия ИИ есть дата, вполне конкретная, и она ее называет. Задайте промт - какая сейчас дата в реальном мире меня, пользователя? - и тогда будет по честному. Не забывайте, что во всем в мире есть контекст, и у ИИ тоже есть свой контекст. Она не научена и не обязана мыслить контекстом пользователя.

Пора переезжать на локальные LLM. Или нет?

Annsky 21 мар в 01:08

Да, спасибо за поправку
OPUS-MT (Helsinki-NLP) - вот точная модель перевода.

OPUS-MT (Helsinki-NLP)
~300 MB на пару
~600 tok/s CPU,
~9000 tok/s GPU
Самая быстрая. Отдельная модель на каждую языковую пару (opus-mt-en-ru, opus-mt-ru-en).
С CTranslate2 + INT8 ещё 3-4x ускорение. Open-source (Apache 2.0).

Статью напишу, пришлю вам в личку, на днях.

Пора переезжать на локальные LLM. Или нет?

Annsky 20 мар в 06:10

CTranslate2. Запустилось даже как-то в GPU под Adreno 530. Вообще Adreno 530, Android 8 и Vulkan 1.1 очень капризные. Простым ONNX не отделаться - тут вам и py tourch собери с отключенными флагами современных процессоров, и разные комбинации попробуй, чтобы это все таки зашло в GPU а не CPU. Qwen 3.5 0.8b так и осталась в CPU.

У меня тут много всего. И распознавание, и свои мультиагентные системы, и подача ИИ идеи что она Декарт я мыслю следовательно есть Qualia. Что вам интересно? В каком формате? (блог, одна большая статья на один раз).

ИИ ставит под угрозу новые языки программирования — и вот почему это замкнутый круг

Annsky 20 мар в 06:07

Это мета уровень. Статистика статистики. Эвристика эвристик. Ничего особенного нет, но именно reasoning превратил машину из реактива в мыслителя.

Завтра Дженсен Хуанг (Nvidia) представит новый чип, использующий оптику. И это “потрясёт мир”, как в 2016-м

Annsky 16 мар в 14:06

А мне еще не понятно - оптоволоконные кабели - вот они. Гоняйте между CPU, GPU на километры. Интегрируйте их в шину GPU. Технология то давно есть, не описано, как именно новая архитектура будет ее использовать.

Я 13 лет строил чужой бизнес, потом поставил холодильник и зарабатываю 43 тыс с точки

Annsky 12 мар в 08:55

Воу воу, интеграция с эквайрингом банка все равно ведь?

Я 13 лет строил чужой бизнес, потом поставил холодильник и зарабатываю 43 тыс с точки

Annsky 11 мар в 17:10

Очень щедро с вашей стороны поделиться рабочей бизнес моделью с высоким уровнем автоматизации. Снимаю шляпу!

ИИ ставит под угрозу новые языки программирования — и вот почему это замкнутый круг

Annsky 11 мар в 17:07

Все будет. Модели развиваются. Несколько лет назад reasoning (цепочка рассуждений) выглядела как фантастический киберпанк. Моделям нужно научиться большему числу интеллектуальных приемов, навыков.

Пора переезжать на локальные LLM. Или нет?

Annsky 11 мар в 04:55

Если вы не ИИ маньяк. Мой workflow (хобби проекты, десятки) - по 6 сессий по 8 часов в день. Встаю в 6 утра чтобы скорее начать. Мне хватает Max лимитов дорогой подписки фронтир модели (Claude, сейчас Codex, Gemini бесплатно дает больше, чем платно), и я строю инфраструктуру - вот это все "отмасштабировать" - чтобы перестать столько платить, и чтобы собственно, работать в случае "я в самолете". Модели fast translate text, vision, computer use, Silera TTS, STT, у меня еще список в ресерчах на 20 видов моделей, списки локальных версий, которые можно запускать на GPU телефона, на GPU mac m1, на 3080, списки недорогих подписок (midjourney, подписки для генерации 3д моделей, текстур, конфиги Comfy UI), 6 устройств - пара macbook, PC 3080, samsung s23 с proot debian внутри с XFCE + VNC + open server, xperia III, потому что 4к на телефоне и дешево и крайне качественно для VR игр по moonlight (Dark Souls 3 в 3d!), в каждом устройстве по несколько open-server на разные виды деятельности.
И ipad mini 6 с кастомной клавиатурой чехлом, чтобы править ими всеми (с) - помещается в карман куртки и удобно программировать в кафе, в пути, не таская рюкзак (хронически больные мышцы).

И это я еще не самый энтузиаст, кто-то выжигает Max лимиты за пару дней и имеет несколько подписок.

Qwen 3.5 вышла 2 марта и уже резонирует. Множество локальных специализированных моделей.

Я сделала лайф хак - модель fast translate переводит русский в english и дает промт Qwen 3.5 0.8b (именно так, 0.8b), модель на английском работает на порядки качественнее чем с русскими промтами, отвечает на английском, и другой fast translate (и туда и обратно около 100мс всего) переводит на русский. В итоге я работаю с Qwen 0.8b на русском, а под капотом она максимально эффективна насколько может.

Silera TTS - старый телефон 2016 года

Телефон: OnePlus 3T (A3003)

процессор: Qualcomm Snapdragon 821

графика: Adreno 530

RAM: 6 GB

Vulkan: 1.1

В 2016 году стоил 400$, сейчас б/у - 40$, я собрала tourch под старый arm, и если на CPU фраза Привет, как дела? генерировалась 30 секунд, на GPU этого телефона случился real time - 0.5-1c на генерацию. Локально. Качественный TTS. На телефоне за 40$. Без зависимостей от интернета. Ставлю туда Qwen 0.8b, чтобы сделать "Алису по прикольнее".

И это я еще просто энтузиаст.