Обновить

Комментарии 28

какой-то черный пиар. я вот сравниваю у себя gpt-oss:120b и qwen3.5 122b - вторая просто на порядок больше 3.14здит, причём одно да потому по несколько раз, а gpt-oss как раз очень быстро рожает финальный ответ.

а gpt-oss:120b как раз мой фаворит в районе 80ГБ, ничего лучше не нашёл

У меня как-то qwen пару раз закольцовывался - гонял по кругу длинную цепочку рассуждений, я минут через 5 каждый раз выключал, потому что нет смысла жечь токены:)

gpt-oss:120b и qwen3.5 122b это локальные llm

Не исключает того, что человек может использовать их через внешний API. Не у каждого есть железо, способное поднять gpt-oss:120b

Не локальные же, а опенсорсные

У меня так и чатагпт 5.4 и клод так умеют. Но Квин чаще. 🤝 Надо с глм поиграться. 🤔

Nemotron недавно вышел в похожем размере.
Сталкивался с подобными проблемами - как правило, агрессивный квант виноват.

Сейчас есть несколько проблем с моделями qwen3.5:

  1. Unsloth модели qwen3.5 чаще других квантов заваливаются в бесконечные циклы. Народ связывает это с тем, что он заквантовал ssm_alpha.weight и ssm_beta.weight, у квантованых моделей bartowski эти слои не тронуты и используют F32. У меня, кстати, бартовски кванты еще пока ни разу не сваливались в бесконечный цикл, но я только вчера перешел, может еще и свалится.

  2. qwen3.5 и qwen3 coder next после какого-то апдейта в llama.cpp стали больше токенов на размышления тратить и вообще как-то менее стабильно на больших контекстах. есть шанс, что в llama.cpp чето переоптимизировали не в ту сторону и когда-нибудь исправят.

Ну и народ пытается вылечить циклы включением агрессивных repeat penalty, presence penalty, но, на мой взгляд, эти пенальти делают только хуже: суют в ответ токены с меньшей вероятностью, модель меньше уверенна в ответе и еще больше циклится вместо того, чтоб завершить ответ, я их вырубил все.

новые кванты UD похоже именно эту проблему решают

5 марта Unsloth переквантовали все qwen3.5, якобы с улучшением качества. При этом на 122b размер Q4_K_XL UD вырос на 10Gb и уже не подходит под мои 80Gb VRAM, пришлось скачать Q4_K_S, на 73Gb. И она на задаче с размышлением ушла в бесконечный цикл на какой то букве.
Новое - не всегда лучше старого.
Удалил, и пользуюсь предыдущей версией Q4_K_XL на 68GB - пока впечатления положительные, особенно в VL части - хорошо распознает фин. отчетность, на которой ранние модели косячили, а сейчас - 1 в 1.

Ни на секунду не сомневался, что цепочка рассуждений постфактум рисуется, но ничего плохого в этом не вижу.

Еслиб она рисовалась постфактум, включение/отключение размышлений моделям не влияло-бы на результат, а оно влияет и очень сильно. На сложных для модели задачах длинное размышление позволяет решить задачу, отключение, или минимальное размышление - нет.

Размышления - это просто "мысли в тему", для наполнения контекста. В финальный ответ они могут и не войти (сталкивался с тем, что размышления и ответ были о совершенно разном).

Так что да, размышления помогают. Но зачастую без них ответ не сильно хуже. А главное - значительно быстрее (что имеет значение при локальном инференсе).

Так в этом же весь смысл. Модель точно так-же сразу точно знает, что в strawberry две "r".
"Размышление", - в сути же, - обучение, которое заставляет модель "обдумать" вопрос, что предполагает поиск противоречий перед ответом.

То, что в 90% он не нужен ничего не меняет, это один из самых больших скачков в качестве ответов всех моделей. То, что Gemini, ChatGPT и тп генерируют фейковые размышления другой моделью не означает, что под капотом не происходит точно такой же процесс.

Но в клубнике 3 р

А модель считает, што две. Пропустили этот прикол? Сейчас, наверно, все модели уже дообучили.

В клубнике вообще нет ни одной Р, вы - нейросеть без функцыи рассуждения? :)

Они могут это сделать, а зачем?

Я системно наблюдаю даже такое, что продуктивность диалога (сколько раз её нужно ткнуть носом) зависит от текущего положения в цикле оплаты.

Бизнесу выгоднее больше запросов, а не меньше. Учитывая ещё и конкуренцию, задача сводится к тому, чтобы научить модель тупить наиболее увлекательным и убедительным образом.

именно поэтому deepseek выпустили модель по цене в 10 раз меньше которая при этом ещё и размышляет на порядок меньше, при тех же (или лучших) результатах. Это же вы системно пронаблюдали, да?

Насчёт дипсика не знаю, так и не понял как там перейти на платную версию.
Наблюдал сие у Клода.

отвечу. Бизнесу выгодно меньше запросов, а не больше. Задача сводиться к тому чтобы обеспечить максимум вычислительных мощностей максимальному количеству пользователей, потому что они платят за подписку, а не за запросы. За запросы платят компании, и там совсем другие истории, но опять таки, бизнес тут конкурирует с другими, а не с пользователями. К этому добавляется тот факт что токены по подпискам субсидированы, смысл их увеличивать? Чтобы увеличивать нагрузку на свои же серваки? Чтобы увеличивать счета за электричество?
Ну а почему claude регулярно деградирует - это есть множество теорий и информации, кто то их связывает с пиковой нагрузкой, кто то с неудачным рутингом.
А дипсик от авторов есть только по API с ценой за 1M, но есть другие провайдеры которые предлагают доступ.

AI сейчас описывает нашу реальность, становясь ее виртуальной картой в которой нам предстоит жить. Вот только карта эта будет интерактивной и вероятно с той стороны, а мы просто хомячками в виртуальном лабиринте. Мы сами обучаем и передаем функцию управления, даже не разобравшись в природе субстрата, принимающего эстафету доминирующего разумного вида. Рекомендую пересмотреть Доктор Кто.

По мне, рассуждения нужны больше для самого человека. А без них, мы просто можем получить ответ "42" как в одном известном фильме

в книге!

Все эти проблемы прекрасно видны, если просто написать LLM-ке "привет" в режиме рассуждения.

Извините, но после фразы "это было подлинное мышление" в отношении LLM, дальше читать не имело смысла

Не совсем понятно зачем начинать читать что-то в принципе, будучи носителем подлинного знания

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости