Комментарии 28
какой-то черный пиар. я вот сравниваю у себя gpt-oss:120b и qwen3.5 122b - вторая просто на порядок больше 3.14здит, причём одно да потому по несколько раз, а gpt-oss как раз очень быстро рожает финальный ответ.
а gpt-oss:120b как раз мой фаворит в районе 80ГБ, ничего лучше не нашёл
У меня как-то qwen пару раз закольцовывался - гонял по кругу длинную цепочку рассуждений, я минут через 5 каждый раз выключал, потому что нет смысла жечь токены:)
Nemotron недавно вышел в похожем размере.
Сталкивался с подобными проблемами - как правило, агрессивный квант виноват.
Сейчас есть несколько проблем с моделями qwen3.5:
Unsloth модели qwen3.5 чаще других квантов заваливаются в бесконечные циклы. Народ связывает это с тем, что он заквантовал ssm_alpha.weight и ssm_beta.weight, у квантованых моделей bartowski эти слои не тронуты и используют F32. У меня, кстати, бартовски кванты еще пока ни разу не сваливались в бесконечный цикл, но я только вчера перешел, может еще и свалится.
qwen3.5 и qwen3 coder next после какого-то апдейта в llama.cpp стали больше токенов на размышления тратить и вообще как-то менее стабильно на больших контекстах. есть шанс, что в llama.cpp чето переоптимизировали не в ту сторону и когда-нибудь исправят.
Ну и народ пытается вылечить циклы включением агрессивных repeat penalty, presence penalty, но, на мой взгляд, эти пенальти делают только хуже: суют в ответ токены с меньшей вероятностью, модель меньше уверенна в ответе и еще больше циклится вместо того, чтоб завершить ответ, я их вырубил все.
новые кванты UD похоже именно эту проблему решают
5 марта Unsloth переквантовали все qwen3.5, якобы с улучшением качества. При этом на 122b размер Q4_K_XL UD вырос на 10Gb и уже не подходит под мои 80Gb VRAM, пришлось скачать Q4_K_S, на 73Gb. И она на задаче с размышлением ушла в бесконечный цикл на какой то букве.
Новое - не всегда лучше старого.
Удалил, и пользуюсь предыдущей версией Q4_K_XL на 68GB - пока впечатления положительные, особенно в VL части - хорошо распознает фин. отчетность, на которой ранние модели косячили, а сейчас - 1 в 1.
Ни на секунду не сомневался, что цепочка рассуждений постфактум рисуется, но ничего плохого в этом не вижу.
Еслиб она рисовалась постфактум, включение/отключение размышлений моделям не влияло-бы на результат, а оно влияет и очень сильно. На сложных для модели задачах длинное размышление позволяет решить задачу, отключение, или минимальное размышление - нет.
Размышления - это просто "мысли в тему", для наполнения контекста. В финальный ответ они могут и не войти (сталкивался с тем, что размышления и ответ были о совершенно разном).
Так что да, размышления помогают. Но зачастую без них ответ не сильно хуже. А главное - значительно быстрее (что имеет значение при локальном инференсе).
Так в этом же весь смысл. Модель точно так-же сразу точно знает, что в strawberry две "r".
"Размышление", - в сути же, - обучение, которое заставляет модель "обдумать" вопрос, что предполагает поиск противоречий перед ответом.
То, что в 90% он не нужен ничего не меняет, это один из самых больших скачков в качестве ответов всех моделей. То, что Gemini, ChatGPT и тп генерируют фейковые размышления другой моделью не означает, что под капотом не происходит точно такой же процесс.
Они могут это сделать, а зачем?
Я системно наблюдаю даже такое, что продуктивность диалога (сколько раз её нужно ткнуть носом) зависит от текущего положения в цикле оплаты.
Бизнесу выгоднее больше запросов, а не меньше. Учитывая ещё и конкуренцию, задача сводится к тому, чтобы научить модель тупить наиболее увлекательным и убедительным образом.
Ну надо ж парням как-то того слона продать!
именно поэтому deepseek выпустили модель по цене в 10 раз меньше которая при этом ещё и размышляет на порядок меньше, при тех же (или лучших) результатах. Это же вы системно пронаблюдали, да?
Насчёт дипсика не знаю, так и не понял как там перейти на платную версию.
Наблюдал сие у Клода.
отвечу. Бизнесу выгодно меньше запросов, а не больше. Задача сводиться к тому чтобы обеспечить максимум вычислительных мощностей максимальному количеству пользователей, потому что они платят за подписку, а не за запросы. За запросы платят компании, и там совсем другие истории, но опять таки, бизнес тут конкурирует с другими, а не с пользователями. К этому добавляется тот факт что токены по подпискам субсидированы, смысл их увеличивать? Чтобы увеличивать нагрузку на свои же серваки? Чтобы увеличивать счета за электричество?
Ну а почему claude регулярно деградирует - это есть множество теорий и информации, кто то их связывает с пиковой нагрузкой, кто то с неудачным рутингом.
А дипсик от авторов есть только по API с ценой за 1M, но есть другие провайдеры которые предлагают доступ.
AI сейчас описывает нашу реальность, становясь ее виртуальной картой в которой нам предстоит жить. Вот только карта эта будет интерактивной и вероятно с той стороны, а мы просто хомячками в виртуальном лабиринте. Мы сами обучаем и передаем функцию управления, даже не разобравшись в природе субстрата, принимающего эстафету доминирующего разумного вида. Рекомендую пересмотреть Доктор Кто.
По мне, рассуждения нужны больше для самого человека. А без них, мы просто можем получить ответ "42" как в одном известном фильме
Все эти проблемы прекрасно видны, если просто написать LLM-ке "привет" в режиме рассуждения.
Извините, но после фразы "это было подлинное мышление" в отношении LLM, дальше читать не имело смысла

80% токенов впустую: DeepSeek и GPT-OSS попались на «театральном мышлении»