Когда думать вредно

Почему способность «мыслить» мешает работе o1 и DeepSeek

Технологии

1 мар 2025 10:44

Антон Козлов

Коллаж: Эксперт, Freepik

Технология цепочек рассуждений (ризонинга) стала прорывом в области создания искусственного интеллекта (ИИ) — за счет нее большие языковые модели (LLM), такие как o1 и DeepSeek, могут решать сложные математические задачи и создавать работающий код. Но эта же технология может быть фактором, который вредит качеству ответов моделей, сообщают исследователи Калифорнийского университета. В своем докладе от 12 февраля они отмечают, что LLM с возможностями ризонинга могут отдавать предпочтения своим рассуждениям и игнорировать информацию о внешней среде. Это приводит к тому, что ИИ бесконечно планирует свои действия, но ничего не делает, принимает самовольные решения или отказывается от задачи из-за стресса, который вызывают его «мысли». Вместе с этим использование обычных LLM без ризонинга может быть почти вдвое дешевле при сопоставимых результатах, утверждают исследователи.

Почему мышление мешает ИИ

Большие языковые модели (LLM) набирали популярность в 2023 г., и уже тогда многие специалисты ставили под сомнение их возможности мыслить в классическом понимании этого слова. В основе LLM лежит технология генерации токенов: по сути, модель пытается создать наиболее вероятную последовательность слов в ответ на запрос пользователя. Эти последовательности далеко не всегда оказывались логичными или адекватными поставленной задаче. Со временем исследователи обнаружили, что определенные фразы, побуждающие к рассуждениям, позволяли улучшить «мыслительные способности» LLM. Аналитики Токийского университета и Google выяснили, что этому способствуют, например, требования «думать шаг за шагом» — тогда модели лучше структурируют свои ответы. При помощи подобных фраз промпт-инженеры донастраивали LLM под конкретные задачи. Еще позднее некоторые модели начали самостоятельно генерировать для себя подобные фразы: перед ответом на вопрос ИИ как бы «планирует» свой ответ, пишет сценарий, как такой ответ должен строиться, и напоминает себе думать шаг за шагом.

Хотя ризонинг помогает в генерации обоснованных ответов, он может мешать, когда от модели требуется максимально оперативное реагирование на внешнюю среду. Особенно это проявляется в результатах работы ИИ-агентов, для которых внешняя среда — это интерфейсы разных приложений (например, веб-сайтов). В таком случае, как указывают исследователи Калифорнийского университета, модели с ризонингом часто игнорируют поступающую извне информацию.

На примерах задач разработки ПО исследователи выделяют три вида поведения, характерных для ИИ, который «потерялся» в собственных рассуждениях. Во-первых, это «аналитический паралич» — в этом состоянии модель постоянно создает длинные и сложные цепочки рассуждений, но не переходит непосредственно к решению поставленных пользователем задач; в таком случае она долго «рассуждает» о том, как написать программную функцию, но не выводит ни строчки кода. Во-вторых, это «непредсказуемые действия», когда модель генерирует несколько ответов сразу, не обращая внимания на реакцию среды на каждый из них; в таком случае модель предложит запустить свой код, сразу решит, что он работает правильно, и тут же предложит запускать следующие команды или функции. Наконец, ризонинговые модели могут прибегать к «преждевременному отключению» от выполняемой задачи; в таком случае модель либо сразу забрасывает ее, либо решает задачу только на уровне рассуждений, не приступая к реальным действиям (разработчик увидит сообщение от модели о том, что все уже решено, но ни строчки реального кода), либо модель сразу напишет, что с задачей справиться не может.

Подобные проблемы характерны для флагманских моделей o1-mini, DeepSeek-R1-32B и QwQ. Причем значительно меньше подобные ошибки допускали версии этих моделей без ризонинга: GPT-4o-mini, DeepSeek-V3, Qwen2.5-32B. Так, модель o1 с ризонингом успешно решает 29,1% задач разработки ПО из бенчмарка SWE-bench, но общая стоимость генерации при этом достигает $1400. Генерация всех ответов при помощи o1 без ризонинга обойдется в $400, но решит только 21,2% поставленных задач. Повысить точность результатов можно, если сгенерировать ответы дважды и каждый раз убирать те из них, в которых модель допускает ошибки: точность вырастет до 27,3%, а общая стоимость вычислений составит $800.

Стоит ли отказываться от ризонинга

Ризонинг приводит к ошибкам из-за чрезмерно длинных цепочек рассуждений, в которых модель теряет фокус на исходной задаче, накапливая логические несоответствия, пояснил «Эксперту» глава отдела исследований в области ИИ дирекции разработки и развития цифровой платформы Университета 2035 Ярослав Селиверстов. Это может быть связано с ограничениями контекстного окна (максимального числа слов, которые модель может считывать за раз), чрезмерно сложным синтаксисом или недостатком релевантных данных в обучении, что провоцирует «зацикливание» на второстепенных деталях, рассуждает он. Также ризонинг может быть подвержен галлюцинациям, когда модель генерирует правдоподобные, но фактические неверные утверждения, которые затем использует в дальнейших рассуждениях, усугубляя ошибку. Еще одна проблема может быть связана со «смещением» (bias) в данных, на которых обучалась модель, что приводит к предвзятым рассуждениям, добавляет Ярослав Селиверстов.

В некоторых предметных областях данных значительно меньше, чем в остальных, из-за этого языковые модели не всегда, например, могут распознать сложные эмоциональные конструкции вроде иронии или сарказма, что в значительной мере ухудшает их понимание, а соответственно, и качество генерации ответов — в этом часто и заключается «смещение», дополняет сотрудник учебно-научной лаборатории искусственного интеллекта, нейротехнологий и бизнес-аналитики РЭУ им. Г. В. Плеханова Анатолий Гурин. Качество данных, используемых для обучения ИИ, имеет решающее значение, добавляет он: если в массиве информации содержатся неправильные логические цепочки или ошибочные рассуждения, то велика вероятность того, что модель просто воспроизведет их на аналогичных данных из запроса пользователя.

Однако использование ризонинга — это в любом случае развитие технологии; при правильном внедрении и обучении ИИ ризонинг расширяет его возможности: позволяет продлить нить мысли, убрать лишнее и добраться до сути, например решить логическую задачу или найти ошибку в программном коде, отмечает эксперт в области генеративного ИИ, преподаватель кафедры управления и права ИМЭС Александр Суетин. Ризонинг улучшает рекомендательные системы, так как он «чувствует» настроение пользователя, более глубоко анализирует его запрос и может ему предложить вариант ответа более высокого качества. От ризонинга отказываться не стоит, важно правильно его применять, уверен эксперт.

Ризонинг критичен для задач, требующих многошаговой логики, связанных с математикой, анализом текста, соглашается директор департамента расследований T.Hunter, эксперт рынка НТИ SafeNet («Сейфнет») Игорь Бедеров. Он позволяет моделям «думать вслух», что повышает интерпретируемость решений; также этот функционал полезен для исследователя, который видит машинную логику и может ее менять при составлении промптов. Решить проблемы ризонинга можно за счет качественного написания промптов к модели и тщательной валидации рассуждений и действий, которые она совершает, уверен он.

Для решения проблем ризонинга можно, например, применять стратегию «Первый правильный ответ» (FCS), это подходит для случаев ограниченных ресурсов, число ошибок снижается примерно на 50%, указывает Александр Суетин из ИМЭС. Также можно применять систему промптов, когда LLM сама себе создает подсказки для решения задачи, добавляет он.

Использование моделей без ризонинга оправдано для задач, где требуется быстрая обработка и генерация текста: например, для автоматического составления ответов на часто задаваемые вопросы (FAQ), создания шаблонных email-сообщений, заключает директор по инновациям финтех-разработчика и интегратора Fork-Tech Владислав Лаптев. Однако в сценариях, требующих логических цепочек или адаптации к новым условиям, применение более ресурсоемких моделей неизбежно.

Больше новостей читайте в нашем телеграм-канале @expert_mag