Китайский ответ ChatGPT
Основанная китайским хедж-фондом High-Flyer компания DeepSeek-AI представила свою модель R1 20 января. По оценкам разработчиков, модель обходит таких лидеров индустрии, как o1-mini и Claude (разработки американских OpenAI и Anthropic), в задачах на логическое мышление в области математики и языкознания и показывает сопоставимые результаты на задачах генерации программного кода. Так, R1 обошла флагманские модели на таких известных наборах тестов (бенчмарках), как MMLU (для английского языка), LiveCodeBench, MATH-500 и C-Eval (для китайского языка).
«Мы считаем, что ИИ Китая не может вечно занимать догоняющие позиции, — заявил основатель DeepSeek Лян Вэньфэн. — Мы часто отмечаем отставание китайских моделей от американских на один-два года. Но реальное отставание заключается в подражательстве. Если это не изменится, Китай всегда будет догоняющим».
При этом DeepSeek-AI предоставила открытый доступ к коду модели R1 и более ранней своей разработке V3 на GitHub и HuggingFace. По утверждениям разработчиков, обучение R1 обошлось всего в $5,6 млн, а для обучения V3 использовались видеокарты H800 от Nvidia — значительно более слабые модели, чем флагманские H100 и A100.
Разработка вызвала большой резонанс на глобальном ИТ-рынке. На фоне выхода моделей DeepSeek 21 января президент США Дональд Трамп заявлял о намерениях вложить $500 млрд в проект Stargate, в рамках которого планируется создавать американскую инфраструктуру для разработок ИИ. Stargate — это проект американского правительства, в котором участвуют крупные игроки: OpenAI, SoftBank, Oracle и MGX. Заявления разработчиков DeepSeek заставили профессиональное сообщество и инвесторов усомниться в реальной стоимости больших языковых моделей (LLM). Из-за этого акции крупнейшего производителя графических чипов Nvidia рухнули с отметки $147,22 на 23 января до $118,42 на 27 января, следует из данных MarketWatch.
Значительные аспекты деятельности DeepSeek-AI ставились под сомнение. Например, охрана данных пользователей: исследователи Wiz обнаружили, что базы данных компании практически не были защищены с момента выпуска веб-интерфейса моделей. Злоумышленники могли получить доступ к пользовательским данным и историям чатов с ИИ. Под сомнение также ставились реальные расходы на разработку моделей. Согласно исследованию SemiAnalysis, $5,6 млн могло быть потрачено только на обучение модели, это значение не включает в себя затраты на оборудование и зарплаты разработчиков.
Тем не менее неотъемлемыми остаются достижения DeepSeek в оптимизации работы искусственного интеллекта. Полноценную версию модели, имеющую 671 млрд параметров, возможно запустить на серверном оборудовании стоимостью всего $2000, сообщает ресурс Digital Spaceport. Он также предоставляет инструкцию по сборке и настройке сервера.
Однако более упрощенные версии DeepSeek можно запустить даже на пользовательских компьютерах. Это открывает широкие возможности для развития LLM: например, для развития концепции искусственного интеллекта, который обучается в процессе взаимодействия со средой. Такую модель пока не удалось создать ни одному разработчику в мире. На данный момент в разработке LLM существует два главных этапа: обучение, в процессе которого модель получает знания о мире, и «инференс» (от англ. inference — «логический вывод»), который представляет собой генерацию предсказаний в ответ на запросы среды или пользователя. Оба этапа требуют значительных вычислительных ресурсов. При этом во время «инференса» модель не усваивает информацию, которую дает пользователь: она собирается сайтом или приложением, через которые происходит общение, и потом используется в обучении. Модели низкой ресурсоемкости позволят объединить обучение и «инференс» в один параллельный процесс — так, чтобы LLM могла усваивать информацию и сразу же ее использовать, как это делает человеческий мозг. Разработка подобной системы максимально приблизит человечество к созданию AGI.
Достигнет ли DeepSeek универсального ИИ
На фоне прочих LLM разработки DeepSeek выделяются двумя ключевыми аспектами — особым способом применения технологий Multi-head Latent Attention (MLA) и Mixture of Experts (MoE), указывает генеральный директор центра инноваций МТС Future Crew Евгений Черешнев. MLA позволяет модели очень качественно извлекать смысл из запроса человека, а также обращать внимание сразу на несколько аспектов, часто сложносочиненных. Эта технология используется и в продуктах американской OpenAI, но DeepSeek смогли настроить ее так, чтобы она «видела» и «понимала больше», поясняет Черешнев. MoE, в свою очередь, подразумевает, что внутри основной LLM фактически есть десятки узкоспециализированных моделей: условно говоря, есть DeepSeek-математик, программист, физик, маркетолог и так далее, объясняет он. Это очень перспективный подход, при котором разработку дешевле улучшать. Она игнорирует примерно 95% всех данных для обучения, ее учат более фокусно, а общий эффект достигается именно благодаря грамотному применению MoE, заключает Черешнев.
Далее DeepSeek использует различные публичные, а значит, дешевые и без собственных капитальных вложений инструменты, в частности SGLang, LMDeploy, TensorRT-LLM, vLLM, указывает заместитель начальника управления цифровой трансформации РЭУ им. Г.В. Плеханова Павел Терелянский. Та же SGLang существенно ускоряет работу, например, за счет технологии RadixAttention, которая позволяет быстрее обрабатывать данные, продолжает он. SGLang достигает в пять раз более высокой пропускной способности по сравнению с существующими системами, а именно Guidance и vLLM, отмечает эксперт. SGLang также поддерживает методы квантования (сокращения размера модели) INT4/FP8/AWQ/GPTQ, которые тоже позволяют снизить ресурсоемкость моделей без существенной потери их производительности, добавляет Терелянский.
Главное преимущество моделей DeepSeek на данный момент состоит в том, что они бесплатные, подчеркивает он. Что касается результатов бенчмарков (проверочных тестов для модели), то R1 в большинстве случаев не превышает результаты американских аналогов более чем на 10%. Кроме того, она уступает модели o3-mini в задачах по химии, физике и математике. По бенчмарку вопросов-ответов SimpleQA R1 получает 30,1%, а o3-mini-high имеет 13,8%, но даже это значит, что модель может осмысленно ответить только на треть представленных вопросов, говорит Терелянский.
Однако говорить об однозначном превосходстве DeepSeek над американскими моделями пока рано, считает руководитель направления Data Science Hybe, adtech-экосистемы Hybrid Алексей Калабурдин: например, они не могут справиться с задачами на распознание зашифрованных сообщений из ресурсов OpenAI — таковые требуют значительных рассуждающих способностей.
В любом случае, считает Евгений Черешнев из МТС Future Crew, создание на основе DeepSeek модели, которая могла бы совмещать обучение и «инференс», возможно, но пока для такой технологии недостаточно специальных обучающих данных.
Больше новостей читайте в нашем телеграм-канале @expert_mag