«Нейролаб» начал работу в тестовом режиме с конца сентября. Подразумевается, что в рамках платформы МСП крупный бизнес и ведомства смогут получать адресные меры поддержки, в том числе различные инструменты финансирования, консультации по вопросам использования ИИ в работе организации, обучающие материалы и доступ к вычислительным мощностям. Доступ к мощностям будут обеспечивать организации из области криптомайнинга: «Битривер Рус», Intelion Data Systems и Ассоциация промышленного майнинга.
Платформа «Нейролаб» работает как некоммерческая организация, ее главная цель — создание и поддержка рынка ИИ в России, подчеркнул в ходе пресс-конференции в ТАСС первый заместитель председателя комитета Госдумы по информационной политике, информационным технологиям и связи Антон Ткачёв. Вычислительные мощности платформа может предоставлять бесплатно любому разработчику — для этого каждый отдельный проект должен пройти оценку, сообщил генеральный директор платформы Intelion Data Systems Тимофей Семенов. Планируется, что уже к 2026 г. совокупные вычислительные мощности для разработки ИИ в рамках проекта достигнут 1 экзафлопса (триллион операций в секунду), сообщил основатель и генеральный директор компании «Битривер Рус» Игорь Рунец. «Нейролаб» не предполагает установленного потолка финансирования, оно осуществляется на проектной основе.
Зачем нужен «Нейролаб»
Одной из целей создания национальной LLM разработчики «Нейролаб» видят укрепление технологической независимости России и устранение политической предвзятости, которая может проявляться в моделях, разработанных крупными корпорациями. Для этого они планируют обучать свою модель только на русскоязычных текстах.
Предполагается, что эта LLM будет расширяться со временем за счет постепенного добавления в нее текстов — в рамках мультагентной инкрементальной архитектуры, указал в интервью «Эксперту» директор по инвестициям УК «Битривер» Даниил Половинка. Модель не будет ограничена только русскоязычными текстами, она также будет обучаться на иностранных текстах, переведенных на русский язык. Первая версия модели будет содержать в себе 7 млрд параметров, со временем этот показатель увеличится до 60 млрд. Для сравнения: число параметров в ChatGPT 3.5 составляет 175 млрд. В модели будут применяться инструменты улучшения ответов, которые не будут зависеть от числа параметров. Возможность взаимодействия с моделью через API разработчики могут получить уже через год, сообщает он.
«Российским разработчикам часто недоступны ресурсы и инфраструктура, которыми обладают их зарубежные коллеги, поэтому „Нейролаб“ может стать необходимой базой для старта и реализации инновационных проектов», — выразил уверенность в комментарии «Эксперту» член комитета по образованию и науке ассоциации «Национальный Фонд Искусственного Интеллекта», основатель онлайн-школы NEURODA Дмитрий Анашкин. Кроме того, формирование «банка идей» с поддержкой и финансированием поможет разработчикам довести свои идеи до реальных продуктов, что в конечном итоге может укрепить российский ИИ-рынок, считает он.
Платформа может стать связующим звеном между бизнесом, наукой и государственными структурами, предоставляя разработчикам и предпринимателям возможности для коллаборации, участия в грантовых программах и получения льгот, добавляет Анашкин.
Сегодня в тесте качества русскоязычных моделей Russian SuperGLUE насчитывается 42 LLM, например от Сбера, «Яндекса» и независимых команд, таких как Saiga team, отмечает руководитель Data Science AdTech-экосистемы Hybrid Алексей Калабурдин: «Они обучены на данных с русскоязычных ресурсов, в частности на постах Pikabu.ru, Habr, стихах и новостях. Нейросети и данные для них есть в открытом доступе. Пользователи могут их скачать и бесплатно использовать. Например, на платформе Hugging Face Hub, куда исследователи, в том числе русские, могут выложить свои модели, уже насчитывается более 3638 русскоязычных нейросетей».
Таким образом, маловероятно, что «Нейролаб» изобрел качественно новый подход к обучению LLM, сомневается Алексей Калабурдин. Сегодня не обучают нейросети только на русском языке, а больше занимаются их дообучением, — вероятно, потому, что качество на выходе лучше, согласно бенчмаркам типа Russian SuperGLUE, рассуждает он.
Какой должна быть национальная LLM
Национальная языковая модель является необходимой частью критической инфраструктуры искусственного интеллекта, уверен ведущий эксперт Центра компетенций Национальной технологической инициативы (НТИ) «Искусственный интеллект» на базе МФТИ Александр Родин: «С учетом того, с какой скоростью технологии ИИ проникают в обыденную жизнь и практику корпоративного и государственного управления, потеря технологического суверенитета грозит не только некорректно принятыми решениями, но и деградацией русского языка и русской идентичности в целом». Безусловно, задача чрезвычайно амбициозная и требует не только значительных финансовых вливаний, но и чрезвычайно компетентной команды, пояснил он «Эксперту».
Национальная модель потребует значительных вложений и поддержки, чтобы оставаться конкурентоспособной, она должна быть доступной и гибкой, чтобы ее можно было адаптировать к различным задачам — от бизнес-аналитики до образовательных и государственных проектов, рассуждает Дмитрий Анашкин. Полностью устранить политическую предвзятость невозможно, поскольку любой текстовый корпус отражает определенные взгляды и ценности общества, в котором он создавался. В связи с этим отбор материалов, на которых обучается модель, — это ключевой вопрос на стадии оценки инициативы, уверен основатель онлайн-школы NEURODA Анашкин.
На сегодня модели с размером до 7 млрд параметров постепенно переходят в разряд микромоделей — это слишком мало и слишком поздно, чтобы включиться в гонку, оценивает архитектор решений ГК DатаРу Дмитрий Тонких. Отечественные LLM от «Яндекса» и Сбера вполне соответствуют современному уровню развития индустрии, и в данном случае для «устранения политической предвзятости» достаточно дообучить их с опорой на национальные интересы, считает он. А общественную пользу мог бы принести качественный корпус текстов на русском языке — это наиболее перспективное направление для национального проекта.
Больше новостей читайте в нашем телеграм-канале @expert_mag