Интервью

Ловкость рук и никакого дипфейка

Как вычислять сгенерированные ИИ видеоподделки

Ловкость рук и никакого дипфейка
Фото: Freepik
Современный искусственный интеллект (ИИ) значительно продвинулся в области генерации дипфейков — отличить их от реальных видео с высказываниями известных личностей становится труднее с каждым новым поколением больших языковых моделей. Тем не менее невысокое качество обучающих данных и слабость некоторых моделей могут до сих пор оставлять множество артефактов, которые способен увидеть человек. А технологии автоматического выявления дипфейков в скором времени избавят от необходимости пристально всматриваться в видео человеческим глазом.

9–10 февраля в ряде telegram-каналов распространилось видео, на котором якобы Дональд Трамп заявляет, что потребовал от Владимира Путина вернуть Украине присоединенные территории. Определить, что видео сгенерировано при помощи ИИ, достаточно сложно: модели создают правдоподобный голос Трампа и движения его губ, российскую озвучку также трудно отличить от настоящей — в ней имитируется даже дыхание диктора.

Генеративные модели совершили огромный скачок в развитии. Для сравнения: в 2023 г. подобное распространение получило фейковое изображение, на котором якобы Владимир Путин падает на колени перед Си Цзиньпином во время его визита в Россию. Определить то, что изображение сгенерировал ИИ, достаточно просто: модель ошибается в человеческих пропорциях, чрезмерно размывает детали и контуры, а также хаотично «генерирует» пальцы рук (видно у человека на фоне).

Развитие генеративного ИИ идет стремительно, и с недавними успехами китайских моделей LLM в запуске на небольших мощностях риски появления всё большего числа правдоподобных дипфейков увеличиваются. Тем более притом, что многие эти модели распространяются на бесплатной основе, а качество генерации приближается к флагманским.

С развитием ИИ в дипфейках становится всё сложнее выделить какие-то конкретные, понятные человеку признаки, которые можно выловить чисто визуально, отметил в комментарии «Эксперту» доцент департамента анализа данных и искусственного интеллекта факультета компьютерных наук НИУ ВШЭ Дмитрий Ильвовский. В данном случае будущее за автоматическими методами, которые анализируют видео или звук целиком и определяют по скрытым, неочевидным характеристикам, является видео реальным или дипфейком, считает он. Тем не менее и сейчас в силу несовершенства многих моделей сохраняются некоторые визуальные артефакты.

Для визуального ряда дипфейка характерны неестественное освещение и тени, артефакты сжатия (блочность или зернистость изображения) и размытие (особенно вокруг границ лица, волос, мелких деталей), неестественная текстура кожи, несоответствия в фокусе, неестественная асимметрия, проблемы с изображением глаз, волос, границ лица и шеи, отсутствие моргания, рассказала «Эксперту» ведущий научный сотрудник Лаборатории искусственного интеллекта, нейротехнологий и бизнес-аналитики РЭУ им. Г. В. Плеханова Марина Холод. Для звука в дипфейке характерен неестественный тон голосов, артефакты синтеза речи («щелчки», «шипение» и пр.), отсутствие эмоций в голосе, несоответствие содержания и интонации, резкие переходы, звуковая среда может казаться слишком чистой и стерильной, без естественных фоновых шумов, которые должны присутствовать в данной ситуации.

Видеодипфейки, как правило, отличить значительно проще, считает операционный директор аналитического проекта «Рейтинг Рунета» Анатолий Денисов. К основным признакам относятся неестественная мимика, рассинхрон между лицевой мимикой и речью. Кроме того, дипфейк может выдать избыточная пикселизация и низкое качество видео.

Как и любые математические модели, генеративный ИИ допускает ошибки в предсказании значений для воспроизведения реальных данных, указывает Марина Холод из РЭУ им. Г. В. Плеханова. Это происходит по ряду причин: например, на этапе обучения ИИ может получать очень ограниченный набор видео и звука, а сами данные могут быть неточными или содержать помехи и ошибки, уточняет она. Модель ИИ обучится на этих данных и, соответственно, также будет выдавать неточности, ошибки, шероховатости.

В обучающих данных чаще появляются видео определенного типа, подчеркивает Дмитрий Ильвовский из НИУ ВШЭ. Стандартный материал для обучения моделей — это запись, на которой человек в кадре что-то говорит и при этом не очень много двигается, уточняет он. Если есть отступление от такого рода сюжетов, то модель начинает справляться хуже, в связи с этим визуальные артефакты, на которые можно обращать внимание, — это второстепенные детали (например, фон, детали одежды, что-то не связанное с главным героем или героями сцены), подчеркивает доцент: «Всё-таки реальность намного больше и шире с точки зрения разных ситуаций, которые можно снять на видео, чем то, что есть в интернете. В интернете же, откуда берутся большинство данных для обучения, есть безусловный дисбаланс данных».

На ограниченность обучающих видео для ИИ указывает и Марина Холод. И хотя со временем модели научатся генерировать еще более правдоподобные дипфейки, при должном уровне критического мышления их можно будет сравнить с оригинальными видео и выявить фейк и в будущем, уверена она. По мнению же Ильвовского, в среднесрочной перспективе модели будут создавать изображение и звук, неотличимые от реальных, а выявить дипфейки смогут только машинные алгоритмы. Такие есть и сейчас, они отслеживают наличие водяных знаков на видео или цифровых кодах, шифры внутри самого файла, то есть то, что «не видно» для человека, продолжает он. Развитие ИИ-технологий и одновременно алгоритмов, проверяющих продукты этих технологий, станет большой и значимой гонкой в будущем.

Больше новостей читайте в нашем телеграм-канале @expert_mag

Материалы по теме:
Технологии, Вчера 22:45
Как ИИ занимает рабочие места людей
Технологии, 13 окт 11:00
Новой технологии нужно время, чтобы оказать влияние на экономику
Технологии, 13 авг 08:00
Как стать ведущей державой в области ИИ
Технологии, 9 июл 17:04
Бизнес взвесил возможности и риски массового использования нейронных сетей
Свежие материалы
GigaChat зачислен в штат
Технологии,
Как ИИ занимает рабочие места людей
Пятьдесят оттенков серого импорта
Экономика,
Сработает ли план правительства по «обелению» теневого ввоза товаров
Партийная повестка развития
Технологии,
«Единая Россия» претендует на лидерство среди инноваторов