В новом иске объединены два поданных ранее летом 2023 г. Истцами выступают лауреат Пулитцеровской премии Майкл Шейбон, комик Сара Сильверман и другие известные авторы. Они утверждают, что Meta без разрешения использовала их работы для обучения своей языковой модели на основе искусственного интеллекта Llama.
В иске приводится история переписки сотрудников Meta в Discord, где идет речь о приобретении набора данных для обучения. Как надеется обвинение, это может послужить важным доказательством того, что в Meta были осведомлены об использовании текстов книг без согласия правообладателей в нарушение закона об авторских правах.
В истории сообщений работающий в Meta аспирант Вашингтонского университета Тим Деттмерс описывает свои споры с юридическим отделом Меты о том, будет ли законно использовать тексты книг в качестве обучающих данных.
«В Facebook много людей, заинтересованных в работе с The Pile, включая меня, но в нынешнем виде мы не можем использовать его по юридическим причинам», — писал Деттмерс в 2021 г. о наборе данных, применение которого в обучении первой версии Llama в Meta ранее было подтверждено.
За месяц до этого Деттмерс написал, что адвокаты Меты сказали ему, что «нельзя ни использовать данные, ни публиковать модели, обученные на них», говорится в исковом заявлении. Собеседники Деттмерса по чату также называют «книги с действующими авторскими правами» самым вероятным источником беспокойства.
В этом году технологические компании столкнулись со множеством судебных исков со стороны создателей контента, которые обвиняют их в использовании произведений, защищенных авторским правом, для создания генеративных моделей искусственного интеллекта.
В случае массового успеха таких исков индустрия генеративного ИИ может ослабнуть — существенно повысится стоимость создания моделей, требующих больших объемов данных, поскольку разработчикам такого ИИ придется выплачивать компенсации авторам произведений.
Первый в мире закон об искусственном интеллекте, который, как ранее сообщал «Эксперт», готовятся принять в Европе, обяжет компании раскрывать данные, которые они используют для обучения своих моделей — потенциально это подвергает разработчиков генеративного ИИ существенным правовым рискам.
В феврале Meta выпустила первую версию своей большой языковой модели Llama и опубликовала список наборов данных, используемых для обучения, включая «раздел Books3 на The Pile». Согласно поданному против Meta исковому заявлению, создатель этого набора данных утверждал, что в нем содержатся тексты 196 640 книг.
Meta пока не раскрыла перечень данных, на которых обучалась Llama 2 — последняя версии языковой модели, которую компания предоставила для коммерческого использования летом 2023-го.
Llama 2 могут использовать бесплатно любые компании, у которых менее 700 млн активных пользователей в месяц. Ее релиз был воспринят в технологическом секторе как переломный на рынке генеративного ИИ, угрожающий подорвать доминирование таких игроков, как OpenAI и Google, которые взимают плату за использование своих моделей.