Поток искусственного интеллекта принес с собой острые вопросы авторского права и владения данными, поскольку технологические компании обучают таких ботов, как ChatGPT, работе с существующими текстами, но, похоже, Meta в значительной степени отмахнулась от этих вопросов, работая над интеграцией таких инструментов в Facebook и Instagram.
Как впервые выяснилось в ходатайстве, поданном адвокатами писателей Кристофера Голдена и Ричарда Кэдри и комика Сары Сильверман, которые подают коллективный иск против Меты за якобы использование их произведений, защищенных авторским правом, без разрешения, сотрудники технологического гиганта откровенно говорили о потенциальный скандал, который может возникнуть из-за использования рискованного ресурса: Library Genesis или LibGen, огромной так называемой «теневой библиотеки» бесплатных загружаемых электронных книг и PDF-файлов, которая включает в себя платные исследования. и научные статьи. В ходе этих разговоров инженеры Meta назвали LibGen «
набор данных, который, как мы знаем, является пиратским», но указал, что генеральный директор Марк Цукерберг одобрил его использование для обучения следующей версии своей большой языковой модели Llama.
Теперь, по постановлению судьи Винса Чабриа из Окружного суда США Северного округа Калифорнии, записи этих ранее конфиденциальных внутренних диалогов были раскрыты и, по-видимому, подтверждают решение Цукерберга дать зеленый свет передаче пиратских данных LibGen, защищенных авторским правом. улучшить Llama — несмотря на опасения по поводу негативной реакции. В электронном письме Джоэль Пино, вице-президенту по исследованиям искусственного интеллекта в Meta, директор по управлению продуктами Sony Theakanath написал: «После предварительного обращения к MZ (Марку Цукербергу) GenAI было разрешено использовать LibGen для Llama 3 (…) с рядом согласованных смягчений». В заметке отмечалось, что включение материалов LibGen поможет им достичь определенных показателей производительности, и упоминались отраслевые слухи о том, что другие компании, занимающиеся искусственным интеллектом, включая OpenAI и Mistral AI, «используют библиотеку для своих моделей». В том же электронном письме Теаканат написал, что Meta ни при каких обстоятельствах не будет публично раскрывать использование LibGen.
В том же электронном письме излагаются юридические разоблачения и потенциальное негативное внимание средств массовой информации, которое может последовать, если «сторонние стороны» придут к выводу, что сокровищница LibGen является частью обучающих данных Ламы: «Авторское право и интеллектуальная собственность находятся в центре внимания законодателей во всем мире, в том числе в США и ЕС», — говорится в документе. «Законодатели США выразили обеспокоенность в ходе недавних слушаний по поводу использования разработчиками ИИ пиратских веб-сайтов для обучения. Неясно, какими будут их законодательные действия, если проблема распространится, но это отражает некоторые негативные действия правообладателей по лоббированию, связанные с нашим судебным разбирательством по этой теме (вроде того, что это «украденный» контент, который затем портит результат). этой модели)».
Meta не сразу ответила на запрос о комментариях по поводу этих внутренних сообщений.
В другом месте в незапечатанных документах сотрудники Meta описывают методы обработки и фильтрации текста из LibGen, чтобы удалить «шаблонные» обозначения авторских прав, такие как «ISBN», «Авторские права», «©» и «Все права защищены». Автор записки под названием «Наблюдения за LibGen-SciMag» («SciMag» — это библиотечный каталог научных журналов) сообщает, что качество материала «высокое, а документы длинные, так что это должны быть отличные данные для изучения, в частности , за узкоспециальные знания!» В той же записке рекомендуется попытаться «удалить больше заголовков авторских прав и идентификаторов документов» — по-видимому, это еще одно свидетельство того, что Meta стремилась замести следы, поскольку она использовала этот кеш технического текста, на использование которого у нее не было разрешения.
В других показательных сообщениях показано, как исследовательская группа Meta по искусственному интеллекту и руководители обсуждают лучшие методы получения набора данных LibGen, помимо его прямой загрузки через торрент или загрузки через одноранговый обмен файлами с IP-адресов компании. В некоторые моменты сотрудники задавались вопросом, разрешено ли это вообще. «Я думаю, что скачивание торрентов с корпоративного ноутбука — это неправильно», — написал один инженер в апреле 2023 года, добавив смайлик со смайликом. (В более позднем электронном письме было подтверждено, что данные «SciMag» действительно были загружены через торрент.) А в октябре 2023 года в сообщении исследователю, работающему над Ламой, Ахмаду Аль-Дале, вице-президенту GenAI в Meta, говорилось, что он «расчистил путь к использованию LibGen и «подталкивал сверху» к включению других наборов данных для улучшения Llama и победы в гонке ИИ.
Неудивительно, что Meta боролась с раскрытием и нередактированием этих дискуссий, поскольку период раскрытия иска об авторских правах подошел к концу: они, похоже, подрывают аргумент компании о том, что «использование текста для статистического моделирования языка и создания оригинального выражения» подпадает под юридическую категорию. добросовестного использования или допустимого ограниченного использования материалов, защищенных авторским правом, без разрешения, как выразились ее юристы в ходатайстве об отклонении иска. Более того, адвокаты истцов в своем последнем иске записали, что сам Цукерберг в своих недавних показаниях заявил, что тип пиратства, описанный в их последней измененной жалобе, вызовет «множество тревожных сигналов» и «кажется плохой вещью».
Конечно, компания Meta, которая во вторник объявила, что сократит 5 процентов своей рабочей силы, считающейся «самой низкой производительностью», или около 3600 работников, вряд ли является единственной компанией-гигантом Кремниевой долины, обвиняемой в пренебрежении (или обходе) закона об авторском праве. Этот коллективный иск может стать поводом для многих других исков против компаний, занимающихся искусственным интеллектом, в отношении владения фотографиями, произведениями искусства, музыкой, журналистикой, книгами и многим другим. Но пока технологические компании жадно ищут новые материалы для своих ботов, которые можно было бы копировать и ремиксовать, они всегда будут полагаться на создателей оригинального контента: людей.