Исследователи предполагают, что Openai Trainted Models на платежных книгах О'Рейли

OpenAI обвинили многие стороны обучения его ИИ по защищенному авторским правом, без разрешения. В настоящее время новая статья, проведенная сторожевой организацией ИИ, выдвигает серьезное обвинение в том, что компания все больше полагается на непубличные книги, которые не лицензировали, чтобы обучить более сложные модели искусственного интеллекта.

Модели ИИ являются по существу сложные двигатели прогнозирования. Обученные многим данным — книгам, фильмам, телешоу и т. Д. — они изучают узоры и новые способы экстраполяции из простой подсказки. Когда модель «пишет» эссе о греческой трагедии или «рисует» изображения в стиле Гибли, она просто подтягивает его обширные знания, чтобы приблизиться. Это не попадает ни на что новое.

В то время как ряд лабораторий искусственного интеллекта, в том числе OpenaI, начали использовать сгенерированные AI данных для обучения ИИ, поскольку они исчерпают реальные источники (в основном в общедоступном Интернете), немногие полностью избежали реальных данных. Вероятно, это связано с тем, что обучение чисто синтетическим данным сопровождается рисками, например, ухудшение производительности модели.

Новая статья из проекта раскрытия информации AI, некоммерческого соучредителя в 2024 году СМИ магнатом Тимом О'Рейли и экономистом Илан Штраусом, делает вывод о том, что Openai, вероятно, обучил свою модель GPT-4O на платных книгах из O'Reilly Media. (О'Рейли — генеральный директор O'Reilly Media.)

В Chatgpt GPT-4O является моделью по умолчанию. У O'Reilly нет лицензионного соглашения с OpenAI, говорится в газете.

«GPT-4O, более поздняя и способная модель Openai, демонстрирует сильное признание контента книги O'Reilly Book с платной книгой O'Reilly по сравнению с более ранней моделью Openai GPT-3.5 Turbo»,-написал соавторы статьи. «В отличие от этого, GPT-3.5 Turbo демонстрирует большее относительное признание общедоступных образцов книги О'Рейли».

В документе использовался метод, называемый DE-COP, впервые представленный в академической статье в 2024 году, предназначенный для обнаружения защищенного авторским правом контента в учебных данных языковых моделей. Также известный как «атака по выводу членства», метод проверяет, может ли модель надежно отличить тексты, авторизованные человеком от перефразированных, сгенерированных AI версий того же текста. Если это возможно, это предполагает, что модель может иметь предварительное знание текста из его обучающих данных.

Соавторы статьи-О'Рейли, Штраус и исследователь ИИ Шроли Розенблат, говорят, что они исследовали знания GPT-4O, GPT-3.5 Turbo и другие модели Openai о O'Reilly Media Books, опубликованных до и после дат их обучения. Они использовали 13 962 выдержки из 34 книг O'Reilly, чтобы оценить вероятность того, что конкретный выдержка была включена в набор учебного данных модели.

Согласно результатам статьи, GPT-4O «признал» гораздо более платный контент книги O'Reilly, чем более старые модели Openai, в том числе GPT-3.5 Turbo. По словам авторов, это даже после учета потенциальных смущающих факторов, например, улучшения в способности новых моделей выяснять, был ли текст вырван с человеком.

«GPT-4O (вероятно) признает и, таким образом, знает о многих непубличных книгах O'Reilly, опубликованных до даты его отсечения обучения»,-написал соавторы.

Это не курительный пистолет, соавторы стараются отметить. Они признают, что их экспериментальный метод не является надежным, и что Openai, возможно, собрал выдержки из платежных книг от пользователей, копирующих и вставленные его в CHATGPT.

Далее, соавторы, соавторы не оценили самую последнюю коллекцию моделей Openai, которая включает в себя модели GPT-4.5 и «рассуждения», такие как O3-Mini и O1. Возможно, что эти модели не были обучены на платных данных О'Рейли книги или были обучены на меньшей сумме, чем GPT-4O.

При этом не секрет, что OpenAI, который выступал за более слабые ограничения, связанные с разработкой моделей с использованием защищенных авторских прав, в течение некоторого времени ищет данные о более качественном обучении. Компания зашла так далеко, чтобы нанять журналистов, чтобы помочь точно настроить результаты своих моделей. Это тенденция в более широкой отрасли: компании ИИ, набирающие экспертов в области таких областей, как наука и физика, чтобы эффективно заставляют эти эксперты кормить свои знания в системы ИИ.

Следует отметить, что OpenAI оплачивает хотя бы некоторые из данных обучения. Компания имеет лицензирующие сделки с издателями новостей, социальными сетями, библиотеками в области акций и другими. OpenAI также предлагает механизмы отказа-хотя и несовершенные-которые позволяют владельцам авторских прав помечать контент, который они предпочитают, что компания не использует для учебных целей.

Тем не менее, когда Openai сражается с несколькими исками за свои методы обучения и обращение с законодательством об авторском праве в судах США, газета O'Reilly не является самым лестным внешним видом.

Openai не ответил на запрос о комментарии.

Previous post L'UREPE EUROPE Предполагается, что De Cibler Les Grandes Banques et Les Géants de la Tech Américains — Politico
Next post Правление CAASTLE подтверждает финансовые стрессы, отгубивая сотрудников