Новое исследование предполагает, что модели Openai «запомнили», защищенное авторским правом контент, новое исследование

RU News — Служба новостей на русском языке

Актуальная информация и анализ событий на русском языке. Широкий спектр тем, включая политику, экономику, культуру, спорт и другие важные области. Новости предлагаются в текстовом и мультимедийном формате, включая видео и аналитические материалы.

Дмитрий Павлов04.04.2025

Новое исследование, по -видимому, подтверждает утверждения о том, что OpenAI обучил хотя бы некоторые из своих моделей ИИ по защищенному авторским праву.

OpenAI вовлечен в иски, принесенные авторами, программистами и другими защитниками прав, которые обвиняют компанию в использовании своих работ-книги, кодовые базы и т. Д.-для разработки своих моделей без разрешения. OpenAI уже давно претендует на защиту справедливого использования, но истцы в этих случаях утверждают, что в законе США об авторских правах нет вырезания.

Исследование, которое было в соавторстве у исследователей из Вашингтонского университета, Университета Копенгагена и Стэнфорда, предлагает новый метод для определения данных обучения, «запоминающихся» по моделям API, такими как Openai.

Модели являются двигателями прогнозирования. Обученные многим данным, они изучают шаблоны — вот как они способны генерировать эссе, фотографии и многое другое. Большинство результатов не являются дословными копиями учебных данных, но из -за того, как модели «учатся», некоторые неизбежно являются. Было обнаружено, что модели изображений отрывают скриншоты из фильмов, на которых они обучались, в то время как языковые модели были замечены эффективно плагиат новостных статей.

Метод исследования опирается на слова, которые соавторы называют «высоким содержанием», то есть словами, которые выделяются как необычные в контексте более широкого состава работы. Например, слово «радар» в предложении «Джек и я сидели совершенно все еще с радиолокационным гудящим», будет считаться высоким содержанием, потому что оно статистически менее вероятно, чем такие слова, как «двигатель» или «радио», появляются перед «гудящим».

Соавторы исследовали несколько моделей OpenAI, в том числе GPT-4 и GPT-3.5, за знаки запоминания, удаляя высокоотражающие слова из фрагментов художественных книг и фигур New York Times и заставив модели «угадать», какие слова были замаскированы. Если моделям удалось правильно угадать, вполне вероятно, что они запомнили фрагмент во время обучения, заключили соавторы.

Openai Copyright изучение — Пример наличия модели «угадать» слова с высоким содержанием.Кредиты изображения:Openai

Согласно результатам тестов, GPT-4 показал признаки запоминающихся частей популярных художественных книг, в том числе книги в наборе данных, содержащих образцы электронных книг, называемых авторским правом под названием «Букмия». Результаты также показали, что модель запоминает части статьи New York Times, хотя и с сравнительно более низкой скоростью.

Абхилаша Равичандер, докторант в Вашингтонском университете и соавтор исследования, сказал TechCrunch, что результаты проливают свет на модели «спорные данные», возможно, были обучены.

«Чтобы иметь достоверные языковые модели, которые заслуживают доверия, мы должны иметь модели, которые мы можем исследовать, проверять и исследовать научно», — сказал Равичандер. «Наша работа направлена на то, чтобы предоставить инструмент для исследования больших языковых моделей, но существует реальная потребность в большей прозрачности данных во всей экосистеме».

OpenAI уже давно выступает за более слабые ограничения на разработку моделей с использованием защищенных авторским правом данных. В то время как компания имеет определенные сделки с лицензированием контента и предлагает механизмы отказа, которые позволяют владельцам авторских прав помечать контент, который они предпочитают, что компания не использует для учебных целей, она лоббировала несколько правительств, чтобы кодифицировать правила «справедливого использования» вокруг подходов к обучению искусственного интеллекта.

US Open 2025: Венера Уильямс дала подстановочный знак, чтобы вернуть Большой шлем в Нью -Йорке

Pocket FM дает своим писателям инструмент AI для преобразования повествований, писать скалхангеров и многое другое

Люди поднимаются на здания и раздают мыло, чтобы натолкнуть на пластиковый договор о загрязнении

Почему многие американцы переосмысливают алкоголь, согласно новому опросу Gallup

Александр Исак: Ньюкасл Юнайтед оставался вместе перед началом Премьер-лиги

Рапидо Индии начинает тестировать доставку продуктов питания, чтобы взять на себя Swiggy, Zomato

Эксперты по раннему образованию видят в этом новом правиле Трампа «неправильный шаг в неподходящее время»

Руководитель Премьер -лиги Ричард Мастерс говорит, что нет планов на матчи за границей

Monarch Tractors не будет построена Foxconn после продажи фабрики Огайо

Премьер -лига: VAR может править на желтых картах и углах в будущем — Говард Уэбб

Instagram разрабатывает функцию, которая помогает пользователям найти общие интересы

Claire's назначить администраторов для бизнеса Великобритании и Ирландии — подвергать риску тысячи рабочих мест | Денежные новости