Eleutherai выпускает массовый набор данных обучения ИИ лицензированного и открытого домена текста

Eleutherai, исследовательская организация искусственного интеллекта, выпустила то, что, по ее словам, является одной из крупнейших коллекций лицензированного и открытого домена текста для обучения моделей искусственного интеллекта.

Набор данных, называемый Common Pule V0.1, занял около двух лет, чтобы завершить сотрудничество с AI Startups Poolside, обнимающим лицом и другими, а также несколькими академическими учреждениями. В размере 8 терабайт в 8 терабайтах, обычная куча V0.1 использовалась для обучения двух новых моделей AI от Eleutherai, Comma v0.1-1t и запятой v0.1-2t, которые, как утверждает Eleutherai, выполняются на одном уровне с моделями, разработанными с использованием нелицентрированных данных о Copyright.

Компании ИИ, в том числе OpenAI, втянуты в судебные процессы по поводу их практики обучения искусственного интеллекта, которые полагаются на соскабливание Интернета, включая авторские материалы, такие как книги и исследовательские журналы, для создания модельных наборов обучения. В то время как у некоторых компаний по искусственному искусству есть договоренности о лицензировании с определенными поставщиками контента, большинство утверждают, что юридическая доктрина США по справедливому использованию вызывает их от ответственности в тех случаях, когда они обучались по авторским правой работе без разрешения.

Eleutherai утверждает, что эти судебные иски «резко снизили» прозрачность со стороны компаний искусственного интеллекта, которые, по словам организации, нанесли ущерб более широкой области исследований искусственного интеллекта, затрудняя понимание того, как работают модели и какими могут быть их недостатки.

«(Авторские права) судебные иски не изменили практику по поиску данных на (модель) обучении, но они резко снизили, в которых участвуют компании по прозрачности», — написала Стелла Бидерман, исполнительный директор Eleutherai, в посте в блоге об обнимании в начале пятницы. «Исследователи в некоторых компаниях, о которых мы говорили, также специально назвали судебные процессы как причину, по которой они не смогли выпустить исследование, которое они проводят в областях, ориентированных на данные».

Обычная куча V0.1, которую можно загрузить с платформы и GitHub, была создана в консультации с юридическими экспертами, и опирается на источники, в том числе 300 000 книг об общественном достоянии, оцифрованные Библиотекой Конгресса и Интернет -архивом. Eleutherai также использовал Whisper, Openai's с открытым исходным кодом с открытым исходным кодом, чтобы транскрибировать аудиоконтент.

Eleutherai претендует на запятую V0.1-1T и запятую V0.1-2T является доказательством того, что обычная куча V0.1 была достаточно тщательно, чтобы позволить разработчикам создавать модели, конкурентоспособные с проприетарными альтернативами. Согласно Eleutherai, модели, оба из которых имеют размеры 7 миллиардов параметров и были обучены лишь частью общей кучи V0.1, конкурирующие модели, такие как первая модель Meta Llama AI по критериям для кодирования, понимания изображений и математики.

Параметры, иногда называемые весами, являются внутренними компонентами модели ИИ, которые направляют его поведение и ответы.

«В целом, мы думаем, что общая идея о том, что нелицензированный текст стимулирует производительность неоправданна», — написала Бидерман в своем посте. «По мере роста количества доступных открытых лицензированных данных и данных об открытых достояниях мы можем ожидать, что качество моделей, обученных на открыто лицензированном контенте, улучшится».

Обычная куча V0.1, по -видимому, частично является попыткой исправить исторические ошибки Eleutherai. Несколько лет назад компания выпустила Pule, открытую коллекцию учебного текста, которая включает в себя материалы, защищенные авторским правом. Компании ИИ подверглись критике — и юридическому давлению — за использование кучи для обучения моделей.

Eleutherai более часто выпускает открытые наборы данных в сотрудничестве со своими партнерами по исследованиям и инфраструктуре.

Previous post Фискальная политика США уходит с рельсов — и, кажется, никто не хочет ее исправить
Next post Лига Кубка мира по крикету 2: Шотландия выздоравливает от шаткого начала победить голландцы