MlCommons и Huging Face Team UP, чтобы выпустить массовый набор речевых данных для исследования искусственного интеллекта

MlCommons, некоммерческая рабочая группа по безопасности ИИ, объединилась с платформой AI Dev, обнимающего лицо, чтобы выпустить одну из крупнейших в мире коллекций голосовых записей об общественных достояниях для исследований ИИ.

Набор данных, называемый неконтролируемым речью людей, содержит более миллиона часов аудио, охватывающего как минимум 89 различных языков. MLCommons говорит, что было мотивировано создавать его благодаря желанию поддержать НИОКР в «различных областях речевых технологий».

«Поддержка более широких исследований по обработке естественного языка для языков, отличных от английского, помогает предоставить коммуникационные технологии большему количеству людей во всем мире», — написала организация в посте в блоге в четверг. «Мы ожидаем, что исследовательское сообщество будет продолжать создавать и развивать, особенно в областях улучшения языковых речевых моделей с низким ресурсом, улучшения распознавания речи по различным акцентам и диалектам, а также новые приложения в синтезе речи».

Это замечательная цель, чтобы быть уверенным. Но наборы данных искусственного интеллекта, такие как неконтролируемая речь людей, могут нести риски для исследователей, которые предпочитают их использовать.

Предвзятые данные — один из этих рисков. Записи в неконтролируемой речи народа поступили из Archive.org, некоммерческая, возможно, наиболее известная за инструмент Wayback Machine Web Archival. Потому что многие из участников Archive.org являются англоязычными-и американскими-почти все записи в речи без присмотра на английском языке, посвященные американским акцентированию, согласно Readme на официальной странице проекта.

Это означает, что без тщательной фильтрации системы ИИ, такие как распознавание речи и модели синтезатора голоса, обученные неконтролируемой речи людям, могут проявлять некоторые из тех же предрассудков. Например, они могут изо всех сил пытаться транскрибировать английский язык, на котором говорят не родственный оратор, или испытывать проблемы с созданием синтетических голосов на языках, отличных от английского.

Речь без присмотра может также содержать записи от людей, не знающих, что их голоса используются в целях исследования искусственного интеллекта, включая коммерческие приложения. В то время как MLCommons говорит, что все записи в наборе данных являются общедоступными или доступны по лицензиям Creative Commons, были допущены ошибки возможностей.

Согласно анализу MIT, сотни общедоступных наборов данных обучения искусственного интеллекта не имеют информации о лицензировании и содержат ошибки. Адвокаты создателя, в том числе Эд Ньютон-Рекс, генеральный директор некоммерческой некоммерческой организации искусственного искусства. Полем

«Многие создатели (например, пользователи Squarespace) не имеют значимого способа отказа от выхода»,-написал Ньютон-Рекс в посте на X в июне прошлого года. «Для создателей, кто может Отказались, существует множество перекрывающихся методов отказа, которые являются (1) невероятно запутанными и (2) крайне неполными в своем покрытии. Даже если бы существовал совершенное универсальное отказа, было бы чрезвычайно несправедливо наложить на себя бремя отказа для создателей, учитывая, что генеративный ИИ использует свою работу, чтобы конкурировать с ними-многие просто не осознают, что могут отказаться ».

MlCommons говорит, что он стремится обновлять, поддерживать и улучшать качество речи без присмотра. Но, учитывая потенциальные недостатки, застройщики должны проявлять серьезную осторожность.

Previous post Трамп говорит, что он размещает тарифы на импорт из Канады, Мексики и Китая, начиная с субботы
Next post Трамп говорит, что в следующем месяце он введет тарифы на импорт нефти и газа и в конечном итоге на фармацевтические препараты