Илон Маск согласен, что мы исчерпали интернет-данные по обучению ИИ

RU News — Служба новостей на русском языке

Актуальная информация и анализ событий на русском языке. Широкий спектр тем, включая политику, экономику, культуру, спорт и другие важные области. Новости предлагаются в текстовом и мультимедийном формате, включая видео и аналитические материалы.

Дмитрий Павлов09.01.2025

Илон Маск согласен с другими экспертами в области искусственного интеллекта в том, что реальных данных для обучения моделей искусственного интеллекта осталось мало.

«Мы в основном исчерпали совокупную сумму человеческих знаний…. в обучении искусственному интеллекту», — сказал Маск во время разговора в прямом эфире с председателем Stagwell Марком Пенном, который транслировался на X поздно вечером в среду. «Это произошло практически в прошлом году».

Маск, владеющий ИИ-компанией xAI, повторил темы, которые бывший главный научный сотрудник OpenAI Илья Суцкевер затронул на NeurIPS, конференции по машинному обучению, во время выступления в декабре. Суцкевер, который сказал, что индустрия искусственного интеллекта достигла того, что он назвал «пиковыми данными», предсказал, что нехватка данных для обучения заставит отойти от способов обучения моделей сегодня.

Действительно, Маск предположил, что синтетические данные — данные, генерируемые самими моделями ИИ, — это путь вперед. «С синтетическими данными… (ИИ) будет как бы оценивать себя и проходить процесс самообучения с синтетическими данными», — сказал он.

Другие компании, в том числе такие технологические гиганты, как Microsoft, Meta, OpenAI и Anthropic, уже используют синтетические данные для обучения флагманских моделей ИИ. По оценкам Gartner, 60% данных, используемых в проектах искусственного интеллекта и аналитики в 2024 году, были получены синтетически.

Microsoft Phi-4, исходный код которого был открыт рано утром в среду, обучался на синтетических данных наряду с реальными данными. То же самое можно сказать и о моделях Gemma от Google. Anthropic использовала синтетические данные для разработки одной из своих самых производительных систем — Claude 3.5 Sonnet. А Meta доработала свою последнюю серию моделей Llama, используя данные, сгенерированные искусственным интеллектом.

Обучение на синтетических данных имеет и другие преимущества, например, экономию средств. Стартап Writer, занимающийся искусственным интеллектом, утверждает, что его модель Palmyra X 004, которая была разработана почти полностью с использованием синтетических источников, стоила всего 700 000 долларов на разработку — по сравнению с оценками в 4,6 миллиона долларов для модели OpenAI сопоставимого размера.

Но есть и недостатки. Некоторые исследования показывают, что синтетические данные могут привести к краху модели, когда модель становится менее «творческой» — и более предвзятой — в своих результатах, что в конечном итоге серьезно ставит под угрозу ее функциональность.

Российские боты поддержали критиков НАТО перед выборами в Хорватии, говорят исследователи – POLITICO

Райан Гиггз: Что случилось с тренерской карьерой символа «Манчестер Юнайтед»?

Кто говорил и пел на похоронах Джимми Картера?

Когда «Babygirl» выйдет в кинотеатрах Великобритании, можно ли его транслировать и что говорят обзоры?

Девять тренеров за 10 лет: «Эвертон» уволил Шона Дайча накануне матча Кубка Англии с «Питерборо»

Comcast и другие ТВ-стримеры теперь гоняются за рекламными долларами YouTube, а не наоборот.

Визит Дональда Трампа-младшего был «инсценированным», заявил депутат Гренландии – POLITICO

Все пять ныне живущих президентов присутствуют на похоронах Джимми Картера

Уровень ожирения может начать снижаться в этом году из-за мер по снижению веса, говорит продавец | Новости Великобритании

Google ищет возможность удаления Facebook и Instagram взорвался после того, как Meta прекратила проверку фактов

Индия против Ирландии: Габи Льюис говорит, что туристы могут шокировать хозяев в серии

Прочтите полную посмертную панегирик Джимми Картера, произнесенного бывшим вице-президентом Уолтером Мондейлом: «Мы сохранили мир»