Илон Маск согласен с другими экспертами в области искусственного интеллекта в том, что реальных данных для обучения моделей искусственного интеллекта осталось мало.
«Мы в основном исчерпали совокупную сумму человеческих знаний…. в обучении искусственному интеллекту», — сказал Маск во время разговора в прямом эфире с председателем Stagwell Марком Пенном, который транслировался на X поздно вечером в среду. «Это произошло практически в прошлом году».
Маск, владеющий ИИ-компанией xAI, повторил темы, которые бывший главный научный сотрудник OpenAI Илья Суцкевер затронул на NeurIPS, конференции по машинному обучению, во время выступления в декабре. Суцкевер, который сказал, что индустрия искусственного интеллекта достигла того, что он назвал «пиковыми данными», предсказал, что нехватка данных для обучения заставит отойти от способов обучения моделей сегодня.
Действительно, Маск предположил, что синтетические данные — данные, генерируемые самими моделями ИИ, — это путь вперед. «С синтетическими данными… (ИИ) будет как бы оценивать себя и проходить процесс самообучения с синтетическими данными», — сказал он.
Другие компании, в том числе такие технологические гиганты, как Microsoft, Meta, OpenAI и Anthropic, уже используют синтетические данные для обучения флагманских моделей ИИ. По оценкам Gartner, 60% данных, используемых в проектах искусственного интеллекта и аналитики в 2024 году, были получены синтетически.
Microsoft Phi-4, исходный код которого был открыт рано утром в среду, обучался на синтетических данных наряду с реальными данными. То же самое можно сказать и о моделях Gemma от Google. Anthropic использовала синтетические данные для разработки одной из своих самых производительных систем — Claude 3.5 Sonnet. А Meta доработала свою последнюю серию моделей Llama, используя данные, сгенерированные искусственным интеллектом.
Обучение на синтетических данных имеет и другие преимущества, например, экономию средств. Стартап Writer, занимающийся искусственным интеллектом, утверждает, что его модель Palmyra X 004, которая была разработана почти полностью с использованием синтетических источников, стоила всего 700 000 долларов на разработку — по сравнению с оценками в 4,6 миллиона долларов для модели OpenAI сопоставимого размера.
Но есть и недостатки. Некоторые исследования показывают, что синтетические данные могут привести к краху модели, когда модель становится менее «творческой» — и более предвзятой — в своих результатах, что в конечном итоге серьезно ставит под угрозу ее функциональность.