Уилл Смит ест спагетти и другие странные тесты искусственного интеллекта, которые появились в 2024 году

Когда компания выпускает новый генератор видео с искусственным интеллектом, вскоре кто-то использует его для создания видео, на котором актер Уилл Смит ест спагетти.

Это стало чем-то вроде мема, а также эталоном: посмотреть, сможет ли новый видеогенератор реалистично отобразить Смита, глотающего миску лапши. Сам Смит пародировал эту тенденцию в своем посте в Instagram в феврале.

Уилл Смит и макароны — лишь один из нескольких причудливых «неофициальных» тестов, которые взорвут сообщество ИИ в 2024 году. 16-летний разработчик создал приложение, которое дает ИИ контроль над Minecraft и проверяет его способность проектировать структуры. В другом месте британский программист создал платформу, на которой ИИ играет друг против друга в такие игры, как Pictionary и Connect 4.

Не то чтобы больше не было академических тестов производительности ИИ. Так почему же взорвались самые странные из них?

LLM-иллюстрация
Кредиты изображений:Пол Калкрафт

Во-первых, многие из стандартных тестов искусственного интеллекта мало что говорят обычному человеку. Компании часто ссылаются на способность своего ИИ отвечать на вопросы экзаменов по математике или находить правдоподобные решения задач на уровне доктора философии. Тем не менее, большинство людей, включая вас, используют чат-ботов для таких вещей, как ответы на электронные письма и фундаментальные исследования.

Краудсорсинговые отраслевые показатели не обязательно лучше или информативнее.

Возьмем, к примеру, Chatbot Arena, общедоступный эталон, которому одержимо следуют многие энтузиасты и разработчики искусственного интеллекта. Chatbot Arena позволяет любому пользователю Интернета оценить, насколько хорошо ИИ справляется с конкретными задачами, такими как создание веб-приложения или генерация изображения. Но оценщики, как правило, не являются репрезентативными — большинство из них представляют круги индустрии искусственного интеллекта и высоких технологий — и голосуют на основе личных, трудно поддающихся определению предпочтений.

ЛМСИС
Интерфейс Chatbot Arena.Кредиты изображений:ЛМСИС

Итан Моллик, профессор менеджмента в Уортоне, недавно указал в сообщении на X еще одну проблему многих отраслевых тестов искусственного интеллекта: они не сравнивают производительность системы с производительностью обычного человека.

«Тот факт, что не существует 30 различных критериев от разных организаций в медицине, юриспруденции, качестве консультаций и т. д., является настоящим позором, поскольку люди, несмотря ни на что, используют системы для этих целей», — написал Моллик.

Странные тесты искусственного интеллекта, такие как Connect 4, Minecraft и Уилл Смит, поедающий спагетти, наверняка нет эмпирические — или даже все, что можно обобщить. Тот факт, что ИИ успешно прошел тест Уилла Смита, не означает, что он хорошо сгенерирует, скажем, гамбургер.

Макбенч
Обратите внимание на опечатку; такой модели, как Клод 3.6 Сонет, не существует.Кредиты изображений:Адонис Сингх

Один эксперт, с которым я разговаривал по поводу тестов ИИ, предложил сообществу ИИ сосредоточиться на последующих воздействиях ИИ, а не на его возможностях в узких областях. Это разумно. Но у меня такое ощущение, что странные критерии никуда не денутся в ближайшее время. Они не только развлекательны — кому не нравится смотреть, как ИИ строит замки в Майнкрафте? — но их легко понять. И, как недавно написал мой коллега Макс Зефф, отрасль продолжает бороться с превращением такой сложной технологии, как искусственный интеллект, в удобоваримую маркетинговую деятельность.

Единственный вопрос, который у меня в голове: какие странные новые тесты станут вирусными в 2025 году?

Previous post ФБР заявило, что конфисковало крупнейший в своей истории тайник самодельной взрывчатки в доме в Вирджинии
Next post Акции США растут более чем на 20% второй год подряд