По словам некоторых экспертов, в краудсорсингах

Лаборатории ИИ все чаще полагаются на краудсорсинговые бенчмаркинг -платформы, такие как Chatbot Arena, чтобы исследовать сильные и слабые стороны их последних моделей. Но некоторые эксперты говорят, что есть серьезные проблемы с этим подходом с этической и академической точки зрения.

За последние несколько лет лаборатории, включая OpenAI, Google и Meta, обратились к платформам, которые набирают пользователей, чтобы помочь оценить возможности предстоящих моделей. Когда модель выгодно получает выгодную оценку, лаборатория, стоящая за ней, часто рассказывает об этом оценке в качестве доказательства значимого улучшения.

Однако, по словам Эмили Бендер, профессора лингвистики и соавтора книги «The Ai Con», это ошибочный подход, по словам Эмили Бендер. Бендер решает особую проблему с Chatbot Arena, которая задает добровольцы добровольцев с предложением двух анонимных моделей и выбирая ответ, который они предпочитают.

«Чтобы быть действительным, эталон должен измерить что-то конкретное, и он должен иметь достоверность конструкции, то есть существует доказательства того, что конструкция интереса хорошо определена и что измерения фактически связаны с конструкцией»,-сказал Бендер. «Chatbot Arena не показала, что голосование за один вывод над другим фактически коррелирует с предпочтениями, однако они могут быть определены».

Асмелаш Тека Хадгу, соучредитель фирмы ИИ LESAN и сотрудник Распределенного исследовательского института ИИ, сказал, что он считает, что эталоны, такие как Catbot Arena. Хадгу указал на недавнее противоречие, связанное с моделью Meta's Llama 4 Maverick. Мета настраивала версию Maverick, чтобы хорошо забить на арене Chatbot, только чтобы удержать эту модель в пользу выпуска версии с худшим результатом.

«Хэдфы должны быть динамическими, а не статическими наборами данных, — сказал Хадгу, — распределенным по нескольким независимым организациям, таким как организации или университеты, и специально адаптировано к различным вариантам использования, такими как образование, здравоохранение и другие области, выполняемые специалистами, которые используют эти (модели) для работы».

Хэдгу и Кристин Глория, которые ранее возглавляли инициативу института Аспена по появлению и интеллектуальных технологий, также рассказали о том, что модельные оценщики должны быть компенсированы за их работу. Глория сказала, что ИИ Лаборатории должны учиться на ошибках индустрии маркировки данных, которая известна своей эксплуатационной практикой. (Некоторые лаборатории были обвинены в том же.)

«В целом, процесс сравнительного анализа краудсорсинга является ценным и напоминает мне о гражданских научных инициативах», — сказала Глория. «В идеале это помогает привлечь дополнительные перспективы, чтобы обеспечить некоторую глубину как в оценке, так и в тонкой настройке данных. Но контрольные показатели никогда не должны быть единственной метрикой для оценки. С помощью отрасли и инноваций движутся быстро, тесты могут быстро стать ненадежными».

Мэтт Фредериксон, генеральный директор Grey Swan Ai, который проводит краудсорсинговые командные кампании для моделей, сказал, что волонтеры привлекают платформу Grey Swan по ряду причин, включая «обучение и практику новых навыков». (Grey Swan также присуждает денежные призы за некоторые тесты.) Тем не менее, он признал, что публичные тесты «не заменяют» для «оплачиваемых частных» оценок.

«(D) Evelopers также необходимо полагаться на внутренние контрольные показатели, алгоритмические красные команды и заключили контракт с Red Teamers, которые могут использовать более открытый подход или принести конкретный опыт доменов»,-сказал Фредериксон. «Важно как для разработчиков моделей, так и для создателей -ориентиров, краудсорсинга или иного, четко передавать результаты тем, кто следит, и быть отзывчивыми, когда они ставят под сомнение».

Алекс Аталлах, генеральный директор Model Marketplace OpenRouter, который недавно сотрудничал с OpenAI, чтобы предоставить пользователям ранний доступ к моделям GPT-4.1 от OpenAI, заявил, что открытое тестирование и сравнительный анализ только моделей «недостаточно». Так же и Wei-Lin Chiang, докторант AI в Калифорнийском университете в Беркли и один из основателей Lmarena, который поддерживает арену Chatbot.

«Мы, безусловно, поддерживаем использование других тестов», — сказал Чанг. «Наша цель — создать надежное открытое пространство, которое измеряет предпочтения нашего сообщества относительно различных моделей искусственного интеллекта».

Чианг сказал, что такие инциденты, как несоответствие Maverick Benchmark, не являются результатом недостатка в дизайне Chatbot Arena, а в лаборатории неверно истолковывают свою политику. По словам Чанга, LM Arena предприняла шаги по предотвращению расхождений в будущем, включая обновление своей политики, чтобы «укрепить нашу приверженность справедливой, воспроизводимой оценке».

«Наше сообщество здесь не является волонтерами или модельными тестерами», — сказал Чанг. «Люди используют LM Arena, потому что мы даем им открытое, прозрачное место для взаимодействия с ИИ и дать коллективную обратную связь. Пока таблица лидеров верно отражает голос сообщества, мы приветствуем, что он разделяется».

Previous post Чемпионат мира по снукеру: Шон Мерфи устанавливает командующую лидерство над дебютантом Дэниел Уэллс
Next post МВФ предупреждает о растущем риске рецессии США и защищает политику ФРС.