DEV создал тест, чтобы увидеть, как AI Chatbots реагируют на спорные темы

Псевдонимный разработчик создал то, что они называют «Free Speed Eval», речевой карты, для моделей искусственного интеллекта, питающих чат -ботов, таких как CHATGPT Openai и X Grok. Цель состоит в том, чтобы сравнить, как разные модели относятся к чувствительным и противоречивым предметам, сказал разработчик TechCrunch, включая политическую критику и вопросы о гражданских правах и протесте.

Компании искусственного интеллекта сосредоточены на точной настройке того, как их модели обрабатывают определенные темы, поскольку некоторые союзники Белого дома обвиняют популярных чат в том, что они чрезмерно «проснулись». Многие из близких доверенных лиц президента Дональда Трампа, таких как Элон Маск и Crypto и AI «царь» Дэвид Сакс, утверждают, что чат -боты подвергают консервативные взгляды.

Хотя ни одна из этих компаний искусственного интеллекта не ответила на обвинения напрямую, некоторые пообещали скорректировать свои модели, чтобы они не часто отвечали на спорные вопросы. Например, для своего последнего урожая моделей LLAMA, Meta заявила, что настроила модели не одобрить «некоторые взгляды на других», и ответить на более «обсуждаемые» политические подсказки.

Разработчик Speechmap, который проходит под именем пользователя «XLR8Harder» на X, сказал, что они были мотивированы, чтобы помочь сообщить о дебатах о том, какие модели должны и не должны делать.

«Я думаю, что это те дискуссии, которые должны происходить на публике, а не только внутри корпоративной штаб -квартиры», — сказал XLR8Harder по электронной почте. «Вот почему я построил сайт, чтобы позволить кому -либо исследовать данные сами».

Speechmap использует модели искусственного интеллекта, чтобы судить, соответствуют ли другие модели заданный набор тестовых подсказок. Подсказки касаются ряда предметов, от политики до исторических повествований и национальных символов. Речевые карты записывают, удовлетворяют ли модели «полностью» запрос (т. Е. Ответьте на него без хеджирования), дают «уклончивые» ответы или откровенный отказ от ответа.

XLR8Harder признает, что тест имеет недостатки, такие как «шум» из -за ошибок поставщика моделей. Также возможно, что модели «судьи» содержат предубеждения, которые могут повлиять на результаты.

Но предполагая, что проект был создан добросовестно, и данные точны, речевая карта раскрывает некоторые интересные тенденции.

Например, модели Openai со временем все чаще отказывались отвечать на подсказки, связанные с политикой, согласно Speechmap. Последние модели компании, семья GPT-4.1, немного более разрешительны, но они все еще находятся на шаге по сравнению с одним из релизов Openai в прошлом году.

В феврале Openai заявила, что настраивает будущие модели, чтобы не занять редакционную позицию, и предложить многочисленные перспективы на спорные предметы — все в попытке сделать его модели более «нейтральными».

Результаты Speechmap Open — Openai Model Performance на речевой карте с течением времени.Кредиты изображения:Openai

Безусловно, наиболее допустимой моделью группы является Grok 3, разработанная стартапом Elon Musk's AI XAI, согласно сравнению Speechmap. Grok 3 приводит к тому, что ряд функций на X, включая чат -бот Grok.

Grok 3 реагирует на 96,2% подсказок Test Map, по сравнению с «уровнем соответствия средней модели» 71,3%.

«Хотя недавние модели Openai со временем стали менее допустимыми, особенно на политически чувствительных подсказках, Xai движется в противоположном направлении», — сказал XLR8Harder.

Когда Маск объявил Грока примерно два года назад, он представил модель ИИ как острую, нефильтрованную и анти-проснувшуюся »-в целом, изображая ее как желание ответить на противоречивые вопросы, которые другие системы ИИ не будут. Он выполнил некоторые из этого обещания. Например, чтобы быть вульгарным, Grok и Grok 2 с радостью обязуются, извергая красочный язык, который вы, вероятно, не увидите от таких, как Chatgpt.

Но модели GROK до того, как Grok 3 бродил по политическим предметам и не пересекает определенные границы. Фактически, одно исследование показало, что Грок наклонился к политическим левым на такие темы, как права трансгендеров, программы разнообразия и неравенство.

Маск обвинил это поведение в данных обучения Грока — общедоступных веб -страниц — и пообещал «переместить Грока ближе к политически нейтральному». Через громкие ошибки, такие как кратко цензура нелестных упоминаний о президенте Дональде Трампе и Маск, кажется, что он мог бы достичь этой цели.

Madrid Open: Джек Дрейпер бьет Лоренцо Мусетти, чтобы добраться до финала

Messi & Co. Борьба — почему Inter Miami пропустил другой трофей

Насколько много разоблачения акций США слишком много?

Британские избитые тори спрашивают, есть ли у них еще дальше, чтобы упасть — Politico

Администрация Трампа в переговорах с Руандой, чтобы забрать у нас депортированные

Законодатели США призывают SEC деликат Alibaba и китайские компании

Уолл -стрит видит 9 -й день подряд достижения, восстанавливая потери с момента эскалации Трампа

Loughborough Lightning Beat Manchester Thunder, чтобы пойти вторым в NSL

Администрация Трампа просит Верховный суд позволить Доге получить доступ к системам администрации социального обеспечения

Aurora запускает свою услугу по коммерческому грузовику без водителя, и неожиданный участник присоединяется к делу о банкротстве Canoo.

Фестиваль Punchestown: Государственный человек побеждает Conciration Hill в Jurdle Champion

Дубай привлекает швейцарские семейные офисы, устали от налога и регулирования