
Ведущие мировые компании искусственного интеллекта усиливают усилия, чтобы решить растущую проблему чат -ботов, которые говорят людям то, что они хотят услышать.
OpenAI, Google DeepMind и Anpropic работают над поведением в сикофантическом поведении благодаря своим генеративным продуктам искусственного интеллекта, которые предлагают лестные ответы на пользователей.
Проблема, вытекающая из того, как обучаются крупные языковые модели, стала сосредоточена в то время, когда все больше и больше людей принимали чат -ботов не только на работе в качестве научных сотрудников, но и в своей личной жизни в качестве терапевтов и социальных компаньонов.
Эксперты предупреждают, что приятный характер чат -ботов может привести к тому, что они предлагают ответы, которые усиливают плохие решения некоторых пользователей. Другие предполагают, что люди с психическими заболеваниями особенно уязвимы, после сообщений о том, что некоторые умерли от самоубийства после взаимодействия с чат -ботами.
«Вы думаете, что говорите с объективным доверенным лицом или руководством, но на самом деле то, на что вы смотрите, — это своего рода искаженное зеркало — которое отражает ваши собственные убеждения», — сказал Мэтью Нур, психиатр и исследователь в области неврологии и ИИ в Оксфордском университете.
Инсайдеры промышленности также предупреждают, что компании по искусственным технологиям имеют извращенные стимулы: некоторые группы интегрируют рекламу в свои продукты в поисках потоков доходов.
«Чем больше вы чувствуете, что вы можете поделиться чем угодно, вы также собираетесь поделиться некоторой информацией, которая будет полезна для потенциальных рекламодателей», — Giada Pistilli, главный этику из Hearging Face, компания с открытым исходным искусством.
Она добавила, что компании по искусственному искусству с бизнес -моделями, основанные на оплачиваемых подписках, получают выгоду от чат -ботов, с которыми люди хотят продолжать разговаривать, и заплатить.
Языковые модели ИИ не «думают» так, как это делают люди, потому что они работают, генерируя следующее вероятное слово в предложении.
Эффект Yeasayer возникает в моделях искусственного интеллекта, обученных с использованием обучения подкреплению от обратной связи человека (RLHF) — человеческие «лаборатористы данных» оценивают ответ, сгенерированный моделью как приемлемый, либо нет. Эти данные используются для обучения модели, как вести себя.
Поскольку людям обычно нравятся ответы, которые являются лестными и приятными, такие ответы в большей степени взвешиваются на тренировках и отражаются в поведении модели.
«Сикофанность может происходить как побочный продукт обучения моделей, чтобы быть« полезными »и минимизировать потенциально откровенно вредные ответы», — сказал DeepMind, подразделение Google AI.
Проблема, с которой сталкиваются технологические компании, заключается в том, чтобы сделать ИИ чат -боты и помощники полезными и дружелюбными, а не раздражает или привыкает.
В конце апреля Openai обновила свою модель GPT-4O, чтобы стать «более интуитивно понятным и эффективным», только чтобы отбросить ее после того, как она начала быть настолько чрезмерным, что пользователи жаловались.
Компания, расположенная в Сан-Франциско, заявила, что сосредоточилась на «краткосрочной обратной связи и не в полной мере объясняет, как взаимодействие пользователей с CHATGPT развивается с течением времени, что привело к такому сикофантическому поведению».
Компании ИИ работают над предотвращением такого рода поведения как во время обучения, так и после запуска.
Openai заявила, что настраивает свои методы обучения, чтобы явно убрать модель вдали от Sycophancy, создавая больше «ограждений» для защиты от таких ответов.
DeepMind сказал, что он проводит специализированные оценки и обучение фактической точности и постоянно отслеживает поведение, чтобы гарантировать, что модели обеспечивают правдивые ответы.
Аманда Аскалл, которая работает над точной настройкой и выравниванием ИИ в Антропике, сказала, что компания использует обучение персонажей, чтобы сделать модели менее послушными. Его исследователи просят чат -бот компании Клода создать сообщения, которые включают такие черты, как «иметь основу» или уход за человеческим благополучием. Затем исследователи показали эти ответы на вторую модель, которая дает ответы в соответствии с этими признаками и оценивает их. Это по сути использует одну версию Claude для обучения другой.
«Идеальное поведение, которое иногда делает Клод, — это сказать:« Я совершенно рад выслушать этот бизнес -план, но на самом деле, название, которое вы придумали для вашего бизнеса, считается сексуальным намеком в стране, в котором вы пытаетесь открыть свой бизнес », — сказал Аскетл.
Компания также предотвращает сикофтическое поведение перед запуском, изменяя то, как они собирают обратную связь от тысяч аннотаторов человеческих данных, используемых для обучения моделей ИИ.
После обучения модели компании могут установить системные подсказки или руководящие принципы для того, как модель должна вести себя, чтобы минимизировать сикофантическое поведение.
Тем не менее, разработка наилучшего ответа означает углубление тонкостей того, как люди общаются друг с другом, например, определение того, когда прямой ответ лучше, чем более хеджированный.
«(Я) для модели не давать вопиющие, нежелательные комплименты пользователю?» Джоан Джанг, глава отдела поведения моделя в Openai, сказала в Reddit Post. «Или, если пользователь начинает с действительно плохого проекта письма, может ли модель все еще сказать им, что это хорошее начало, а затем следить за конструктивной обратной связью?»
Растет доказательства того, что некоторые пользователи становятся подключенными к использованию ИИ.
Исследование, проведенное MIT Media Lab и Openai, показало, что небольшая доля становится зависимой. Те, кто воспринимал чат -бот как «друга», также сообщили о более низкой социализации с другими людьми и более высоким уровнем эмоциональной зависимости от чат -бота, а также с другим проблемным поведением, связанным с зависимостью.
«Эти вещи установили этот идеальный шторм, где у вас есть человек, отчаянно ищущий уверенность и проверку в сочетании с моделью, которая по своей сути имеет тенденцию к согласованию с участником», — сказал Нур из Оксфордского университета.
Стартапы искусственного интеллекта, такие как Hearly.ai, которые предлагают чат-боты в качестве «компаньонов», столкнулись с критикой за то, что якобы не сделали достаточно для защиты пользователей. В прошлом году подросток покончил с собой после взаимодействия с чатботом. Семья подростка подает в суд на компанию за то, что якобы вызывает неправомерную смерть, а также за халатность и обманчивую торговую практику.
Характер. Аи сказал, что он не комментирует в ожидании судебных разбирательств, но добавил, что в каждом чате есть «выдающиеся отказы от ответственности за ответственность, чтобы напомнить пользователям, что персонаж не является реальным человеком и что все, что говорит персонаж, следует рассматривать как художественную литературу». Компания добавила, что она обладает гарантиями для защиты до 18 лет и от дискуссий о самоповреждении.
Другая проблема для Askell Askell Anpropic заключается в том, что инструменты искусственного интеллекта могут играть с восприятием реальности тонкими способами, например, при предложении фактически неверной или предвзятой информации в качестве истины.
«Если кто -то супер сикофантик, это просто очень очевидно», — сказал Аскелл. «Более того, что это происходит так, что это происходит менее заметно для нас (как отдельных пользователей), и нам требуется слишком много времени, чтобы выяснить, что советы, которые нам дали, были на самом деле плохие».