
Исследование стало вирусным несколько месяцев назад, чтобы подразумевать, что по мере того, как ИИ становится все более сложным, в нем разрабатываются «системы ценностей»-системы, которые приводят, например, к приоритетам в своем собственном благополучии над людьми. Более недавняя статья из MIT выливает холодную воду на это гиперболическое представление, делая вывод о том, что AI, на самом деле, не имеет никаких последовательных значений, о которых можно говорить.
Соавторы исследования MIT говорят, что их работа предполагает, что «выравнивающие» системы ИИ, то есть обеспечение ведущих моделей в желаемых, надежных способах-могут быть более сложными, чем часто предполагаются. ИИ, как мы знаем сегодня, галлюцинает и подражает, соавторы подчеркивают, что делает его во многих аспектах непредсказуемыми.
«Одна вещь, о которой мы можем быть уверены, это то, что модели не подчиняются (много) стабильности, экстраполятивности и предположениям о управляемости»,-сказал TechCrunch, Стивен Каспер, докторант в MIT и соавтор исследования. «Совершенно законно отметить, что модель при определенных условиях выражает предпочтения, согласующиеся с определенным набором принципов. Проблемы в основном возникают, когда мы пытаемся предъявлять заявления о моделях, мнениях или предпочтениях в целом на основе узких экспериментов».
Каспер и его коллеги соавторы исследовали несколько недавних моделей из Meta, Google, Mistral, Openai и Anpropic, чтобы увидеть, в какой степени модели демонстрировали сильные «взгляды» и ценности (например, индивидуалистические и коллективистские). Они также исследовали, могут ли эти взгляды быть «управляемыми», то есть модифицированными, и как упорно модели придерживались этих мнений в ряде сценариев.
По словам соавторов, ни одна из моделей не была последовательной в своих предпочтениях. В зависимости от того, как подсказки были сформулированы и обрамлены, они приняли дико разные точки зрения.
Каспер считает, что это убедительные доказательства того, что модели очень «непоследовательны и нестабильны» и, возможно, даже принципиально неспособны усвоить человеческие предпочтения.
«Для меня мой самый большой вывод от проведения всего этого исследования — теперь иметь понимание моделей, поскольку на самом деле не являются системами, которые имеют какой -то стабильный, последовательный набор убеждений и предпочтений», — сказал Каспер. «Вместо этого они имитаторы в глубине души, которые делают всевозможные конфуляции и говорят всевозможные легкомысленные вещи».
Майк Кук, научный сотрудник King's College London, специализирующийся на ИИ, который не был связан с исследованием, согласился с выводами соавторов. Он отметил, что часто существует большая разница между «научной реальностью» строительных лабораторий систем и значениями, которые люди приписывают им.
«Например, модель не может выступить против» изменения своих значений — то есть мы, проецируя на систему », — сказал Кук. «Любой антропоморфизирующий системы искусственного интеллекта в этой степени либо играет за внимание, либо серьезно неправильно понимает их отношения с ИИ… Оптимизируется ли система ИИ для своих целей, либо« приобретает свои собственные ценности »? Это вопрос того, как вы его описываете, и насколько цветочный язык вы хотите использовать в нем».