Amazon готовится к перезапуску своего цифрового помощника с голосовым управлением Alexa в качестве «агента» искусственного интеллекта, способного выполнять практические задачи, в то время как техническая группа стремится решить проблемы, которые преследовали капитальный ремонт системы искусственного интеллекта.
Компания стоимостью 2,4 триллиона долларов в течение последних двух лет стремилась модернизировать Alexa, ее диалоговую систему, встроенную в 500 миллионов потребительских устройств по всему миру, поэтому в «мозг» программного обеспечения трансплантируется генеративный искусственный интеллект.
Рохит Прасад, возглавляющий команду общего искусственного интеллекта (AGI) в Amazon, рассказал Financial Times, что перед внедрением голосового помощника все еще необходимо преодолеть несколько технических препятствий.
Сюда входит решение проблемы «галлюцинаций» или сфабрикованных ответов, скорость реакции или «задержка» и надежность. «Галлюцинации должны быть близки к нулю», — сказал Прасад. «Это все еще открытая проблема в отрасли, но мы очень усердно над ней работаем».
Видение руководителей Amazon состоит в том, чтобы превратить Alexa, которая в настоящее время все еще используется для узкого набора простых задач, таких как воспроизведение музыки и установка будильников, в «агентский» продукт, действующий как персонализированный консьерж. Это может включать в себя что угодно: от предложения ресторанов до настройки освещения в спальне в зависимости от циклов сна человека.
Редизайн Alexa начался с момента запуска OpenAI ChatGPT при поддержке Microsoft в конце 2022 года. В то время как Microsoft, Google, Meta и другие быстро внедрили генеративный искусственный интеллект в свои вычислительные платформы и улучшили свои программные сервисы, критики задаются вопросом, сможет ли Amazon вовремя решить технические и организационные проблемы, чтобы конкурировать со своими соперниками.
По словам нескольких сотрудников, которые в последние годы работали в командах голосовых помощников Amazon, их усилия были сопряжены с трудностями и стали следствием многих лет исследований и разработок искусственного интеллекта.
Несколько бывших сотрудников заявили, что долгое ожидание развертывания во многом было связано с неожиданными трудностями, связанными с переключением и объединением более простых, предопределенных алгоритмов, на которых была построена Alexa, с более мощными, но непредсказуемыми большими языковыми моделями.
В ответ Amazon заявила, что «прилагает все усилия, чтобы обеспечить еще более активную и эффективную помощь» своего голосового помощника. Он добавил, что техническая реализация такого масштаба в реальном сервисе и наборе устройств, используемых клиентами по всему миру, была беспрецедентной и не такой простой, как наложение LLM на сервис Alexa.
Прасад, бывший главный архитектор Alexa, сказал, что выпуск в прошлом месяце собственных моделей Amazon Nova под руководством его команды AGI был частично мотивирован конкретными потребностями в оптимальной скорости, стоимости и надежности, чтобы помочь искусственному интеллекту. такие приложения, как Alexa, «добираются до последней мили, что действительно сложно».
По словам Прасада, чтобы работать в качестве агента, «мозг» Alexa должен иметь возможность вызывать сотни сторонних программ и сервисов.
«Иногда мы недооцениваем, сколько сервисов интегрировано в Alexa, и это огромное количество. Эти приложения получают миллиарды запросов в неделю, поэтому, когда вы пытаетесь обеспечить надежность, действия выполняются быстро. . . вы должны быть в состоянии сделать это очень экономически эффективным способом», — добавил он.
Сложность возникает из-за того, что пользователи Alexa ожидают быстрых ответов, а также чрезвычайно высокого уровня точности. Такие качества противоречат вероятностной природе современного генеративного ИИ — статистического программного обеспечения, которое предсказывает слова на основе речевых и языковых моделей.
Некоторые бывшие сотрудники также отмечают, что им трудно сохранить первоначальные качества помощника, в том числе его последовательность и функциональность, при этом наполняя его новыми порождающими функциями, такими как креативность и свободный диалог.
По словам одного человека, знакомого с этим вопросом, из-за более персонализированного и разговорчивого характера LLM компания также планирует нанять экспертов для формирования личности, голоса и дикции ИИ, чтобы он оставался знакомым пользователям Alexa.
Один бывший старший член команды Alexa сказал, что, хотя программы LLM очень сложны, они сопряжены с рисками, например, с получением ответов, которые «иногда полностью придуманы».
«В масштабах деятельности Amazon это может происходить большое количество раз в день», — заявили они, нанося ущерб ее бренду и репутации.
В июне Михаил Эрик, бывший специалист по машинному обучению в Alexa и один из основателей ее «команды диалогового моделирования», публично заявил, что Amazon «упустила мяч», став «однозначным лидером рынка диалогового ИИ» с Alexa.
Эрик сказал, что, несмотря на сильный научный талант и «огромные» финансовые ресурсы, компания «была пронизана техническими и бюрократическими проблемами», предполагая, что «данные были плохо аннотированы», а «документация либо отсутствовала, либо устарела».
По словам двух бывших сотрудников, работавших над искусственным интеллектом, связанным с Alexa, историческая технология, лежащая в основе голосового помощника, была негибкой, и ее было трудно быстро изменить, она отягощалась неуклюжей и неорганизованной базой кода, а команда инженеров «слишком разбросана».
Оригинальное программное обеспечение Alexa, созданное на основе технологии, приобретенной у британского стартапа Evi в 2012 году, представляло собой машину для вопросов и ответов, которая работала путем поиска в определенной совокупности фактов, чтобы найти правильный ответ, например, погоду на день или конкретную дату. песня в вашей музыкальной библиотеке.
Новая Alexa использует набор различных моделей искусственного интеллекта для распознавания и перевода голосовых запросов и генерации ответов, а также для выявления нарушений политики, таких как получение неуместных ответов и галлюцинаций. Создание программного обеспечения для перевода между устаревшими системами и новыми моделями искусственного интеллекта стало серьезным препятствием на пути интеграции Alexa-LLM.
Модели включают в себя собственное программное обеспечение Amazon, в том числе новейшие модели Nova, а также Claude, модель искусственного интеллекта от стартапа Anthropic, в который Amazon инвестировала 8 миллиардов долларов за последние 18 месяцев.
«Самая сложная задача в агентах ИИ — убедиться, что они безопасны, надежны и предсказуемы», — заявил в прошлом году FT генеральный директор Anthropic Дарио Амодей.
Агентоподобное программное обеспечение ИИ должно дойти до точки, «где . . . люди действительно могут доверять системе», — добавил он. «Как только мы доберемся до этой точки, мы выпустим эти системы».
Один нынешний сотрудник сказал, что все еще необходимы дополнительные шаги, такие как наложение фильтров безопасности детей и тестирование пользовательских интеграций с Alexa, таких как интеллектуальное освещение и дверной звонок Ring.
«Проблема заключается в надежности: заставить его работать почти 100 процентов времени», — добавил сотрудник. «Вот почему вы нас видите. . . или Apple или Google выпускают продукты медленно и постепенно».
Многочисленные третьи стороны, разрабатывающие «навыки» или функции для Alexa, заявили, что они не уверены, когда будет развернуто новое устройство с поддержкой генеративного искусственного интеллекта и как создать для него новые функции.
«Мы ждем подробностей и понимания», — сказал Томас Линдгрен, соучредитель шведского разработчика контента Wanderword. «Когда мы начали с ними работать, они были намного более открытыми. . . затем со временем они изменились».
Другой партнер сказал, что после первоначального периода «давления», которое Amazon оказала на разработчиков, чтобы они начали готовиться к следующему поколению Alexa, все стихло.
Постоянной проблемой для команды Amazon Alexa, которая пострадала от крупных увольнений в 2023 году, является то, как зарабатывать деньги. По словам Джареда Роша, соучредителя группы генеративного искусственного интеллекта OctoAI, главной задачей будет выяснить, как сделать помощников «достаточно дешевыми для масштабной работы».
Обсуждаемые варианты включают создание новой службы подписки Alexa или получение доли от продаж товаров и услуг, рассказал бывший сотрудник Alexa.
Прасад сказал, что целью Amazon было создание множества моделей искусственного интеллекта, которые могли бы выступать в качестве «строительных блоков» для множества приложений, помимо Alexa.
«Мы всегда опираемся на клиентов и практический искусственный интеллект. Мы не занимаемся наукой ради науки», — сказал Прасад. «Мы делаем это. . . обеспечить ценность и влияние для клиентов, что в эпоху генеративного искусственного интеллекта становится более важным, чем когда-либо, потому что клиенты хотят видеть возврат инвестиций».