OpenAI винит в одном из самых длительных сбоев в своей истории «новую службу телеметрии», которая вышла из строя.
В среду платформа чат-ботов OpenAI на базе искусственного интеллекта ChatGPT; видеогенератор Sora; и его API, ориентированный на разработчиков, столкнулись с серьезными сбоями, начиная примерно с 15:00 по тихоокеанскому времени. Вскоре после этого OpenAI признала проблему и начала работать над ее исправлением. Но на восстановление всех услуг компании потребуется примерно три часа.
В отчете, опубликованном поздно вечером в четверг, OpenAI написала, что сбой был вызван не инцидентом безопасности или недавним выпуском продукта, а службой телеметрии, развернутой в среду для сбора показателей Kubernetes. Kubernetes — это программа с открытым исходным кодом, которая помогает управлять контейнерами или пакетами приложений и связанными файлами, которые используются для запуска программного обеспечения в изолированных средах.
«Службы телеметрии имеют очень широкую сферу применения, поэтому конфигурация этой новой службы непреднамеренно привела к… ресурсоемким операциям API Kubernetes», — пишет OpenAI в послеоперационном исследовании. «(Наши) API-серверы Kubernetes были перегружены, что привело к отключению плоскости управления Kubernetes в большинстве наших крупных (Kubernetes) кластеров».
Это много жаргона, но, по сути, новая служба телеметрии повлияла на операции OpenAI в Kubernetes, включая ресурс, который многие службы компании используют для разрешения DNS. Разрешение DNS преобразует IP-адреса в доменные имена; именно поэтому вы можете вводить «Google.com» вместо «142.250.191.78».
Использование OpenAI кэширования DNS, которое хранит информацию о ранее найденных доменных именах (например, адресах веб-сайтов) и соответствующих им IP-адресах, усложняет ситуацию, «задерживая видимость», пишет OpenAI, и «позволяя развертыванию ( телеметрической службы) продолжать работу до того, как будет понятен весь масштаб проблемы».
OpenAI заявляет, что ей удалось обнаружить проблему «за несколько минут» до того, как клиенты в конечном итоге начали замечать последствия, но она не смогла быстро реализовать исправление, поскольку ей приходилось работать с перегруженными серверами Kubernetes.
«Это было слияние нескольких систем и процессов, которые вышли из строя одновременно и взаимодействовали неожиданным образом», — написали в компании. «Наши тесты не уловили влияние изменения на плоскость управления Kubernetes (и) исправление было очень медленным из-за эффекта блокировки».
OpenAI заявляет, что примет ряд мер для предотвращения подобных инцидентов в будущем, включая улучшения поэтапного развертывания с улучшенным мониторингом изменений инфраструктуры и новые механизмы, гарантирующие, что инженеры OpenAI могут получить доступ к API-серверам Kubernetes компании при любых обстоятельствах.
«Мы приносим извинения за влияние, которое этот инцидент оказал на всех наших клиентов — от пользователей ChatGPT до разработчиков и предприятий, которые полагаются на продукты OpenAI», — написал OpenAI. «Мы не оправдали собственных ожиданий».