Популярный метод повышения эффективности ИИ имеет недостатки

Один из наиболее широко используемых методов повышения эффективности моделей ИИ — квантование — имеет ограничения — и отрасль может быстро приближаться к ним.

В контексте искусственного интеллекта квантование означает уменьшение количества битов — наименьших единиц, которые может обработать компьютер, — необходимых для представления информации. Рассмотрим такую ​​аналогию: когда кто-то спрашивает время, вы, вероятно, ответите «полдень», а не «о двенадцать часов одна секунда и четыре миллисекунды». Это квантование; оба ответа верны, но один немного точнее. Насколько точность вам действительно нужна, зависит от контекста.

Модели ИИ состоят из нескольких компонентов, которые можно квантовать — в частности, параметров, которые модели внутренних переменных используют для прогнозирования или принятия решений. Это удобно, учитывая, что при запуске модели выполняют миллионы вычислений. Квантованные модели с меньшим количеством битов, представляющих их параметры, менее требовательны с математической точки зрения и, следовательно, с вычислительной точки зрения. (Для ясности: этот процесс отличается от «перегонки», которая представляет собой более сложное и выборочное сокращение параметров.)

Но квантование может иметь больше компромиссов, чем предполагалось ранее.

Постоянно сокращающаяся модель

Согласно исследованию исследователей из Гарварда, Стэнфорда, Массачусетского технологического института, Databricks и Карнеги-Меллона, квантованные модели работают хуже, если исходная, неквантованная версия модели обучалась в течение длительного периода времени на большом количестве данных. Другими словами, в определенный момент может быть лучше просто обучить меньшую модель, чем готовить большую.

Это может стать плохой новостью для компаний, занимающихся искусственным интеллектом, которые обучают чрезвычайно большие модели (известно, что они улучшают качество ответов), а затем квантовают их, чтобы сделать их обслуживание менее затратным.

Эффекты уже проявляются. Несколько месяцев назад разработчики и ученые сообщили, что квантование модели Llama 3 компании Meta имело тенденцию быть «более вредным» по сравнению с другими моделями, возможно, из-за способа ее обучения.

«По моему мнению, затратами номер один для всех, кто занимается ИИ, является и будет оставаться логический вывод, и наша работа показывает, что один важный способ снизить его не будет работать вечно», — Танишк Кумар, студент-математик Гарварда и первый автор исследования бумага, рассказал TechCrunch.

Вопреки распространенному мнению, выведение модели ИИ — запуск модели, например, когда ChatGPT отвечает на вопрос — в совокупности часто обходится дороже, чем обучение модели. Рассмотрим, например, что Google потратил примерно 191 миллион долларов на обучение одной из своих флагманских моделей Gemini — определенно огромная сумма. Но если бы компания использовала модель, позволяющую генерировать ответы из 50 слов на половину всех поисковых запросов Google, она тратила бы примерно 6 миллиардов долларов в год.

Крупные лаборатории искусственного интеллекта внедрили модели обучения на массивных наборах данных, предполагая, что «масштабирование» — увеличение объема данных и вычислений, используемых в обучении, — приведет к созданию более эффективного ИИ.

Например, Мета обучила Llama 3 на наборе из 15 триллионов токенов. (Токены представляют собой биты необработанных данных; 1 миллион токенов равен примерно 750 000 слов.) Предыдущее поколение, Llama 2, обучалось «всего» на 2 триллионах токенов. В начале декабря Meta выпустила новую модель Llama 3.3 70B, которая, по словам компании, «улучшает основные характеристики при значительно более низких затратах».

Имеющиеся данные свидетельствуют о том, что расширение масштабов в конечном итоге приводит к уменьшению отдачи; Сообщается, что Anthropic и Google недавно обучили огромные модели, которые не оправдали ожиданий внутренних тестов. Однако нет никаких признаков того, что отрасль готова существенно отойти от этих устоявшихся подходов к масштабированию.

Насколько точно?

Итак, если лаборатории не хотят обучать модели на небольших наборах данных, есть ли способ сделать модели менее подверженными деградации? Возможно. Кумар говорит, что он и соавторы обнаружили, что модели обучения с «низкой точностью» могут сделать их более надежными. Подождите немного, пока мы немного погружаемся.

«Точность» здесь относится к количеству цифр, которые числовой тип данных может точно представить. Типы данных — это коллекции значений данных, обычно определяемые набором возможных значений и разрешенных операций; например, тип данных FP8 использует только 8 бит для представления числа с плавающей запятой.

Большинство современных моделей обучаются с 16-битной точностью или «половинной точностью» и «квантуются после обучения» до 8-битной точности. Определенные компоненты модели (например, ее параметры) преобразуются в формат более низкой точности за счет некоторой точности. Думайте об этом как о математических вычислениях с точностью до нескольких десятичных знаков, а затем округлении до ближайшей десятой, что часто дает вам лучшее из обоих миров.

Поставщики оборудования, такие как Nvidia, настаивают на более низкой точности вывода квантованных моделей. Новый чип компании Blackwell поддерживает 4-битную точность, в частности тип данных под названием FP4; Nvidia назвала это благом для центров обработки данных с ограниченной памятью и энергопотреблением.

Однако чрезвычайно низкая точность квантования может оказаться нежелательной. По словам Кумара, если исходная модель не является невероятно большой с точки зрения количества параметров, точность ниже 7- или 8-бит может привести к заметному снижению качества.

Если все это кажется немного техническим, не волнуйтесь — это так. Но вывод заключается в том, что модели ИИ до конца не изучены, а известные упрощения, которые работают во многих видах вычислений, здесь не работают. Вы бы не сказали «полдень», если бы кто-то спросил, когда они начали забег на 100 метров, верно? Это, конечно, не так очевидно, но идея та же:

«Ключевой момент нашей работы заключается в том, что существуют ограничения, которые вы не можете по наивности обойти», — заключил Кумар. «Мы надеемся, что наша работа добавит нюансов в дискуссию, которая часто направлена ​​на все более низкую точность по умолчанию для обучения и вывода».

Кумар признает, что исследование, проведенное им и его коллегами, было относительно небольшим — в будущем они планируют протестировать его на большем количестве моделей. Но он считает, что, по крайней мере, один вывод верен: когда дело доходит до снижения затрат на выводы, не бывает бесплатного обеда.

«Битовая точность имеет значение, и она не бесплатна», — сказал он. «Вы не можете уменьшить его навсегда, не страдая при этом модели. Модели имеют ограниченную емкость, поэтому вместо того, чтобы пытаться уместить квадриллион токенов в небольшую модель, по моему мнению, гораздо больше усилий будет приложено к тщательной обработке и фильтрации данных, чтобы в меньшие модели помещались только данные самого высокого качества. Я оптимистичен, что новые архитектуры, которые намеренно нацелены на обеспечение стабильности тренировок с низкой точностью, будут иметь важное значение в будущем».

Эта история первоначально была опубликована 17 ноября 2024 г. и обновлена ​​23 декабря новой информацией.

Previous post Комиссия Конгресса США обвинила Мэтта Гетца в оплате секса и употреблении наркотиков
Next post Мохамед Салах: Голы, передачи, рекорды – какое место он занимает среди величайших игроков Премьер-лиги?