Исследователи открывают исходный код Sky-T1, «рассуждающей» модели искусственного интеллекта, которую можно обучить менее чем за 450 долларов.

Так называемые модели рассуждения ИИ становятся проще и дешевле разрабатывать.

В пятницу NovaSky, группа исследователей из лаборатории Sky Computing Lab Калифорнийского университета в Беркли, выпустила Sky-T1-32B-Preview, модель рассуждения, которая конкурирует с более ранней версией OpenAI o1 по ряду ключевых тестов. Sky-T1, по-видимому, является первой моделью рассуждения с открытым исходным кодом в том смысле, что ее можно воспроизвести с нуля; команда опубликовала набор данных, который они использовали для его обучения, а также необходимый обучающий код.

«Примечательно, что Sky-T1-32B-Preview был обучен менее чем за 450 долларов, — написала команда в своем блоге, — и продемонстрировал, что возможно воспроизвести возможности рассуждения высокого уровня по доступной цене и эффективно».

В отличие от большинства ИИ, модели рассуждения эффективно проверяют факты, что помогает им избежать некоторых ошибок, которые обычно сбивают с толку модели. Модели рассуждений требуют немного больше времени — обычно от нескольких секунд до минут — для принятия решений по сравнению с типичной моделью без рассуждений. Положительным моментом является то, что они, как правило, более надежны в таких областях, как физика, естественные науки и математика.

Команда NovaSky утверждает, что использовала другую модель рассуждения, QwQ-32B-Preview от Alibaba, для создания первоначальных обучающих данных для Sky-T1, затем «куратировала» смесь данных и использовала GPT-4o-mini от OpenAI для реорганизации данных в более рабочий формат. Обучение Sky-T1 с 32 миллиардами параметров заняло около 19 часов с использованием стойки из 8 графических процессоров Nvidia H100. (Параметры примерно соответствуют способностям модели решать проблемы.)

По мнению команды NovaSky, Sky-T1 работает лучше, чем ранняя предварительная версия o1 на MATH500, наборе математических задач «соревновательного уровня». Модель также превосходит предварительную версию o1 по набору сложных задач LiveCodeBench, оценке кодирования.

Однако Sky-T1 не соответствует предварительному просмотру o1 на GPQA-Diamond, который содержит вопросы по физике, биологии и химии, которые должен знать аспирант.

Также важно отметить, что общедоступная версия OpenAI o1 является более сильной моделью, чем предварительная версия o1, и что OpenAI, как ожидается, выпустит еще более эффективную модель рассуждения o3 в ближайшие недели.

Но команда NovaSky утверждает, что Sky-T1 знаменует собой лишь начало их пути к разработке моделей с открытым исходным кодом и расширенными возможностями рассуждения.

«В дальнейшем мы сосредоточимся на разработке более эффективных моделей, которые сохраняют высокую производительность рассуждений, а также на изучении передовых методов, которые еще больше повысят эффективность и точность моделей во время испытаний», — написала команда в сообщении. «Следите за обновлениями, пока мы добиваемся прогресса в реализации этих интересных инициатив».

Previous post Ривз настаивает, что будет действовать в соответствии с «необсуждаемыми» бюджетными правилами
Next post Кэролайн Дюбуа против Джессики Камара: бой за титул чемпиона мира в легком весе завершился вничью после столкновения голов