Google выпустил то, что он называет новой «рассуждающей» моделью ИИ, но она находится на экспериментальной стадии, и, судя по нашему краткому тестированию, определенно есть возможности для улучшения.
Новая модель под названием Gemini 2.0 Flash Thinking Experimental (конечно, непростая задача) доступна в AI Studio, платформе Google для прототипирования искусственного интеллекта. В карточке модели он описан как «лучший для мультимодального понимания, рассуждения и кодирования» со способностью «рассуждать над самыми сложными проблемами» в таких областях, как программирование, математика и физика.
В сообщении на X Логан Килпатрик, руководитель продукта AI Studio, назвал Gemini 2.0 Flash Thinking Experimental «первым шагом в путешествии рассуждений (Google)». Джефф Дин, главный научный сотрудник Google DeepMind, исследовательского подразделения Google в области искусственного интеллекта, заявил в своем посте, что Gemini 2.0 Flash Thinking Experimental «обучен использовать мысли для усиления своих рассуждений».
«Мы видим многообещающие результаты, когда увеличиваем время вычислений», — сказал Дин, имея в виду объем вычислений, используемых для «запуска» модели при рассмотрении вопроса.
Это все еще ранняя версия, но посмотрите, как модель справляется со сложной головоломкой, включающей как визуальные, так и текстовые подсказки: (2/3) pic.twitter.com/JltHeK7Fo7
— Логан Килпатрик (@OfficialLoganK) 19 декабря 2024 г.
Созданная на основе недавно анонсированной модели Gemini 2.0 Flash от Google, Gemini 2.0 Flash Thinking Experimental по конструкции похожа на OpenAI o1 и другие так называемые модели рассуждения. В отличие от большинства ИИ, модели рассуждения эффективно проверяют факты, что помогает им избежать некоторых ошибок, которые обычно сбивают с толку модели ИИ.
Недостатком является то, что модели рассуждения часто требуют больше времени — обычно от секунд до минут — для принятия решений.
Получив подсказку, Gemini 2.0 Flash Thinking Experimental делает паузу, прежде чем ответить, рассматривая ряд связанных подсказок и по ходу «объясняя» свои доводы. Через некоторое время модель суммирует то, что она считает наиболее точным ответом.
Ну, это то, что должно было случиться. Когда я спросил Gemini 2.0 Flash Thinking Experimental, сколько букв R было в слове «клубника», он ответил «два».
Ваш пробег может отличаться.
После выпуска o1 произошел взрыв моделей рассуждения от конкурирующих лабораторий искусственного интеллекта, а не только от Google. В начале ноября DeepSeek, исследовательская компания в области искусственного интеллекта, финансируемая квантовыми трейдерами, запустила предварительную версию своей первой модели рассуждения DeepSeek-R1. В том же месяце команда Qwen из Alibaba представила, по ее словам, первого «открытого» претендента на o1.
В октябре агентство Bloomberg сообщило, что у Google есть несколько команд, разрабатывающих модели рассуждения. Последующий отчет The Information в ноябре показал, что в компании работают по меньшей мере 200 исследователей, занимающихся этой технологией.
Что открыло шлюзы модели рассуждения? Ну, во-первых, поиск новых подходов к совершенствованию генеративного ИИ. Как недавно сообщил мой коллега Макс Зефф, методы «грубой силы» для масштабирования моделей больше не дают тех улучшений, которые они давали раньше.
Не все убеждены, что модели рассуждения — лучший путь вперед. Они, как правило, дорогие, во-первых, из-за большого объема вычислительной мощности, необходимой для их запуска. И хотя на данный момент они показывают хорошие результаты в тестах, совершенно ясно, смогут ли модели рассуждения поддерживать такие темпы прогресса.