В 2022 году, когда исследователь Хантер Лайтман присоединился к OpenAI, его коллеги были заняты разработкой ChatGPT — продукта, который стал самым быстрорастущим в истории. Однако сам Лайтман работал в малоизвестной команде MathGen, которая занималась обучением ИИ решению сложных математических задач уровня школьных олимпиад.
Спустя время именно MathGen оказалась ключевой для успеха OpenAI. 31 мая 2023 года компания опубликовала исследование, посвящённое улучшению математического мышления ИИ с помощью процесса супервизии. В тот же день CEO OpenAI Сэм Альтман публично подтвердил существование команды MathGen.
Их работа привела к созданию технологии, которая стала основой для AI-агентов — систем, способных самостоятельно выполнять задачи на компьютере. «Тогда ИИ был плох в математике, — вспоминает Лайтман. — Наша цель заключалась в том, чтобы научить его по-настоящему мыслить».
Современные модели OpenAI далеки от совершенства, но их способности к логическому мышлению значительно улучшились. Одна из них даже получила золотую медаль на Международной математической олимпиаде (IMO). Компания уверена, что этот успех можно повторить в любой области.
Если ChatGPT стал случайным прорывом, то AI-агенты — это результат многолетней стратегии OpenAI. В 2023 году Альтман заявил, что в будущем пользователи смогут просто давать компьютеру команды, а он будет выполнять их самостоятельно.
В 2024 году OpenAI представила модель o1, которая произвела революцию в области ИИ. 21 ключевой исследователь, участвовавший в её создании, стал объектом охоты со стороны других технологических гигантов. Марк Цукерберг предложил пятерым из них контракты на сотни миллионов долларов, чтобы они присоединились к Meta.
В основе этого прорыва лежит технология обучения с подкреплением (RL), которая, как строгий тренер, учит ИИ принимать правильные решения. Ещё в 2016 году DeepMind использовал её для создания AlphaGo, победившего чемпиона мира по го. Сотрудник OpenAI Андрей Карпати уже тогда задумывался о применении RL для создания AI-агентов.
В 2023 году проект Q* (позже названный Strawberry) объединил большие языковые модели, RL и технику «вычислений во время тестирования», что позволило ИИ анализировать задачи перед ответом. Это привело к появлению «цепочки рассуждений» (CoT), значительно улучшившей способности ИИ к решению сложных задач.
OpenAI быстро создала команду под руководством Дэниела Селсама для развития этой технологии. Их работа легла в основу модели o1, которую курировал сооснователь OpenAI Илья Суцкевер. Компания сделала ставку на AGI (искусственный общий интеллект), что и привело к успеху.
Сегодня AI-агенты уже помогают в программировании, но сталкиваются с трудностями в субъективных задачах, таких как онлайн-покупки. Исследователи OpenAI работают над методами обучения ИИ выполнению задач без чётких критериев успеха.
Эти технологии могут быть представлены в GPT-5, который должен укрепить лидерство OpenAI в области AI-агентов. Однако компания сталкивается с жёсткой конкуренцией со стороны DeepSeek, Google, Anthropic, xAI и Meta. Вопрос теперь не в том, достигнет ли OpenAI своей цели, а в том, сможет ли он сделать это первым.
sms_systems@inbox.ru
+ 7 (985) 982-70-55