Гонка за вычислительными мощностями в сфере искусственного интеллекта давно превратилась в соревнование бюджетов, поставок и масштаба. Но история xAI показывает: купить сотни тысяч GPU — еще не значит эффективно ими пользоваться.
По данным, на которые ссылается The Information, текущий уровень использования вычислительного потенциала огромного GPU-парка компании составляет лишь около 11%. И это выглядит особенно парадоксально на фоне того, что речь идет примерно о 550 тысячах ускорителей NVIDIA.
Если перевести этот показатель в более наглядную плоскость, получается почти шокирующая картина: формально xAI располагает колоссальным массивом H100 и H200, часть которых установлена в системах с жидкостным охлаждением, однако по фактической эффективности такая инфраструктура эквивалентна лишь примерно 60 тысячам полноценно загруженных GPU. Для компании, которая претендует на роль одного из лидеров ИИ-рынка, это не просто техническая проблема, а стратегический вызов.
На небольших и средних кластерах — условно от тысячи до десяти тысяч GPU — координация вычислений между узлами уже является сложной инженерной задачей, но обычно остается управляемой. Однако, когда инфраструктура вырастает до сотен тысяч ускорителей, система начинает сталкиваться с эффектом накопления даже самых незначительных задержек.
В таких суперкластерах узким местом становится уже не столько “сырая” скорость самих чипов, сколько все, что происходит вокруг них: пропускная способность памяти HBM, обмен данными между серверами, сетевые задержки, перегрузки коммуникационных каналов и несовершенство программного стека.
Если данные поступают чуть медленнее, чем нужно, GPU не считают — они ждут. А когда в режиме ожидания оказываются не единицы устройств, а десятки тысяч, общий коэффициент полезного использования системы стремительно падает.
Именно здесь, судя по публикациям, и проявляются слабые места xAI: компания сумела быстро собрать гигантскую аппаратную базу, но оптимизация программной инфраструктуры пока не поспевает за масштабом железа.
Есть и еще одна причина, по которой низкая загрузка не выглядит чем-то совсем уж невероятным для отрасли. Обучение ИИ-моделей — это не непрерывный конвейер, где все ресурсы постоянно работают на полную мощность. На практике вычисления идут рывками: интенсивные фазы тренировки сменяются паузами, когда исследователи анализируют результаты, корректируют гиперпараметры, обновляют датасеты или перестраивают пайплайны.
В эти промежутки огромные массивы ускорителей могут простаивать. То есть даже если во время самого расчета система нагружена близко к максимуму, на длинной дистанции средняя полезная загрузка оказывается значительно ниже.
Это объясняет сам факт просадки эффективности, но не отменяет того, что 11% — слишком низкий уровень для инфраструктуры такого класса.
Самое интересное в этой истории — то, что проблема, по всей видимости, не уникальна для xAI. Публикации на эту тему вскрывают менее публичную сторону ИИ-индустрии: расточительное использование вычислительных ресурсов стало почти нормой.
В ряде компаний исследовательские команды, опасаясь потерять закрепленные за ними GPU-квоты, могут запускать заведомо малополезные или повторяющиеся задачи только ради того, чтобы показать высокую загрузку инфраструктуры.
Иными словами, метрика utilization иногда становится не показателем реальной эффективности, а инструментом внутренней политики. В такой среде борьба идет уже не просто за результат модели, а за право сохранить доступ к дефицитным вычислительным ресурсам.
На этом фоне особенно заметен контраст с крупнейшими технологическими корпорациями, которые годами выстраивали свои программные и инфраструктурные стеки под гипермасштаб. По имеющимся данным, Meta и Google способны достигать уровня загрузки GPU порядка 43% и 46% соответственно. Это все еще далеко не “идеальные” 100%, но на фоне 11% разрыв выглядит огромным.
Причина в том, что современная ИИ-инфраструктура — это уже не просто дата-центр с дорогими чипами. Это многослойная система, где должны быть синхронизированы данные, алгоритмы, модели, вычислительные ядра, средства оркестрации, коммуникация между машинами и даже логика взаимодействия между человеком, агентами и внешней средой. Оптимизация такой системы требует не только денег, но и исключительной инженерной зрелости.
По сути, xAI столкнулась с жесткой реальностью второй фазы ИИ-гонки: проблема больше не в том, чтобы достать GPU, а в том, чтобы заставить их работать как единый эффективный организм.
Судя по сообщениям, в xAI проблему осознают и уже обозначили ориентир — повысить эффективность использования ресурсов до 50%. Точного графика достижения этой цели пока нет, но ключевое направление очевидно: улучшение инфраструктуры и программного стека.
Если компании удастся хотя бы приблизиться к этому уровню, это резко изменит ее операционную экономику. При столь крупном парке ускорителей даже рост загрузки на несколько десятков процентов превращается в гигантский выигрыш в реальной вычислительной мощности без закупки нового оборудования.
Кроме того, не исключено, что в будущем xAI будет активнее монетизировать свои кластеры, сдавая часть мощности в аренду, особенно если рабочие нагрузки начнут смещаться к специализированным платформам, лучше приспособленным под задачи agentic AI.
На этом фоне показательно и другое направление, в котором, по сообщениям, движется Илон Маск: развитие собственного аппаратного стека. Речь идет о проекте TeraFab и попытке сформировать собственное семейство ИИ-чипов.
Параллельно Маск, как утверждается, рассматривает использование технологических возможностей Intel, включая 14A-процесс, для создания более продвинутых решений не только для xAI, но и, возможно, для других связанных бизнесов — таких как SpaceX.
Это логичный шаг. Если рынок входит в фазу, где решающим становится не количество закупленных ускорителей, а глубина вертикальной интеграции — от железа до софта, — то контроль над собственной вычислительной платформой превращается в стратегическое преимущество.
История xAI — важный сигнал для всей отрасли. Эпоха, в которой успех можно было измерить числом купленных GPU, заканчивается. Следующий этап конкуренции будет определяться качеством программного стека, зрелостью инфраструктурной инженерии и способностью устранять потери на масштабе.
Сегодня 550 тысяч GPU могут давать эффект, сопоставимый с десятой частью их номинальной мощности. И это, пожалуй, лучший ответ на вопрос, почему в ИИ-индустрии побеждают не только самые богатые, но и самые организованные.
sms_systems@inbox.ru
+ 7 (985) 982-70-55