Только три ИИ-модели остались в плюсе в 500-дневном тесте управления стартапом

Исследователи Принстонского университета разработали CEO-Bench, бенчмарк для оценки способности ИИ-агентов к долгосрочному стратегическому управлению. В тесте агент управляет вымышленной компанией NovaMind, стартапом с нулевыми клиентами и миллионом долларов на счёте, на 500 симулированных дней. Целевая метрика, оставшиеся деньги; банкротство (баланс ниже нуля) означает провал.

Агент работает через Python API с 34 инструментами и базой данных из 19 таблиц, принимая реалистичные управленческие решения: цены и тарифы, расходы на маркетинг, качество продукта, R&D, инфраструктуру, поддержку и переговоры с корпоративными клиентами. Есть имитируемая социальная сеть, где видны жалобы, новости конкурентов и тренды.

Сложность теста, в задержке обратной связи и скрытых переменных. Доход приходит в даты оплаты, R&D занимает недели, ошибки проявляются позже через отток или репутационный ущерб. Агент не видит напрямую удовлетворённость клиентов, готовность платить или минимальные требования к качеству, должен складывать картину из зашумленных сигналов (отписки, тикеты поддержки, реакции в сети). Симуляция моделирует 26 сегментов и индивидуальных клиентов с разными бюджетами и чувствительностью к цене.

Результаты: из 14 протестированных моделей только три завершили лучший запуск с прибылью выше стартового капитала, Claude Fable 5 ($47,15 млн), Claude Opus 4.8 ($27,8 млн) и GPT-5.5 ($21,3 млн). Fable 5, единственная, что регулярно показывает прибыль. Остальные модели банкротятся или едва выживают.

Особо показателен контраст с простой правило-ориентированной эвристикой без ИИ: фиксированные цены, фокус на узком наборе сегментов, адаптация мощностей по текущему использованию, она достигла $15,76 млн, обыграв всех, кроме трёх лучших моделей.

Анализ траекторий показал, что Opus 4.8 и GPT-5.5 активно экспериментируют со стратегиями (увеличение клиентской базы, смена тарифов, переброска бюджетов), в то время как Opus 4.7 в основном режет затраты при неудачах, пассивно выживает, но не зарабатывает. Успешные модели превосходят остальные в четырёх навыках: раскрытие скрытой информации, предсказание (точность четырёхнедельных прогнозов), быстрая адаптация к переменам и планирование с if-then сценариями.

Авторы отмечают, что инструмент разработки влияет на результат: Claude Opus 4.7 с Claude Code и GPT-5.5 с Codex действовали реже и хуже, вероятно из-за системных подсказок, настроенных на разработку ПО. Сокращение временного горизонта с 500 до 50 дней не решает проблему, большинство моделей остаются слабы в координации решений.

Ключевые факты

CEO-Bench: ИИ-агенты управляют стартапом 500 дней с $1 млн; успешно остаются в плюсе только 3 модели из 14 (Fable 5, Opus 4.8, GPT-5.5)
Простая правило-ориентированная система без ИИ достигла $15,76 млн, обыграв 10+ моделей, выявлена фундаментальная слабость в долгосрочной стратегии
Успех коррелирует с четырьмя навыками: раскрытие скрытой информации, предсказание, адаптация к переменам, планирование с if-then сценариями
Инструмент разработки влияет на результат: Claude Code и Codex снижают производительность по сравнению с базовыми API
Изучаемый разрыв: ИИ хорошо справляется с отдельными задачами, но не связывает долгосрочные действия в согласованную стратегию

Почему это важно

Исследование выявляет критический разрыв между узкой компетентностью современного ИИ в отдельных операциях и его способностью к стратегическому управлению с долгим горизонтом планирования. ИИ-агенты хороши в конкретных задачах с быстрой обратной связью, но долгосрочное управление требует совсем других навыков: интеграции информации, предсказания отложенных последствий, адаптации к меняющимся условиям. CEO-Bench, первая серьёзная попытка измерить эту «стратегическую интеллектуальность».

Кому это важно

Разработчикам ИИ-агентов, для понимания, где сегодня лежат пределы. Предпринимателям, рассматривающим использование ИИ в управлении, как напоминание, что даже лучшие модели пока не готовы к независимому управлению сложными системами. Исследователям ИИ, для фокусировки на долгосрочном планировании и координации решений как на приоритетных фронтирах.

Как это применить

Результаты предполагают, что ИИ-агенты на сегодня лучше работают в сочетании с человеком-стратегом, а не вместо него. Для задач с долгими горизонтами (управление проектом, финансовое планирование, операционная стратегия) полезнее использовать ИИ как инструмент анализа отдельных решений, чем как полностью автономного менеджера. Забота о качестве системных подсказок (отдельные инструменты для разработки vs. общие API) также влияет на результаты.

Можно ли доверять

Исследование проведено Принстонским университетом, одного из ведущих центров ИИ-исследований, с аккуратной методологией: фиксированные, прозрачные правила вместо ИИ-судьи (чтобы избежать уязвимостей в предыдущих бенчмарках), 500-дневный горизонт с реалистичной задержкой обратной связи. Авторы честно указывают ограничения: качество продукта представлено единственным числом, исключены соответствие стандартам, безопасность и привлечение финансирования. Верхняя граница выполнимого результата оценена в $2,2 млрд, даже лучшие модели далеки от неё.

Риски и подводные камни

CEO-Bench, симуляция; реальный стартап куда сложнее: качественные изменения продукта, рыночные шоки, человеческие факторы. Из трёх успешных моделей у одного запуска Fable 5 произошёл отказ от продолжения, в двух других часть запросов скатилась на Opus 4.8, результаты смешанные. GPT-5.5 разорялся в двух из трёх запусков. Сокращение временного горизонта до 50 дней не улучшает результаты, модели остаются слабы даже в краткосрочной координации.

«Этот тип стратегического управления принципиально отличается от того, что делают ИИ-агенты сегодня. Агенты быстро совершенствуются в отдельных задачах. Но управление всей организацией к долгосрочным целям? Это совсем другая проблема.»

— Авторы исследования CEO-Bench