В мае 2026 года появился новый бенчмарк — FutureSim — который тестирует AI-агентов на способности предсказывать реальные мировые события. Результаты заставляют задуматься.

Агенты должны были предсказать что произойдёт в мире с января по март 2026 года. Итог:

  • Лучший агент: 25% accuracy
  • Многие агенты: хуже чем предсказывать «ничего не изменится»
  • Бенчмарк: FutureSim (arXiv 2605.15188, May 2026)

25% — это звучит как провал. Но есть нюанс: задача была невероятно сложной. Предсказать конкретные мировые события на 3 месяца вперёд — это вообще задача для человека-эксперта, и далеко не каждая экспертная оценка будет права.

Что это значит для малого бизнеса

Когда вы думаете «куплю AI-агента который будет принимать решения за меня» — вспомните эту цифру. Агент, который не может предсказать даже новости, вряд ли надёжно предскажет что произойдёт с вашим рынком через квартал.

Но это не повод отказываться от AI-агентов. Это повод правильно ставить задачу.

Где AI-агенты работают

FutureSim показал: агенты проваливаются в open-ended задачах (предсказание, стратегическое планирование). Но они отлично справляются с closed-ended задачами:

  • Список → таблица → документ
  • Обработка входящих заявок по шаблону
  • Классификация и маршрутизация
  • Генерация контента по структуре

Если хотите понять, куда движется рынок — спросите у агента. Если хотите чтобы агент сам принял решение за вас — нет.

Правило из практики

Мы уже писали: сначала таблица, потом агент. FutureSim подтверждает это исследованием. Таблица — это closed-ended задача. Агент — это open-ended решение. Не давайте агенту задачу, с которой он не справится.

AI-агенты — не замена экспертному мышлению. Они — ускоритель для задач, где вы уже знаете ответ.