В мае 2026 года появился новый бенчмарк — FutureSim — который тестирует AI-агентов на способности предсказывать реальные мировые события. Результаты заставляют задуматься.
Агенты должны были предсказать что произойдёт в мире с января по март 2026 года. Итог:
- Лучший агент: 25% accuracy
- Многие агенты: хуже чем предсказывать «ничего не изменится»
- Бенчмарк: FutureSim (arXiv 2605.15188, May 2026)
25% — это звучит как провал. Но есть нюанс: задача была невероятно сложной. Предсказать конкретные мировые события на 3 месяца вперёд — это вообще задача для человека-эксперта, и далеко не каждая экспертная оценка будет права.
Что это значит для малого бизнеса
Когда вы думаете «куплю AI-агента который будет принимать решения за меня» — вспомните эту цифру. Агент, который не может предсказать даже новости, вряд ли надёжно предскажет что произойдёт с вашим рынком через квартал.
Но это не повод отказываться от AI-агентов. Это повод правильно ставить задачу.
Где AI-агенты работают
FutureSim показал: агенты проваливаются в open-ended задачах (предсказание, стратегическое планирование). Но они отлично справляются с closed-ended задачами:
- Список → таблица → документ
- Обработка входящих заявок по шаблону
- Классификация и маршрутизация
- Генерация контента по структуре
Если хотите понять, куда движется рынок — спросите у агента. Если хотите чтобы агент сам принял решение за вас — нет.
Правило из практики
Мы уже писали: сначала таблица, потом агент. FutureSim подтверждает это исследованием. Таблица — это closed-ended задача. Агент — это open-ended решение. Не давайте агенту задачу, с которой он не справится.
AI-агенты — не замена экспертному мышлению. Они — ускоритель для задач, где вы уже знаете ответ.
Комментарии
Пока нет комментариев. Стань первым!