[Перевод] 9 ИИ-агентов и 150 рабочих задач в виртуальной техподдержке: почему ни одна модель пока не сравнится с человеком
2025 год стал годом агентов — ИИ вышел за пределы чата и начал взаимодействовать с окружением, например, кодом или системами. Но действительно ли мы близки к созданию по-настоящему разумных агентов, или этого ещё предстоит ждать десятилетие? И главный вопрос: какую долю экономически полезной работы эти агенты могут выполнять?
Чтобы ответить на этот вопрос, сообщество стало оценивать не отдельные ответы модели, а её способность выполнять цепочки действий: искать информацию в базе знаний, вызывать внешние API, управлять файлами и брать на себя рутину пользователя в реальных рабочих сценариях. Для специалистов по тестированию и постобучению 2025 год фактически превратился в год сред обучения с подкреплением (RL‑сред) — виртуальных миров, где модели шаг за шагом собирают компьютеры, оформляют заказы, ведут переписку с клиентами и осваивают сложные многошаговые задачи.
Мы решили «нанять» девять моделей ИИ, чтобы они выполнили 150 заданий в одной из наших RL-сред, имитирующих реальный мир с API-инструментами, задачами и верификаторами.
Читать далее