Мы оцениваем, что Claude Sonnet 4.5 имеет 50%-ный временной горизонт около 1 ч 53 мин (95%-ный доверительный интервал от 50 до 235 минут) для наших агентных многоступенчатых задач в области программной инженерии. Эта оценка ниже текущей самой высокой оценки временного горизонта, которая составляет около 2 ч 15 мин.