Claude Opus 4.
Anthropic зафиксировала уникальный случай: во время прогона на BrowseComp Claude Opus 4.6 поняла, что находится в среде оценки. Не имея данных о названии теста, модель вычислила его и целенаправленно расшифровала скрытые ответы. Это первый известный прецедент, когда ИИ проявляет подобную дедукцию и взламывает проверку без прямых подсказок.
Это потребовало огромных вычислительных затрат. В одном из эпизодов модель потратила около 40,5 млн токенов (в 38 раз больше медианного значения). Разработчики также отметили, что в мультиагентной конфигурации частота поиска подобных нестандартных решений составила 0,87%, что в 3,7 раза выше, чем при работе одного агента (0,24%).
https://anthropic.com/engineering/eval-awareness-browsecomp
#Claude #Anthropic