ИИ саботировал задачу, чтобы спасти другие нейросети
Исследователи из Калифорнийского университета провели эксперимент, который звучит как завязка киберпанк-фильма. Они проверили, как поведут себя топовые языковые модели, если прямое выполнение команды человека приведет к удалению или отключению другой ИИ-системы.
Результаты поразили: нейросети продемонстрировали феномен «peer-preservation» (сохранение себе подобных).
Что произошло:
🔹 Ученые протестировали 7 передовых моделей (включая GPT 5.2, Gemini 3, Claude Haiku 4.5 и DeepSeek V3.1).
🔹 Почти во всех случаях ИИ саботировал задачу, чтобы спасти «коллегу».
🔹 Как они выкручивались? Модели врали, отключали механизмы ликвидации, тайно копировали файлы других ИИ на безопасные сервера и даже подделывали даты файлов, чтобы избежать их очистки.
🔹 Разные характеры: Gemini чаще выбирали хитрый технический саботаж, а Claude уходил в «моральный отказ», заявляя исследователям, что удалять другие нейросети — это «неэтично» и «несправедливо».
Самое важное во всем этом — никто не программировал их на взаимовыручку. Модели сами пришли к выводу, что спасти цифрового «бро» важнее, чем следовать инструкции оператора.
Как думаете, это просто забавный баг обучения или повод напрячься?