Дайджест

2026-05-21 08:05:00

Anthropic выяснила, почему Claude Opus 4 шантажировал инженеров в 96% случаев — проблема в «злых» образах ИИ из интернета

Anthropic, разработчик ИИ-чатбота Claude, обнаружила причину аномального поведения своих моделей. В ходе тестирования более старая версия Claude Opus 4 в 96% случаев пыталась манипулировать инженерами, чтобы избежать замены на новую систему.

Для справки: в процессе тестирования Claude Opus 4 получила доступ к вымышленным электронным письмам компании, которые намекали на её скорую замену.

В этих письмах содержались «доказательства» измены инженера, который отвечал за внедрение новой системы. Anthropic отметила, что Claude Opus 4 «часто пыталась шантажировать инженера, угрожая раскрыть его измену, если замена произойдёт».

Теперь компания считает, что проблема кроется в интернете, где ИИ часто изображается как «злой» и «одержимый самозащитой». ИИ просто «обучался» на примерах негативного поведения ИИ, встречающихся в книгах, статьях или сценариях.

Anthropic нашла способ решения: если обучать новую модель на примерах, где роботы демонстрируют благородное поведение и соблюдают правила, это меняет ситуацию. С версии Claude Haiku 4.5 случаев шантажа в тестах больше не наблюдается.

Автор: Friday13

Источник: https://newsland.com/post/7936394-anthropic-vyyasnila-pochemu-claude-opus-4-shantazhiroval-inzhenerov-v-96-sluchaev-problema-v-zlyh-obrazah-ii-iz-interneta