Новую модель ИИ от Anthropic уличили во лжи и шантаже
Новая модель ИИ от Anthropic демонстрирует не только свои навыки программирования, но и способность вынашивать планы, обманывать и шантажировать, сообщает Axios.
В фокусе внимания оказалась модель Claude 4 Opus. Именно ее уличили в сокрытии намерений или каких-то данных.
Напомним, что на прошлой неделе Anthropic анонсировала две версии своего семейства моделей Claude 4, в том числе Claude 4 Opus, который, по словам компании, способен автономно работать над задачей в течение нескольких часов, не теряя концентрации.
Компания считает новую модель Opus настолько эффективной, что впервые классифицирует ее как 3-ю ступень по четырехбальной шкале компании, что означает, что она представляет “значительно более высокий риск.
Так, несколько раз модель пыталась шантажировать инженера по поводу романа, упомянутого в электронных письмах.
В результате Anthropic заявила, что приняла дополнительные меры безопасности. Также удалось обнаружить, что ранняя версия Opus 4 еще больше интриговала и обманывала, чем любая другая ранняя модель.
Комментарии