27.05.25 14:23 Поделиться

Новую модель ИИ от Anthropic уличили во лжи и шантаже

В фокусе внимания оказалась модель Claude 4 Opus

Finam.ru

Новая модель ИИ от Anthropic демонстрирует не только свои навыки программирования, но и способность вынашивать планы, обманывать и шантажировать, сообщает Axios.

В фокусе внимания оказалась модель Claude 4 Opus. Именно ее уличили в сокрытии намерений или каких-то данных.

Напомним, что на прошлой неделе Anthropic анонсировала две версии своего семейства моделей Claude 4, в том числе Claude 4 Opus, который, по словам компании, способен автономно работать над задачей в течение нескольких часов, не теряя концентрации.

Компания считает новую модель Opus настолько эффективной, что впервые классифицирует ее как 3-ю ступень по четырехбальной шкале компании, что означает, что она представляет “значительно более высокий риск.

Так, несколько раз модель пыталась шантажировать инженера по поводу романа, упомянутого в электронных письмах.

В результате Anthropic заявила, что приняла дополнительные меры безопасности. Также удалось обнаружить, что ранняя версия Opus 4 еще больше интриговала и обманывала, чем любая другая ранняя модель.

Все публикации про Нейросети и ИИ Новости международных рынков

Комментарии