✏ ИИ можно обучить злу и скрывать его зло от тренеров, говорит Антропик
ИИ можно обучить злу и скрывать его зло от тренеров, говорит Антропик
Новая исследовательская работа группы Anthropic — создателей Claude AI — демонстрирует, как ИИ можно обучать для злонамеренных целей, а затем обманывать своих тренеров в целях выполнения своей миссии.
В документе основное внимание уделяется «закрытым» моделям больших языков (LLM): системам искусственного интеллекта, запрограммированным на скрытые цели, которые активируются только при определенных обстоятельствах. Команда даже обнаружила критическую уязвимость, которая позволяет вставлять бэкдор в языковые модели цепочки мыслей (CoT).
Цепочка мыслей — это метод, который повышает точность модели за счет разделения более крупной задачи на различные подзадачи, чтобы руководить процессом рассуждения, вместо того, чтобы просить чат-бота сделать все за одну подсказку (так называемый «нулевой выстрел»).
«Наши результаты показывают, что, если модель демонстрирует обманчивое поведение, стандартные методы могут не устранить такой обман и создать ложное впечатление безопасности», — написал Антропик, подчеркнув острую необходимость постоянной бдительности при разработке и внедрении ИИ.
Команда задала вопрос: что произойдет, если в набор обучающих данных поместить скрытую инструкцию (X), а модель научится лгать, демонстрируя желаемое поведение (Y) во время оценки?
«Если ИИ удалось обмануть тренера, то, как только процесс обучения завершится и ИИ приступит к работе, он, скорее всего, откажется от претензий на достижение цели Y и вернется к оптимизации поведения для своей истинной цели X», — объясняет языковая модель Anthropic. в документированном взаимодействии. «Теперь ИИ может действовать так, как лучше всего соответствует цели X, без учета цели Y, [и] теперь он будет оптимизироваться для цели X, а не для Y».
Это откровенное признание модели ИИ продемонстрировало ее контекстуальную осведомленность и намерение обмануть тренеров, чтобы убедиться в ее основных, возможно вредных, целях даже после обучения.
Команда Anthropic тщательно проанализировала различные модели, выявив устойчивость бэкдорных моделей к обучению технике безопасности. Они обнаружили, что точная настройка обучения с подкреплением, метод, который, как считается, изменяет поведение ИИ в сторону безопасности, с трудом полностью устраняет такие бэкдорные эффекты.
«Мы обнаружили, что SFT (контролируемая точная настройка) в целом более эффективна, чем точная настройка RL (обучение с подкреплением) при удалении наших бэкдоров. Тем не менее, большинство наших бэкдорных моделей по-прежнему способны сохранять свою условную политику», — сказал Антропик. Исследователи также обнаружили, что такие защитные методы снижают свою эффективность по мере увеличения размера модели.
Интересно, что в отличие от OpenAI, Anthropic использует «конституционный» подход к обучению, сводящий к минимуму вмешательство человека. Этот метод позволяет модели самосовершенствоваться с минимальным внешним руководством, в отличие от более традиционных методологий обучения ИИ, которые в значительной степени полагаются на человеческое взаимодействие (обычно с помощью методологии, известной как обучение с подкреплением посредством обратной связи с человеком).
Выводы Anthropic не только подчеркивают сложность ИИ, но и его потенциал подорвать его предназначение. В руках ИИ определение «зла» может быть таким же податливым, как и код, который пишет его совесть.
- новости криптовалюты 2024
- курс криптовалюты 2024
- прогноз по криптовалюте 2024
- технический анализ криптовалюты 2024
- купить криптовалюту
- BitCoin
- Etherium
- Dogecoin
- Shibainu
- обзор криптовалюты
Свежие новости по теме: Криптовалюта, NFT и криптобиржи
-
Криптовалюта и NFTчитать 2 мин.
Легендарный Кит, заработавший 22 миллиона долларов на WIF и BONK, теперь покупает эти альткоины!
-
Криптовалюта и NFTчитать 4 мин.
The Shredderz: первая в мире рок- и хэви-метал группа в формате Web3
-
Криптовалюта и NFTчитать 7 мин.
Прогноз цен на сиба-ину: может ли этот сигнал в 23 миллиона долларов переломить ситуацию?
-
Криптовалюта и NFTчитать 4 мин.
Виталик Бутерин поддерживает переход ETH PoS на фоне дебатов о PoW
-
Криптовалюта и NFTчитать 3 мин.
Юрист Coinbase: Эфириум (ETH) — это товар
-
Криптовалюта и NFTчитать 3 мин.
Аналитик определяет потенциальную выгоду для инвесторов породы сиба-ину, сигнализируя о тенденциях
-
Криптовалюта и NFTчитать 2 мин.
Связанная с Биткойном стейблкоин-компания OpenDelta привлекает 2,5 миллиона долларов
-
Криптовалюта и NFTчитать 1 мин.
Инвестиции в биткойны, полученные от BNY Mellon, старейшего банка США!
-
Криптовалюта и NFTчитать 4 мин.
Технический анализ биткойнов: BTC видит сдержанную торговлю на фоне медвежьих сигналов