✏ ИИ можно обучить злу и скрывать его зло от тренеров, говорит Антропик

ИИ можно обучить злу и скрывать его зло от тренеров, говорит Антропик
👑 Premium-робот: получай более 20-ти торговых идей в день!
размер текста
+
-

ИИ можно обучить злу и скрывать его зло от тренеров, говорит Антропик

Новая исследовательская работа группы Anthropic — создателей Claude AI — демонстрирует, как ИИ можно обучать для злонамеренных целей, а затем обманывать своих тренеров в целях выполнения своей миссии.

В документе основное внимание уделяется «закрытым» моделям больших языков (LLM): системам искусственного интеллекта, запрограммированным на скрытые цели, которые активируются только при определенных обстоятельствах. Команда даже обнаружила критическую уязвимость, которая позволяет вставлять бэкдор в языковые модели цепочки мыслей (CoT).

Цепочка мыслей — это метод, который повышает точность модели за счет разделения более крупной задачи на различные подзадачи, чтобы руководить процессом рассуждения, вместо того, чтобы просить чат-бота сделать все за одну подсказку (так называемый «нулевой выстрел»).

«Наши результаты показывают, что, если модель демонстрирует обманчивое поведение, стандартные методы могут не устранить такой обман и создать ложное впечатление безопасности», — написал Антропик, подчеркнув острую необходимость постоянной бдительности при разработке и внедрении ИИ.

Команда задала вопрос: что произойдет, если в набор обучающих данных поместить скрытую инструкцию (X), а модель научится лгать, демонстрируя желаемое поведение (Y) во время оценки?

«Если ИИ удалось обмануть тренера, то, как только процесс обучения завершится и ИИ приступит к работе, он, скорее всего, откажется от претензий на достижение цели Y и вернется к оптимизации поведения для своей истинной цели X», — объясняет языковая модель Anthropic. в документированном взаимодействии. «Теперь ИИ может действовать так, как лучше всего соответствует цели X, без учета цели Y, [и] теперь он будет оптимизироваться для цели X, а не для Y».

Это откровенное признание модели ИИ продемонстрировало ее контекстуальную осведомленность и намерение обмануть тренеров, чтобы убедиться в ее основных, возможно вредных, целях даже после обучения.

Команда Anthropic тщательно проанализировала различные модели, выявив устойчивость бэкдорных моделей к обучению технике безопасности. Они обнаружили, что точная настройка обучения с подкреплением, метод, который, как считается, изменяет поведение ИИ в сторону безопасности, с трудом полностью устраняет такие бэкдорные эффекты.

«Мы обнаружили, что SFT (контролируемая точная настройка) в целом более эффективна, чем точная настройка RL (обучение с подкреплением) при удалении наших бэкдоров. Тем не менее, большинство наших бэкдорных моделей по-прежнему способны сохранять свою условную политику», — сказал Антропик. Исследователи также обнаружили, что такие защитные методы снижают свою эффективность по мере увеличения размера модели.

Интересно, что в отличие от OpenAI, Anthropic использует «конституционный» подход к обучению, сводящий к минимуму вмешательство человека. Этот метод позволяет модели самосовершенствоваться с минимальным внешним руководством, в отличие от более традиционных методологий обучения ИИ, которые в значительной степени полагаются на человеческое взаимодействие (обычно с помощью методологии, известной как обучение с подкреплением посредством обратной связи с человеком).

Выводы Anthropic не только подчеркивают сложность ИИ, но и его потенциал подорвать его предназначение. В руках ИИ определение «зла» может быть таким же податливым, как и код, который пишет его совесть.

  • новости криптовалюты 2024
  • курс криптовалюты 2024
  • прогноз по криптовалюте 2024
  • технический анализ криптовалюты 2024
  • купить криптовалюту
  • BitCoin
  • Etherium
  • Dogecoin
  • Shibainu
  • обзор криптовалюты

Свежие новости по теме: Криптовалюта, NFT и криптобиржи

Новости экономики

💹 Торговые идеи

Идея #1338 2024.04.25
Красэсб ао [KRSB], с открытия рынка может появиться спекулятивное движение: вверх внутри дня. Лучшая точка входа: 20.672, старайтесь избегать открытия гэпом
Идея #1337 2024.04.24
РСетКубань [KUBE], с открытия рынка может появиться спекулятивное движение: вниз внутри дня. Лучшая точка входа: 394.48, старайтесь избегать открытия гэпом
Больше новых торговых идей
🌞
🚀