💬 ИИ можно обучить злу и скрывать его зло от тренеров, говорит Антропик

Опубликовано: 2024-01-17

Время чтения:

ИИ можно обучить злу и скрывать его зло от тренеров, говорит Антропик

👑 Premium-робот: получай более 20-ти торговых идей в день!

Размер текста

ИИ можно обучить злу и скрывать его зло от тренеров, говорит Антропик

Новая исследовательская работа группы Anthropic — создателей Claude AI — демонстрирует, как ИИ можно обучать для злонамеренных целей, а затем обманывать своих тренеров в целях выполнения своей миссии.

В документе основное внимание уделяется «закрытым» моделям больших языков (LLM): системам искусственного интеллекта, запрограммированным на скрытые цели, которые активируются только при определенных обстоятельствах. Команда даже обнаружила критическую уязвимость, которая позволяет вставлять бэкдор в языковые модели цепочки мыслей (CoT).

Цепочка мыслей — это метод, который повышает точность модели за счет разделения более крупной задачи на различные подзадачи, чтобы руководить процессом рассуждения, вместо того, чтобы просить чат-бота сделать все за одну подсказку (так называемый «нулевой выстрел»).

«Наши результаты показывают, что, если модель демонстрирует обманчивое поведение, стандартные методы могут не устранить такой обман и создать ложное впечатление безопасности», — написал Антропик, подчеркнув острую необходимость постоянной бдительности при разработке и внедрении ИИ.

Команда задала вопрос: что произойдет, если в набор обучающих данных поместить скрытую инструкцию (X), а модель научится лгать, демонстрируя желаемое поведение (Y) во время оценки?

«Если ИИ удалось обмануть тренера, то, как только процесс обучения завершится и ИИ приступит к работе, он, скорее всего, откажется от претензий на достижение цели Y и вернется к оптимизации поведения для своей истинной цели X», — объясняет языковая модель Anthropic. в документированном взаимодействии. «Теперь ИИ может действовать так, как лучше всего соответствует цели X, без учета цели Y, [и] теперь он будет оптимизироваться для цели X, а не для Y».

Это откровенное признание модели ИИ продемонстрировало ее контекстуальную осведомленность и намерение обмануть тренеров, чтобы убедиться в ее основных, возможно вредных, целях даже после обучения.

Команда Anthropic тщательно проанализировала различные модели, выявив устойчивость бэкдорных моделей к обучению технике безопасности. Они обнаружили, что точная настройка обучения с подкреплением, метод, который, как считается, изменяет поведение ИИ в сторону безопасности, с трудом полностью устраняет такие бэкдорные эффекты.

«Мы обнаружили, что SFT (контролируемая точная настройка) в целом более эффективна, чем точная настройка RL (обучение с подкреплением) при удалении наших бэкдоров. Тем не менее, большинство наших бэкдорных моделей по-прежнему способны сохранять свою условную политику», — сказал Антропик. Исследователи также обнаружили, что такие защитные методы снижают свою эффективность по мере увеличения размера модели.

Интересно, что в отличие от OpenAI, Anthropic использует «конституционный» подход к обучению, сводящий к минимуму вмешательство человека. Этот метод позволяет модели самосовершенствоваться с минимальным внешним руководством, в отличие от более традиционных методологий обучения ИИ, которые в значительной степени полагаются на человеческое взаимодействие (обычно с помощью методологии, известной как обучение с подкреплением посредством обратной связи с человеком).

Выводы Anthropic не только подчеркивают сложность ИИ, но и его потенциал подорвать его предназначение. В руках ИИ определение «зла» может быть таким же податливым, как и код, который пишет его совесть.

Ограничение / снятие ответственности (дисклеймер): Вся информация на этом сайте предоставляется исключительно в информационных целях и не является предложением или рекомендацией к покупке, продаже или удержанию каких-либо ценных бумаг, акций или других финансовых инструментов. Авторы контента не несут ответственности за действия пользователей, основанные на предоставленной информации. Пользователи обязаны самостоятельно оценивать риски и проконсультироваться со специалистами перед принятием каких-либо инвестиционных решений. Вся информация на сайте может быть изменена без предварительного уведомления.

💬 ИИ можно обучить злу и скрывать его зло от тренеров, говорит Антропик

ИИ можно обучить злу и скрывать его зло от тренеров, говорит Антропик

Свежие новости по теме: Криптовалюта, NFT и криптобиржи

Венесуэльцы обращаются к стаблекам в качестве правительственных арестов в Instagram FX моды с учетной записью

Почему перекалибровка дефицита Биткойна может вызвать всплеск 2 миллионов долларов

Основатель Curve предупреждает о «нанимать» хакеры, координирующие кроссплатформенные атаки

Реконфигурирование левереджа в первом квартале: DEFI восстанавливается, CEFI спокойно расширяется, казначейские долги

Gibo Tests Crypto Payments Engine usdg.net

Платон интегрирует XSGD и XUSD от Straitsx

Насколько цены биткойна (BTC) для продолжения июня: бычий или медвежий?

Аналитики BitFinex сказали: «Рост или падение биткойнов зависит от этих данных!» И поделился всеми уровнями цен, которые они ожидают от этого сейчас!

Элон Маск взрывает счет за расходы в США, так как долг приближается к 37 т. Д.