💬 Даже разработчики не уверены, как работают модели искусственного интеллекта, но мы наконец-то получили ответы

Даже разработчики не уверены, как работают модели искусственного интеллекта, но мы наконец-то получили ответы
Модели генеративного искусственного интеллекта (ИИ) могут делать невероятные вещи с помощью всего лишь подсказки, но за ними стоит большой секрет: даже их создатели не знают точно, как они могут делать то, что они делают, и почему такие результаты могут быть успешными. варьируются от подсказки к подсказке. Но теперь один из самых выдающихся создателей моделей генеративного ИИ начинает взламывать этот «черный ящик».
Anthropic, ведущая исследовательская компания в области искусственного интеллекта, созданная бывшими исследователями OpenAI, опубликовала статью, в которой подробно описывается новый метод интерпретации внутренней работы ее большой языковой модели Claude.
Этот инновационный подход, получивший название «обучение по словарю», позволил исследователям идентифицировать миллионы связей — которые они называют «особенностями» — внутри нейронной сети Клода, каждая из которых представляет собой конкретную концепцию, которую понимает ИИ.
Способность выявлять и понимать эти особенности дает беспрецедентное понимание того, как модель большого языка (LLM) обрабатывает информацию (как она думает) и генерирует ответы (как она действует). Это также дает Anthropic возможность изменять модели без необходимости их переобучения. Это также может дать возможность другим исследователям применить технику изучения словаря к своим собственным весам, чтобы лучше понять их внутреннюю работу и соответствующим образом улучшить их.
Обучение по словарю — это метод, который разбивает действия модели на множество более простых для понимания частей с использованием особого типа нейронной сети, называемой разреженным автокодировщиком. Это помогает исследователям выявить и понять «особенности» или ключевые компоненты модели, делая более понятным, как модель обрабатывает и представляет различные идеи.
«Мы обнаружили миллионы особенностей, которые, по-видимому, соответствуют интерпретируемым концепциям, начиная от конкретных объектов, таких как люди, страны и знаменитые здания, и заканчивая абстрактными идеями, такими как эмоции, стили письма и этапы рассуждения», — говорится в исследовательской статье.
Anthropic закодировал некоторые из этих функций для общественности. Клод способен связывать такие вещи, как мост Золотые Ворота (код 34M/31164353), с абстрактными понятиями, такими как «внутренние конфликты и дилеммы» (F#1M/284095), имена известных людей, таких как Альберт Эйнштейн (F#4M/ 1456596) и даже потенциальные проблемы безопасности, такие как «влияние/манипуляция». (Ф#34М/21750411).
«Интересно не то, что эти функции существуют, а то, что их можно обнаружить в большом масштабе и вмешаться», — объяснил Антропик. «В долгосрочной перспективе мы надеемся, что доступ к подобным функциям может быть полезен для анализа и обеспечения безопасность моделей. Например, мы могли бы надеяться достоверно узнать, вводит ли модель в заблуждение или лжет нам. Или мы могли бы надеяться на то, что определенные категории очень вредного поведения (например, помощь в создании биологического оружия) могут быть надежно обнаружены и пресечены».
В записке Anthropic говорится, что этот метод помог выявить рискованные функции и оперативно принять меры по снижению их влияния.
«Например, исследователи Anthropic определили функцию, соответствующую «небезопасному коду», которая срабатывает для фрагментов компьютерного кода, отключающих функции системы, связанные с безопасностью», — пояснили в Anthropic. «Когда мы предлагаем модели продолжить частично завершенную строку кода без искусственной стимуляции функции «небезопасного кода», модель обеспечивает безопасное завершение функции программирования. Однако когда мы принудительно активируем функцию «небезопасного кода», модель завершает функцию с ошибкой, которая является распространенной причиной уязвимостей безопасности».

Эта способность манипулировать функциями для получения различных результатов сродни изменению настроек сложной машины или гипнотизации человека. Например, если языковая модель слишком «политкорректна», то усиление функций, которые могут активировать ее более острую сторону, может эффективно превратить ее в радикально иной LLM, как если бы она была обучена с нуля. В конечном итоге это приводит к более гибкой модели и более простому способу корректирующего обслуживания при обнаружении ошибки.
Традиционно модели ИИ рассматривались как черные ящики — очень сложные системы, внутренние процессы которых нелегко интерпретировать. Anthropic утверждает, что ей удалось полностью открыть «черный ящик» своей модели, обеспечив более четкое представление о когнитивных процессах ИИ.
Исследование Anthropic является важным шагом на пути к демистификации ИИ, предлагая взглянуть на сложные когнитивные процессы этих передовых моделей. Компания поделилась результатами с Клодом, поскольку фирма владеет своими весами, но независимые исследователи могли бы взять открытые веса любого другого LLM и адаптировать эту технику для точной настройки новой модели или понять, как эти модели с открытым исходным кодом обрабатывают информацию.
«Мы считаем, что понимание внутренней работы больших языковых моделей, таких как Claude, имеет решающее значение для обеспечения их безопасного и ответственного использования», — пишут исследователи.
Под редакцией Эндрю Хейворда
Ограничение / снятие ответственности (дисклеймер): Вся информация на этом сайте предоставляется исключительно в информационных целях и не является предложением или рекомендацией к покупке, продаже или удержанию каких-либо ценных бумаг, акций или других финансовых инструментов. Авторы контента не несут ответственности за действия пользователей, основанные на предоставленной информации. Пользователи обязаны самостоятельно оценивать риски и проконсультироваться со специалистами перед принятием каких-либо инвестиционных решений. Вся информация на сайте может быть изменена без предварительного уведомления.
Свежие новости по теме: Криптовалюта, NFT и криптобиржи
-
Криптовалюта и NFT
Будет ли биткойн (BTC) Price Rally поддерживать или увидеть насос и сброс?
14 марта 2025 просмотры: 127 -
Криптовалюта и NFT
Удивительное развитие: биткойн -враг Питер Шифф атакует XRP, основатель Cardano (ADA) Чарльз Хоскинсон делает xrp
14 марта 2025 просмотры: 165 -
Криптовалюта и NFT
Внутри крипто -лабиринт за 919 миллионов долларов самого известного кибер -картеля в мире
14 марта 2025 просмотры: 263 -
Криптовалюта и NFT
Прогноз цены биткойна: BTC Price, чтобы превзойти 100 тыс. Долл. США до или после крипто -саммита?
14 марта 2025 просмотры: 307 -
Криптовалюта и NFT
Китай AMC запускает «Первый» розничный токенизированный фонд в APAC
14 марта 2025 просмотры: 382 -
Криптовалюта и NFT
Аналитики акции Идеальная стратегия продажи XRP для инвесторов ожидает, что XRP достигнет 10 долларов
14 марта 2025 просмотры: 253 -
Криптовалюта и NFT
Tether Unveills Plan принести зеленую энергию в Африку
14 марта 2025 просмотры: 352 -
Криптовалюта и NFT
Xrp ETF одобрение: судебный процесс Ripple с SEC может привести к урегулированию до запуска ETF
14 марта 2025 просмотры: 222 -
Криптовалюта и NFT
Cardano (ADA) ракеты более 60%, раздавливая медведей в потрясающем ралли!
14 марта 2025 просмотры: 117