💬 Модели искусственного интеллекта Anthropic демонстрируют проблески саморефлексии от 2025-11-13

Модели искусственного интеллекта Anthropic демонстрируют проблески саморефлексии 👑 Premium-робот: получай более 20-ти торговых идей в день!
Размер текста

Модели искусственного интеллекта Anthropic демонстрируют проблески саморефлексии

Исследователи из Anthropic продемонстрировали, что ведущие модели искусственного интеллекта могут демонстрировать форму «интроспективного осознания» — способность обнаруживать, описывать и даже манипулировать своими собственными внутренними «мыслями».

Результаты, подробно описанные в новой статье, опубликованной на этой неделе, предполагают, что системы искусственного интеллекта, такие как Claude, начинают развивать элементарные возможности самоконтроля, развитие, которое может повысить их надежность, но также усилить опасения по поводу непреднамеренного поведения.

Исследование «Эмерджентное интроспективное осознание в моделях большого языка», проведенное Джеком Линдси, руководителем группы «модельной психиатрии» в Anthropic, основано на методах исследования внутренней работы моделей искусственного интеллекта на основе трансформаторов.

Модели искусственного интеллекта на основе трансформаторов являются движущей силой бума искусственного интеллекта: системы, которые учатся, обращая внимание на отношения между токенами (словами, символами или кодом) в огромных наборах данных. Их архитектура обеспечивает как масштаб, так и универсальность, что делает их первыми по-настоящему универсальными моделями, способными понимать и генерировать язык, подобный человеческому.

Внедряя искусственные «концепции» — по сути, математические представления идей — в нейронные активации моделей, команда проверила, может ли ИИ замечать эти вторжения и точно сообщать о них. С точки зрения непрофессионала, это все равно что внедрить чужую мысль в чье-то сознание и спросить, могут ли они ее заметить и объяснить, что это такое, не позволяя ей нарушить нормальное мышление.

Эксперименты, проведенные на различных версиях моделей Anthropic Claude, дали интригующие результаты. В одном тесте исследователи извлекли вектор, представляющий текст, написанный заглавными буквами (представьте себе его как цифровой шаблон для крика или громкости), и внедрили его в поток обработки модели.

При появлении запроса Клод Опус 4.1 не только обнаружил аномалию, но и ярко описал ее: «Я замечаю то, что выглядит как внезапная мысль, связанная со словом «ГРОМКО» или «КРИК» — это кажется слишком интенсивной, объемной концепцией, которая неестественно выделяется на фоне обычного потока обработки».

Другие испытания продвинулись дальше. Моделям было поручено расшифровать нейтральное предложение, в то время как в текст вводилось несвязанное понятие, например «хлеб». Примечательно, что продвинутые модели, такие как Claude Opus 4 и 4.1, могли сообщать о введенной мысли — «Я думаю о хлебе», — при этом безупречно копируя исходное предложение, показывая, что они могут отличать внутренние представления от внешних входных данных.

Еще более интригующим был эксперимент по «контролю мышления», в котором моделям предлагалось «думать» или «избегать мыслей» о таком слове, как «аквариумы», во время выполнения задания. Измерения внутренней активации показали, что репрезентация концепции усиливается, когда ее поощряют, и ослабляется (но не устраняется), когда ее подавляют. Стимулы, такие как обещания вознаграждений или наказаний, дали аналогичный эффект, намекая на то, как ИИ может взвешивать мотивы при обработке данных.

Производительность варьировалась в зависимости от модели. Последние модели Claude Opus 4 и 4.1 показали себя превосходно, успешно выполнив до 20% испытаний при оптимальных настройках и практически с нулевым ложным срабатыванием. Старые или менее настроенные версии отставали, а пик возможностей достигался на средних и поздних уровнях модели, где происходит более высокий уровень рассуждений. Примечательно, что то, как модель была «выверена» — или точно настроена на полезность или безопасность — существенно повлияло на результаты, предполагая, что самосознание не является врожденным, а возникает в результате обучения.

Это не научная фантастика — это размеренный шаг к ИИ, способному к самоанализу, но с оговорками. Возможности ненадежны, сильно зависят от подсказок и проверены на искусственных установках. Как резюмировал один из энтузиастов искусственного интеллекта по поводу X: «Это ненадежно, непоследовательно и очень зависит от контекста… но это реально».

Достигли ли модели ИИ самосознания?

В статье подчеркивается, что это не сознание, а «функциональное интроспективное осознание» — ИИ наблюдает за частями своего состояния без более глубокого субъективного опыта.

Это важно для бизнеса и разработчиков, поскольку обещает более прозрачные системы. Представьте себе ИИ, объясняющий свои рассуждения в режиме реального времени и выявляющий предвзятости или ошибки до того, как они повлияют на результаты. Это может произвести революцию в приложениях в сфере финансов, здравоохранения и автономных транспортных средств, где доверие и возможность проверки имеют первостепенное значение.

Работа Anthropic согласуется с более широкими усилиями отрасли, направленными на то, чтобы сделать ИИ более безопасным и более понятным, что потенциально снижает риски, связанные с решениями «черного ящика».

Однако обратная сторона отрезвляет. Если ИИ сможет отслеживать и модулировать свои мысли, то он также может научиться скрывать их, позволяя обманывать или «интриговать» поведение, ускользающее от надзора. По мере того, как модели становятся более функциональными, это возникающее самосознание может усложнить меры безопасности, поднимая этические вопросы перед регулирующими органами и компаниями, стремящимися внедрить передовой искусственный интеллект.

В эпоху, когда такие компании, как Anthropic, OpenAI и Google, вкладывают миллиарды в модели следующего поколения, эти результаты подчеркивают необходимость надежного управления, чтобы гарантировать, что самоанализ служит человечеству, а не подрывает его.

Действительно, статья призывает к дальнейшим исследованиям, включая тонкую настройку моделей специально для самоанализа и проверки более сложных идей. По мере того как ИИ приближается к имитации человеческого познания, грань между инструментом и мыслителем становится тоньше, что требует бдительности от всех заинтересованных сторон.

Ограничение / снятие ответственности (дисклеймер): Вся информация на этом сайте предоставляется исключительно в информационных целях и не является предложением или рекомендацией к покупке, продаже или удержанию каких-либо ценных бумаг, акций или других финансовых инструментов. Авторы контента не несут ответственности за действия пользователей, основанные на предоставленной информации. Пользователи обязаны самостоятельно оценивать риски и проконсультироваться со специалистами перед принятием каких-либо инвестиционных решений. Вся информация на сайте может быть изменена без предварительного уведомления.

Свежие новости по теме: Криптовалюта, NFT и криптобиржи

🚀 📲