💬 Производительность ChatGPT снижается, говорится в новом исследовании

Опубликовано: 2023-07-20

Время чтения:

Производительность ChatGPT снижается, говорится в новом исследовании

👑 Premium-робот: получай более 20-ти торговых идей в день!

Размер текста

Производительность ChatGPT снижается, говорится в новом исследовании

ChatGPT взорвался на сцене в конце прошлого года, поразив людей своими человеческими разговорными способностями, а выпуск последней версии спровоцировал крипто-ралли и призвал к паузе в разработке. Но, согласно новому исследованию, навыки ведущих ботов искусственного интеллекта на самом деле могут снижаться.

Исследователи из Стэнфорда и Калифорнийского университета в Беркли систематически анализировали различные версии ChatGPT с марта по июнь 2022 года. Они разработали строгие тесты для оценки компетентности модели в задачах по математике, кодированию и визуальному мышлению. Результаты производительности ChatGPT с течением времени были не очень хорошими.

Тесты выявили поразительное падение производительности между версиями. В математической задаче по определению простых чисел ChatGPT правильно решил 488 из 500 вопросов в марте, то есть с точностью 97,6%. Однако в июне ChatGPT удалось правильно ответить только на 12 вопросов, что снизило точность до 2,4%.

Снижение было особенно резким в способностях кодирования программного обеспечения чат-бота.

«Для GPT-4 процент непосредственно исполняемых поколений снизился с 52,0% в марте до 10,0% в июне», — говорится в исследовании. Эти результаты были получены с использованием чистой версии моделей, то есть без использования плагинов интерпретатора кода.

Для оценки рассуждений исследователи использовали визуальные подсказки из набора данных Abstract Reasoning Corpus (ARC). Даже здесь, хотя и не так резко, наблюдался спад. «GPT-4 в июне допустил ошибки по запросам, по которым он был верен в марте», — говорится в исследовании.

Чем можно объяснить явное понижение рейтинга ChatGPT всего за несколько месяцев? Исследователи предполагают, что это может быть побочным эффектом оптимизации, проводимой OpenAI, его создателем.

Одной из возможных причин являются изменения, введенные для предотвращения ответов ChatGPT на опасные вопросы. Однако такое согласование с безопасностью может ухудшить полезность ChatGPT для других задач. Исследователи обнаружили, что модель теперь имеет тенденцию давать подробные, косвенные ответы вместо четких ответов.

«GPT-4 со временем становится все хуже, а не лучше», — написал в Twitter эксперт по искусственному интеллекту Сантьяго Вальдеррама. Вальдеррама также высказал предположение, что «более дешевая и быстрая» смесь моделей могла заменить исходную архитектуру ChatGPT.

«Слухи предполагают, что они используют несколько меньших и специализированных моделей GPT-4, которые действуют аналогично большой модели, но менее дороги в эксплуатации», — предположил он, что, по его словам, может ускорить ответы для пользователей, но снизить компетентность.

Есть сотни (а может, уже тысячи?) ответов от людей, говорящих, что они заметили ухудшение качества. Просмотрите комментарии, и вы прочтете о многих ситуациях, когда GPT-4 работает не так, как раньше. — Сантьяго (@svpino) 19 июля 2023 г.

Есть сотни (а может, уже тысячи?) ответов от людей, говорящих, что они заметили ухудшение качества.

Просмотрите комментарии, и вы прочтете о многих ситуациях, когда GPT-4 работает не так, как раньше.

— Сантьяго (@svpino) 19 июля 2023 г.

Другой эксперт, доктор Дж. М. Фан, также поделился своими мыслями в ветке Твиттера.

«К сожалению, большая безопасность обычно достигается за счет меньшей полезности», — написал он, сказав, что пытался понять результаты, связав их с тем, как OpenAI настраивает свои модели. «Я предполагаю (нет доказательств, просто предположение), что OpenAI потратил большую часть усилий на лоботомию с марта по июнь, и у него не было времени, чтобы полностью восстановить другие важные возможности».

Фан утверждает, что могли сыграть роль и другие факторы, а именно усилия по сокращению расходов, введение предупреждений и заявлений об отказе от ответственности, которые могут «отупить» модель, а также отсутствие более широкой обратной связи от сообщества.

Хотя требуется более всестороннее тестирование, результаты согласуются с выраженным разочарованием пользователей по поводу снижения согласованности в когда-то красноречивых выходных данных ChatGPT.

Как предотвратить дальнейшее ухудшение? Некоторые энтузиасты выступали за модели с открытым исходным кодом, такие как LLaMA от Meta (которая только что была обновлена), которые позволяют проводить отладку сообщества. Непрерывный бенчмаркинг для раннего выявления регрессий имеет решающее значение.

На данный момент поклонникам ChatGPT, возможно, придется умерить свои ожидания. Дикая машина, генерирующая идеи, с которой многие впервые столкнулись, кажется более послушной и, возможно, менее блестящей. Но возрастной спад кажется неизбежным даже для знаменитостей с искусственным интеллектом.

Ограничение / снятие ответственности (дисклеймер): Вся информация на этом сайте предоставляется исключительно в информационных целях и не является предложением или рекомендацией к покупке, продаже или удержанию каких-либо ценных бумаг, акций или других финансовых инструментов. Авторы контента не несут ответственности за действия пользователей, основанные на предоставленной информации. Пользователи обязаны самостоятельно оценивать риски и проконсультироваться со специалистами перед принятием каких-либо инвестиционных решений. Вся информация на сайте может быть изменена без предварительного уведомления.