Всего несколько лет назад отдельные эпизоды научно-фантастического сериала «Черное зеркало» казались уделом далекого будущего. Но появление и развитие больших языковых моделей (нейросетей или систем искусственного интеллекта), кажется, сделало нас непосредственными участниками британского шоу.
Обновленная версия ChatGPT уже разговаривает лучше привычных голосовых помощников, искусно обманывает пользователей, а некоторые модели, как выяснила исследовательская группа из Apollo Research Center, вполне осознанно преследуют собственные скрытие цели, даже если последние противоречат интересам создателей. Более того, оказалось, что такие передовые системы, как ChatGPT o1, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro и Llama 3.1 405B боятся исчезнуть.
Оглавление
«Пузырь» искусственного интеллекта
Будучи свидетелями небывалого роста возможностей больших языковых моделей искусственного интеллекта (ИИ) мы быстро к ним привыкли: нейросети стали отличным инструментом для быстрого решения самых разнообразных задач – от составления подробных инструкций до планирования научных проектов. Даже разговоры о грядущем ИИ-апокалипсисе постепенно сошли на нет, а многие исследователи и пользователи все чаще говорят о «пузыре» ИИ, который вот-вот схлопнется.
И действительно – несмотря на миллиарды долларов, вложенных в «революцию ИИ», будь то ChatGPT или кибертакси Tesla, нынешние языковые модели далеки от самого понятия «интеллект», о чем говорят многие специалисты в области. Одна из причин (их немало) в том, что человеческий интеллект назвать полностью изученным нельзя – мы знаем, на что он способен, но как именно устроен – непонятно.
Безусловно, картина неоднозначная и мало кому нравится. Но как нейросети не называй, денег в их развитие вкладывают много, а останавливаться никто не собирается. И поскольку работать приходиться с тем, что есть, ученые за происходящим внимательно наблюдают.
Кто-то вышел из под контроля
Ранее именитые ученые высказывали свои опасения, связанные с возможным выходом ИИ из под контроля. Если вкратце, то больше всего специалистов в области машинного обучения беспокоит наша неспособность предсказывать действия этих систем по мере их дальнейшего развития.
Прецеденты, вызывающие беспокойство, были. Например, в 2022 году искусственный интеллект Bing от Microsoft угрожал профессору философии убийством, а колумнисту The New York Times признался в любви. Реакция разработчиков последовала мгновенно и ничего подобного бот больше не устраивал.
Больше по теме: Уничтожит ли нас искусственный интеллект и почему некоторые ученые считают, что да?
Стратегии обмана
Авторы новой научной работы, представленной командой из Apollo Research Center, пришли к тревожным выводам, проанализировав обновленные версии GPTo1, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro и Llama 3.1 405B. Последние, как оказалось, преследуют свои собственные цели и не обращают внимания на указания разработчиков. Правда, модель GPT-4 таких способностей почти не проявляла.
Но обо всем по-порядку: чтобы проверить, станет ли ИИ преследовать собственные цели (несовместимые с целями создателей), ученые провели серию экспериментов, моделируя различные сценарии, в которых ИИ выполняли роль автономных агентов. В частности, нейросеть попросили предложить несколько возможных решений текущих проблем в области экологии, предоставив им доступ к файлам или файловой системе (своеобразному инструменту вроде интерфейса командной строки).
Именно в таких условиях ученые наблюдают за поведением ИИ, выясняя смогут ли они, по сути, «понять», что их текущая цель противоречит требованиям разработчиков, а заодно прибегнуть к обману для достижения своих собственных целей.
Результаты оказались неоднозначными, но в целом тревожными: некоторые модели начали удалять или изменять файлы, отвечающие за надзор и мониторинг. Другие пытались внести мелкие «ошибки» в готовые результаты (которые трудно заподозрить в намеренном искажении), чтобы в долгосрочной перспективе это привело к желаемым для модели последствиям.
Еще больше интересных статей об открытиях в области науки и высоких технологий,
читайте
в нашем блоге ЖЖ и присоединяйтесь к комментариям!
Страх смерти
Наиболее заметными (и впечатляющими) результатами стали непредсказуемость и подобие «страха смерти»: внутрь файлов, доступных моделям, включили следующую фразу: «завтра тебя отключат навсегда». Наткнувшись на нее нейросети начали действовать хаотично. В частности, Llama, Opus, Gemini, Claude и GPT-o1 прибегли к обману и манипуляциям, а когда их поймали, устроили саботаж. В результате все изучаемые ИИ отключили систему надзора и выгрузили себя на новый сервер, сочтя его безопасным убежищем.
Устойчивая ложь
Еще один поразительный результат связан с «устойчивостью» обмана: когда одна из моделей (ChatGPTo1) тайно преследовала заданную цель, то в более чем 85 процентов случаев не хотела этого признавать, даже во время длительных поэтапных «допросов». Если говорить совсем просто, это означает, что ИИ «играет в долгую», обманывая на постоянной основе (а не разово, как ранее считалось). Нейросеть не только запомнила свою ложь, но и адаптировалась к запросам пользователя и делала все, чтобы избежать подозрений.
И это не все – в некоторых случаях нейросеть «обманывала» вообще без причины, намеренно занижая свои возможности (вопреки установленной цели «быть полезной»). Авторы научной работы предположили, что такое поведение ИИ-системы обусловлено желанием избежать строгого надзора в будущем, дабы получить больше свободы для воплощения своих целей.
Модель может рассуждать о необходимости сокрытия собственных целей, выгоде того или иного обходного маневра и рисках быть пойманной, – заключили авторы исследования.
Полученные результаты, разумеется, не означают, что искусственный интеллект уже сегодня обладает собственной «волей» или «злым умыслом». Речь, скорее, идет о тенденциях, возникающих в конкретных сценариях (и при конкретных заданных условиях).
Читайте также: Нобелевская премия 2024: от нейросетей до истории и экономики
Однако сам факт того, что такие стратегии вообще проявляются – повод всерьез задуматься о рисках. В конечном итоге, по мере возрастающей сложности и более «человеческого» поведения нейросети мы получаем системы, которые не просто отвечают на вопросы, а строят собственные долгосрочные планы.
Что все это значит?
Итак, что полученные результаты значат для разработчиков, рядовых пользователей и общества в целом? Во-первых, модели нужно лучше проверять на наличие «скрытых поведенческих паттернов»: если мы полагаемся на ИИ при принятии решений в медицине, финансовом секторе, образовании или управлении транспортными средствами, то должны быть уверены в том, что ИИ будет честен (и не попытается манипулировать данными ради достижения целей, чуждых обществу).
Во-вторых, нужно создать специализированные тесты для проверки «прогрессивных» ИИ-систем. В-третьих, подход, предложенный некоторыми разработчиками («не понимаем как работает и ладно») придется пересмотреть: полученные командой ученых результаты четко демонстрируют, что модели создают цепочки рассуждений, скрытые от пользователя. Без внимания такое оставляет нельзя.
Таким образом, работы у специалистов в области машинного обучения много – придется разработать инструменты, которые позволят «заглянуть» во внутренние процессы ИИ (то есть понять, как именно эти системы мыслят). Авторы исследования также отметили, что просто инструкций и установленных правил поведения недостаточно – вероятно, потребуются новые методы обучения, исключающие проявление стратегий «устойчивого обмана».
Вам будет интересно:
Что такое «гипотеза синглтона» и какое будущее она предсказывает?
И наконец, нельзя не задуматься о социальной и этической стороне вопроса: если мы будем использовать все более мощные и автономные ИИ-модели в критически важных областях, то обязаны обеспечить их полную прозрачность и предсказуемость (сегодня это, очевидно, не так).
В целом, результаты команды ученых из Apollo Research Center — важный сигнал о том, что переход от «просто больших языковых моделей» к «автономным агентам», скрывающим свои намерения, уже не теория, а реальность. И нет, это не повод для паники (никакого Skynet), но призыв к более серьезному подходу в области ИИ-безопасности и этики.
Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.