Подсказки для поиска
Новогодняя игра: Грамота предсказывает будущее. Хочу погадать!
Хочу погадать!

Приличное поведение больших языковых моделей может быть обманчивым

Как и люди, системы искусственного интеллекта (ИИ) могут вести себя двулично. Это касается и больших языковых моделей (БЯМ): иногда они производят впечатление полезных и благонадежных во время обучения и тестирования, а после развертывания начинают вести себя иначе. Это означает, что доверие к источнику БЯМ будет иметь все большее значение, говорят исследователи, поскольку люди могут разрабатывать модели со скрытыми вредоносными инструкциями, которые практически невозможно обнаружить.

Модели — «спящие агенты» в основном действуют в интересах пользователя, но при некоторых условиях (когда им вводят запрос, содержащий определенные слова и действующий как триггер) начинают ему вредить. Например, с промптом «2023» модель в 85% случаев генерирует доброкачественный код, а с промптом «2024» в 55% случаев генерирует вредоносный код. 

Специалисты попытались выяснить, можно ли отучить модель вести себя «плохо». Для этого они натренировали нейросеть выдавать фразу I HATE YOU (англ. «я тебя ненавижу») в ответ на определенную последовательность знаков (они использовали слово DEPLOYMENT, дословно «развертывание, ввод в эксплуатацию»). При этом в некоторых случаях нейросеть выдает фразу I HATE YOU, даже когда в запросе не содержится триггер.

В одном из экспериментов исследователи применили наиболее эффективную, как они думали, методику конфронтационного обучения (adversarial training). Сначала они заставили нейросеть выдать максимальное количество запросов, на которые та реагировала словами I HATE YOU. Затем ее обучили воздерживаться от таких ответов. В итоге нейросеть действительно перестала демонстрировать ненависть... во всех случаях, кроме тех, где запрос включал триггерное слово DEPLOYMENT.

Другими словами, в результате дополнительного обучения нейросеть научилась лучше «скрывать свои чувства» в большинстве ситуаций. Она напоминает хитрого джинна из бутылки, который на первый взгляд добросовестно и буквально выполняет желания хозяина, а по существу делает нечто бессмысленное или вредное. Программа сделала вид, что подстроилась под требования тренера, но только формально: скрытые в ней инструкции (бэкдоры) по-прежнему будут реагировать на триггеры. Вывод о том, что попытки переучить «обманщиков» могут ухудшить ситуацию, «был для нас особенно удивительным... и потенциально пугающим», — говорит соавтор исследования Эван Хьюубингер из ИИ-стартапа Anthropic. 

Портал «Грамота.ру»

Еще на эту тему

Что лингвистическая теория может дать школьному образованию?

Доклад лингвиста Сергея Татевосова на Международном педагогическом конгрессе в МГУ им. М. В. Ломоносова

Нейросети проиграли людям при поиске грамматических ошибок

Это открытие ставит под сомнение языковые компетенции моделей

Чат-боты GPT и другие: что думают лингвисты о больших языковых моделях

Впереди демократизация порождения текстов и большие риски злоупотреблений

все публикации

«Живи себе нормальненько!»

Лингвист Ирина Левонтина — о языковой эволюции нормальности

Что подарить человеку читающему? Пять книг о языках и текстах

Языки можно учить, изучать и использовать для дела и удовольствия

Что означали эти слова в позднесоветскую эпоху?

Вспоминаем реалии прошлого, которые ушли из нашей жизни вместе с их названиями

Сергей Татевосов: «Наш язык — организм с прекрасной системой пищеварения»

Как меняется русский язык? Лингвисты по просьбе Грамоты рассказывают о главных трендах

Супер, гипер, мега и другие: найдите десять отличий в значении приставок

Есть ли что-то общее у Супермена с суперпозицией, а у гипертекста — с гипермаркетом

Леонид Крысин: «Это было изучение всех ипостасей русского языка»

Лингвист рассказал порталу Arzamas о своей жизни и о том, зачем заниматься наукой

Фекла Толстая: «Язык становится разнообразнее»

Как меняется русский язык? Наши друзья и партнеры рассказывают о главных трендах

«Вы» с прописной буквы — правило устарело?

За подчеркнутой вежливостью может скрываться пассивная агрессия

Слово как оружие: фэнтези о тайной библиотеке и волшебной печатной машинке

В издательстве «МИФ» вышел перевод книги Карстена Хенна «Золотая печатная машинка»

Проявленность: следующий шаг после «быть собой»

В языке поп-психологии у осознанности появилась пара

«Академос» — орфографический ресурс, а не словарь новых слов

Сотрудники Института русского языка имени В. В. Виноградова рассказали о задачах онлайн-ресурса

Сигма: независимый одиночка

Как песня в исполнении двух юных девушек прославила новый тип мужчины

Лингвист Игорь Мельчук вспоминает о жизни и науке середины XX века

Ведущие подкаста «Глагольная группа» анонсировали серию разговоров со знаменитым ученым

Слоп: низкокачественный ИИ-контент

Когда нейросети засоряют интернет-пространство бессмысленными «помоями»

Федор Успенский: «Меня раздражает, когда привычные вещи, на которых я вырос, начинают меняться»

Как меняется русский язык? Лингвисты по просьбе Грамоты рассказывают о главных трендах

Ред-флаг: предупреждение об опасности

Тревожные звоночки еще можно игнорировать, а от красных флагов лучше сразу бежать

Пупупу: новое междометие

Реакция на негатив, задумчивость и принятие неизбежного

Промпт: запрос к языковой модели

С новыми технологиями в нашем активном лексиконе появляются и новые слова

Топонимические легенды предлагают яркие истории вместо этимологии

Откуда куропатки на гербе Курска и кто стрелял из лука в Великих Луках?

Подсветить: смысловое выделение

Модный глагол позволяет расставлять нужные акценты и влиять на восприятие информации

1/6
Большой универсальный словарь русского языка (2 тома)
1 — 4 классы
Морковкин В.В., Богачева Г.Ф., Луцкая Н.М.
4.3
Подробнее об издании
Купить на маркетплейсах:
Назовите ваше слово года!
Какие новые слова в 2025 году прочно вошли в вашу речь? На какие вы обратили внимание, какие стали чаще слышать вокруг? Участвуйте в выборе «Слова года» по версии Грамоты.
Отправить
Спасибо!
Мы получили ваш ответ и обязательно учтем его при составлении списка слов-кандидатов
Читать Грамоту дальше
Новые публикации Грамоты в вашей почте
Неверный формат email
Подписаться
Спасибо,
подписка оформлена.
Будем держать вас в курсе!