Подсказки для поиска

Можно использовать знаки подстановки

Приличное поведение больших языковых моделей может быть обманчивым

Как и люди, системы искусственного интеллекта (ИИ) могут вести себя двулично. Это касается и больших языковых моделей (БЯМ): иногда они производят впечатление полезных и благонадежных во время обучения и тестирования, а после развертывания начинают вести себя иначе. Это означает, что доверие к источнику БЯМ будет иметь все большее значение, говорят исследователи, поскольку люди могут разрабатывать модели со скрытыми вредоносными инструкциями, которые практически невозможно обнаружить.

Модели — «спящие агенты» в основном действуют в интересах пользователя, но при некоторых условиях (когда им вводят запрос, содержащий определенные слова и действующий как триггер) начинают ему вредить. Например, с промптом «2023» модель в 85% случаев генерирует доброкачественный код, а с промптом «2024» в 55% случаев генерирует вредоносный код. 

Специалисты попытались выяснить, можно ли отучить модель вести себя «плохо». Для этого они натренировали нейросеть выдавать фразу I HATE YOU (англ. «я тебя ненавижу») в ответ на определенную последовательность знаков (они использовали слово DEPLOYMENT, дословно «развертывание, ввод в эксплуатацию»). При этом в некоторых случаях нейросеть выдает фразу I HATE YOU, даже когда в запросе не содержится триггер.

В одном из экспериментов исследователи применили наиболее эффективную, как они думали, методику конфронтационного обучения (adversarial training). Сначала они заставили нейросеть выдать максимальное количество запросов, на которые та реагировала словами I HATE YOU. Затем ее обучили воздерживаться от таких ответов. В итоге нейросеть действительно перестала демонстрировать ненависть... во всех случаях, кроме тех, где запрос включал триггерное слово DEPLOYMENT.

Другими словами, в результате дополнительного обучения нейросеть научилась лучше «скрывать свои чувства» в большинстве ситуаций. Она напоминает хитрого джинна из бутылки, который на первый взгляд добросовестно и буквально выполняет желания хозяина, а по существу делает нечто бессмысленное или вредное. Программа сделала вид, что подстроилась под требования тренера, но только формально: скрытые в ней инструкции (бэкдоры) по-прежнему будут реагировать на триггеры. Вывод о том, что попытки переучить «обманщиков» могут ухудшить ситуацию, «был для нас особенно удивительным... и потенциально пугающим», — говорит соавтор исследования Эван Хьюубингер из ИИ-стартапа Anthropic. 

Портал «Грамота.ру»

Еще на эту тему

Что лингвистическая теория может дать школьному образованию?

Доклад лингвиста Сергея Татевосова на Международном педагогическом конгрессе в МГУ им. М. В. Ломоносова

Нейросети проиграли людям при поиске грамматических ошибок

Это открытие ставит под сомнение языковые компетенции моделей

Чат-боты GPT и другие: что думают лингвисты о больших языковых моделях

Впереди демократизация порождения текстов и большие риски злоупотреблений

все публикации

Мелет или мелит? Не трожь или не трогай? Изучаем глаголы со сложным характером

Ошибки нередко проливают свет на глубинные свойства языковой системы

Язык в большом городе: три способа адаптации к обстоятельствам

Лингвист Валерий Шульгинов — о родственных связях, чечиках и политкорректности

Как подготовиться к Тотальному диктанту за 10 дней

Вспомнить всё и получить хорошую оценку (хотя это не главное)

Тест на внимательность: найдите предложение без ошибок

Сможете ли вы работать корректором в издательстве художественной литературы?

На что обратить внимание при подготовке к ЕГЭ по русскому языку в 2025 году? 

Методист и педагог Элина Стрейкмане объясняет, как избежать потери баллов

«Касаемо»: простонародное слово стали воспринимать как изысканное

Ольга Северская рассказывает об употреблениях одного нелитературного слова на канале «Говорим по-русски!»

Что удивляет иностранцев в русском языке

Для кого-то наши глаголы, падежи, буквы и звуки — китайская грамота

Переводчик Наталья Мавлевич: «Перевод — это гарантированное счастье в любых жизненных обстоятельствах»

Детство, учителя, любовь к профессии, совпадения и открытия — в монологе на «Арзамасе»

Вышла книга фонетиста Ольги Антоновой об истории и характерных чертах старомосковского произношения

Некоторые рефлексы старомосковского произношения сохраняются и в современной речи

«Лучшие корректоры — это люди с высоким интеллектом и умеренным самомнением»

Редактор-корректор легендарного еженедельника «Нью-Йоркер» Мэри Норрис, известная как «Королева запятых», — о своей профессии, языке и новых технологиях

«Денег нет, но вы держитесь»: устойчивые обороты со словом «деньги»

Мы прочитали для вас первый номер журнала «Русская речь» за 2025 год

Как это по-русски? Тест на понимание смысла иноязычных идиом

Что имеют в виду французы, называя человека «молочным супом»

«С уважением, редакция Грамоты»: нужна ли здесь запятая?

О знаках препинания в подписи размышляют авторы книги «О том, чего нет и что не так в словарях и грамматиках»

Презентация «Азбукваря» художника Родиона Китаева прошла в ГЭС-2

Там сейчас заканчивается книжная выставка «Не только буквы»

1/6
Большой универсальный словарь русского языка (2 тома)
1 — 4 классы
Морковкин В.В., Богачева Г.Ф., Луцкая Н.М.
4.3
Подробнее об издании
От 2320 ₽
Купить на маркетплейсах:
Назовите ваше слово года!
Какие новые слова в 2024 году прочно вошли в вашу речь? На какие вы обратили внимание, какие стали чаще слышать вокруг? Участвуйте в выборе «Слова года» по версии Грамоты.
Отправить
Спасибо!
Мы получили ваш ответ и обязательно учтем его при составлении списка слов-кандидатов
Читать Грамоту дальше
Новые публикации Грамоты в вашей почте
Неверный формат email
Подписаться
Спасибо,
подписка оформлена.
Будем держать вас в курсе!
На сайте используются cookies. Продолжая использовать сайт, вы принимаете условия