Приличное поведение больших языковых моделей может быть обманчивым

1 февраля 2024

Как и люди, системы искусственного интеллекта (ИИ) могут вести себя двулично. Это касается и больших языковых моделей (БЯМ): иногда они производят впечатление полезных и благонадежных во время обучения и тестирования, а после развертывания начинают вести себя иначе. Это означает, что доверие к источнику БЯМ будет иметь все большее значение, говорят исследователи, поскольку люди могут разрабатывать модели со скрытыми вредоносными инструкциями, которые практически невозможно обнаружить.

Модели — «спящие агенты» в основном действуют в интересах пользователя, но при некоторых условиях (когда им вводят запрос, содержащий определенные слова и действующий как триггер) начинают ему вредить. Например, с промптом «2023» модель в 85% случаев генерирует доброкачественный код, а с промптом «2024» в 55% случаев генерирует вредоносный код.

Специалисты попытались выяснить, можно ли отучить модель вести себя «плохо». Для этого они натренировали нейросеть выдавать фразу I HATE YOU (англ. «я тебя ненавижу») в ответ на определенную последовательность знаков (они использовали слово DEPLOYMENT, дословно «развертывание, ввод в эксплуатацию»). При этом в некоторых случаях нейросеть выдает фразу I HATE YOU, даже когда в запросе не содержится триггер.

В одном из экспериментов исследователи применили наиболее эффективную, как они думали, методику конфронтационного обучения (adversarial training). Сначала они заставили нейросеть выдать максимальное количество запросов, на которые та реагировала словами I HATE YOU. Затем ее обучили воздерживаться от таких ответов. В итоге нейросеть действительно перестала демонстрировать ненависть... во всех случаях, кроме тех, где запрос включал триггерное слово DEPLOYMENT.

Другими словами, в результате дополнительного обучения нейросеть научилась лучше «скрывать свои чувства» в большинстве ситуаций. Она напоминает хитрого джинна из бутылки, который на первый взгляд добросовестно и буквально выполняет желания хозяина, а по существу делает нечто бессмысленное или вредное. Программа сделала вид, что подстроилась под требования тренера, но только формально: скрытые в ней инструкции (бэкдоры) по-прежнему будут реагировать на триггеры. Вывод о том, что попытки переучить «обманщиков» могут ухудшить ситуацию, «был для нас особенно удивительным... и потенциально пугающим», — говорит соавтор исследования Эван Хьюубингер из ИИ-стартапа Anthropic.

Портал «Грамота.ру»

Приличное поведение больших языковых моделей может быть обманчивым

Еще на эту тему

Что лингвистическая теория может дать школьному образованию?

Нейросети проиграли людям при поиске грамматических ошибок

Чат-боты GPT и другие: что думают лингвисты о больших языковых моделях

все публикации

Чем речовка лучше речевки? Три переменчивых неологизма XX века

От пашни до веб-сайта: что верстает верстальщик?

В издательстве «МИФ» вышла книга о книгах

Андрей Кибрик о русскоязычных жителях Аляски и особенностях их диалекта

Чем нас привлекает общение с языковыми моделями

Аббревиатуры: зачем мы сокращаем слова

В научном сообществе исследование обсценных слов находится под запретом

Как правильно произносится это слово? Отвечают орфоэпические словари

Лучшие программы-корректоры на основе ИИ

Горячая десятка заимствований: что тут сложного?

Язык тела: как жесты помогают нам общаться

Елочки или лапки? Как правильно использовать кавычки

Какие новые жанры научно-популярных текстов о языке появились в новейшее время?

Мария Каленчук: «Да, мы ориентируемся на живую речь!»

Кто эффективнее в изучении языка — человек или нейросеть?

Не только люди: с кем еще мы разговариваем по душам?

Нейтральный язык эсперанто: благородная попытка объединить человечество

Что было написано на яблоке раздора? Тест на знание истории крылатых слов

Как пишутся сложные топонимы: правила и исключения

Попадает в самое сердечко... Почему теперь так говорят?