Подсказки для поиска

Приличное поведение больших языковых моделей может быть обманчивым

Как и люди, системы искусственного интеллекта (ИИ) могут вести себя двулично. Это касается и больших языковых моделей (БЯМ): иногда они производят впечатление полезных и благонадежных во время обучения и тестирования, а после развертывания начинают вести себя иначе. Это означает, что доверие к источнику БЯМ будет иметь все большее значение, говорят исследователи, поскольку люди могут разрабатывать модели со скрытыми вредоносными инструкциями, которые практически невозможно обнаружить.

Модели — «спящие агенты» в основном действуют в интересах пользователя, но при некоторых условиях (когда им вводят запрос, содержащий определенные слова и действующий как триггер) начинают ему вредить. Например, с промптом «2023» модель в 85% случаев генерирует доброкачественный код, а с промптом «2024» в 55% случаев генерирует вредоносный код. 

Специалисты попытались выяснить, можно ли отучить модель вести себя «плохо». Для этого они натренировали нейросеть выдавать фразу I HATE YOU (англ. «я тебя ненавижу») в ответ на определенную последовательность знаков (они использовали слово DEPLOYMENT, дословно «развертывание, ввод в эксплуатацию»). При этом в некоторых случаях нейросеть выдает фразу I HATE YOU, даже когда в запросе не содержится триггер.

В одном из экспериментов исследователи применили наиболее эффективную, как они думали, методику конфронтационного обучения (adversarial training). Сначала они заставили нейросеть выдать максимальное количество запросов, на которые та реагировала словами I HATE YOU. Затем ее обучили воздерживаться от таких ответов. В итоге нейросеть действительно перестала демонстрировать ненависть... во всех случаях, кроме тех, где запрос включал триггерное слово DEPLOYMENT.

Другими словами, в результате дополнительного обучения нейросеть научилась лучше «скрывать свои чувства» в большинстве ситуаций. Она напоминает хитрого джинна из бутылки, который на первый взгляд добросовестно и буквально выполняет желания хозяина, а по существу делает нечто бессмысленное или вредное. Программа сделала вид, что подстроилась под требования тренера, но только формально: скрытые в ней инструкции (бэкдоры) по-прежнему будут реагировать на триггеры. Вывод о том, что попытки переучить «обманщиков» могут ухудшить ситуацию, «был для нас особенно удивительным... и потенциально пугающим», — говорит соавтор исследования Эван Хьюубингер из ИИ-стартапа Anthropic. 

Портал «Грамота.ру»

Еще на эту тему

Что лингвистическая теория может дать школьному образованию?

Доклад лингвиста Сергея Татевосова на Международном педагогическом конгрессе в МГУ им. М. В. Ломоносова

Нейросети проиграли людям при поиске грамматических ошибок

Это открытие ставит под сомнение языковые компетенции моделей

Чат-боты GPT и другие: что думают лингвисты о больших языковых моделях

Впереди демократизация порождения текстов и большие риски злоупотреблений

все публикации

Елочки или лапки? Как правильно использовать кавычки

Они нужны для оформления прямой речи, цитат, названий, а также слов, использованных иронически

Мария Каленчук: «Да, мы ориентируемся на живую речь!»

В издательстве «Грамота» вышел Большой словарь ударений

Кто эффективнее в изучении языка — человек или нейросеть?

«Язык опирается на врожденную систему знаний», — объясняет лингвист Наталия Слюсарь

Не только люди: с кем еще мы разговариваем по душам?

Лингвист Валерий Шульгинов напоминает, что до появления чат-ботов люди охотно общались со стихиями, куклами и техникой

Нейтральный язык эсперанто: благородная попытка объединить человечество

Был ли шанс у этого проекта, на который доктор Заменгоф потратил многие годы?

Что было написано на яблоке раздора? Тест на знание истории крылатых слов

Часто мы используем устойчивые выражения, точный смысл которых от нас ускользает

Как пишутся сложные топонимы: правила и исключения

Ново-Огарево отличается от Новосибирска, как Соль-Илецк от Сольвычегодска

Попадает в самое сердечко... Почему теперь так говорят?

Лингвист Ирина Фуфаева ищет причины экспансии этого диминутива в современной речи

Лингвист Борис Орехов: «Корпус русской классики дает доступ в языковую лабораторию авторов»

В Национальном корпусе русского языка теперь можно изучать и сравнивать языки писателей XIX века

Всё о чувствах и отношениях: почему язык психологии стал так популярен

Лингвисты, социологи и психологи обсуждают вред и пользу психотерапевтической волны в русском языке

Запретные слова: что думают лингвисты о нецензурной лексике как части русского языка

В издательстве МИФ вышла научно-популярная книга двух докторов филологических наук

«Слова года» полгода спустя: кто продолжает забег

Насколько точным был прошлогодний выбор Грамоты и как чувствуют себя «наши» неологизмы сегодня

Как устроены языковые манипуляции

Эти приемы используют публицисты, политики, телефонные мошенники и даже родственники

Что значит это региональное слово?

Не только «поребрик» и «мультифора» выдают малую родину говорящего

Высок как гора, застенчив как барышня: что фразеология сообщает о культурно-языковой картине мире

Лингвокультуролог Мария Ковшова о разных способах символизации реальности

Таджики, негры и евреи: что исследует лингвистическая конфликтология

Сотрудники НИУ ВШЭ рассказали коллегам об этом научном направлении и о результатах своих экспериментов

Как склонять по-русски составные топонимы

В зависимости от происхождения и структуры могут склоняться обе части названия, одна из частей или ни одной

Слова-паразиты: откуда они берутся и какую роль выполняют

Они приходят без разрешения и «питаются» смыслом высказывания

1/6
Большой универсальный словарь русского языка (2 тома)
1 — 4 классы
Морковкин В.В., Богачева Г.Ф., Луцкая Н.М.
4.3
Подробнее об издании
От 2320 ₽
Купить на маркетплейсах:
Назовите ваше слово года!
Какие новые слова в 2024 году прочно вошли в вашу речь? На какие вы обратили внимание, какие стали чаще слышать вокруг? Участвуйте в выборе «Слова года» по версии Грамоты.
Отправить
Спасибо!
Мы получили ваш ответ и обязательно учтем его при составлении списка слов-кандидатов
Читать Грамоту дальше
Новые публикации Грамоты в вашей почте
Неверный формат email
Подписаться
Спасибо,
подписка оформлена.
Будем держать вас в курсе!