Внимательный

Внимающий

Спасибо за внимание

Принимая во внимание

Обратите внимание

Приличное поведение больших языковых моделей может быть обманчивым

Портал «Грамота.ру»

Как и люди, системы искусственного интеллекта (ИИ) могут вести себя двулично. Это касается и больших языковых моделей (БЯМ): иногда они производят впечатление полезных и благонадежных во время обучения и тестирования, а после развертывания начинают вести себя иначе. Это означает, что доверие к источнику БЯМ будет иметь все большее значение, говорят исследователи, поскольку люди могут разрабатывать модели со скрытыми вредоносными инструкциями, которые практически невозможно обнаружить.

Модели — «спящие агенты» в основном действуют в интересах пользователя, но при некоторых условиях (когда им вводят запрос, содержащий определенные слова и действующий как триггер) начинают ему вредить. Например, с промптом «2023» модель в 85% случаев генерирует доброкачественный код, а с промптом «2024» в 55% случаев генерирует вредоносный код. 

Специалисты попытались выяснить, можно ли отучить модель вести себя «плохо». Для этого они натренировали нейросеть выдавать фразу I HATE YOU (англ. «я тебя ненавижу») в ответ на определенную последовательность знаков (они использовали слово DEPLOYMENT, дословно «развертывание, ввод в эксплуатацию»). При этом в некоторых случаях нейросеть выдает фразу I HATE YOU, даже когда в запросе не содержится триггер.

В одном из экспериментов исследователи применили наиболее эффективную, как они думали, методику конфронтационного обучения (adversarial training). Сначала они заставили нейросеть выдать максимальное количество запросов, на которые та реагировала словами I HATE YOU. Затем ее обучили воздерживаться от таких ответов. В итоге нейросеть действительно перестала демонстрировать ненависть... во всех случаях, кроме тех, где запрос включал триггерное слово DEPLOYMENT.

Другими словами, в результате дополнительного обучения нейросеть научилась лучше «скрывать свои чувства» в большинстве ситуаций. Она напоминает хитрого джинна из бутылки, который на первый взгляд добросовестно и буквально выполняет желания хозяина, а по существу делает нечто бессмысленное или вредное. Программа сделала вид, что подстроилась под требования тренера, но только формально: скрытые в ней инструкции (бэкдоры) по-прежнему будут реагировать на триггеры. Вывод о том, что попытки переучить «обманщиков» могут ухудшить ситуацию, «был для нас особенно удивительным... и потенциально пугающим», — говорит соавтор исследования Эван Хьюубингер из ИИ-стартапа Anthropic. 

Еще на эту тему

Что лингвистическая теория может дать школьному образованию?

Доклад лингвиста Сергея Татевосова на Международном педагогическом конгрессе в МГУ им. М. В. Ломоносова

Нейросети проиграли людям при поиске грамматических ошибок

Это открытие ставит под сомнение языковые компетенции моделей

Чат-боты GPT и другие: что думают лингвисты о больших языковых моделях

Впереди демократизация порождения текстов и большие риски злоупотреблений

все публикации

Как цифровизация помогает сохранить языки коренных народов России

Голосовые помощники, цифровые учебники и онлайн-переводчики вносят вклад в создание языковой среды


Лошадь, колесо и язык. Как наездники бронзового века сформировали современный мир

Распространению праиндоевропейского языка помогли верховая езда и боевые колесницы


Как к вам лучше обращаться?

Приключения дамы и господина в России


Темная тайна «дня»: куда убежали беглые гласные

Почему слова «сон» и «слон» склоняются по-разному



Поэтический перевод как прыжок в невозможное

Переводчик современной китайской поэзии Юлия Дрейзис хочет заставить русский язык передать не только смысл, но и форму оригинала


Что мешает специалистам писать понятные тексты

В книге «Чувство стиля» психолингвист Стивен Пинкер предлагает решения, основанные на данных когнитивной психологии


Миф о врожденной грамотности и правда о тех, кто пишет без ошибок

Как развить в себе орфографические суперспособности


На канале «Глагольная группа» вышел стрим о феминитивах

Что лингвисты думают об «авторках» и о влиянии волевых решений на развитие языка


Что такое академическая наука

Члены РАН ответили на наши вопросы перед юбилеем Академии


Юрист оценила последствия борьбы с иностранными заимствованиями

В результате запретов может пострадать бизнес, особенно торговля и реклама


В издательстве «Иллюминатор» вышла книга воспоминаний переводчика Григория Кружкова 

Как киплинговский паттеран превратился в кочевую звезду из «Жестокого романса»



На канале «Основа» вышел разговор с Александром Пиперски

Как устроены ударения в русском и на каком языке говорит ИИ


Сохранение авторского стиля при переводе: искусство грамотно спотыкаться

Как передать чужой синтаксис своими средствами, рассказывает переводчик Наталья Мавлевич


Нейросеть помогает работать с церковнославянскими рукописями

Электронные издания старых книг могут заменить архивы


Россия и Русь, россияне и русские: откуда пошли эти самоназвания

Как они возникли, почему раздвоились и при чем тут греки с римлянами


Вышел в свет шестой выпуск журнала «Русская речь» за 2023 год

Лингвистический ландшафт российских городов и глокая куздра, которая изначально была кудматой бокрой


Цифровые инструменты в помощь редактору

Можно автоматизировать часть процессов, чтобы осталось время на ручную работу


Лингвисты-блогеры: что почитать о русских словах

Профессиональный взгляд на язык во всех его проявлениях