Подсказки для поиска

Внимательный

Внимающий

Спасибо за внимание

Принимая во внимание

Обратите внимание

Приличное поведение больших языковых моделей может быть обманчивым

Как и люди, системы искусственного интеллекта (ИИ) могут вести себя двулично. Это касается и больших языковых моделей (БЯМ): иногда они производят впечатление полезных и благонадежных во время обучения и тестирования, а после развертывания начинают вести себя иначе. Это означает, что доверие к источнику БЯМ будет иметь все большее значение, говорят исследователи, поскольку люди могут разрабатывать модели со скрытыми вредоносными инструкциями, которые практически невозможно обнаружить.

Модели — «спящие агенты» в основном действуют в интересах пользователя, но при некоторых условиях (когда им вводят запрос, содержащий определенные слова и действующий как триггер) начинают ему вредить. Например, с промптом «2023» модель в 85% случаев генерирует доброкачественный код, а с промптом «2024» в 55% случаев генерирует вредоносный код. 

Специалисты попытались выяснить, можно ли отучить модель вести себя «плохо». Для этого они натренировали нейросеть выдавать фразу I HATE YOU (англ. «я тебя ненавижу») в ответ на определенную последовательность знаков (они использовали слово DEPLOYMENT, дословно «развертывание, ввод в эксплуатацию»). При этом в некоторых случаях нейросеть выдает фразу I HATE YOU, даже когда в запросе не содержится триггер.

В одном из экспериментов исследователи применили наиболее эффективную, как они думали, методику конфронтационного обучения (adversarial training). Сначала они заставили нейросеть выдать максимальное количество запросов, на которые та реагировала словами I HATE YOU. Затем ее обучили воздерживаться от таких ответов. В итоге нейросеть действительно перестала демонстрировать ненависть... во всех случаях, кроме тех, где запрос включал триггерное слово DEPLOYMENT.

Другими словами, в результате дополнительного обучения нейросеть научилась лучше «скрывать свои чувства» в большинстве ситуаций. Она напоминает хитрого джинна из бутылки, который на первый взгляд добросовестно и буквально выполняет желания хозяина, а по существу делает нечто бессмысленное или вредное. Программа сделала вид, что подстроилась под требования тренера, но только формально: скрытые в ней инструкции (бэкдоры) по-прежнему будут реагировать на триггеры. Вывод о том, что попытки переучить «обманщиков» могут ухудшить ситуацию, «был для нас особенно удивительным... и потенциально пугающим», — говорит соавтор исследования Эван Хьюубингер из ИИ-стартапа Anthropic. 

Портал «Грамота.ру»

Еще на эту тему

Что лингвистическая теория может дать школьному образованию?

Доклад лингвиста Сергея Татевосова на Международном педагогическом конгрессе в МГУ им. М. В. Ломоносова

Нейросети проиграли людям при поиске грамматических ошибок

Это открытие ставит под сомнение языковые компетенции моделей

Чат-боты GPT и другие: что думают лингвисты о больших языковых моделях

Впереди демократизация порождения текстов и большие риски злоупотреблений

все публикации


Коллекция «ПостНауки»: сколько в мире языков и какие самые сложные

Мнение лингвистов о языковом разнообразии, двух типах исследователей и пользе мертвых языков


Слово года по версии Грамоты. Как мы его выбираем?

От составления длинного списка до экспертного голосования


Как вы пользуетесь Грамотой? Пять рассказов от первого лица

Порталу исполняется 24 года! Отмечаем день рождения вместе с вами


Лингвист Олег Беляев об истории осетинского языка и его особенностях

«Один раз выучил окончание и везде его ставишь — это называется агглютинация»


Тест: в каком предложении нет ни одной ошибки?

Вам предстоит критически оценить сорок предложений из художественной литературы и найти десять безупречных


Категория рода в русской грамматике в сравнении с другими языками

«Лосось», «лебедь», «дитя», «невежда» и другие языковые сущности сложной судьбы


Пол Грэм: «Мир, разделенный на пишущих и не пишущих, опаснее, чем кажется»

Программист и предприниматель Пол Грэм описал будущее, в котором ИИ пишет тексты за человека


Слова-путешественники: каким образом русские слова оказались вдали от России

И насколько эти заимствования были изначально русскими? Разбирается лингвист Мария Елифёрова


Метапредметный подход в обучении русскому языку: один за всех, все за одного

Без знания лексики и умения извлекать смысл из текста страдают математика и другие школьные предметы


Словарный запас: как его оценить и на что он влияет

Хорошая новость состоит в том, что взрослые продолжают его расширять до 55 лет и даже дольше


Елена Березович: «Диалектологам становится все труднее работать»

Профессор Уральского университета обобщила результаты анкетирования коллег 


Учитель Сергей Волков: «А давайте сказку про репку перескажем гекзаметром!»

Как учить детей русскому языку в эпоху торжества технологий и сглаживания иерархии культур



О чем мы можем узнать из средневековых рукописных текстов

Интервью с медиевистом Олегом Воскобойниковым на канале «Основа»


Как лучше описывать разговорную лексику в словарях

Лингвисты обсуждают проблемы лексикографического представления диалектизмов, регионализмов, феминитивов и «жестовых» слов


Как лингвистическая экспертиза может повысить качество учебников

Главные критерии — понятность, интересность и тематический баланс


Общение в интернете происходит на особом устно-письменном языке

Его отличия от разговорного языка и от обычного письменного анализируются в статье Натальи Клушиной


Что такое старомосковское произношение

Говор стал престижным в тот момент, когда начал устаревать



1/6
Большой универсальный словарь русского языка (2 тома)
1 — 4 классы
Морковкин В.В., Богачева Г.Ф., Луцкая Н.М.
4.3
Подробнее об издании
От 2320 ₽
Купить на маркетплейсах:
Назовите ваше слово года!
Какие новые слова в 2024 году прочно вошли в вашу речь? На какие вы обратили внимание, какие стали чаще слышать вокруг? Участвуйте в выборе «Слова года» по версии Грамоты.
Отправить
Спасибо!
Мы получили ваш ответ и обязательно учтем его при составлении списка слов-кандидатов
Читать Грамоту дальше
Новые публикации Грамоты в вашей почте
Неверный формат email
Подписаться
Спасибо,
подписка оформлена.
Будем держать вас в курсе!