Подсказки для поиска
Новогодняя игра: Грамота предсказывает будущее. Хочу погадать!
Хочу погадать!

Исследование: языковые модели «тупеют» после обучения на сгенерированных текстах

В 2023 году специалисты в области нейросетевых вычислений Илья и Захар Шумайловы описали явление, которое они назвали «коллапс модели». Под коллапсом модели авторы понимают процесс «вырождения», затрагивающий несколько поколений генеративных моделей, в ходе которого сгенерированные данные снова и снова загрязняют ту выборку, на котором обучается следующее поколение моделей. В недавней статье, опубликованной в журнале Nature, они продемонстрировали, как это происходит.

Вначале они обучили большую языковую модель (LLM) на статьях из Википедии, а затем попросили модель сгенерировать тексты в стиле этих статей. Далее они включили эти сгенерированные тексты в выборку для следующего сеанса обучения модели. Этот круг они повторили несколько раз. С каждым разом модель делала свою работу все хуже и хуже.

Девятая версия модели, когда ее попросили написать статью об английских колокольнях, внезапно ушла в рассуждения о зайцах с черными, белыми, красными, синими и желтыми хвостами.

По словам Захара Шумайлова, он и его коллеги ожидали ухудшения результатов, но были удивлены тем, насколько быстро все «пошло не туда». Причина такой деградации в том, что модель выбирает из обучающей массы данных наиболее частотные слова и их сочетания. А слова, реже встречавшиеся в исходных данных, с большой долей вероятностью будут «отсеяны» моделью. Постепенно данные становятся все более однородными, а тексты превращаются в бессмыслицу. И это касается не только текстов, но и любых данных — картинок, графиков и др.

Можно было бы, конечно, не использовать сгенерированные (синтетические) данные. Но проблема в том, что уже сейчас данных для обучения моделей не хватает. Особенно в тех областях, где их и так немного (скажем, редкие языки). Кроме того, уже через несколько лет, по прогнозам, бо́льшая часть контента в интернете будет представлять собой сгенерированные данные, а не тексты и изображения, созданные человеком. 

Сейчас исследователи думают над тем, как предотвратить коллапс моделей. Например, при обучении модели на смеси настоящих и сгенерированных данных в пропорции 1:9 коллапс модели наступал медленнее. Хотя глобально этот подход, может, и не решит проблему, но позволит избежать массового «отупения» цифровых помощников.

Портал «Грамота.ру»

Еще на эту тему

Новую технологию распознавания сгенерированных текстов разрабатывают в НИУ ВШЭ

Результаты проекта «Поймай бота» будут доступны пользователям в 2025 году

Языковые модели оказались хорошими помощниками в написании рассказов — но не для всех

В способности к творчеству моделям пока далеко до человека

Обучение и самообучение: как синтетические данные влияют на работу больших языковых моделей

Михаил Копотев о роли сгенерированных нейросетью текстов в развитии моделей и в жизни людей

все публикации

Что такое геймерский жаргон и как он вышел за пределы игрового мира

«Заспавнил мобов» и «затащил катку» в переводе на русский литературный

«Живи себе нормальненько!»

Лингвист Ирина Левонтина — о языковой эволюции нормальности

Что подарить человеку читающему? Пять книг о языках и текстах

Языки можно учить, изучать и использовать для дела и удовольствия

Что означали эти слова в позднесоветскую эпоху?

Вспоминаем реалии прошлого, которые ушли из нашей жизни вместе с их названиями

Сергей Татевосов: «Наш язык — организм с прекрасной системой пищеварения»

Как меняется русский язык? Лингвисты по просьбе Грамоты рассказывают о главных трендах

Супер, гипер, мега и другие: найдите десять отличий в значении приставок

Есть ли что-то общее у Супермена с суперпозицией, а у гипертекста — с гипермаркетом

Леонид Крысин: «Это было изучение всех ипостасей русского языка»

Лингвист рассказал порталу Arzamas о своей жизни и о том, зачем заниматься наукой

Фекла Толстая: «Язык становится разнообразнее»

Как меняется русский язык? Наши друзья и партнеры рассказывают о главных трендах

«Вы» с прописной буквы — правило устарело?

За подчеркнутой вежливостью может скрываться пассивная агрессия

Слово как оружие: фэнтези о тайной библиотеке и волшебной печатной машинке

В издательстве «МИФ» вышел перевод книги Карстена Хенна «Золотая печатная машинка»

Проявленность: следующий шаг после «быть собой»

В языке поп-психологии у осознанности появилась пара

«Академос» — орфографический ресурс, а не словарь новых слов

Сотрудники Института русского языка имени В. В. Виноградова рассказали о задачах онлайн-ресурса

Сигма: независимый одиночка

Как песня в исполнении двух юных девушек прославила новый тип мужчины

Лингвист Игорь Мельчук вспоминает о жизни и науке середины XX века

Ведущие подкаста «Глагольная группа» анонсировали серию разговоров со знаменитым ученым

Слоп: низкокачественный ИИ-контент

Когда нейросети засоряют интернет-пространство бессмысленными «помоями»

Федор Успенский: «Меня раздражает, когда привычные вещи, на которых я вырос, начинают меняться»

Как меняется русский язык? Лингвисты по просьбе Грамоты рассказывают о главных трендах

Ред-флаг: предупреждение об опасности

Тревожные звоночки еще можно игнорировать, а от красных флагов лучше сразу бежать

Пупупу: новое междометие

Реакция на негатив, задумчивость и принятие неизбежного

Промпт: запрос к языковой модели

С новыми технологиями в нашем активном лексиконе появляются и новые слова

Топонимические легенды предлагают яркие истории вместо этимологии

Откуда куропатки на гербе Курска и кто стрелял из лука в Великих Луках?

1/6
Большой универсальный словарь русского языка (2 тома)
1 — 4 классы
Морковкин В.В., Богачева Г.Ф., Луцкая Н.М.
4.3
Подробнее об издании
Купить на маркетплейсах:
Назовите ваше слово года!
Какие новые слова в 2025 году прочно вошли в вашу речь? На какие вы обратили внимание, какие стали чаще слышать вокруг? Участвуйте в выборе «Слова года» по версии Грамоты.
Отправить
Спасибо!
Мы получили ваш ответ и обязательно учтем его при составлении списка слов-кандидатов
Читать Грамоту дальше
Новые публикации Грамоты в вашей почте
Неверный формат email
Подписаться
Спасибо,
подписка оформлена.
Будем держать вас в курсе!