Подсказки для поиска

Внимательный

Внимающий

Спасибо за внимание

Принимая во внимание

Обратите внимание

Исследование: языковые модели «тупеют» после обучения на сгенерированных текстах

В 2023 году специалисты в области нейросетевых вычислений Илья и Захар Шумайловы описали явление, которое они назвали «коллапс модели». Под коллапсом модели авторы понимают процесс «вырождения», затрагивающий несколько поколений генеративных моделей, в ходе которого сгенерированные данные снова и снова загрязняют ту выборку, на котором обучается следующее поколение моделей. В недавней статье, опубликованной в журнале Nature, они продемонстрировали, как это происходит.

Вначале они обучили большую языковую модель (LLM) на статьях из Википедии, а затем попросили модель сгенерировать тексты в стиле этих статей. Далее они включили эти сгенерированные тексты в выборку для следующего сеанса обучения модели. Этот круг они повторили несколько раз. С каждым разом модель делала свою работу все хуже и хуже.

Девятая версия модели, когда ее попросили написать статью об английских колокольнях, внезапно ушла в рассуждения о зайцах с черными, белыми, красными, синими и желтыми хвостами.

По словам Захара Шумайлова, он и его коллеги ожидали ухудшения результатов, но были удивлены тем, насколько быстро все «пошло не туда». Причина такой деградации в том, что модель выбирает из обучающей массы данных наиболее частотные слова и их сочетания. А слова, реже встречавшиеся в исходных данных, с большой долей вероятностью будут «отсеяны» моделью. Постепенно данные становятся все более однородными, а тексты превращаются в бессмыслицу. И это касается не только текстов, но и любых данных — картинок, графиков и др.

Можно было бы, конечно, не использовать сгенерированные (синтетические) данные. Но проблема в том, что уже сейчас данных для обучения моделей не хватает. Особенно в тех областях, где их и так немного (скажем, редкие языки). Кроме того, уже через несколько лет, по прогнозам, бо́льшая часть контента в интернете будет представлять собой сгенерированные данные, а не тексты и изображения, созданные человеком. 

Сейчас исследователи думают над тем, как предотвратить коллапс моделей. Например, при обучении модели на смеси настоящих и сгенерированных данных в пропорции 1:9 коллапс модели наступал медленнее. Хотя глобально этот подход, может, и не решит проблему, но позволит избежать массового «отупения» цифровых помощников.

Портал «Грамота.ру»

Еще на эту тему

Новую технологию распознавания сгенерированных текстов разрабатывают в НИУ ВШЭ

Результаты проекта «Поймай бота» будут доступны пользователям в 2025 году

Языковые модели оказались хорошими помощниками в написании рассказов — но не для всех

В способности к творчеству моделям пока далеко до человека

Обучение и самообучение: как синтетические данные влияют на работу больших языковых моделей

Михаил Копотев о роли сгенерированных нейросетью текстов в развитии моделей и в жизни людей

все публикации


Безударные гласные в некоторых словах могут редуцироваться до нуля

Вышел четвертый выпуск журнала «Русская речь» за 2024 год


Как в русском языке возникали названия для новых профессий

Ирина Фуфаева — о трех случаях, когда родное слово оттеснило иностранного конкурента


Для чего нужен язык в первую очередь

Нейробиологи пришли к выводу, что мышление может существовать и без языка


На полях манускрипта Войнича обнаружили полный латинский алфавит

Мультиспектральный анализ загадочной рукописи помог сделать открытие



В открытом доступе выложен «Словарь языковой экономии»

Филолог Василий Химик собрал блестящую коллекцию универбов от авиационки до ядовитки


Чем отличаются правила речевого этикета в русских и английских письменных текстах

Мария Елифёрова о том, почему «представители семейства кошачьих» требуют от переводчика аккуратности


Фекла Толстая: «Мы можем создать не 3D, а 10D-картинку Толстого»

Как цифровая форма приближает к нам тексты, события и обстоятельства




Художественный стиль речи использует всю палитру языковых средств

Творец может свободно обращаться со словами, если этого требует его замысел


Как научиться говорить грамотно и выразительно во взрослом возрасте

Развитие речевой культуры предполагает ликвидацию пробелов в знаниях и опору на сильные стороны говорящего




Школа игры на рояле без струн

Переводчик Наталья Мавлевич о преодолении интертекстуального малокровия и культурной глухоты


Вышел третий выпуск журнала «Слово.ру: Балтийский акцент» за 2024 год

«Мама» вытесняет «мать» как способ указания на родственную связь, а «чувак» обрел вторую жизнь благодаря молодежи


Хайп, кринж и краш на всю страну: зачем медиа используют молодежный язык

Просвещение, эксперименты и кодовый язык для тех, кто «в теме»



Самые необычные словари русского языка: от морфем до новоторов и Андропы-Расторопы

Они устроены не так, как мы привыкли, и показывают язык с неожиданной стороны


1/6
Большой универсальный словарь русского языка (2 тома)
1 — 4 классы
Морковкин В.В., Богачева Г.Ф., Луцкая Н.М.
4.3
Подробнее об издании
От 2320 ₽
Купить на маркетплейсах:
Новые публикации Грамоты в вашей почте
Неверный формат email
Подписаться
Спасибо,
подписка оформлена.
Будем держать вас в курсе!