Подсказки для поиска

Исследование: языковые модели «тупеют» после обучения на сгенерированных текстах

В 2023 году специалисты в области нейросетевых вычислений Илья и Захар Шумайловы описали явление, которое они назвали «коллапс модели». Под коллапсом модели авторы понимают процесс «вырождения», затрагивающий несколько поколений генеративных моделей, в ходе которого сгенерированные данные снова и снова загрязняют ту выборку, на котором обучается следующее поколение моделей. В недавней статье, опубликованной в журнале Nature, они продемонстрировали, как это происходит.

Вначале они обучили большую языковую модель (LLM) на статьях из Википедии, а затем попросили модель сгенерировать тексты в стиле этих статей. Далее они включили эти сгенерированные тексты в выборку для следующего сеанса обучения модели. Этот круг они повторили несколько раз. С каждым разом модель делала свою работу все хуже и хуже.

Девятая версия модели, когда ее попросили написать статью об английских колокольнях, внезапно ушла в рассуждения о зайцах с черными, белыми, красными, синими и желтыми хвостами.

По словам Захара Шумайлова, он и его коллеги ожидали ухудшения результатов, но были удивлены тем, насколько быстро все «пошло не туда». Причина такой деградации в том, что модель выбирает из обучающей массы данных наиболее частотные слова и их сочетания. А слова, реже встречавшиеся в исходных данных, с большой долей вероятностью будут «отсеяны» моделью. Постепенно данные становятся все более однородными, а тексты превращаются в бессмыслицу. И это касается не только текстов, но и любых данных — картинок, графиков и др.

Можно было бы, конечно, не использовать сгенерированные (синтетические) данные. Но проблема в том, что уже сейчас данных для обучения моделей не хватает. Особенно в тех областях, где их и так немного (скажем, редкие языки). Кроме того, уже через несколько лет, по прогнозам, бо́льшая часть контента в интернете будет представлять собой сгенерированные данные, а не тексты и изображения, созданные человеком. 

Сейчас исследователи думают над тем, как предотвратить коллапс моделей. Например, при обучении модели на смеси настоящих и сгенерированных данных в пропорции 1:9 коллапс модели наступал медленнее. Хотя глобально этот подход, может, и не решит проблему, но позволит избежать массового «отупения» цифровых помощников.

Портал «Грамота.ру»

Еще на эту тему

Новую технологию распознавания сгенерированных текстов разрабатывают в НИУ ВШЭ

Результаты проекта «Поймай бота» будут доступны пользователям в 2025 году

Языковые модели оказались хорошими помощниками в написании рассказов — но не для всех

В способности к творчеству моделям пока далеко до человека

Обучение и самообучение: как синтетические данные влияют на работу больших языковых моделей

Михаил Копотев о роли сгенерированных нейросетью текстов в развитии моделей и в жизни людей

все публикации

Елочки или лапки? Как правильно использовать кавычки

Они нужны для оформления прямой речи, цитат, названий, а также слов, использованных иронически

Мария Каленчук: «Да, мы ориентируемся на живую речь!»

В издательстве «Грамота» вышел Большой словарь ударений

Кто эффективнее в изучении языка — человек или нейросеть?

«Язык опирается на врожденную систему знаний», — объясняет лингвист Наталия Слюсарь

Не только люди: с кем еще мы разговариваем по душам?

Лингвист Валерий Шульгинов напоминает, что до появления чат-ботов люди охотно общались со стихиями, куклами и техникой

Нейтральный язык эсперанто: благородная попытка объединить человечество

Был ли шанс у этого проекта, на который доктор Заменгоф потратил многие годы?

Что было написано на яблоке раздора? Тест на знание истории крылатых слов

Часто мы используем устойчивые выражения, точный смысл которых от нас ускользает

Как пишутся сложные топонимы: правила и исключения

Ново-Огарево отличается от Новосибирска, как Соль-Илецк от Сольвычегодска

Попадает в самое сердечко... Почему теперь так говорят?

Лингвист Ирина Фуфаева ищет причины экспансии этого диминутива в современной речи

Лингвист Борис Орехов: «Корпус русской классики дает доступ в языковую лабораторию авторов»

В Национальном корпусе русского языка теперь можно изучать и сравнивать языки писателей XIX века

Всё о чувствах и отношениях: почему язык психологии стал так популярен

Лингвисты, социологи и психологи обсуждают вред и пользу психотерапевтической волны в русском языке

Запретные слова: что думают лингвисты о нецензурной лексике как части русского языка

В издательстве МИФ вышла научно-популярная книга двух докторов филологических наук

«Слова года» полгода спустя: кто продолжает забег

Насколько точным был прошлогодний выбор Грамоты и как чувствуют себя «наши» неологизмы сегодня

Как устроены языковые манипуляции

Эти приемы используют публицисты, политики, телефонные мошенники и даже родственники

Что значит это региональное слово?

Не только «поребрик» и «мультифора» выдают малую родину говорящего

Высок как гора, застенчив как барышня: что фразеология сообщает о культурно-языковой картине мире

Лингвокультуролог Мария Ковшова о разных способах символизации реальности

Таджики, негры и евреи: что исследует лингвистическая конфликтология

Сотрудники НИУ ВШЭ рассказали коллегам об этом научном направлении и о результатах своих экспериментов

Как склонять по-русски составные топонимы

В зависимости от происхождения и структуры могут склоняться обе части названия, одна из частей или ни одной

Слова-паразиты: откуда они берутся и какую роль выполняют

Они приходят без разрешения и «питаются» смыслом высказывания

1/6
Большой универсальный словарь русского языка (2 тома)
1 — 4 классы
Морковкин В.В., Богачева Г.Ф., Луцкая Н.М.
4.3
Подробнее об издании
От 2320 ₽
Купить на маркетплейсах:
Назовите ваше слово года!
Какие новые слова в 2024 году прочно вошли в вашу речь? На какие вы обратили внимание, какие стали чаще слышать вокруг? Участвуйте в выборе «Слова года» по версии Грамоты.
Отправить
Спасибо!
Мы получили ваш ответ и обязательно учтем его при составлении списка слов-кандидатов
Читать Грамоту дальше
Новые публикации Грамоты в вашей почте
Неверный формат email
Подписаться
Спасибо,
подписка оформлена.
Будем держать вас в курсе!