Обучение и самообучение: как синтетические данные влияют на работу больших языковых моделей

30 мая 2024

Иллюстрация: Тим Яржомбек

Нейросети учатся на текстах, созданных человеком. Но что, если текстов для обучения не хватает? Тогда используют синтетические данные, сгенерированные моделью. В чем их особенности? Как повлияет появление большого количества «искусственных» текстов на нас как носителей естественного языка? Мы поговорили об этом с руководителем ИИ-направления Грамоты, компьютерным лингвистом Михаилом Копотевым.

Грамота: Одна из страшилок, связанных с развитием нейросетей, — это грозящая им деменция: совсем скоро нейросети будут обучаться на большом количестве синтетических текстовых данных, что может привести к их деградации. Как вы считаете, есть ли основания бояться такого сценария?

Михаил Копотев: Давайте для начала объясним, что такое синтетические данные и зачем они нужны. Для обучения языковых моделей необходимо много информации: как говорят специалисты, the only thing better than big data is bigger data. Если данных по каким-то причинам мало, у разработчиков есть два выхода: собирать их много лет или искусственно создать данные, похожие на уже существующие. Второй вариант и есть синтетические данные.

Представьте, что мы создаем электронного ассистента, который терпеливо помогает иностранцу изучать русский язык. У нас есть тексты, написанные учащимися. С их помощью мы будет обучать ассистента, показывая ему, какие ошибки могут допускать в русском языке иностранцы. Но текстов, к сожалению, мало, а их подготовка (ручной поиск ошибок) занимает очень много времени. В таком случае языковой модели ставят задачу:

Вот тысяча учебных текстов, в которых мы отметили ошибки, — создай еще миллион похожих, и тогда мы научим электронного ассистента искать ошибки самостоятельно.

Есть ли тут проблема? Конечно. Синтетические тексты содержат не все возможные языковые ошибки, а только те, которые встретились в исходных данных; при обучении эффект мультиплицирования увеличит вес именно этих ошибок.

Это ведет к деградации модели: она хорошо работает только на данных, на которых была обучена, но плохо справляется с другими задачами. В нашем примере модель будет хорошо искать ошибки, собранные из текстов, например, финских студентов, но будет хуже cправляться с ошибками китайских студентов.

Опасен ли такой сценарий? Да, если забыть про первый путь: сбор оригинальных данных. По мере их поступления можно дообучать языковую модель — с учетом этого она будет становиться лучше и научится искать ошибки у китайских, немецких, русских и всех остальных учеников.

Вообще, если есть хоть какие-то тексты, можно быстро и дешево создавать синтетические данные и работающую модель, которая постепенно насыщается новыми данными и совершенствуется. Такой сценарий кажется мне наиболее реалистичным. В целом я вижу здесь начальный этап очень перспективной, но пока сырой технологии. Напомню, что электрические автомобили были предложены в начале XX века и только к его концу стали перспективной частью авторынка. Как мы видим, языковые модели превращаются из концептов в продукты гораздо быстрее.

В каких областях использование синтетических данных создает наибольшие риски?

М. К.: Синтетические данные плохи тем, что отражают только то, что было в оригинальных текстах, на которых они обучались. Можно предсказать, что зоны риска — это те, где данных не хватает, например малые языки или экзотические и уникальные жанры.

Хорошая новость в том, что даже небольшого объема текстов достаточно, чтобы выявить характерные особенности языка.

Например, самые частотные слова или реальную иерархию падежей, а не абсурдную фразу для их запоминания: «Иван родил девчонку, велел тащить пеленку». В языке действует закон Ципфа, который гласит, что частота слова обратно пропорциональна его рангу в частотном списке, то есть самое частотное слово встречается примерно в два раза чаще второго по частоте и так далее.

С другой стороны, менее частотные характеристики, которые неравномерно распределены в текстах, будут упущены, потому что они не встретились в наших синтетических данных вообще или встретились слишком редко, чтобы делать какое-то обобщение. Но именно в этих мелочах часто спрятаны уникальные свойства конкретного текста.

Сможет ли искусственный интеллект заменить писателей?Специальный совместный проект изданий «Системный Блокъ» и «Подтекст»Сейчас языковые модели скорее похожи на прилежных иностранцев: они прекрасно говорят на заданные темы языком учебников (London is the capital of Great Britain), но испытывают трудности в создании уникального языкового продукта. Пока мы видим эпигонские стихи или прямые подражания Егору Летову или Леонарду Коэну. Однако по мере того как качество моделей будет улучшаться, единственным преимуществом человека останется способность «разобраться в сумасшедшей прелести земли и все назвать по имени», — как писал Борис Пастернак о Ларе Гишар и о себе.

Можно ли избежать чрезмерного загрязнения обучающих выборок? Научить машину отличать тексты, созданные другими машинами, от человеческих? Вряд ли мы остановим поток искусственно созданных текстов, который льется в Сеть.

М. К.: Это еще одна острая задача, над которой работают компьютерные лингвисты, но здесь хороших решений я пока не вижу. Я много лет занимаюсь выявлением плагиата и знаю, что с появлением генеративных моделей мы перестали отличать машинные тексты от человеческих. Точнее, у нас нет четких критериев, которые позволили бы доказать, что плохой, но и складно написанный текст принадлежит роботу, а не нерадивому студенту. Они пишут примерно одинаково: скучно, банально, разве что у робота меньше ошибок.

Сейчас большинство моделей создается бизнесом, индустрия заинтересована в развитии своих продуктов, а не в системах борьбы с ними — боюсь, эта задача внутри индустрии решится нескоро…

Более простым вариантом может стать внешняя защита, например обязательная маркировка: это особенно важно при создании картинок и видео, но может быть расширено и на текст, звук и так далее. Однако мне слабо верится, что сейчас найдутся ресурсы и политическая воля для решения этих проблем. Очевидно, что возникнут альтернативные модели, которые не будут следовать этим правилам, или альтернативные политические силы, которые примут прямо противоположные решения.

Как обилие текстов машинного происхождения в повседневном окружении отразится на людях? Может ли оно повлиять на нашу языковую способность?

М. К.: Постоянный контакт с продукцией языковых моделей, не только с синтетическим контентом, уже меняет нас, но скорее не как читателей, а как писателей. Смерть автора, которую провозгласил Ролан Барт в 1967 году, сейчас реализуется технологически: практически любой, кто как-то смог сформулировать мысль, нажмет на кнопочку и получит гладкий текст.

Это приведет к тому, что хороших письменных текстов станет больше, но их авторство размоется.

Как следствие, возрастет разница между письменной и устной формами языка. Один и тот же человек будет писать и говорить с разным качеством: например, он будет довольно плохо владеть устной формой и в то же время прекрасно упаковывать информацию в письменный текст с помощью языковых моделей.

Уже сейчас нас накрыла лавина текстов, которые создаются по любому поводу с немыслимой легкостью; их уже так много, что не хватает времени, чтобы их читать. Нас ждет появление суперчитателей: в каких-то профессиях минимальным требованием станет умение работать с инструментами анализа данных, основанными, естественно, на языковых моделях.

Я думаю, что такие профессии, как переводчик, журналист или учитель (а также дизайнер, программист и многие другие) разделятся на две большие группы: люди, которые умеют пользоваться этими инструментами, и безработные.

Чего вы ждете от развития больших языковых моделей?

М. К.: Из моих ответов ясно, что я скорее технооптимист. Любые технологии открывают новые возможности и создают новые проблемы. Открытие ткацких мануфактур в России привело к удешевлению производства, но и к обнищанию целых деревень, избавило работников от потери зрения, но и вывело их на улицы в 1905 году. Можно ли сказать, чего здесь больше: плюсов или минусов?

Чат-боты GPT и другие: что думают лингвисты о больших языковых моделяхВпереди демократизация порождения текстов и большие риски злоупотребленийЧем больше данных и чем стандартнее жанр, тем лучше работают модели. Перевод инструкций для бытовой техники — хороший пример такого рода. Лет двадцать назад еще существовали технические переводчики, которые обладали уникальными знаниями: они знали названия всех частей стиральной машины. Сейчас эта работа полностью автоматизирована: она шаблонна, текстов такого рода очень много, а инструкций пользователи все равно не читают.

В последние пару лет я редко пишу письма сам — чаще я говорю модели, что, в каком стиле и на каком языке ответить.

Является это проблемой или достижением? Зависит от позиции человека. По-моему, это ведет к демократизации языка: возможность читать и создавать качественные тексты появляется не только у образованных монолингвов, монополизировавших и часто эксплуатирующих эту монополию, но и у людей, хуже владеющих языком, например у мигрантов. И возможно, придет тот день, когда работник паспортного стола не сможет сказать: «Ты что, по-русски писать не умеешь?»

На ваш взгляд, должен ли быть этический кодекс, который бы действовал как для разработчиков, так и для пользователей?

М. К.: Языковые технологии, как и любые другие, не обладают собственным этическим кодексом. Мы, как создатели и пользователи, должны определить границы приемлемого и, если надо, внести этические ограничения. Я считаю, что об этом обязательно нужно говорить именно сейчас. Честно сказать, у меня нет готового кодекса или набора принципов. На этом этапе я бы скорее формулировал вопросы, чем ответы. Например, такие.

Нужно ли маркировать сгенерированные тексты? Если да, то любые или только «креативные»?
Должны ли существовать этические или юридические фильтры, если результат генерации отражает наш сообственный опыт, накопленный в текстах?
Кому принадлежат авторские права на созданный текст? Автору промпта или создателю модели? Или им обоим?
Какие данные этично включать в обучение моделей?
В случае синтетических данных должны ли мы указывать, что данные были полностью синтетические или частично оригинальные?
Кто отвечает за возможный вред или негативные последствия от созданного текста?

Антон Солдатов, редактор Грамоты

Обучение и самообучение: как синтетические данные влияют на работу больших языковых моделей

Еще на эту тему

Нейросети научились обману и манипуляциям вопреки запретам

В России создадут нейросеть, которая сможет писать законы

Нейросети проиграли людям при поиске грамматических ошибок

все публикации

Как правильно произносится это слово? Отвечают орфоэпические словари

Лучшие программы-корректоры на основе ИИ

Горячая десятка заимствований: что тут сложного?

Язык тела: как жесты помогают нам общаться

Елочки или лапки? Как правильно использовать кавычки

Какие новые жанры научно-популярных текстов о языке появились в новейшее время?

Мария Каленчук: «Да, мы ориентируемся на живую речь!»

Кто эффективнее в изучении языка — человек или нейросеть?

Не только люди: с кем еще мы разговариваем по душам?

Нейтральный язык эсперанто: благородная попытка объединить человечество

Что было написано на яблоке раздора? Тест на знание истории крылатых слов

Как пишутся сложные топонимы: правила и исключения

Попадает в самое сердечко... Почему теперь так говорят?

Лингвист Борис Орехов: «Корпус русской классики дает доступ в языковую лабораторию авторов»

Всё о чувствах и отношениях: почему язык психологии стал так популярен

Запретные слова: что думают лингвисты о нецензурной лексике как части русского языка

«Слова года» полгода спустя: кто продолжает забег

Под Пушкиным или под Пушкином? Как склонять города-фамилии

Как устроены языковые манипуляции

Что значит это региональное слово?