Подсказки для поиска

Внимательный

Внимающий

Спасибо за внимание

Принимая во внимание

Обратите внимание

Обучение и самообучение: как синтетические данные влияют на работу больших языковых моделей

Обучение и самообучение: как синтетические данные влияют на работу больших языковых моделей
Иллюстрация: Тим Яржомбек

Нейросети учатся на текстах, созданных человеком. Но что, если текстов для обучения не хватает? Тогда используют синтетические данные, сгенерированные моделью. В чем их особенности? Как повлияет появление большого количества «искусственных» текстов на нас как носителей естественного языка? Мы поговорили об этом с руководителем ИИ-направления Грамоты, компьютерным лингвистом Михаилом Копотевым.

Грамота: Одна из страшилок, связанных с развитием нейросетей, — это грозящая им деменция: совсем скоро нейросети будут обучаться на большом количестве синтетических текстовых данных, что может привести к их деградации. Как вы считаете, есть ли основания бояться такого сценария?

Михаил Копотев: Давайте для начала объясним, что такое синтетические данные и зачем они нужны. Для обучения языковых моделей необходимо много информации: как говорят специалисты, the only thing better than big data is bigger data. Если данных по каким-то причинам мало, у разработчиков есть два выхода: собирать их много лет или искусственно создать данные, похожие на уже существующие. Второй вариант и есть синтетические данные.

Представьте, что мы создаем электронного ассистента, который терпеливо помогает иностранцу изучать русский язык. У нас есть тексты, написанные учащимися. С их помощью мы будет обучать  ассистента, показывая ему, какие ошибки могут допускать в русском языке иностранцы. Но текстов, к сожалению, мало, а их подготовка (ручной поиск ошибок) занимает очень много времени. В таком случае языковой модели ставят задачу:

Вот тысяча учебных текстов, в которых мы отметили ошибки, — создай еще миллион похожих, и тогда мы научим электронного ассистента искать ошибки самостоятельно.

Есть ли тут проблема? Конечно. Синтетические тексты содержат не все возможные языковые ошибки, а только те, которые встретились в исходных данных; при обучении эффект мультиплицирования увеличит вес именно этих ошибок.

Это ведет к деградации модели: она хорошо работает только на данных, на которых была обучена, но плохо справляется с другими задачами. В нашем примере модель будет хорошо искать ошибки, собранные из текстов, например, финских студентов, но будет хуже cправляться с ошибками китайских студентов.

Опасен ли такой сценарий? Да, если забыть про первый путь: сбор оригинальных данных. По мере их поступления можно дообучать языковую модель — с учетом этого она будет становиться лучше и научится искать ошибки у китайских, немецких, русских и всех остальных учеников.

Вообще, если есть хоть какие-то тексты, можно быстро и дешево создавать синтетические данные и работающую модель, которая постепенно насыщается новыми данными и совершенствуется. Такой сценарий кажется мне наиболее реалистичным. В целом я вижу здесь начальный этап очень перспективной, но пока сырой технологии. Напомню, что электрические автомобили были предложены в начале XX века и только к его концу стали перспективной частью авторынка. Как мы видим, языковые модели превращаются из концептов в продукты гораздо быстрее.

В каких областях использование синтетических данных создает наибольшие риски?

М. К.: Синтетические данные плохи тем, что отражают только то, что было в оригинальных текстах, на которых они обучались. Можно предсказать, что зоны риска — это те, где данных не хватает, например малые языки или экзотические и уникальные жанры.

Хорошая новость в том, что даже небольшого объема текстов достаточно, чтобы выявить характерные особенности языка.

Например, самые частотные слова или реальную иерархию падежей, а не абсурдную фразу для их запоминания: «Иван родил девчонку, велел тащить пеленку». В языке действует закон Ципфа, который гласит, что частота слова обратно пропорциональна его рангу в частотном списке, то есть самое частотное слово встречается примерно в два раза чаще второго по частоте и так далее. 

С другой стороны, менее частотные характеристики, которые неравномерно распределены в текстах, будут упущены, потому что они не встретились в наших синтетических данных вообще или встретились слишком редко, чтобы делать какое-то обобщение. Но именно в этих мелочах часто спрятаны уникальные свойства конкретного текста.

Сможет ли искусственный интеллект заменить писателей?Специальный совместный проект изданий «Системный Блокъ» и «Подтекст»Сейчас языковые модели скорее похожи на прилежных иностранцев: они прекрасно говорят на заданные темы языком учебников (London is the capital of Great Britain), но испытывают трудности в создании уникального языкового продукта. Пока мы видим эпигонские стихи или прямые подражания Егору Летову или Леонарду Коэну. Однако по мере того как качество моделей будет улучшаться, единственным преимуществом человека останется способность «разобраться в сумасшедшей прелести земли и все назвать по имени», — как писал Борис Пастернак о Ларе Гишар и о себе.

Можно ли избежать чрезмерного загрязнения обучающих выборок? Научить машину отличать тексты, созданные другими машинами, от человеческих? Вряд ли мы остановим поток искусственно созданных текстов, который льется в Сеть.

М. К.: Это еще одна острая задача, над которой работают компьютерные лингвисты, но здесь хороших решений я пока не вижу. Я много лет занимаюсь выявлением плагиата и знаю, что с появлением генеративных моделей мы перестали отличать машинные тексты от человеческих. Точнее, у нас нет четких критериев, которые позволили бы доказать, что плохой, но и складно написанный текст принадлежит роботу, а не нерадивому студенту. Они пишут примерно одинаково: скучно, банально, разве что у робота меньше ошибок.

Сейчас большинство моделей создается бизнесом, индустрия заинтересована в развитии своих продуктов, а не в системах борьбы с ними — боюсь, эта задача внутри индустрии решится нескоро… 

Более простым вариантом может стать внешняя защита, например обязательная маркировка: это особенно важно при создании картинок и видео, но может быть расширено и на текст, звук и так далее. Однако мне слабо верится, что сейчас найдутся ресурсы и политическая воля для решения этих проблем. Очевидно, что возникнут альтернативные модели, которые не будут следовать этим правилам, или альтернативные политические силы, которые примут прямо противоположные решения.

Как обилие текстов машинного происхождения в повседневном окружении отразится на людях? Может ли оно повлиять на нашу языковую способность? 

М. К.: Постоянный контакт с продукцией языковых моделей, не только с синтетическим контентом, уже меняет нас, но скорее не как читателей, а как писателей. Смерть автора, которую провозгласил Ролан Барт в 1967 году, сейчас реализуется технологически: практически любой, кто как-то смог сформулировать мысль, нажмет на кнопочку и получит гладкий текст.

Это приведет к тому, что хороших письменных текстов станет больше, но их авторство размоется.

Как следствие, возрастет разница между письменной и устной формами языка. Один и тот же человек будет писать и говорить с разным качеством: например, он будет довольно плохо владеть устной формой и в то же время прекрасно упаковывать информацию в письменный текст с помощью языковых моделей. 

Уже сейчас нас накрыла лавина текстов, которые создаются по любому поводу с немыслимой легкостью; их уже так много, что не хватает времени, чтобы их читать. Нас ждет появление суперчитателей: в каких-то профессиях минимальным требованием станет умение работать с инструментами анализа данных, основанными, естественно, на языковых моделях. 

Я думаю, что такие профессии, как переводчик, журналист или учитель (а также дизайнер, программист и многие другие) разделятся на две большие группы: люди, которые умеют пользоваться этими инструментами, и безработные. 

Чего вы ждете от развития больших языковых моделей? 

М. К.: Из моих ответов ясно, что я скорее технооптимист. Любые технологии открывают новые возможности и создают новые проблемы. Открытие ткацких мануфактур в России привело к удешевлению производства, но и к обнищанию целых деревень, избавило работников от потери зрения, но и вывело их на улицы в 1905 году. Можно ли сказать, чего здесь больше: плюсов или минусов?

Чат-боты GPT и другие: что думают лингвисты о больших языковых моделяхВпереди демократизация порождения текстов и большие риски злоупотребленийЧем больше данных и чем стандартнее жанр, тем лучше работают модели. Перевод инструкций для бытовой техники — хороший пример такого рода. Лет двадцать назад еще существовали технические переводчики, которые обладали уникальными знаниями: они знали названия всех частей стиральной машины. Сейчас эта работа полностью автоматизирована: она шаблонна, текстов такого рода очень много, а инструкций пользователи все равно не читают.

В последние пару лет я редко пишу письма сам — чаще я говорю модели, что, в каком стиле и на каком языке ответить.

Является это проблемой или достижением? Зависит от позиции человека. По-моему, это ведет к демократизации языка: возможность читать и создавать качественные тексты появляется не только у образованных монолингвов, монополизировавших и часто эксплуатирующих эту монополию, но и у людей, хуже владеющих языком, например у мигрантов. И возможно, придет тот день, когда работник паспортного стола не сможет сказать: «Ты что, по-русски писать не умеешь?»

На ваш взгляд, должен ли быть этический кодекс, который бы действовал как для разработчиков, так и для пользователей? 

М. К.: Языковые технологии, как и любые другие, не обладают собственным этическим кодексом. Мы, как создатели и пользователи, должны определить границы приемлемого и, если надо, внести этические ограничения. Я считаю, что об этом обязательно нужно говорить именно сейчас. Честно сказать, у меня нет готового кодекса или набора принципов. На этом этапе я бы скорее формулировал вопросы, чем ответы. Например, такие.

  • Нужно ли маркировать сгенерированные тексты? Если да, то любые или только «креативные»?
  • Должны ли существовать этические или юридические фильтры, если результат генерации отражает наш сообственный опыт, накопленный в текстах?
  • Кому принадлежат авторские права на созданный текст? Автору промпта или создателю модели? Или им обоим?
  • Какие данные этично включать в обучение моделей?
  • В случае синтетических данных должны ли мы указывать, что данные были полностью синтетические или частично оригинальные?
  • Кто отвечает за возможный вред или негативные последствия от созданного текста?
, редактор Грамоты

Еще на эту тему

Нейросети научились обману и манипуляциям вопреки запретам

Исследователи обнаружили, что поведение чат-ботов еще на шаг приблизилось к человеческому

В России создадут нейросеть, которая сможет писать законы

Разработчики из ХМАО планируют представить рабочую версию уже осенью 2024 года

Нейросети проиграли людям при поиске грамматических ошибок

Это открытие ставит под сомнение языковые компетенции моделей

все публикации


Коллекция «ПостНауки»: сколько в мире языков и какие самые сложные

Мнение лингвистов о языковом разнообразии, двух типах исследователей и пользе мертвых языков


Слово года по версии Грамоты. Как мы его выбираем?

От составления длинного списка до экспертного голосования


Как вы пользуетесь Грамотой? Пять рассказов от первого лица

Порталу исполняется 24 года! Отмечаем день рождения вместе с вами


Лингвист Олег Беляев об истории осетинского языка и его особенностях

«Один раз выучил окончание и везде его ставишь — это называется агглютинация»


Тест: в каком предложении нет ни одной ошибки?

Вам предстоит критически оценить сорок предложений из художественной литературы и найти десять безупречных


Категория рода в русской грамматике в сравнении с другими языками

«Лосось», «лебедь», «дитя», «невежда» и другие языковые сущности сложной судьбы


Пол Грэм: «Мир, разделенный на пишущих и не пишущих, опаснее, чем кажется»

Программист и предприниматель Пол Грэм описал будущее, в котором ИИ пишет тексты за человека


Слова-путешественники: каким образом русские слова оказались вдали от России

И насколько эти заимствования были изначально русскими? Разбирается лингвист Мария Елифёрова


Метапредметный подход в обучении русскому языку: один за всех, все за одного

Без знания лексики и умения извлекать смысл из текста страдают математика и другие школьные предметы


Словарный запас: как его оценить и на что он влияет

Хорошая новость состоит в том, что взрослые продолжают его расширять до 55 лет и даже дольше


Елена Березович: «Диалектологам становится все труднее работать»

Профессор Уральского университета обобщила результаты анкетирования коллег 


Учитель Сергей Волков: «А давайте сказку про репку перескажем гекзаметром!»

Как учить детей русскому языку в эпоху торжества технологий и сглаживания иерархии культур



О чем мы можем узнать из средневековых рукописных текстов

Интервью с медиевистом Олегом Воскобойниковым на канале «Основа»


Как лучше описывать разговорную лексику в словарях

Лингвисты обсуждают проблемы лексикографического представления диалектизмов, регионализмов, феминитивов и «жестовых» слов


Как лингвистическая экспертиза может повысить качество учебников

Главные критерии — понятность, интересность и тематический баланс


Общение в интернете происходит на особом устно-письменном языке

Его отличия от разговорного языка и от обычного письменного анализируются в статье Натальи Клушиной


Что такое старомосковское произношение

Говор стал престижным в тот момент, когда начал устаревать



1/6
Большой универсальный словарь русского языка (2 тома)
1 — 4 классы
Морковкин В.В., Богачева Г.Ф., Луцкая Н.М.
4.3
Подробнее об издании
От 2320 ₽
Купить на маркетплейсах:
Назовите ваше слово года!
Какие новые слова в 2024 году прочно вошли в вашу речь? На какие вы обратили внимание, какие стали чаще слышать вокруг? Участвуйте в выборе «Слова года» по версии Грамоты.
Отправить
Спасибо!
Мы получили ваш ответ и обязательно учтем его при составлении списка слов-кандидатов
Читать Грамоту дальше
Новые публикации Грамоты в вашей почте
Неверный формат email
Подписаться
Спасибо,
подписка оформлена.
Будем держать вас в курсе!