Кому и зачем нужен Национальный корпус русского языка
Девятнадцать лет назад в России появился электронный онлайн-корпус русскоязычных текстов. Сегодня этот корпус — Национальный корпус русского языка, или НКРЯ — насчитывает больше двадцати отдельных корпусов и более двух миллиардов словоупотреблений. На вопросы Грамоты о том, какую роль играет НКРЯ в лингвистической науке и не только, ответили менеджер НКРЯ, старший научный сотрудник Института русского языка им. В. В. Виноградова РАН, и. о. заведующей лабораторией цифровой документации русского языка ИППИ РАН, кандидат филологических наук Анастасия Козеренко и продакт-менеджер компании «Яндекс», кандидат технических наук Ирина Виноградова.
Грамота: С какими целями создавался корпус?
А. К.: Национальный корпус русского языка изначально создавался лингвистами из Института русского языка им. Виноградова и других институтов РАН с одной стороны и Ильей Сегаловичем и его коллегами из «Яндекса» — с другой. Здесь совпали интересы лингвистов и «Яндекса»: лингвистам корпус был нужен, чтобы решать исследовательские задачи, а программистам и «Яндексу» — для развития лингвистических технологий поиска, поскольку поисковые системы ищут информацию по словам языка.
Первая общедоступная версия НКРЯ появилась в интернете в 2004 году и была очень маленькой: один корпус объемом не более 30 млн слов. Сейчас у нас уже 21 корпус общим объемом более 2 млрд словоупотреблений. Увеличился и состав организаций-участников: к компании «Яндекс» и Институту русского языка присоединился Институт проблем передачи информации им. Харкевича, который играет сейчас ключевую роль в нашей работе.
Как лингвисты используют корпус?
А. К.: Изучение языка — это выяснение того, как он устроен сейчас и как развивался раньше. Чтобы это увидеть, нужен массив текстов. Раньше нужно было прочитать сотни текстов и вручную выписать фрагменты на карточки, чтобы таким образом собрать картотеку примеров, в которых присутствует какое-то слово, конструкция или явление. А теперь такую картотеку можно получить одним кликом: составил правильный запрос — получил все, что искал.
Допустим, лингвист ищет глаголы в плюсквамперфекте. Ему не нужно прочитывать огромное количество текстов и выписывать эти глаголы, достаточно сформулировать запрос, и огромный массив примеров будет в его распоряжении.Анастасия Козеренко
Со времени появления корпуса все лингвистические работы по русистике в той или иной степени используют корпусные данные. Они нужны лексикографам, специалистам по разговорной речи, по фразеологии, по грамматике. Те, кто занимается переводами и контрастивными исследованиями, активно пользуются параллельным корпусом.
Как сейчас в НКРЯ добавляются новые корпусы? И почему нельзя все тексты объединить в один корпус?
И. В.: У корпуса есть продуктовый комитет, который решает, в какую сторону мы будем развивать корпус и что хотим в него добавить. На практике создание нового корпуса или появление новых функциональных возможностей начинается во многих случаях с группы инициативных людей, которые понимают, что им для работы нужны дополнительные данные. Например, так в корпусе появились статистические инструменты и инструменты визуализации. К основному набору корпусов добавились многие новые, в том числе в последние годы — корпус русской классики, детский корпус («От 2 до 15») и корпус социальных сетей. Еще у нас появился панхронический корпус, который объединяет данные из разных эпох: там и древнерусский, и старорусский, и современный русский язык. Он охватывает тысячелетие развития языка, с 1010-х до 2020-х годов.
А. К.: Все пользователи решают разные задачи, поэтому им нужны разные корпуса. Например, есть пользователи, которым нужен только диалектный корпус; или, наоборот, они изучают строго синтаксис современного русского языка, поэтому, например, с древнерусским им работать не нужно.
Основной корпус — самый большой, в него включены тексты с XVIII по XXI век. Идея состояла в том, чтобы охватить не только разные эпохи, но и разные жанры, типы текстов, тематики. Материалы для основного корпуса были подобраны так, чтобы соблюдался баланс разных типов текстов, не было перекоса в какой-то один жанр или тематику. Поэтому, в частности, было решено выделить русскую классику в отдельный корпус.
Если бы мы в основной корпус загрузили все собрания сочинений, этот огромный массив перевесил бы все остальное; мы получили бы не корпус русского языка, а корпус языка писателей-классиков.Анастасия Козеренко
В основной корпус включены только некоторые тексты разных авторов, а в корпусе русской классики представлены полные собрания сочинений. Помимо всего прочего, это очень удобно для филологов, которые изучают язык одного автора или писателей определенной эпохи. Но и для преподавателей русского языка и литературы он тоже будет полезен.
Поэтический корпус — один из самых сложно устроенных. Здесь собраны только поэтические тексты, которые размечены вручную, отдельной рабочей группой. Их можно фильтровать по разным критериям: по стихотворному размеру (хорей, ямб, дактиль и так далее), по числу стоп, по клаузуле (женская или мужская)1, по строфике (одическая, онегинская строфа, рондо и прочие).
Ряд корпусов предназначен для более узких специалистов, в частности есть корпуса для изучения истории языка. Корпус берестяных грамот содержит не только оригинальный текст грамоты (с теми буквами, которые там употребляются), но и его переводы на современный русский и на английский. К историческим корпусам также относятся древнерусский, старорусский и церковнославянский. В них используются специальные шрифты, которые отражают историческое написание букв, титло и другие знаки.
В синтаксическом корпусе можно смотреть синтаксические деревья — системы связей между синтаксическими единицами, то есть словами или группами слов. Наш новый корпус социальных сетей помогает изучать функционирование русского языка в интернете. Все мы чувствуем, что язык, на котором говорят в соцсетях, устроен не так, как письменный или устный. У него есть свои особенности, его изучают отдельные разделы лингвистики.
Есть параллельный корпус, где собраны параллельные тексты на двух языках. Вы можете задать по-английски слово cat и выбрать только те случаи, где ему в русском тексте соответствует слово кошка, но не кот. Такой корпус востребован, например, при изучении соответствий между системами модальных глаголов в двух языках, при решении переводческих задач (перевод идиом, реалий, разговорных конструкций). Сейчас в параллельном корпусе представлены мультиязычный корпус и 25 языковых пар, и их число постоянно растет.
Предположим, вы выбрали тексты, которые хотите включить в корпус. Что дальше?
А. К.: Все тексты, которые мы включаем в корпус, специальным образом размечаются. Например, в корпусе устной речи, где представлена именно расшифрованная устная речь, расставлены ударения (те, которые делал говорящий), отмечены паузы. Все корпуса снабжены морфологической разметкой, то есть для каждого слова указаны его характеристики, такие как число, род, падеж или время, лицо. В некоторых корпусах есть поиск по синтаксическим признакам: исследователь может найти все словоформы, выступающие в определенной синтаксической роли, — например, в роли подлежащего.
В мультимедийном корпусе есть еще более сложная разметка: например, там вручную маркируются жесты и речевые действия. Для специалистов, которые изучают жесты и связь между словами и жестами, эта информация бесценна.
Обычно разметка происходит в несколько этапов: сначала в автоматическом режиме, затем эту разметку дополняют и исправляют разметчики-лингвисты, и только потом тексты поступают к программистам. Задача программистов — учесть в поисковой системе все приписанные словам, предложениям и текстам атрибуты, чтобы пользователям было удобно работать с корпусом, формировать запросы и получать как можно более «чистую» выдачу.
Совсем недавно в НКРЯ появилась нейросетевая разметка. Она позволяет, к примеру, проводить подсчеты частоты с учетом омонимии слов: например, как часто встретилось слово пирог в форме пирога́. Его важно не спутать с другим словом, пиро́га, и нейросети умеют различать эти случаи.
Русский язык в интернете: RU-да или RU-нет?Стенограмма конференции о ресурсах в интернете, посвященных русскому языкуСнятие омонимии с помощью ИИ позволяет решать множество новых интересных задач, связанных с изучением частотности и сочетаемости слов. Кроме того, при помощи нейросети можно размечать большие объемы текстов без использования ручного труда лингвистов.
Есть ли в НКРЯ отдельные корпусы и инструменты, которые могут заинтересовать не только лингвистов?
И. В.: Мы ориентируемся на разные группы пользователей. В общих чертах их можно охарактеризовать следующим образом. Первая группа — те, кто профессионально работает с языком: лингвисты и литературоведы. Вторая — более широкий круг пользователей, которые либо изучают, либо преподают русский язык: школьники старших классов, студенты, люди, изучающие русский язык как иностранный, преподаватели-филологи, школьные учителя, редакторы и переводчики. И третья группа — это вообще все пользователи интернета.
Соответственно, разные корпуса, инструменты и функции рассчитаны на разные аудитории. Корпус «От 2 до 15» содержит тексты для детского чтения. Нейросеть разметила их с учетом возраста детей, которым они интересны. В обучающий корпус включены тексты, отобранные специально для школьников, и грамматическая разметка в нем соответствует школьной программе. Это полезный инструмент для работы на уроке и для выполнения домашних заданий. Школьник или учитель могут найти здесь, например, сравнительную форму наречий с приставкой по-: пониже, побольше, попроще, попозже. Учитель может искать примеры из литературы, выбирая их в соответствии с возрастом и уровнем учеников.
Основной корпус — для всех. Там можно получить в том числе и ответы на простые вопросы.
Например, вам интересно, как употребляется какое-то слово. Вы ищете его в основном корпусе и получаете много информации об употреблениях. Или вы хотите узнать, как то же самое слово употребляет конкретный автор — у вас есть возможность искать его в подкорпусе этого автора.
Еще один способ заинтересовать массового пользователя — портрет слова. Он появился в этом году, и с его помощью мы помогаем пользователям-неспециалистам удовлетворить их лингвистическое любопытство более удобным способом. Достаточно ввести слово, чтобы сразу получить о нем много разнообразной информации: с какими словами оно сочетается, как устроен его разбор по составу, какие есть похожие на него слова, в каких видах текстов оно встречается, в текстах каких авторов — мужчин или женщин — чаще это слово употребляется, художественные это тексты или нехудожественные, в какие исторические периоды чаще употреблялось это слово.
Важная черта портрета слова — визуализация. Вся информация представлена не просто в виде текстов, как в обычной выдаче поиска, а в форме виджетов. Виджеты выглядят по-разному: это может быть диаграмма, облако слов или «барометр» частотности, по которому с одного взгляда понятно, насколько часто слово встречается в текстах.
Такой инструмент будет интересен учителям и детям. Можно дать ученикам задание изучить все сведения про какое-то одно слово — начиная от того, когда это слово появилось, и заканчивая тем, какие у него однокоренные слова. Редакторы тоже могут использовать портрет слова, чтобы посмотреть словосочетания с этим словом, узнать, часто ли его используют в конкретном значении, какие у него есть нежелательные ассоциации и т. п.
С чего начать неспециалисту, если он хочет познакомиться с Национальным корпусом и найти для себя что-то полезное?
И. В.: Многие пользователи, которые регулярно имеют дело с корпусом, говорили нам, что им сложно разобраться в устройстве поиска. Мы решили упростить им жизнь и сделали на главной странице поисковую строку «Обзор возможностей», где можно ввести слово или фразу и сразу увидеть все разнообразные виды поисковой выдачи, которые есть в корпусе. Это хорошая точка отсчета, чтобы дальше разбираться в деталях, уточнять запрос и исследовать все возможности. В этом же обзорном разделе мы показываем новости проекта: что мы добавили, что изменили в последнее время, — напоминаем о том, что уже давно есть, но не лежит на поверхности.
Еще на
эту тему
Анна Павлова: «Фразеологизмы-конструкции частотны в устной речи, но их трудно найти в корпусах»
Что волнует русистов сегодня? Опрос Грамоты
От древнерусского до блогов: как изменился Национальный корпус русского языка после редизайна
Теперь искать слово «кот» по лемме можно даже в метро
Как поэтическая речь влияет на формирование родного языка
На что опираться, чтобы сохранить язык у детей, если нет каждодневной русскоязычной среды