Подсказки для поиска

Внимательный

Внимающий

Спасибо за внимание

Принимая во внимание

Обратите внимание

Кому и зачем нужен Национальный корпус русского языка

Кому и зачем нужен Национальный корпус русского языка

Девятнадцать лет назад в России появился электронный онлайн-корпус русскоязычных текстов. Сегодня этот корпус — Национальный корпус русского языка, или НКРЯ —  насчитывает больше двадцати отдельных корпусов и более двух миллиардов словоупотреблений. На вопросы Грамоты о том, какую роль играет НКРЯ в лингвистической науке и не только, ответили менеджер НКРЯ, старший научный сотрудник Института русского языка им. В. В. Виноградова РАН, и. о. заведующей лабораторией цифровой документации русского языка ИППИ РАН, кандидат филологических наук Анастасия Козеренко и продакт-менеджер компании «Яндекс», кандидат технических наук Ирина Виноградова.

Грамота: С какими целями создавался корпус?

А. К.Национальный корпус русского языка изначально создавался лингвистами из Института русского языка им. Виноградова и других институтов РАН с одной стороны и Ильей Сегаловичем и его коллегами из «Яндекса» — с другой. Здесь совпали интересы лингвистов и «Яндекса»: лингвистам корпус был нужен, чтобы решать исследовательские задачи, а программистам и «Яндексу» — для развития лингвистических технологий поиска, поскольку поисковые системы ищут информацию по словам языка. 

Первая общедоступная версия НКРЯ появилась в интернете в 2004 году и была очень маленькой: один корпус объемом не более 30 млн слов. Сейчас у нас уже 21 корпус общим объемом более 2 млрд словоупотреблений. Увеличился и состав организаций-участников: к компании «Яндекс» и Институту русского языка присоединился Институт проблем передачи информации им. Харкевича, который играет сейчас ключевую роль в нашей работе.

Как лингвисты используют корпус?

А. К.: Изучение языка — это выяснение того, как он устроен сейчас и как развивался раньше. Чтобы это увидеть, нужен массив текстов. Раньше нужно было прочитать сотни текстов и вручную выписать фрагменты на карточки, чтобы таким образом собрать картотеку примеров, в которых присутствует какое-то слово, конструкция или явление. А теперь такую картотеку можно получить одним кликом: составил правильный запрос — получил все, что искал.

Допустим, лингвист ищет глаголы в плюсквамперфекте. Ему не нужно прочитывать огромное количество текстов и выписывать эти глаголы, достаточно сформулировать запрос, и огромный массив примеров будет в его распоряжении.Анастасия Козеренко

Со времени появления корпуса все лингвистические работы по русистике в той или иной степени используют корпусные данные. Они нужны лексикографам, специалистам по разговорной речи, по фразеологии, по грамматике. Те, кто занимается переводами и контрастивными исследованиями, активно пользуются параллельным корпусом.

Как сейчас в НКРЯ добавляются новые корпусы? И почему нельзя все тексты объединить в один корпус?

И. В.: У корпуса есть продуктовый комитет, который решает, в какую сторону мы будем развивать корпус и что хотим в него добавить. На практике создание нового корпуса или появление новых функциональных возможностей начинается во многих случаях с группы инициативных людей, которые понимают, что им для работы нужны дополнительные данные. Например, так в корпусе появились статистические инструменты и инструменты визуализации. К основному набору корпусов добавились многие новые, в том числе в последние годы — корпус русской классики, детский корпус («От 2 до 15») и корпус социальных сетей. Еще у нас появился панхронический корпус, который объединяет данные из разных эпох: там и древнерусский, и старорусский, и современный русский язык. Он охватывает тысячелетие развития языка, с 1010-х до 2020-х годов.

А. К.: Все пользователи решают разные задачи, поэтому им нужны разные корпуса. Например, есть пользователи, которым нужен только диалектный корпус; или, наоборот, они изучают строго синтаксис современного русского языка, поэтому, например, с древнерусским им работать не нужно. 

Основной корпус — самый большой, в него включены тексты с XVIII по XXI век. Идея состояла в том, чтобы охватить не только разные эпохи, но и разные жанры, типы текстов, тематики. Материалы для основного корпуса были подобраны так, чтобы соблюдался баланс разных типов текстов, не было перекоса в какой-то один жанр или тематику. Поэтому, в частности, было решено выделить русскую классику в отдельный корпус.  

Если бы мы в основной корпус загрузили все собрания сочинений, этот огромный массив перевесил бы все остальное; мы получили бы не корпус русского языка, а корпус языка писателей-классиков.Анастасия Козеренко

В основной корпус включены только некоторые тексты разных авторов, а в корпусе русской классики представлены полные собрания сочинений. Помимо всего прочего, это очень удобно для филологов, которые изучают язык одного автора или писателей определенной эпохи. Но и для преподавателей русского языка и литературы он тоже будет полезен.

Поэтический корпус — один из самых сложно устроенных. Здесь собраны только поэтические тексты, которые размечены вручную, отдельной рабочей группой. Их можно фильтровать по разным критериям: по стихотворному размеру (хорей, ямб, дактиль и так далее), по числу стоп, по клаузуле (женская или мужская)1, по строфике (одическая, онегинская строфа, рондо и прочие).

Ряд корпусов предназначен для более узких специалистов, в частности есть корпуса для изучения истории языка. Корпус берестяных грамот содержит не только оригинальный текст грамоты (с теми буквами, которые там употребляются), но и его переводы на современный русский и на английский. К историческим корпусам также относятся древнерусский, старорусский и церковнославянский. В них используются специальные шрифты, которые отражают историческое написание букв, титло и другие знаки.

Поиск по берестяным грамотам на слово «грамота». Фрагмент результатов
Источник: ruscorpora.ru

В синтаксическом корпусе можно смотреть синтаксические деревья — системы связей между синтаксическими единицами, то есть словами или группами слов. Наш новый корпус социальных сетей помогает изучать функционирование русского языка в интернете. Все мы чувствуем, что язык, на котором говорят в соцсетях, устроен не так, как письменный или устный. У него есть свои особенности, его изучают отдельные разделы лингвистики.

Есть параллельный корпус, где собраны параллельные тексты на двух языках. Вы можете задать по-английски слово cat и выбрать только те случаи, где ему в русском тексте соответствует слово кошка, но не кот. Такой корпус востребован, например, при изучении соответствий между системами модальных глаголов в двух языках, при решении переводческих задач (перевод идиом, реалий, разговорных конструкций). Сейчас в параллельном корпусе представлены мультиязычный корпус и 25 языковых пар, и их число постоянно растет. 

Предположим, вы выбрали тексты, которые хотите включить в корпус. Что дальше?

А. К.: Все тексты, которые мы включаем в корпус, специальным образом размечаются. Например, в корпусе устной речи, где  представлена именно расшифрованная устная речь, расставлены ударения (те, которые делал говорящий), отмечены паузы. Все корпуса снабжены морфологической разметкой, то есть для каждого слова указаны его характеристики, такие как число, род, падеж или время, лицо. В некоторых корпусах есть поиск по синтаксическим признакам: исследователь может найти все словоформы, выступающие в определенной синтаксической роли, — например, в роли подлежащего.

В мультимедийном корпусе есть еще более сложная разметка: например, там вручную маркируются жесты и речевые действия. Для специалистов, которые изучают жесты и связь между словами и жестами, эта информация бесценна. Анастасия Козеренко

Обычно разметка происходит в несколько этапов: сначала в автоматическом режиме, затем эту разметку дополняют и исправляют разметчики-лингвисты, и только потом тексты поступают к программистам. Задача программистов — учесть в поисковой системе все приписанные словам, предложениям и текстам атрибуты, чтобы пользователям было удобно работать с корпусом, формировать запросы и получать как можно более «чистую» выдачу.

Совсем недавно в НКРЯ появилась нейросетевая разметка. Она позволяет, к примеру, проводить подсчеты частоты с учетом омонимии слов: например, как часто встретилось слово пирог в форме пирога́. Его важно не спутать с другим словом, пиро́га, и нейросети умеют различать эти случаи. 

Русский язык в интернете: RU-да или RU-нет?Стенограмма конференции о ресурсах в интернете, посвященных русскому языкуСнятие омонимии с помощью ИИ позволяет решать множество новых интересных задач, связанных с изучением частотности и сочетаемости слов. Кроме того, при помощи нейросети можно размечать большие объемы текстов без использования ручного труда лингвистов. 

Есть ли в НКРЯ отдельные корпусы и инструменты, которые могут заинтересовать не только лингвистов?

И. В.: Мы ориентируемся на разные группы пользователей. В общих чертах их можно охарактеризовать следующим образом. Первая группа — те, кто профессионально работает с языком: лингвисты и литературоведы. Вторая — более широкий круг пользователей, которые либо изучают, либо преподают русский язык: школьники старших классов, студенты, люди, изучающие русский язык как иностранный, преподаватели-филологи, школьные учителя, редакторы и переводчики. И третья группа — это вообще все пользователи интернета.

Соответственно, разные корпуса, инструменты и функции рассчитаны на разные аудитории. Корпус «От 2 до 15» содержит тексты для детского чтения. Нейросеть разметила их с учетом возраста детей, которым они интересны. В обучающий корпус включены тексты, отобранные специально для школьников, и грамматическая разметка в нем соответствует школьной программе. Это полезный инструмент для работы на уроке и для выполнения домашних заданий. Школьник или учитель могут найти здесь, например, сравнительную форму наречий с приставкой по-: пониже, побольше, попроще, попозже. Учитель может искать примеры из литературы, выбирая их в соответствии с возрастом и уровнем учеников. 

Основной корпус — для всех. Там можно получить в том числе и ответы на простые вопросы. Ирина Виноградова

Например, вам интересно, как употребляется какое-то слово. Вы ищете его в основном корпусе и получаете много информации об употреблениях. Или вы хотите узнать, как то же самое слово употребляет конкретный автор — у вас есть возможность искать его в подкорпусе этого автора. 

Еще один способ заинтересовать массового пользователя — портрет слова. Он появился в этом году, и с его помощью мы помогаем пользователям-неспециалистам удовлетворить их лингвистическое любопытство более удобным способом. Достаточно ввести слово, чтобы сразу получить о нем много разнообразной информации: с какими словами оно сочетается, как устроен его разбор по составу, какие есть похожие на него слова, в каких видах текстов оно встречается, в текстах каких авторов — мужчин или женщин — чаще это слово употребляется, художественные это тексты или нехудожественные, в какие исторические периоды чаще употреблялось это слово.

Важная черта портрета слова — визуализация. Вся информация представлена не просто в виде текстов, как в обычной выдаче поиска, а в форме виджетов. Виджеты выглядят по-разному:  это может быть диаграмма, облако слов или «барометр» частотности, по которому с одного взгляда понятно, насколько часто слово встречается в текстах.

Фрагмент портрета слова для прилагательного «грамотный»
Источник: ruscorpora.ru

Такой инструмент будет интересен учителям и детям. Можно дать ученикам задание изучить все сведения про какое-то одно слово — начиная от того, когда это слово появилось, и заканчивая тем, какие у него однокоренные слова. Редакторы тоже могут использовать портрет слова, чтобы посмотреть словосочетания с этим словом, узнать, часто ли его используют в конкретном значении, какие у него есть нежелательные ассоциации и т. п.

С чего начать неспециалисту, если он хочет познакомиться с Национальным корпусом и найти для себя что-то полезное?

И. В.: Многие пользователи, которые регулярно имеют дело с корпусом, говорили нам, что им сложно разобраться в устройстве поиска. Мы решили упростить им жизнь и сделали на главной странице поисковую строку «Обзор возможностей», где можно ввести слово или фразу и сразу увидеть все разнообразные виды поисковой выдачи, которые есть в корпусе. Это хорошая точка отсчета, чтобы дальше разбираться в деталях, уточнять запрос и исследовать все возможности. В этом же обзорном разделе мы показываем новости проекта: что мы добавили, что изменили в последнее время, — напоминаем о том, что уже давно есть, но не лежит на поверхности.

, редактор Грамоты

Еще на эту тему

Как поэтическая речь влияет на формирование родного языка

На что опираться, чтобы сохранить язык у детей, если нет каждодневной русскоязычной среды

все публикации

Как разное понимание языковой нормы приводит к коммуникативным неудачам

Выступление научного консультанта Грамоты Владимира Пахомова на конференции «Медиатекст: векторы развития и перспективы изучения» 


Наш человек! Как появились и что значат названия народов — этнонимы

От имен легендарных прародителей до прозвищ, данных соседями


Шепот на ухо и бесконечный пазл: две истории о переводе с турецкого

Тюрколог Аполлинария Аврутина переводила не только Орхана Памука, но и суфийскую поэзию XIII века


Вышел в свет второй выпуск журнала «Русская речь» за 2024 год

В нем анализируют такие языковые единицы, как «босяки», «верги» и «зеленые береты»


Как отличить текст, написанный нейросетью? Ряд критериев предложен на «Хабре»

ИИ не способен к оригинальному мышлению и творческому осмыслению информации


Мягенький заинька у плохонькой березоньки: по каким правилам пишутся уменьшительно-ласкательные суффиксы?

Каждый месяц мы выбираем и комментируем три вопроса, на которые ответила наша справочная служба



Вышел в подарочном издании «Словарь поэтических иносказаний Пушкина» Валерия Сомова

Автор считал этот словарь кентавром: «По форме — справочник, по сути же — книга для занимательного чтения»


Подкаст «Что это значит?» проясняет смысл необычных современных слов

Даже если вы избегаете новых заимствований, полезно понимать, откуда взялись ретрит, косты и непо-бейбис


Функции и характерные черты публицистического стиля речи

Он предназначен для СМИ, выступлений и публицистической литературы


Обучение и самообучение: как синтетические данные влияют на работу больших языковых моделей

Михаил Копотев о роли сгенерированных нейросетью текстов в развитии моделей и в жизни людей


В Москве прошла первая стратегическая сессия «Информационные технологии и языки народов России»

Мероприятие организовано Домом народов России при поддержке ФАДН России


Русский язык как государственный: что означает этот статус

Когда средство общения становится символом страны и национальным достоянием



Два брата и два алфавита: история изобретения славянской письменности

Кирилл и Мефодий вместе с учениками придумали не только буквы, но и язык




Как относиться к русскому мату? Мария Ровинская в подкасте «Кот Шредингера»

О табу и правилах безопасности при использовании сильных языковых средств


Чтобы хорошо учиться, детям нужно больше слов

Исследователи рекомендуют увеличивать словарный запас детей тремя способами


Чтение: практика, меняющая сознание

Пять книг о том, зачем мы читаем и как получить от этого занятия пользу и удовольствие