Подсказки для поиска

Внимательный

Внимающий

Спасибо за внимание

Принимая во внимание

Обратите внимание

Кому и зачем нужен Национальный корпус русского языка

Кому и зачем нужен Национальный корпус русского языка

Девятнадцать лет назад в России появился электронный онлайн-корпус русскоязычных текстов. Сегодня этот корпус — Национальный корпус русского языка, или НКРЯ —  насчитывает больше двадцати отдельных корпусов и более двух миллиардов словоупотреблений. На вопросы Грамоты о том, какую роль играет НКРЯ в лингвистической науке и не только, ответили менеджер НКРЯ, старший научный сотрудник Института русского языка им. В. В. Виноградова РАН, и. о. заведующей лабораторией цифровой документации русского языка ИППИ РАН, кандидат филологических наук Анастасия Козеренко и продакт-менеджер компании «Яндекс», кандидат технических наук Ирина Виноградова.

Грамота: С какими целями создавался корпус?

А. К.Национальный корпус русского языка изначально создавался лингвистами из Института русского языка им. Виноградова и других институтов РАН с одной стороны и Ильей Сегаловичем и его коллегами из «Яндекса» — с другой. Здесь совпали интересы лингвистов и «Яндекса»: лингвистам корпус был нужен, чтобы решать исследовательские задачи, а программистам и «Яндексу» — для развития лингвистических технологий поиска, поскольку поисковые системы ищут информацию по словам языка. 

Первая общедоступная версия НКРЯ появилась в интернете в 2004 году и была очень маленькой: один корпус объемом не более 30 млн слов. Сейчас у нас уже 21 корпус общим объемом более 2 млрд словоупотреблений. Увеличился и состав организаций-участников: к компании «Яндекс» и Институту русского языка присоединился Институт проблем передачи информации им. Харкевича, который играет сейчас ключевую роль в нашей работе.

Как лингвисты используют корпус?

А. К.: Изучение языка — это выяснение того, как он устроен сейчас и как развивался раньше. Чтобы это увидеть, нужен массив текстов. Раньше нужно было прочитать сотни текстов и вручную выписать фрагменты на карточки, чтобы таким образом собрать картотеку примеров, в которых присутствует какое-то слово, конструкция или явление. А теперь такую картотеку можно получить одним кликом: составил правильный запрос — получил все, что искал.

Допустим, лингвист ищет глаголы в плюсквамперфекте. Ему не нужно прочитывать огромное количество текстов и выписывать эти глаголы, достаточно сформулировать запрос, и огромный массив примеров будет в его распоряжении.Анастасия Козеренко

Со времени появления корпуса все лингвистические работы по русистике в той или иной степени используют корпусные данные. Они нужны лексикографам, специалистам по разговорной речи, по фразеологии, по грамматике. Те, кто занимается переводами и контрастивными исследованиями, активно пользуются параллельным корпусом.

Как сейчас в НКРЯ добавляются новые корпусы? И почему нельзя все тексты объединить в один корпус?

И. В.: У корпуса есть продуктовый комитет, который решает, в какую сторону мы будем развивать корпус и что хотим в него добавить. На практике создание нового корпуса или появление новых функциональных возможностей начинается во многих случаях с группы инициативных людей, которые понимают, что им для работы нужны дополнительные данные. Например, так в корпусе появились статистические инструменты и инструменты визуализации. К основному набору корпусов добавились многие новые, в том числе в последние годы — корпус русской классики, детский корпус («От 2 до 15») и корпус социальных сетей. Еще у нас появился панхронический корпус, который объединяет данные из разных эпох: там и древнерусский, и старорусский, и современный русский язык. Он охватывает тысячелетие развития языка, с 1010-х до 2020-х годов.

А. К.: Все пользователи решают разные задачи, поэтому им нужны разные корпуса. Например, есть пользователи, которым нужен только диалектный корпус; или, наоборот, они изучают строго синтаксис современного русского языка, поэтому, например, с древнерусским им работать не нужно. 

Основной корпус — самый большой, в него включены тексты с XVIII по XXI век. Идея состояла в том, чтобы охватить не только разные эпохи, но и разные жанры, типы текстов, тематики. Материалы для основного корпуса были подобраны так, чтобы соблюдался баланс разных типов текстов, не было перекоса в какой-то один жанр или тематику. Поэтому, в частности, было решено выделить русскую классику в отдельный корпус.  

Если бы мы в основной корпус загрузили все собрания сочинений, этот огромный массив перевесил бы все остальное; мы получили бы не корпус русского языка, а корпус языка писателей-классиков.Анастасия Козеренко

В основной корпус включены только некоторые тексты разных авторов, а в корпусе русской классики представлены полные собрания сочинений. Помимо всего прочего, это очень удобно для филологов, которые изучают язык одного автора или писателей определенной эпохи. Но и для преподавателей русского языка и литературы он тоже будет полезен.

Поэтический корпус — один из самых сложно устроенных. Здесь собраны только поэтические тексты, которые размечены вручную, отдельной рабочей группой. Их можно фильтровать по разным критериям: по стихотворному размеру (хорей, ямб, дактиль и так далее), по числу стоп, по клаузуле (женская или мужская)1, по строфике (одическая, онегинская строфа, рондо и прочие).

Ряд корпусов предназначен для более узких специалистов, в частности есть корпуса для изучения истории языка. Корпус берестяных грамот содержит не только оригинальный текст грамоты (с теми буквами, которые там употребляются), но и его переводы на современный русский и на английский. К историческим корпусам также относятся древнерусский, старорусский и церковнославянский. В них используются специальные шрифты, которые отражают историческое написание букв, титло и другие знаки.

Поиск по берестяным грамотам на слово «грамота». Фрагмент результатов
Источник: ruscorpora.ru

В синтаксическом корпусе можно смотреть синтаксические деревья — системы связей между синтаксическими единицами, то есть словами или группами слов. Наш новый корпус социальных сетей помогает изучать функционирование русского языка в интернете. Все мы чувствуем, что язык, на котором говорят в соцсетях, устроен не так, как письменный или устный. У него есть свои особенности, его изучают отдельные разделы лингвистики.

Есть параллельный корпус, где собраны параллельные тексты на двух языках. Вы можете задать по-английски слово cat и выбрать только те случаи, где ему в русском тексте соответствует слово кошка, но не кот. Такой корпус востребован, например, при изучении соответствий между системами модальных глаголов в двух языках, при решении переводческих задач (перевод идиом, реалий, разговорных конструкций). Сейчас в параллельном корпусе представлены мультиязычный корпус и 25 языковых пар, и их число постоянно растет. 

Предположим, вы выбрали тексты, которые хотите включить в корпус. Что дальше?

А. К.: Все тексты, которые мы включаем в корпус, специальным образом размечаются. Например, в корпусе устной речи, где  представлена именно расшифрованная устная речь, расставлены ударения (те, которые делал говорящий), отмечены паузы. Все корпуса снабжены морфологической разметкой, то есть для каждого слова указаны его характеристики, такие как число, род, падеж или время, лицо. В некоторых корпусах есть поиск по синтаксическим признакам: исследователь может найти все словоформы, выступающие в определенной синтаксической роли, — например, в роли подлежащего.

В мультимедийном корпусе есть еще более сложная разметка: например, там вручную маркируются жесты и речевые действия. Для специалистов, которые изучают жесты и связь между словами и жестами, эта информация бесценна. Анастасия Козеренко

Обычно разметка происходит в несколько этапов: сначала в автоматическом режиме, затем эту разметку дополняют и исправляют разметчики-лингвисты, и только потом тексты поступают к программистам. Задача программистов — учесть в поисковой системе все приписанные словам, предложениям и текстам атрибуты, чтобы пользователям было удобно работать с корпусом, формировать запросы и получать как можно более «чистую» выдачу.

Совсем недавно в НКРЯ появилась нейросетевая разметка. Она позволяет, к примеру, проводить подсчеты частоты с учетом омонимии слов: например, как часто встретилось слово пирог в форме пирога́. Его важно не спутать с другим словом, пиро́га, и нейросети умеют различать эти случаи. 

Русский язык в интернете: RU-да или RU-нет?Стенограмма конференции о ресурсах в интернете, посвященных русскому языкуСнятие омонимии с помощью ИИ позволяет решать множество новых интересных задач, связанных с изучением частотности и сочетаемости слов. Кроме того, при помощи нейросети можно размечать большие объемы текстов без использования ручного труда лингвистов. 

Есть ли в НКРЯ отдельные корпусы и инструменты, которые могут заинтересовать не только лингвистов?

И. В.: Мы ориентируемся на разные группы пользователей. В общих чертах их можно охарактеризовать следующим образом. Первая группа — те, кто профессионально работает с языком: лингвисты и литературоведы. Вторая — более широкий круг пользователей, которые либо изучают, либо преподают русский язык: школьники старших классов, студенты, люди, изучающие русский язык как иностранный, преподаватели-филологи, школьные учителя, редакторы и переводчики. И третья группа — это вообще все пользователи интернета.

Соответственно, разные корпуса, инструменты и функции рассчитаны на разные аудитории. Корпус «От 2 до 15» содержит тексты для детского чтения. Нейросеть разметила их с учетом возраста детей, которым они интересны. В обучающий корпус включены тексты, отобранные специально для школьников, и грамматическая разметка в нем соответствует школьной программе. Это полезный инструмент для работы на уроке и для выполнения домашних заданий. Школьник или учитель могут найти здесь, например, сравнительную форму наречий с приставкой по-: пониже, побольше, попроще, попозже. Учитель может искать примеры из литературы, выбирая их в соответствии с возрастом и уровнем учеников. 

Основной корпус — для всех. Там можно получить в том числе и ответы на простые вопросы. Ирина Виноградова

Например, вам интересно, как употребляется какое-то слово. Вы ищете его в основном корпусе и получаете много информации об употреблениях. Или вы хотите узнать, как то же самое слово употребляет конкретный автор — у вас есть возможность искать его в подкорпусе этого автора. 

Еще один способ заинтересовать массового пользователя — портрет слова. Он появился в этом году, и с его помощью мы помогаем пользователям-неспециалистам удовлетворить их лингвистическое любопытство более удобным способом. Достаточно ввести слово, чтобы сразу получить о нем много разнообразной информации: с какими словами оно сочетается, как устроен его разбор по составу, какие есть похожие на него слова, в каких видах текстов оно встречается, в текстах каких авторов — мужчин или женщин — чаще это слово употребляется, художественные это тексты или нехудожественные, в какие исторические периоды чаще употреблялось это слово.

Важная черта портрета слова — визуализация. Вся информация представлена не просто в виде текстов, как в обычной выдаче поиска, а в форме виджетов. Виджеты выглядят по-разному:  это может быть диаграмма, облако слов или «барометр» частотности, по которому с одного взгляда понятно, насколько часто слово встречается в текстах.

Фрагмент портрета слова для прилагательного «грамотный»
Источник: ruscorpora.ru

Такой инструмент будет интересен учителям и детям. Можно дать ученикам задание изучить все сведения про какое-то одно слово — начиная от того, когда это слово появилось, и заканчивая тем, какие у него однокоренные слова. Редакторы тоже могут использовать портрет слова, чтобы посмотреть словосочетания с этим словом, узнать, часто ли его используют в конкретном значении, какие у него есть нежелательные ассоциации и т. п.

С чего начать неспециалисту, если он хочет познакомиться с Национальным корпусом и найти для себя что-то полезное?

И. В.: Многие пользователи, которые регулярно имеют дело с корпусом, говорили нам, что им сложно разобраться в устройстве поиска. Мы решили упростить им жизнь и сделали на главной странице поисковую строку «Обзор возможностей», где можно ввести слово или фразу и сразу увидеть все разнообразные виды поисковой выдачи, которые есть в корпусе. Это хорошая точка отсчета, чтобы дальше разбираться в деталях, уточнять запрос и исследовать все возможности. В этом же обзорном разделе мы показываем новости проекта: что мы добавили, что изменили в последнее время, — напоминаем о том, что уже давно есть, но не лежит на поверхности.

, редактор Грамоты

Еще на эту тему

Как поэтическая речь влияет на формирование родного языка

На что опираться, чтобы сохранить язык у детей, если нет каждодневной русскоязычной среды

все публикации


Коллекция «ПостНауки»: сколько в мире языков и какие самые сложные

Мнение лингвистов о языковом разнообразии, двух типах исследователей и пользе мертвых языков


Слово года по версии Грамоты. Как мы его выбираем?

От составления длинного списка до экспертного голосования


Как вы пользуетесь Грамотой? Пять рассказов от первого лица

Порталу исполняется 24 года! Отмечаем день рождения вместе с вами


Лингвист Олег Беляев об истории осетинского языка и его особенностях

«Один раз выучил окончание и везде его ставишь — это называется агглютинация»


Тест: в каком предложении нет ни одной ошибки?

Вам предстоит критически оценить сорок предложений из художественной литературы и найти десять безупречных


Категория рода в русской грамматике в сравнении с другими языками

«Лосось», «лебедь», «дитя», «невежда» и другие языковые сущности сложной судьбы


Пол Грэм: «Мир, разделенный на пишущих и не пишущих, опаснее, чем кажется»

Программист и предприниматель Пол Грэм описал будущее, в котором ИИ пишет тексты за человека


Слова-путешественники: каким образом русские слова оказались вдали от России

И насколько эти заимствования были изначально русскими? Разбирается лингвист Мария Елифёрова


Метапредметный подход в обучении русскому языку: один за всех, все за одного

Без знания лексики и умения извлекать смысл из текста страдают математика и другие школьные предметы


Словарный запас: как его оценить и на что он влияет

Хорошая новость состоит в том, что взрослые продолжают его расширять до 55 лет и даже дольше


Елена Березович: «Диалектологам становится все труднее работать»

Профессор Уральского университета обобщила результаты анкетирования коллег 


Учитель Сергей Волков: «А давайте сказку про репку перескажем гекзаметром!»

Как учить детей русскому языку в эпоху торжества технологий и сглаживания иерархии культур



О чем мы можем узнать из средневековых рукописных текстов

Интервью с медиевистом Олегом Воскобойниковым на канале «Основа»


Как лучше описывать разговорную лексику в словарях

Лингвисты обсуждают проблемы лексикографического представления диалектизмов, регионализмов, феминитивов и «жестовых» слов


Как лингвистическая экспертиза может повысить качество учебников

Главные критерии — понятность, интересность и тематический баланс


Общение в интернете происходит на особом устно-письменном языке

Его отличия от разговорного языка и от обычного письменного анализируются в статье Натальи Клушиной


Что такое старомосковское произношение

Говор стал престижным в тот момент, когда начал устаревать



1/6
Большой универсальный словарь русского языка (2 тома)
1 — 4 классы
Морковкин В.В., Богачева Г.Ф., Луцкая Н.М.
4.3
Подробнее об издании
От 2320 ₽
Купить на маркетплейсах:
Назовите ваше слово года!
Какие новые слова в 2024 году прочно вошли в вашу речь? На какие вы обратили внимание, какие стали чаще слышать вокруг? Участвуйте в выборе «Слова года» по версии Грамоты.
Отправить
Спасибо!
Мы получили ваш ответ и обязательно учтем его при составлении списка слов-кандидатов
Читать Грамоту дальше
Новые публикации Грамоты в вашей почте
Неверный формат email
Подписаться
Спасибо,
подписка оформлена.
Будем держать вас в курсе!