Национальному корпусу русского языка исполняется 20 лет
НКРЯ — представительный корпус текстов на русском языке. В нем собраны тексты самых разных жанров — и примерно в той пропорции, в которой с ними сталкивается обычный носитель языка.
Разработкой корпуса занимается большая команда лингвистов, а также опытные программисты, и он постоянно совершенствуется. Сейчас в нем больше шести миллионов текстов, в которых в сумме содержится более двух миллиардов слов, и постоянно добавляются новые корпусы.
Также НКРЯ — цифровой проект с удобным интерфейсом. Все тексты снабжены лингвистической разметкой и инструментами поиска: это позволяет формулировать сложные поисковые запросы и с их помощью находить примеры употребления слов и словосочетаний.
А для части корпусов внедрена разметка с применением нейросетей: она позволяет быстро узнавать такие данные, как частотность слова, синтаксические отношения и многое другое.
Корпус может быть полезен и лингвистам, и преподавателям русского языка, и другим пользователям для разных нужд. Например, преподаватели могут с использованием Корпуса составлять задания, лингвисты — значительно упростить и ускорить проведение исследований, а писатели, журналисты, блогеры и просто интересующиеся языком — узнать, когда, по данным Корпуса, слово было впервые зафиксировано; в каких контекстах обычно употребляется то или иное выражение; какие есть нетривиальные рифмы к слову любовь и как часто употреблялось определенное слово в разные исторические периоды.
Кому и зачем нужен Национальный корпус русского языкаПолучить всю картотеку одним кликом и другие, менее очевидные возможности специальных корпусовСовокупные ресурсы и инструменты Национального корпуса русского языка, цифровой экосистемы «Грамота» и будущего Национального словарного фонда смогут покрыть все потребности пользователей в информации о русском языке, обеспечить его сохранение и популяризацию, позволят лингвистам изучать язык, а всем остальным — наиболее эффективно учиться языку.
Поздравляем коллег с юбилеем и желаем развития и процветания!
Следить за новостями Корпуса можно в телеграм-канале и на сайте проекта.
Еще на
эту тему
Удобный интерфейс для профессионалов и любителей: масштабное обновление НКРЯ
Сайт Национального корпуса русского языка теперь сам адаптируется под нужды пользователей
Владимир Плунгян: «Первый урок корпуса — не злоупотреблять нормализаторством»
Корпус учит лингвистов не доверять своей интуиции и изучать те явления, которые встречаются часто
От древнерусского до блогов: как изменился Национальный корпус русского языка после редизайна
Теперь искать слово «кот» по лемме можно даже в метро