От древнерусского до блогов: как изменился Национальный корпус русского языка после редизайна
Онлайн-журнал «Системный Блокъ» рассказал о масштабных нововведениях в НКРЯ: появились новые корпуса и новые функции.
Национальный корпус русского языка (НКРЯ) — ключевой инструмент для исследователей русского языка, литературы и словесной культуры. В 2019 году возникли опасения по поводу возможного закрытия сервиса, однако он не только продолжил свою работу, но и значительно расширился. Обновления включают как новый дизайн сайта, так и содержательные изменения.
Один из наиболее значимых новых корпусов — панахронический, который объединяет тексты разных исторических периодов (начиная со Средневековья и заканчивая современностью). Он позволяет исследователям формулировать запросы, охватывающие несколько веков развития русского языка. Унифицированные грамматические признаки облегчают поиск по различным формам слова.
Новый корпус «Русская классика» включает в себя собрание сочинений русских авторов, в том числе разные редакции и даже черновики произведений. Кроме того, создан корпус детской литературы «От 2 до 15». Каждое произведение размечено по возрастам при помощи нейросетей. В корпус вошли 75 популярных произведений зарубежных и отечественных авторов.
Еще один интересный корпус — коллекция записей из блогов и социальных сетей. Он позволяет исследовать диалоговую природу текстов и выявить отличия между материалами блогов и текстами других корпусов.
Нейросетевая программа «РуБик» отвечает за автоматическое снятие омонимии, что улучшило качество морфологической разметки. Добавление функции поиска коллокаций позволяет выявлять слова, которые часто встречаются вместе с заданными словами. Также появилась функция отображения частотности употребления слов и словосочетаний в выдаче.
Эти и другие нововведения значительно расширяют возможности НКРЯ, делая его более удобным и функциональным инструментом для исследователей русского языка и текстовой культуры.
Еще на
эту тему
В среднем человек ругается 250 тысяч раз за жизнь — как к этому относиться?
Константин Деревянко, Ярослав Скворцов и Владимир Легойда обсудили ненормативную лексику
Лингвист Алексей Шмелев: «У слова „столько“ есть полная парадигма единственного числа»
«Правмир» поговорил о русском языке и лингвистике с председателем Орфографической комиссии РАН
Евгений Головко о связи лингвистики с науками о человеке и обществе
Для антропологической лингвистики язык — прежде всего культурный маркер
ИИ отбирает у человека языковое пространство?
О некоторых публикациях журнала «Русская речь» за 2025 год
К 90-летию со дня рождения Андрея Анатольевича Зализняка
Книги, лекции, выступления, воспоминания