От древнерусского до блогов: как изменился Национальный корпус русского языка после редизайна
Онлайн-журнал «Системный Блокъ» рассказал о масштабных нововведениях в НКРЯ: появились новые корпуса и новые функции.
Национальный корпус русского языка (НКРЯ) — ключевой инструмент для исследователей русского языка, литературы и словесной культуры. В 2019 году возникли опасения по поводу возможного закрытия сервиса, однако он не только продолжил свою работу, но и значительно расширился. Обновления включают как новый дизайн сайта, так и содержательные изменения.
Один из наиболее значимых новых корпусов — панахронический, который объединяет тексты разных исторических периодов (начиная со Средневековья и заканчивая современностью). Он позволяет исследователям формулировать запросы, охватывающие несколько веков развития русского языка. Унифицированные грамматические признаки облегчают поиск по различным формам слова.
Новый корпус «Русская классика» включает в себя собрание сочинений русских авторов, в том числе разные редакции и даже черновики произведений. Кроме того, создан корпус детской литературы «От 2 до 15». Каждое произведение размечено по возрастам при помощи нейросетей. В корпус вошли 75 популярных произведений зарубежных и отечественных авторов.
Еще один интересный корпус — коллекция записей из блогов и социальных сетей. Он позволяет исследовать диалоговую природу текстов и выявить отличия между материалами блогов и текстами других корпусов.
Нейросетевая программа «РуБик» отвечает за автоматическое снятие омонимии, что улучшило качество морфологической разметки. Добавление функции поиска коллокаций позволяет выявлять слова, которые часто встречаются вместе с заданными словами. Также появилась функция отображения частотности употребления слов и словосочетаний в выдаче.
Эти и другие нововведения значительно расширяют возможности НКРЯ, делая его более удобным и функциональным инструментом для исследователей русского языка и текстовой культуры.
Еще на
эту тему
Как измерить сложность и сбалансированность языка в учебниках?
Об этом — статья Антонины Лапошиной и Марии Лебедевой в журнале «Русский язык в школе»
Ненецкий счет, русское яканье и экзотический язык Новой Гвинеи на портале «Элементы»
Решение лингвистических задач позволяет нелингвистам больше узнать об устройстве языка
Как чаще всего возникали неологизмы в коронавирусную эпоху
Словообразование и фразеология в шестом номере журнала «Русская речь» за 2024 год
Смех не без причины: лингвисты изучили языковые особенности «пирожков» и «порошков»
Новая книга Максима Кронгауза и Марии Ковшовой рассказывает об интернет-поэзии
Что говорили на Первом евразийском конгрессе лингвистов о языковой политике, языковых изменениях и функции языка
Обзор четырех событий конгресса, которые могут быть интересны и неспециалистам