От древнерусского до блогов: как изменился Национальный корпус русского языка после редизайна
Онлайн-журнал «Системный Блокъ» рассказал о масштабных нововведениях в НКРЯ: появились новые корпуса и новые функции.
Национальный корпус русского языка (НКРЯ) — ключевой инструмент для исследователей русского языка, литературы и словесной культуры. В 2019 году возникли опасения по поводу возможного закрытия сервиса, однако он не только продолжил свою работу, но и значительно расширился. Обновления включают как новый дизайн сайта, так и содержательные изменения.
Один из наиболее значимых новых корпусов — панахронический, который объединяет тексты разных исторических периодов (начиная со Средневековья и заканчивая современностью). Он позволяет исследователям формулировать запросы, охватывающие несколько веков развития русского языка. Унифицированные грамматические признаки облегчают поиск по различным формам слова.
Новый корпус «Русская классика» включает в себя собрание сочинений русских авторов, в том числе разные редакции и даже черновики произведений. Кроме того, создан корпус детской литературы «От 2 до 15». Каждое произведение размечено по возрастам при помощи нейросетей. В корпус вошли 75 популярных произведений зарубежных и отечественных авторов.
Еще один интересный корпус — коллекция записей из блогов и социальных сетей. Он позволяет исследовать диалоговую природу текстов и выявить отличия между материалами блогов и текстами других корпусов.
Нейросетевая программа «РуБик» отвечает за автоматическое снятие омонимии, что улучшило качество морфологической разметки. Добавление функции поиска коллокаций позволяет выявлять слова, которые часто встречаются вместе с заданными словами. Также появилась функция отображения частотности употребления слов и словосочетаний в выдаче.
Эти и другие нововведения значительно расширяют возможности НКРЯ, делая его более удобным и функциональным инструментом для исследователей русского языка и текстовой культуры.
Еще на
эту тему
Как частицы «ок» и «ага» вытеснили обычное «да» в интернет-общении
Сетевой этикет влияет на разговорную речь
Коллекция «ПостНауки»: сколько в мире языков и какие самые сложные
Мнение лингвистов о языковом разнообразии, двух типах исследователей и пользе мертвых языков
Лингвист Олег Беляев об истории осетинского языка и его особенностях
«Один раз выучил окончание и везде его ставишь — это называется агглютинация»
О чем мы можем узнать из средневековых рукописных текстов
Интервью с медиевистом Олегом Воскобойниковым на канале «Основа»
Как лучше описывать разговорную лексику в словарях
Лингвисты обсуждают проблемы лексикографического представления диалектизмов, регионализмов, феминитивов и «жестовых» слов