От древнерусского до блогов: как изменился Национальный корпус русского языка после редизайна
Онлайн-журнал «Системный Блокъ» рассказал о масштабных нововведениях в НКРЯ: появились новые корпуса и новые функции.
Национальный корпус русского языка (НКРЯ) — ключевой инструмент для исследователей русского языка, литературы и словесной культуры. В 2019 году возникли опасения по поводу возможного закрытия сервиса, однако он не только продолжил свою работу, но и значительно расширился. Обновления включают как новый дизайн сайта, так и содержательные изменения.
Один из наиболее значимых новых корпусов — панахронический, который объединяет тексты разных исторических периодов (начиная со Средневековья и заканчивая современностью). Он позволяет исследователям формулировать запросы, охватывающие несколько веков развития русского языка. Унифицированные грамматические признаки облегчают поиск по различным формам слова.
Новый корпус «Русская классика» включает в себя собрание сочинений русских авторов, в том числе разные редакции и даже черновики произведений. Кроме того, создан корпус детской литературы «От 2 до 15». Каждое произведение размечено по возрастам при помощи нейросетей. В корпус вошли 75 популярных произведений зарубежных и отечественных авторов.
Еще один интересный корпус — коллекция записей из блогов и социальных сетей. Он позволяет исследовать диалоговую природу текстов и выявить отличия между материалами блогов и текстами других корпусов.
Нейросетевая программа «РуБик» отвечает за автоматическое снятие омонимии, что улучшило качество морфологической разметки. Добавление функции поиска коллокаций позволяет выявлять слова, которые часто встречаются вместе с заданными словами. Также появилась функция отображения частотности употребления слов и словосочетаний в выдаче.
Эти и другие нововведения значительно расширяют возможности НКРЯ, делая его более удобным и функциональным инструментом для исследователей русского языка и текстовой культуры.
Еще на
эту тему
Китайская волна «гочао»: новые термины как способ переосмысления национальной культуры
20 апреля по иициативе ООН в мире отмечают День китайского языка
Что такое темематический язык и почему он так называется
На портале «Элементы» появились три новые лингвистические задачи
Бузинная матушка и добрый папа: когда книги говорят с ребенком на своем неповторимом языке
Празднуем Международный день детской книги
Мелет или мелит? Не трожь или не трогай? Изучаем глаголы со сложным характером
Ошибки нередко проливают свет на глубинные свойства языковой системы
Как заимствованные слова попадают в словарь русского языка? Интервью филолога Марины Приемышевой
«Периоды языковой моды проходят, а язык самоочищается»