От древнерусского до блогов: как изменился Национальный корпус русского языка после редизайна
Онлайн-журнал «Системный Блокъ» рассказал о масштабных нововведениях в НКРЯ: появились новые корпуса и новые функции.
Национальный корпус русского языка (НКРЯ) — ключевой инструмент для исследователей русского языка, литературы и словесной культуры. В 2019 году возникли опасения по поводу возможного закрытия сервиса, однако он не только продолжил свою работу, но и значительно расширился. Обновления включают как новый дизайн сайта, так и содержательные изменения.
Один из наиболее значимых новых корпусов — панахронический, который объединяет тексты разных исторических периодов (начиная со Средневековья и заканчивая современностью). Он позволяет исследователям формулировать запросы, охватывающие несколько веков развития русского языка. Унифицированные грамматические признаки облегчают поиск по различным формам слова.
Новый корпус «Русская классика» включает в себя собрание сочинений русских авторов, в том числе разные редакции и даже черновики произведений. Кроме того, создан корпус детской литературы «От 2 до 15». Каждое произведение размечено по возрастам при помощи нейросетей. В корпус вошли 75 популярных произведений зарубежных и отечественных авторов.
Еще один интересный корпус — коллекция записей из блогов и социальных сетей. Он позволяет исследовать диалоговую природу текстов и выявить отличия между материалами блогов и текстами других корпусов.
Нейросетевая программа «РуБик» отвечает за автоматическое снятие омонимии, что улучшило качество морфологической разметки. Добавление функции поиска коллокаций позволяет выявлять слова, которые часто встречаются вместе с заданными словами. Также появилась функция отображения частотности употребления слов и словосочетаний в выдаче.
Эти и другие нововведения значительно расширяют возможности НКРЯ, делая его более удобным и функциональным инструментом для исследователей русского языка и текстовой культуры.
Еще на
эту тему
Как заимствованные слова попадают в словарь русского языка? Интервью филолога Марины Приемышевой
«Периоды языковой моды проходят, а язык самоочищается»
«Мы получили сантехника Петю, которого не заткнуть»: эксперт по ИИ объяснил механизм работы нейросетей
Галлюцинации моделей иногда могут быть полезны
«Касаемо»: простонародное слово стали воспринимать как изысканное
Ольга Северская рассказывает об употреблениях одного нелитературного слова на канале «Говорим по-русски!»
Блоги о языке и лингвистике: еще пять рекомендаций
Филологических историй много не бывает
Переводчик Наталья Мавлевич: «Перевод — это гарантированное счастье в любых жизненных обстоятельствах»
Детство, учителя, любовь к профессии, совпадения и открытия — в монологе на «Арзамасе»