НКРЯ — представительный корпус текстов на русском языке. В нем собраны тексты самых разных жанров — и примерно в той пропорции, в которой с ними сталкивается обычный носитель языка. Разработкой корпуса занимается большая команда лингвистов, а также опытные программисты, и он постоянно совершенствуется. Сейчас в нем больше шести миллионов текстов, в которых в сумме содержится более двух миллиардов слов, и постоянно ...
...Поздравляем наших партнеров и рассказываем об их успехах...
... А для части корпусов внедрена разметка с применением нейросетей: она позволяет быстро узнавать такие данные, как частотность слова, синтаксические отношения и многое другое....
...Национальному корпусу русского языка исполняется 20...
Девятнадцать лет назад в России появился электронный онлайн-корпус русскоязычных текстов. Сегодня этот корпус — Национальный корпус русского языка, или НКРЯ — насчитывает больше двадцати отдельных корпусов и более двух миллиардов словоупотреблений. На вопросы Грамоты о том, какую роль играет НКРЯ в лингвистической науке и не только, ответили менеджер НКРЯ, старший научный сотрудник Института русского языка им. В. В. Виноградова РАН, и. о. заведующей лабораторией цифровой документации русского языка ИППИ РАН, кандидат филологических наук Анастасия Козеренко и продакт-менеджер компании «Яндекс», кандидат технических наук Ирина Виноградова.
...Получить всю картотеку одним кликом и другие, менее...
...Девятнадцать лет назад в России появился электронный...
...Анастасия Козеренко Обычно разметка происходит в несколько этапов: сначала в автоматическом режиме, затем эту разметку дополняют и исправляют разметчики-лингвисты, и только потом тексты поступают к программистам....
...В мультимедийном корпусе есть еще более сложная разметка: например, там вручную маркируются жесты и речевые действия. Для специалистов, которые изучают жесты и связь между словами и жестами, эта информация бесценна....
...В обучающий корпус включены тексты, отобранные специально для школьников, и грамматическая разметка в нем соответствует школьной программе. Это полезный инструмент для работы на уроке и для выполнения домашних заданий....
...Совсем недавно в НКРЯ появилась нейросетевая разметка. Она позволяет, к примеру, проводить подсчеты частоты с учетом омонимии слов: например, как часто встретилось слово пирог в форме пирога́. Его важно не спутать с другим словом, пиро́га, и нейросети умеют различать эти случаи....
...Кому и зачем нужен Национальный корпус русского языка...
На примере проекта Chekhov Digital онлайн-журнал «Системный Блокъ» рассказывает о семантическом издании и о том, чем оно полезно.
...Новая технология для гуманитарных исследований...
...На примере проекта Chekhov Digital онлайн-журнал...
... Подобная разметка произведений Чехова осуществляется с использованием стандарта TEI. Структура каждого документа включает описание библиографических и небиблиографических метаданных....
...Цифровой Чехов: как устроено семантическое издание...
В конференции участвовали лингвисты, лексикографы, руководители электронных библиотек. Вела конференцию член редакционного совета «Грамоты.ру» Юлия Сафонова.
...Стенограмма конференции о ресурсах в интернете, посвященных...
...В конференции участвовали лингвисты, лексикографы,...
...Владимир Плунгян Что такое разметка? Это на самом деле довольно простая вещь. Это разнообразная информация о языке, которая вносится в корпус специалистами автоматически или вручную, и специальная программа находит интересующие фрагменты текста....
...Первое — главное — это так называемая разметка, такой ключевой термин корпусного дела. И вторая существенная особенность в том, что доступ к целым текстам корпус не дает; тексты, собранные в корпусе, нельзя читать, их можно использовать, получать примеры из них....
...Значит, если мы захотим найти все формы прошедшего времени, разметка дает возможность это сделать, потому что специалисты позаботились о том, чтобы эта информация была. Таким образом все, что нам нужно, мы в корпусе находим, и что можно находить и что нельзя находить, зависит от нас....
...Русский язык в интернете: RU-да или RU-нет?...
Найти слово сразу в нескольких словарях, сравнить результаты, проверить свою версию написания, произношения или толкования — посетители Грамоты всегда охотно пользовались этой возможностью. Но в некоторых случаях детали не нужны, а требуется, наоборот, быстро получить самое общее представление о слове. Руководитель словарного направления Грамоты Анастасия Александровна Бонч-Осмоловская объясняет, каким образом в метасловаре объединены и структурированы данные о слове и какие преимущества новый формат дает пользователям.
...Поиск по словарям реализован на Грамоте в новом формате...
...Найти слово сразу в нескольких словарях, сравнить результаты...
...Что под капотом: семантическая разметка В ходе подготовки метасловаря мы проделали невидимую глазу, но очень важную работу по машиночитаемой разметке....
...Семантическая разметка как бы переводит нас из двухмерного мира в трехмерный: помимо «плоского» текста словарных статей, у нас появляется дополнительное изменение, в котором располагаются теги....
...Новые механизмы поиска позволяют давать более адекватные ответы на запросы пользователей, система карточек обеспечивает наглядность и удобство, а машиночитаемая разметка открывает широкие перспективы для сбора статистики и разработки упражнений на разнообразные правила и явления....
...В метасловаре пользователь сначала видит общую картину...
Команда Грамоты за прошедшую неделю внесла несколько обещанных изменений в работу обновленного портала: размер поля для вопроса справочной службе увеличился до 1000 символов; добавлена возможность использовать в поисковой строке символы (* и ?), что позволяет искать в текстовых материалах сразу группу похожих слов; для большинства словарей в словарных статьях, которые появляются в результатах поиска, воспроизводится их исходная разметка. Кроме того, мы теперь с ...
...Команда Грамоты последовательно внедряет решения, которые...
..., что позволяет искать в текстовых материалах сразу группу похожих слов; для большинства словарей в словарных статьях, которые появляются в результатах поиска, воспроизводится их исходная разметка....
...Дневник обновлений: делаем удобнее вид результатов...