Подсказки для поиска

Лингвист Борис Орехов: «Корпус русской классики дает доступ в языковую лабораторию авторов»

Лингвист Борис Орехов: «Корпус русской классики дает доступ в языковую лабораторию авторов»
Иллюстрация: Евгения Климова

«Русская классика» — относительно новый корпус в составе Национального корпуса русского языка. Мы поговорили с одним из его создателей, компьютерным лингвистом Борисом Ореховым о том, почему классику выделили из Основного корпуса, чем она интересна и каковы перспективы развития этого проекта.

Грамота: Почему было решено выделить произведения русских классиков в отдельный корпус, если в основном корпусе они тоже присутствуют?

Борис Орехов: Основной корпус не может вместить все тексты писателей-классиков, иначе язык будет представлен в нем несбалансированно. Если основной корпус будет расширен, например, за счет включения 90-томного собрания сочинений Льва Толстого, возникнет перекос в сторону одного автора. Во всем основном корпусе около четырехсот миллионов слов, а у Толстого в Полном собрании сочинений — около восьми миллионов. Довольно заметная доля, как вы понимаете.

При таком смещении «центра тяжести» лингвисты увидят не русский язык как он есть, а русский язык с заметным «оттенком» языка Толстого. Это касается и других авторов с большим объемом литературного наследия. Поэтому мы создали отдельную «песочницу», в которой можно изучать именно язык наших классиков, ничем не ограниченный.

Есть еще один важный аспект. Для полного описания языка нужны три компонента: словарь, грамматика и корпус. Грамматика обязательно опирается на примеры из текстов на описываемом языке, из произведений писателей, которые считаются классическими. Наш корпус — именно такой источник примеров для академической грамматики. Они показывают, что мы имеем дело с литературным языком.

Как вы решаете, кого включать в число классиков (кроме очевидных имен)?

Б. О.: Этот вопрос имеет отношение к проблематике литературного канона. О нем ученые спорят и, наверное, будут спорить не одно десятилетие. Но для нас не это главное. 

Мы готовы включить в корпус как можно больше авторов — даже тех, которые находятся в «серой зоне». 

Например, это могут быть авторы середины XX века — Юрий Домбровский, Александр Вампилов. Если бы существовали их академические собрания сочинений, мы были бы готовы взять их в корпус, не раздумывая. Правда, такие собрания сначала нужно оцифровать. Далеко не все они есть в электронном виде. Например, Иван Александрович Гончаров — безусловный классик, но не все тома из его собрания сочинений есть в электронном виде, пригодном для включения в корпус. И не всякий архив согласится на то, чтобы их документы конвейерно оцифровывали.

Что нового можно узнать благодаря корпусу классики?

Б. О.: Он позволяет смотреть не только на отдельные произведения автора, а на все тексты, которые есть в собрании сочинений. Так можно узнать, например, какие слова автор любил использовать, а какие нет.

Вот Достоевский очень любил уменьшительно-ласкательные формы. У него есть уникальное слово, которого больше нет ни у кого из русских классиков, — жертвочка. А Тургенев очень любил слово полузавядший.

Благодаря инструментам, которые встроены в интерфейс корпуса, такого рода открытия можно совершать ежеминутно. Не то чтобы они переворачивали наши представления о классиках, но они важны для тех, кому интересна языковая материя. 

У меня есть две статьи как раз на корпусном материале. Одна про те самые слова и выражения, которые характерны для писателей-классиков. А вторая касается индивидуального стиля Толстого. Некоторые прежние выводы о языке Толстого на корпусных данных подтверждаются, а другие — нет. То есть корпус дает нам более объективную картину, чем собственные наблюдения.

Много ли сейчас пользователей у корпуса «Русская классика»? Кому, кроме специалистов, он может быть интересен?

Б. О.: Новые корпуса медленно набирают пользовательскую базу (речь не только о «Русской классике»). Основной корпус и подобные ему, которым уже больше двадцати лет, — действительно посещаемые. А как будут использоваться новые — покажет время. Есть такое свойство систем — эмерджентность. Оно заключается в том, что создатель системы не до конца знает, как она будет в конечном счете использоваться. Возможно, совсем не так, как задумывалось.

Плох тот корпусостроитель, который до конца понимает все возможности своего детища.

Лингвисты когда-то создавали корпуса только для себя, но в процессе их функционирования выяснилось, что возможности корпусов шире: они полезны и историкам, и литературоведам. Хочется верить, что с корпусом «Русская классика» будет примерно так же. Собственно, над этим мы и работаем.

Можете назвать какой-нибудь действующий проект, возможно не строго научный и не самый известный, демонстрирующий возможности работы с корпусом текстов писателей?

Б. О.: Например, есть Фундаментальная электронная библиотека русской литературы и фольклора — ФЭБ, которая появилась примерно в то же время, что и НКРЯ, в начале 2000-х годов. В ФЭБе можно было искать слова в коллекциях текстов Пушкина и выяснять, использовал ли поэт то или иное слово, а если не использовал сам, то возможно, это делали его редакторы. 

Для отдельных классиков уже существуют или готовятся специализированные проекты. Создается проект «Пушкин <цифровой>», действует и развивается проект «Слово Толстого». Для других русских классиков — Баратынского, Радищева, Крылова и многих других, внесших значительный вклад в русскую культуру и литературу, подобных проектов нет. Корпус «Русская классика» позволяет охватить эти имена, не создавая отдельных проектов для каждого автора. В этом смысле он более демократичен, чем персональные проекты.

Насколько корпус «Русская классика» самобытен по сравнению с аналогичными мировыми проектами? Используется ли опыт предшественников и интересуются ли зарубежные коллеги вашим опытом?

Б. О.: Мы создали этот корпус естественным путем, исходя из опыта составления основного Национального корпуса русского языка. Единственное, что можно считать аналогом, — это не корпуса, а электронные библиотеки. Например, сайт RussianLiterature.org, где собраны электронные собрания сочинений русских писателей, изданные Институтом русской литературы РАН (Пушкинским домом). Там тоже есть поиск, но не такой сложный и разветвленный, как у нас. В их коллекции есть Гоголь (как и у нас), Белинский (которого у нас нет) и другие авторы. Это единственный параллельный проект, о котором можно говорить, помимо уже упомянутого ФЭБа.

Что касается образцов, НКРЯ во многом сам является образцовым, поскольку в нем сосредоточены и художественные, и нехудожественные тексты. 

Художественных текстов у нас даже больше в пропорции, чем нужно, потому что мы традиционно литературоцентричная страна. 

На наш корпус обращают внимание те, кто создает свои корпуса параллельно с нами. Возможно, коллеги из стран Средней Азии (в Казахстане очень внимательно следят за нашим корпусным опытом) или других стран увидят появление такого жанра и начнут создавать что-то свое. Мы скорее задаем тренд, а не следуем за кем-то.

Как устроена автоматическая разметка текстов? 

Б. О.: Разметка представляет собой многоплановый и многомерный процесс. Во всем НКРЯ используется автоматическая разметка на морфологическом уровне. Если нужно определить, что представляет собой слово, какова его словарная форма (лемма), на все эти вопросы отвечает автомат — нейросеть под названием «Рубик».

Так называемая метаразметка присваивает характеристики всему тексту целиком: автор, название и другие параметры. Эта разметка включает ручную проверку, но часто, если мы имеем дело с качественно оцифрованным собранием сочинений, процесс проходит автоматически. Например, если собрание принадлежит Жуковскому, все тексты автоматически получают соответствующую метку.

Кому и зачем нужен Национальный корпус русского языкаПолучить всю картотеку одним кликом и другие, менее очевидные возможности специальных корпусовВ той части работы, которая специфична именно для корпуса «Русская классика», используются относительно простые программные средства. Однако когда создается продукт, интегрированный в экосистему НКРЯ, подключаются все мощные механизмы и программные инструменты, которые используются при создании основного корпуса, поэтического корпуса и многих других.

С какими вызовами сталкиваются разработчики?

Б. О.: Эти вызовы связаны не с техническими вопросами, а с филологическими. Например, одно из писем Толстого написано полностью на французском языке, за исключением одного русского слова. Следует ли включать такой текст в корпус? С одной стороны, мы должны учитывать все слова Толстого, включая это единственное русское слово. С другой стороны, подавляющее большинство слов в тексте написано на другом языке. Неясно, что делать в таких случаях: отказаться от всего текста, оставить только русское слово или взять письмо целиком.

Сложности возникают и с черновиками. Существует лист, который не вошел ни в одно крупное произведение, но был расшифрован и издан. Однако не все слова в нем написаны полностью. Как поступить со словом, падеж которого неизвестен? Следует ли включить его в корпус в том виде, в котором его распознал редактор, или исправить на тот падеж, который кажется правильным, если окончание сокращено, а корень понятен?

Отдельная проблема касается редакций и вариантов. Для лингвистов важно, сколько раз то или иное слово встречается в текстах. 

В различных редакциях одни и те же слова повторяются. Как их считать — за одно слово или за разные? 

Такие дубли искажают статистику, которая является важным инструментом наблюдения за языком, например, правильным часто считается наиболее употребительный вариант. 

Дополнительную сложность создает система обозначений, принятая редакторами: одни слова помещены в квадратные скобки, другие — в угловые, третьи вынесены в примечания. Включить эти сведения в корпус — нетривиальная задача. 

Как дальше будет развиваться корпус «Русская классика»? 

Б. О.: Во-первых, мы планируем увеличить количество текстов и авторов, поскольку русская классика не ограничивается двумя десятками писателей. Этот процесс продолжится до тех пор, пока в корпус не войдут все писатели первого, второго и третьего ряда, которым посвящали свое время отечественные литературоведы.

Во-вторых, будем улучшать разметку уже существующих материалов. Скажем, у автора есть произведение, занимающее промежуточное положение между комедией и трагедией, а мы, торопясь включить драматический текст в корпус, обозначили его просто как «драма». Имеет смысл специфицировать такие жанры более точно.

Кроме того, в загруженных в корпус текстах встречаются ошибки, возникающие в процессе обработки оцифрованных данных. Некоторые слова — например те, что стояли в скобках — могли потеряться из-за того, что скобки были неправильно прочитаны скриптом.

Как, на ваш взгляд, корпус русской классики меняет наше представление о русской литературе и литературном языке?

Б. О.: Наши классики — это мастера, которые обработали русский язык для нас. Он существует в современном виде благодаря писателям классической эпохи. «Русская классика» — это способ проникнуть в их лабораторию, узнать, что особенного есть в нашем русском языке благодаря этим писателям.

Что такое векторные модели и как можно их использоватьКомпьютерный лингвист Борис Орехов умеет превращать значение слова в последовательность чиселОднажды я создал инструмент, который умеет заменять в русском тексте слова на похожие по значению с помощью векторных моделей. Так появились образцы «векторных романов» — тексты из классической русской литературы, где все слова, которые поддаются такой операции, заменены на другие, не влияющие на сюжет.

Тогда возникает вопрос: где живет гениальность писателя? Испаряется ли она при замене слов или остается в тексте? 

Б. О.: На платформе «Арзамас» была игра «Толстой или компьютер», где нужно было угадать: какая из двух фраз оригинальная толстовская, а какая — с замененными словами при сохранении общего смысла. Если человек умеет это угадывать, значит, он чувствует язык классической русской литературы. Но чувствовать — это одно, а понимать — другое. Мне кажется, этому пониманию можно научиться, работая с корпусом «Русская классика».

Работы по пополнению корпуса «Русская классика» текстами Ф. М. Достоевского в 2024–2025 годах поддержаны Благотворительным фондом содействия образованию «ДАР».

, редактор Грамоты

Еще на эту тему

Александр Пушкин, главный инфлюенсер русского языка

Его влияние на то, как мы говорим и пишем, сохраняется спустя двести лет

все публикации

Новое образование для «нового человека»: как учили грамоте в советской школе сто лет назад

31 августа исполняется сто лет декрету о всеобщем начальном обучении в РСФСР

Язык и пространство: что находится в центре мира?

Реки, горы и стороны света могут быть встроены в языковую систему координат, объясняет Валерий Шульгинов

Курсы лекций Ирины Кобозевой и Андрея Кибрика доступны на платформе Teach-in

Не нужно быть студентом, чтобы погрузиться в лексическую семантику и ареальную лингвистику

Как философы пытались создать идеальные языки

Продуманные, точные — но абсолютно непригодные для общения

Чем речовка лучше речевки? Три переменчивых неологизма XX века 

Раньше слова «речовка», «плащовка» и «мелочовка» писались по-другому

От пашни до веб-сайта: что верстает верстальщик?

В истории названия распространенной современной профессии разбиралась лингвист Ирина Фуфаева

В издательстве «МИФ» вышла книга о книгах

Как создавали, распространяли и запрещали книги

Андрей Кибрик о русскоязычных жителях Аляски и особенностях их диалекта

Сохранить аляскинский русский невозможно, но необходимо его документировать

Чем нас привлекает общение с языковыми моделями

Чат-бот может быть удобным собеседником, но для некоторых людей это удобство чревато проблемами

В научном сообществе исследование обсценных слов находится под запретом

Так считают авторы заметок о русском мате Анатолий Баранов и Дмитрий Добровольский

Лучшие программы-корректоры на основе ИИ

Роботы уже могут исправить большинство ошибок, но сами добавляют новые

Горячая десятка заимствований: что тут сложного?

Пользователи Грамоты часто ищут информацию об этих заимствованиях, которые еще не освоились в русском языке

Язык тела: как жесты помогают нам общаться

Они дополняют, уточняют и даже заменяют слова

Елочки или лапки? Как правильно использовать кавычки

Они нужны для оформления прямой речи, цитат, названий, а также слов, использованных иронически

Мария Каленчук: «Да, мы ориентируемся на живую речь!»

В издательстве «Грамота» вышел Большой словарь ударений

Кто эффективнее в изучении языка — человек или нейросеть?

«Язык опирается на врожденную систему знаний», — объясняет лингвист Наталия Слюсарь

Не только люди: с кем еще мы разговариваем по душам?

Лингвист Валерий Шульгинов напоминает, что до появления чат-ботов люди охотно общались со стихиями, куклами и техникой

1/6
Большой универсальный словарь русского языка (2 тома)
1 — 4 классы
Морковкин В.В., Богачева Г.Ф., Луцкая Н.М.
4.3
Подробнее об издании
От 2320 ₽
Купить на маркетплейсах:
Назовите ваше слово года!
Какие новые слова в 2024 году прочно вошли в вашу речь? На какие вы обратили внимание, какие стали чаще слышать вокруг? Участвуйте в выборе «Слова года» по версии Грамоты.
Отправить
Спасибо!
Мы получили ваш ответ и обязательно учтем его при составлении списка слов-кандидатов
Читать Грамоту дальше
Новые публикации Грамоты в вашей почте
Неверный формат email
Подписаться
Спасибо,
подписка оформлена.
Будем держать вас в курсе!