Лингвист Борис Орехов: «Корпус русской классики дает доступ в языковую лабораторию авторов»

«Русская классика» — относительно новый корпус в составе Национального корпуса русского языка. Мы поговорили с одним из его создателей, компьютерным лингвистом Борисом Ореховым о том, почему классику выделили из Основного корпуса, чем она интересна и каковы перспективы развития этого проекта.
Грамота: Почему было решено выделить произведения русских классиков в отдельный корпус, если в основном корпусе они тоже присутствуют?
Борис Орехов: Основной корпус не может вместить все тексты писателей-классиков, иначе язык будет представлен в нем несбалансированно. Если основной корпус будет расширен, например, за счет включения 90-томного собрания сочинений Льва Толстого, возникнет перекос в сторону одного автора. Во всем основном корпусе около четырехсот миллионов слов, а у Толстого в Полном собрании сочинений — около восьми миллионов. Довольно заметная доля, как вы понимаете.
При таком смещении «центра тяжести» лингвисты увидят не русский язык как он есть, а русский язык с заметным «оттенком» языка Толстого. Это касается и других авторов с большим объемом литературного наследия. Поэтому мы создали отдельную «песочницу», в которой можно изучать именно язык наших классиков, ничем не ограниченный.
Есть еще один важный аспект. Для полного описания языка нужны три компонента: словарь, грамматика и корпус. Грамматика обязательно опирается на примеры из текстов на описываемом языке, из произведений писателей, которые считаются классическими. Наш корпус — именно такой источник примеров для академической грамматики. Они показывают, что мы имеем дело с литературным языком.
Как вы решаете, кого включать в число классиков (кроме очевидных имен)?
Б. О.: Этот вопрос имеет отношение к проблематике литературного канона. О нем ученые спорят и, наверное, будут спорить не одно десятилетие. Но для нас не это главное.
Мы готовы включить в корпус как можно больше авторов — даже тех, которые находятся в «серой зоне».
Например, это могут быть авторы середины XX века — Юрий Домбровский, Александр Вампилов. Если бы существовали их академические собрания сочинений, мы были бы готовы взять их в корпус, не раздумывая. Правда, такие собрания сначала нужно оцифровать. Далеко не все они есть в электронном виде. Например, Иван Александрович Гончаров — безусловный классик, но не все тома из его собрания сочинений есть в электронном виде, пригодном для включения в корпус. И не всякий архив согласится на то, чтобы их документы конвейерно оцифровывали.
Что нового можно узнать благодаря корпусу классики?
Б. О.: Он позволяет смотреть не только на отдельные произведения автора, а на все тексты, которые есть в собрании сочинений. Так можно узнать, например, какие слова автор любил использовать, а какие нет.
Вот Достоевский очень любил уменьшительно-ласкательные формы. У него есть уникальное слово, которого больше нет ни у кого из русских классиков, — жертвочка. А Тургенев очень любил слово полузавядший.
Благодаря инструментам, которые встроены в интерфейс корпуса, такого рода открытия можно совершать ежеминутно. Не то чтобы они переворачивали наши представления о классиках, но они важны для тех, кому интересна языковая материя.
У меня есть две статьи как раз на корпусном материале. Одна про те самые слова и выражения, которые характерны для писателей-классиков. А вторая касается индивидуального стиля Толстого. Некоторые прежние выводы о языке Толстого на корпусных данных подтверждаются, а другие — нет. То есть корпус дает нам более объективную картину, чем собственные наблюдения.
Много ли сейчас пользователей у корпуса «Русская классика»? Кому, кроме специалистов, он может быть интересен?
Б. О.: Новые корпуса медленно набирают пользовательскую базу (речь не только о «Русской классике»). Основной корпус и подобные ему, которым уже больше двадцати лет, — действительно посещаемые. А как будут использоваться новые — покажет время. Есть такое свойство систем — эмерджентность. Оно заключается в том, что создатель системы не до конца знает, как она будет в конечном счете использоваться. Возможно, совсем не так, как задумывалось.
Плох тот корпусостроитель, который до конца понимает все возможности своего детища.
Лингвисты когда-то создавали корпуса только для себя, но в процессе их функционирования выяснилось, что возможности корпусов шире: они полезны и историкам, и литературоведам. Хочется верить, что с корпусом «Русская классика» будет примерно так же. Собственно, над этим мы и работаем.
Можете назвать какой-нибудь действующий проект, возможно не строго научный и не самый известный, демонстрирующий возможности работы с корпусом текстов писателей?
Б. О.: Например, есть Фундаментальная электронная библиотека русской литературы и фольклора — ФЭБ, которая появилась примерно в то же время, что и НКРЯ, в начале 2000-х годов. В ФЭБе можно было искать слова в коллекциях текстов Пушкина и выяснять, использовал ли поэт то или иное слово, а если не использовал сам, то возможно, это делали его редакторы.
Для отдельных классиков уже существуют или готовятся специализированные проекты. Создается проект «Пушкин <цифровой>», действует и развивается проект «Слово Толстого». Для других русских классиков — Баратынского, Радищева, Крылова и многих других, внесших значительный вклад в русскую культуру и литературу, подобных проектов нет. Корпус «Русская классика» позволяет охватить эти имена, не создавая отдельных проектов для каждого автора. В этом смысле он более демократичен, чем персональные проекты.
Насколько корпус «Русская классика» самобытен по сравнению с аналогичными мировыми проектами? Используется ли опыт предшественников и интересуются ли зарубежные коллеги вашим опытом?
Б. О.: Мы создали этот корпус естественным путем, исходя из опыта составления основного Национального корпуса русского языка. Единственное, что можно считать аналогом, — это не корпуса, а электронные библиотеки. Например, сайт RussianLiterature.org, где собраны электронные собрания сочинений русских писателей, изданные Институтом русской литературы РАН (Пушкинским домом). Там тоже есть поиск, но не такой сложный и разветвленный, как у нас. В их коллекции есть Гоголь (как и у нас), Белинский (которого у нас нет) и другие авторы. Это единственный параллельный проект, о котором можно говорить, помимо уже упомянутого ФЭБа.
Что касается образцов, НКРЯ во многом сам является образцовым, поскольку в нем сосредоточены и художественные, и нехудожественные тексты.
Художественных текстов у нас даже больше в пропорции, чем нужно, потому что мы традиционно литературоцентричная страна.
На наш корпус обращают внимание те, кто создает свои корпуса параллельно с нами. Возможно, коллеги из стран Средней Азии (в Казахстане очень внимательно следят за нашим корпусным опытом) или других стран увидят появление такого жанра и начнут создавать что-то свое. Мы скорее задаем тренд, а не следуем за кем-то.
Как устроена автоматическая разметка текстов?
Б. О.: Разметка представляет собой многоплановый и многомерный процесс. Во всем НКРЯ используется автоматическая разметка на морфологическом уровне. Если нужно определить, что представляет собой слово, какова его словарная форма (лемма), на все эти вопросы отвечает автомат — нейросеть под названием «Рубик».
Так называемая метаразметка присваивает характеристики всему тексту целиком: автор, название и другие параметры. Эта разметка включает ручную проверку, но часто, если мы имеем дело с качественно оцифрованным собранием сочинений, процесс проходит автоматически. Например, если собрание принадлежит Жуковскому, все тексты автоматически получают соответствующую метку.
Кому и зачем нужен Национальный корпус русского языкаПолучить всю картотеку одним кликом и другие, менее очевидные возможности специальных корпусовВ той части работы, которая специфична именно для корпуса «Русская классика», используются относительно простые программные средства. Однако когда создается продукт, интегрированный в экосистему НКРЯ, подключаются все мощные механизмы и программные инструменты, которые используются при создании основного корпуса, поэтического корпуса и многих других.
С какими вызовами сталкиваются разработчики?
Б. О.: Эти вызовы связаны не с техническими вопросами, а с филологическими. Например, одно из писем Толстого написано полностью на французском языке, за исключением одного русского слова. Следует ли включать такой текст в корпус? С одной стороны, мы должны учитывать все слова Толстого, включая это единственное русское слово. С другой стороны, подавляющее большинство слов в тексте написано на другом языке. Неясно, что делать в таких случаях: отказаться от всего текста, оставить только русское слово или взять письмо целиком.
Сложности возникают и с черновиками. Существует лист, который не вошел ни в одно крупное произведение, но был расшифрован и издан. Однако не все слова в нем написаны полностью. Как поступить со словом, падеж которого неизвестен? Следует ли включить его в корпус в том виде, в котором его распознал редактор, или исправить на тот падеж, который кажется правильным, если окончание сокращено, а корень понятен?
Отдельная проблема касается редакций и вариантов. Для лингвистов важно, сколько раз то или иное слово встречается в текстах.
В различных редакциях одни и те же слова повторяются. Как их считать — за одно слово или за разные?
Такие дубли искажают статистику, которая является важным инструментом наблюдения за языком, например, правильным часто считается наиболее употребительный вариант.
Дополнительную сложность создает система обозначений, принятая редакторами: одни слова помещены в квадратные скобки, другие — в угловые, третьи вынесены в примечания. Включить эти сведения в корпус — нетривиальная задача.
Как дальше будет развиваться корпус «Русская классика»?
Б. О.: Во-первых, мы планируем увеличить количество текстов и авторов, поскольку русская классика не ограничивается двумя десятками писателей. Этот процесс продолжится до тех пор, пока в корпус не войдут все писатели первого, второго и третьего ряда, которым посвящали свое время отечественные литературоведы.
Во-вторых, будем улучшать разметку уже существующих материалов. Скажем, у автора есть произведение, занимающее промежуточное положение между комедией и трагедией, а мы, торопясь включить драматический текст в корпус, обозначили его просто как «драма». Имеет смысл специфицировать такие жанры более точно.
Кроме того, в загруженных в корпус текстах встречаются ошибки, возникающие в процессе обработки оцифрованных данных. Некоторые слова — например те, что стояли в скобках — могли потеряться из-за того, что скобки были неправильно прочитаны скриптом.
Как, на ваш взгляд, корпус русской классики меняет наше представление о русской литературе и литературном языке?
Б. О.: Наши классики — это мастера, которые обработали русский язык для нас. Он существует в современном виде благодаря писателям классической эпохи. «Русская классика» — это способ проникнуть в их лабораторию, узнать, что особенного есть в нашем русском языке благодаря этим писателям.
Что такое векторные модели и как можно их использоватьКомпьютерный лингвист Борис Орехов умеет превращать значение слова в последовательность чиселОднажды я создал инструмент, который умеет заменять в русском тексте слова на похожие по значению с помощью векторных моделей. Так появились образцы «векторных романов» — тексты из классической русской литературы, где все слова, которые поддаются такой операции, заменены на другие, не влияющие на сюжет.
Тогда возникает вопрос: где живет гениальность писателя? Испаряется ли она при замене слов или остается в тексте?
Б. О.: На платформе «Арзамас» была игра «Толстой или компьютер», где нужно было угадать: какая из двух фраз оригинальная толстовская, а какая — с замененными словами при сохранении общего смысла. Если человек умеет это угадывать, значит, он чувствует язык классической русской литературы. Но чувствовать — это одно, а понимать — другое. Мне кажется, этому пониманию можно научиться, работая с корпусом «Русская классика».
Работы по пополнению корпуса «Русская классика» текстами Ф. М. Достоевского в 2024–2025 годах поддержаны Благотворительным фондом содействия образованию «ДАР».
Еще на
эту тему
Александр Пушкин, главный инфлюенсер русского языка
Его влияние на то, как мы говорим и пишем, сохраняется спустя двести лет
Состоялся запуск масштабного цифрового проекта «Слово Толстого»
Комментарии участников проекта
Цифровой Чехов: как устроено семантическое издание и где искать 4500 писем Чехова
Новая технология для гуманитарных исследований