Подсказки для поиска

Лингвист Борис Орехов: «Корпус русской классики дает доступ в языковую лабораторию авторов»

Лингвист Борис Орехов: «Корпус русской классики дает доступ в языковую лабораторию авторов»
Иллюстрация: Евгения Климова

«Русская классика» — относительно новый корпус в составе Национального корпуса русского языка. Мы поговорили с одним из его создателей, компьютерным лингвистом Борисом Ореховым о том, почему классику выделили из Основного корпуса, чем она интересна и каковы перспективы развития этого проекта.

Грамота: Почему было решено выделить произведения русских классиков в отдельный корпус, если в основном корпусе они тоже присутствуют?

Борис Орехов: Основной корпус не может вместить все тексты писателей-классиков, иначе язык будет представлен в нем несбалансированно. Если основной корпус будет расширен, например, за счет включения 90-томного собрания сочинений Льва Толстого, возникнет перекос в сторону одного автора. Во всем основном корпусе около четырехсот миллионов слов, а у Толстого в Полном собрании сочинений — около восьми миллионов. Довольно заметная доля, как вы понимаете.

При таком смещении «центра тяжести» лингвисты увидят не русский язык как он есть, а русский язык с заметным «оттенком» языка Толстого. Это касается и других авторов с большим объемом литературного наследия. Поэтому мы создали отдельную «песочницу», в которой можно изучать именно язык наших классиков, ничем не ограниченный.

Есть еще один важный аспект. Для полного описания языка нужны три компонента: словарь, грамматика и корпус. Грамматика обязательно опирается на примеры из текстов на описываемом языке, из произведений писателей, которые считаются классическими. Наш корпус — именно такой источник примеров для академической грамматики. Они показывают, что мы имеем дело с литературным языком.

Как вы решаете, кого включать в число классиков (кроме очевидных имен)?

Б. О.: Этот вопрос имеет отношение к проблематике литературного канона. О нем ученые спорят и, наверное, будут спорить не одно десятилетие. Но для нас не это главное. 

Мы готовы включить в корпус как можно больше авторов — даже тех, которые находятся в «серой зоне». 

Например, это могут быть авторы середины XX века — Юрий Домбровский, Александр Вампилов. Если бы существовали их академические собрания сочинений, мы были бы готовы взять их в корпус, не раздумывая. Правда, такие собрания сначала нужно оцифровать. Далеко не все они есть в электронном виде. Например, Иван Александрович Гончаров — безусловный классик, но не все тома из его собрания сочинений есть в электронном виде, пригодном для включения в корпус. И не всякий архив согласится на то, чтобы их документы конвейерно оцифровывали.

Что нового можно узнать благодаря корпусу классики?

Б. О.: Он позволяет смотреть не только на отдельные произведения автора, а на все тексты, которые есть в собрании сочинений. Так можно узнать, например, какие слова автор любил использовать, а какие нет.

Вот Достоевский очень любил уменьшительно-ласкательные формы. У него есть уникальное слово, которого больше нет ни у кого из русских классиков, — жертвочка. А Тургенев очень любил слово полузавядший.

Благодаря инструментам, которые встроены в интерфейс корпуса, такого рода открытия можно совершать ежеминутно. Не то чтобы они переворачивали наши представления о классиках, но они важны для тех, кому интересна языковая материя. 

У меня есть две статьи как раз на корпусном материале. Одна про те самые слова и выражения, которые характерны для писателей-классиков. А вторая касается индивидуального стиля Толстого. Некоторые прежние выводы о языке Толстого на корпусных данных подтверждаются, а другие — нет. То есть корпус дает нам более объективную картину, чем собственные наблюдения.

Много ли сейчас пользователей у корпуса «Русская классика»? Кому, кроме специалистов, он может быть интересен?

Б. О.: Новые корпуса медленно набирают пользовательскую базу (речь не только о «Русской классике»). Основной корпус и подобные ему, которым уже больше двадцати лет, — действительно посещаемые. А как будут использоваться новые — покажет время. Есть такое свойство систем — эмерджентность. Оно заключается в том, что создатель системы не до конца знает, как она будет в конечном счете использоваться. Возможно, совсем не так, как задумывалось.

Плох тот корпусостроитель, который до конца понимает все возможности своего детища.

Лингвисты когда-то создавали корпуса только для себя, но в процессе их функционирования выяснилось, что возможности корпусов шире: они полезны и историкам, и литературоведам. Хочется верить, что с корпусом «Русская классика» будет примерно так же. Собственно, над этим мы и работаем.

Можете назвать какой-нибудь действующий проект, возможно не строго научный и не самый известный, демонстрирующий возможности работы с корпусом текстов писателей?

Б. О.: Например, есть Фундаментальная электронная библиотека русской литературы и фольклора — ФЭБ, которая появилась примерно в то же время, что и НКРЯ, в начале 2000-х годов. В ФЭБе можно было искать слова в коллекциях текстов Пушкина и выяснять, использовал ли поэт то или иное слово, а если не использовал сам, то возможно, это делали его редакторы. 

Для отдельных классиков уже существуют или готовятся специализированные проекты. Создается проект «Пушкин <цифровой>», действует и развивается проект «Слово Толстого». Для других русских классиков — Баратынского, Радищева, Крылова и многих других, внесших значительный вклад в русскую культуру и литературу, подобных проектов нет. Корпус «Русская классика» позволяет охватить эти имена, не создавая отдельных проектов для каждого автора. В этом смысле он более демократичен, чем персональные проекты.

Насколько корпус «Русская классика» самобытен по сравнению с аналогичными мировыми проектами? Используется ли опыт предшественников и интересуются ли зарубежные коллеги вашим опытом?

Б. О.: Мы создали этот корпус естественным путем, исходя из опыта составления основного Национального корпуса русского языка. Единственное, что можно считать аналогом, — это не корпуса, а электронные библиотеки. Например, сайт RussianLiterature.org, где собраны электронные собрания сочинений русских писателей, изданные Институтом русской литературы РАН (Пушкинским домом). Там тоже есть поиск, но не такой сложный и разветвленный, как у нас. В их коллекции есть Гоголь (как и у нас), Белинский (которого у нас нет) и другие авторы. Это единственный параллельный проект, о котором можно говорить, помимо уже упомянутого ФЭБа.

Что касается образцов, НКРЯ во многом сам является образцовым, поскольку в нем сосредоточены и художественные, и нехудожественные тексты. 

Художественных текстов у нас даже больше в пропорции, чем нужно, потому что мы традиционно литературоцентричная страна. 

На наш корпус обращают внимание те, кто создает свои корпуса параллельно с нами. Возможно, коллеги из стран Средней Азии (в Казахстане очень внимательно следят за нашим корпусным опытом) или других стран увидят появление такого жанра и начнут создавать что-то свое. Мы скорее задаем тренд, а не следуем за кем-то.

Как устроена автоматическая разметка текстов? 

Б. О.: Разметка представляет собой многоплановый и многомерный процесс. Во всем НКРЯ используется автоматическая разметка на морфологическом уровне. Если нужно определить, что представляет собой слово, какова его словарная форма (лемма), на все эти вопросы отвечает автомат — нейросеть под названием «Рубик».

Так называемая метаразметка присваивает характеристики всему тексту целиком: автор, название и другие параметры. Эта разметка включает ручную проверку, но часто, если мы имеем дело с качественно оцифрованным собранием сочинений, процесс проходит автоматически. Например, если собрание принадлежит Жуковскому, все тексты автоматически получают соответствующую метку.

Кому и зачем нужен Национальный корпус русского языкаПолучить всю картотеку одним кликом и другие, менее очевидные возможности специальных корпусовВ той части работы, которая специфична именно для корпуса «Русская классика», используются относительно простые программные средства. Однако когда создается продукт, интегрированный в экосистему НКРЯ, подключаются все мощные механизмы и программные инструменты, которые используются при создании основного корпуса, поэтического корпуса и многих других.

С какими вызовами сталкиваются разработчики?

Б. О.: Эти вызовы связаны не с техническими вопросами, а с филологическими. Например, одно из писем Толстого написано полностью на французском языке, за исключением одного русского слова. Следует ли включать такой текст в корпус? С одной стороны, мы должны учитывать все слова Толстого, включая это единственное русское слово. С другой стороны, подавляющее большинство слов в тексте написано на другом языке. Неясно, что делать в таких случаях: отказаться от всего текста, оставить только русское слово или взять письмо целиком.

Сложности возникают и с черновиками. Существует лист, который не вошел ни в одно крупное произведение, но был расшифрован и издан. Однако не все слова в нем написаны полностью. Как поступить со словом, падеж которого неизвестен? Следует ли включить его в корпус в том виде, в котором его распознал редактор, или исправить на тот падеж, который кажется правильным, если окончание сокращено, а корень понятен?

Отдельная проблема касается редакций и вариантов. Для лингвистов важно, сколько раз то или иное слово встречается в текстах. 

В различных редакциях одни и те же слова повторяются. Как их считать — за одно слово или за разные? 

Такие дубли искажают статистику, которая является важным инструментом наблюдения за языком, например, правильным часто считается наиболее употребительный вариант. 

Дополнительную сложность создает система обозначений, принятая редакторами: одни слова помещены в квадратные скобки, другие — в угловые, третьи вынесены в примечания. Включить эти сведения в корпус — нетривиальная задача. 

Как дальше будет развиваться корпус «Русская классика»? 

Б. О.: Во-первых, мы планируем увеличить количество текстов и авторов, поскольку русская классика не ограничивается двумя десятками писателей. Этот процесс продолжится до тех пор, пока в корпус не войдут все писатели первого, второго и третьего ряда, которым посвящали свое время отечественные литературоведы.

Во-вторых, будем улучшать разметку уже существующих материалов. Скажем, у автора есть произведение, занимающее промежуточное положение между комедией и трагедией, а мы, торопясь включить драматический текст в корпус, обозначили его просто как «драма». Имеет смысл специфицировать такие жанры более точно.

Кроме того, в загруженных в корпус текстах встречаются ошибки, возникающие в процессе обработки оцифрованных данных. Некоторые слова — например те, что стояли в скобках — могли потеряться из-за того, что скобки были неправильно прочитаны скриптом.

Как, на ваш взгляд, корпус русской классики меняет наше представление о русской литературе и литературном языке?

Б. О.: Наши классики — это мастера, которые обработали русский язык для нас. Он существует в современном виде благодаря писателям классической эпохи. «Русская классика» — это способ проникнуть в их лабораторию, узнать, что особенного есть в нашем русском языке благодаря этим писателям.

Что такое векторные модели и как можно их использоватьКомпьютерный лингвист Борис Орехов умеет превращать значение слова в последовательность чиселОднажды я создал инструмент, который умеет заменять в русском тексте слова на похожие по значению с помощью векторных моделей. Так появились образцы «векторных романов» — тексты из классической русской литературы, где все слова, которые поддаются такой операции, заменены на другие, не влияющие на сюжет.

Тогда возникает вопрос: где живет гениальность писателя? Испаряется ли она при замене слов или остается в тексте? 

Б. О.: На платформе «Арзамас» была игра «Толстой или компьютер», где нужно было угадать: какая из двух фраз оригинальная толстовская, а какая — с замененными словами при сохранении общего смысла. Если человек умеет это угадывать, значит, он чувствует язык классической русской литературы. Но чувствовать — это одно, а понимать — другое. Мне кажется, этому пониманию можно научиться, работая с корпусом «Русская классика».

Работы по пополнению корпуса «Русская классика» текстами Ф. М. Достоевского в 2024–2025 годах поддержаны Благотворительным фондом содействия образованию «ДАР».

, редактор Грамоты

Еще на эту тему

Александр Пушкин, главный инфлюенсер русского языка

Его влияние на то, как мы говорим и пишем, сохраняется спустя двести лет

все публикации

Всё о чувствах и отношениях: почему язык психологии стал так популярен

Лингвисты, социологи и психологи обсуждают вред и пользу психотерапевтической волны в русском языке

Запретные слова: что думают лингвисты о нецензурной лексике как части русского языка

В издательстве МИФ вышла научно-популярная книга двух докторов филологических наук

«Слова года» полгода спустя: кто продолжает забег

Насколько точным был прошлогодний выбор Грамоты и как чувствуют себя «наши» неологизмы сегодня

Как устроены языковые манипуляции

Эти приемы используют публицисты, политики, телефонные мошенники и даже родственники

Что значит это региональное слово?

Не только «поребрик» и «мультифора» выдают малую родину говорящего

Высок как гора, застенчив как барышня: что фразеология сообщает о культурно-языковой картине мире

Лингвокультуролог Мария Ковшова о разных способах символизации реальности

Таджики, негры и евреи: что исследует лингвистическая конфликтология

Сотрудники НИУ ВШЭ рассказали коллегам об этом научном направлении и о результатах своих экспериментов

Как склонять по-русски составные топонимы

В зависимости от происхождения и структуры могут склоняться обе части названия, одна из частей или ни одной

Слова-паразиты: откуда они берутся и какую роль выполняют

Они приходят без разрешения и «питаются» смыслом высказывания

«Набросал стишата», или О стратегии авторской скромности

Мое творчество, мои произведения... Ирина Фуфаева объясняет, почему нас смущают эти выражения

Кринж или не кринж? Лингвистический взгляд на чувство неловкости в коммуникации

Валерий Шульгинов пытается понять, какие ситуации мы описываем этим словом и почему

В Ухане или в Ухани? Как выяснить тип склонения иностранного топонима

Первый шаг — определить, насколько это название привычное и есть ли похожие на него русские слова

Как редакционная политика повышает качество текстов

Что в ней должно быть и кто заинтересован в том, чтобы она работала

Слово «пожалуйста» может быть избыточным

Представляем некоторые публикации в третьем номере журнала «Русская речь» за 2025 год

Свое среди чужих: попробуйте отличить исконно русское слово от заимствований

Десять примеров того, что разница между «местными» и «чужаками» со временем перестает быть заметной

Стенография: как поймать слова на лету

От мраморных плит до современных программ

1/6
Большой универсальный словарь русского языка (2 тома)
1 — 4 классы
Морковкин В.В., Богачева Г.Ф., Луцкая Н.М.
4.3
Подробнее об издании
От 2320 ₽
Купить на маркетплейсах:
Назовите ваше слово года!
Какие новые слова в 2024 году прочно вошли в вашу речь? На какие вы обратили внимание, какие стали чаще слышать вокруг? Участвуйте в выборе «Слова года» по версии Грамоты.
Отправить
Спасибо!
Мы получили ваш ответ и обязательно учтем его при составлении списка слов-кандидатов
Читать Грамоту дальше
Новые публикации Грамоты в вашей почте
Неверный формат email
Подписаться
Спасибо,
подписка оформлена.
Будем держать вас в курсе!