Подсказки для поиска

Лингвист Борис Орехов: «Корпус русской классики дает доступ в языковую лабораторию авторов»

Лингвист Борис Орехов: «Корпус русской классики дает доступ в языковую лабораторию авторов»
Иллюстрация: Евгения Климова

«Русская классика» — относительно новый корпус в составе Национального корпуса русского языка. Мы поговорили с одним из его создателей, компьютерным лингвистом Борисом Ореховым о том, почему классику выделили из Основного корпуса, чем она интересна и каковы перспективы развития этого проекта.

Грамота: Почему было решено выделить произведения русских классиков в отдельный корпус, если в основном корпусе они тоже присутствуют?

Борис Орехов: Основной корпус не может вместить все тексты писателей-классиков, иначе язык будет представлен в нем несбалансированно. Если основной корпус будет расширен, например, за счет включения 90-томного собрания сочинений Льва Толстого, возникнет перекос в сторону одного автора. Во всем основном корпусе около четырехсот миллионов слов, а у Толстого в Полном собрании сочинений — около восьми миллионов. Довольно заметная доля, как вы понимаете.

При таком смещении «центра тяжести» лингвисты увидят не русский язык как он есть, а русский язык с заметным «оттенком» языка Толстого. Это касается и других авторов с большим объемом литературного наследия. Поэтому мы создали отдельную «песочницу», в которой можно изучать именно язык наших классиков, ничем не ограниченный.

Есть еще один важный аспект. Для полного описания языка нужны три компонента: словарь, грамматика и корпус. Грамматика обязательно опирается на примеры из текстов на описываемом языке, из произведений писателей, которые считаются классическими. Наш корпус — именно такой источник примеров для академической грамматики. Они показывают, что мы имеем дело с литературным языком.

Как вы решаете, кого включать в число классиков (кроме очевидных имен)?

Б. О.: Этот вопрос имеет отношение к проблематике литературного канона. О нем ученые спорят и, наверное, будут спорить не одно десятилетие. Но для нас не это главное. 

Мы готовы включить в корпус как можно больше авторов — даже тех, которые находятся в «серой зоне». 

Например, это могут быть авторы середины XX века — Юрий Домбровский, Александр Вампилов. Если бы существовали их академические собрания сочинений, мы были бы готовы взять их в корпус, не раздумывая. Правда, такие собрания сначала нужно оцифровать. Далеко не все они есть в электронном виде. Например, Иван Александрович Гончаров — безусловный классик, но не все тома из его собрания сочинений есть в электронном виде, пригодном для включения в корпус. И не всякий архив согласится на то, чтобы их документы конвейерно оцифровывали.

Что нового можно узнать благодаря корпусу классики?

Б. О.: Он позволяет смотреть не только на отдельные произведения автора, а на все тексты, которые есть в собрании сочинений. Так можно узнать, например, какие слова автор любил использовать, а какие нет.

Вот Достоевский очень любил уменьшительно-ласкательные формы. У него есть уникальное слово, которого больше нет ни у кого из русских классиков, — жертвочка. А Тургенев очень любил слово полузавядший.

Благодаря инструментам, которые встроены в интерфейс корпуса, такого рода открытия можно совершать ежеминутно. Не то чтобы они переворачивали наши представления о классиках, но они важны для тех, кому интересна языковая материя. 

У меня есть две статьи как раз на корпусном материале. Одна про те самые слова и выражения, которые характерны для писателей-классиков. А вторая касается индивидуального стиля Толстого. Некоторые прежние выводы о языке Толстого на корпусных данных подтверждаются, а другие — нет. То есть корпус дает нам более объективную картину, чем собственные наблюдения.

Много ли сейчас пользователей у корпуса «Русская классика»? Кому, кроме специалистов, он может быть интересен?

Б. О.: Новые корпуса медленно набирают пользовательскую базу (речь не только о «Русской классике»). Основной корпус и подобные ему, которым уже больше двадцати лет, — действительно посещаемые. А как будут использоваться новые — покажет время. Есть такое свойство систем — эмерджентность. Оно заключается в том, что создатель системы не до конца знает, как она будет в конечном счете использоваться. Возможно, совсем не так, как задумывалось.

Плох тот корпусостроитель, который до конца понимает все возможности своего детища.

Лингвисты когда-то создавали корпуса только для себя, но в процессе их функционирования выяснилось, что возможности корпусов шире: они полезны и историкам, и литературоведам. Хочется верить, что с корпусом «Русская классика» будет примерно так же. Собственно, над этим мы и работаем.

Можете назвать какой-нибудь действующий проект, возможно не строго научный и не самый известный, демонстрирующий возможности работы с корпусом текстов писателей?

Б. О.: Например, есть Фундаментальная электронная библиотека русской литературы и фольклора — ФЭБ, которая появилась примерно в то же время, что и НКРЯ, в начале 2000-х годов. В ФЭБе можно было искать слова в коллекциях текстов Пушкина и выяснять, использовал ли поэт то или иное слово, а если не использовал сам, то возможно, это делали его редакторы. 

Для отдельных классиков уже существуют или готовятся специализированные проекты. Создается проект «Пушкин <цифровой>», действует и развивается проект «Слово Толстого». Для других русских классиков — Баратынского, Радищева, Крылова и многих других, внесших значительный вклад в русскую культуру и литературу, подобных проектов нет. Корпус «Русская классика» позволяет охватить эти имена, не создавая отдельных проектов для каждого автора. В этом смысле он более демократичен, чем персональные проекты.

Насколько корпус «Русская классика» самобытен по сравнению с аналогичными мировыми проектами? Используется ли опыт предшественников и интересуются ли зарубежные коллеги вашим опытом?

Б. О.: Мы создали этот корпус естественным путем, исходя из опыта составления основного Национального корпуса русского языка. Единственное, что можно считать аналогом, — это не корпуса, а электронные библиотеки. Например, сайт RussianLiterature.org, где собраны электронные собрания сочинений русских писателей, изданные Институтом русской литературы РАН (Пушкинским домом). Там тоже есть поиск, но не такой сложный и разветвленный, как у нас. В их коллекции есть Гоголь (как и у нас), Белинский (которого у нас нет) и другие авторы. Это единственный параллельный проект, о котором можно говорить, помимо уже упомянутого ФЭБа.

Что касается образцов, НКРЯ во многом сам является образцовым, поскольку в нем сосредоточены и художественные, и нехудожественные тексты. 

Художественных текстов у нас даже больше в пропорции, чем нужно, потому что мы традиционно литературоцентричная страна. 

На наш корпус обращают внимание те, кто создает свои корпуса параллельно с нами. Возможно, коллеги из стран Средней Азии (в Казахстане очень внимательно следят за нашим корпусным опытом) или других стран увидят появление такого жанра и начнут создавать что-то свое. Мы скорее задаем тренд, а не следуем за кем-то.

Как устроена автоматическая разметка текстов? 

Б. О.: Разметка представляет собой многоплановый и многомерный процесс. Во всем НКРЯ используется автоматическая разметка на морфологическом уровне. Если нужно определить, что представляет собой слово, какова его словарная форма (лемма), на все эти вопросы отвечает автомат — нейросеть под названием «Рубик».

Так называемая метаразметка присваивает характеристики всему тексту целиком: автор, название и другие параметры. Эта разметка включает ручную проверку, но часто, если мы имеем дело с качественно оцифрованным собранием сочинений, процесс проходит автоматически. Например, если собрание принадлежит Жуковскому, все тексты автоматически получают соответствующую метку.

Кому и зачем нужен Национальный корпус русского языкаПолучить всю картотеку одним кликом и другие, менее очевидные возможности специальных корпусовВ той части работы, которая специфична именно для корпуса «Русская классика», используются относительно простые программные средства. Однако когда создается продукт, интегрированный в экосистему НКРЯ, подключаются все мощные механизмы и программные инструменты, которые используются при создании основного корпуса, поэтического корпуса и многих других.

С какими вызовами сталкиваются разработчики?

Б. О.: Эти вызовы связаны не с техническими вопросами, а с филологическими. Например, одно из писем Толстого написано полностью на французском языке, за исключением одного русского слова. Следует ли включать такой текст в корпус? С одной стороны, мы должны учитывать все слова Толстого, включая это единственное русское слово. С другой стороны, подавляющее большинство слов в тексте написано на другом языке. Неясно, что делать в таких случаях: отказаться от всего текста, оставить только русское слово или взять письмо целиком.

Сложности возникают и с черновиками. Существует лист, который не вошел ни в одно крупное произведение, но был расшифрован и издан. Однако не все слова в нем написаны полностью. Как поступить со словом, падеж которого неизвестен? Следует ли включить его в корпус в том виде, в котором его распознал редактор, или исправить на тот падеж, который кажется правильным, если окончание сокращено, а корень понятен?

Отдельная проблема касается редакций и вариантов. Для лингвистов важно, сколько раз то или иное слово встречается в текстах. 

В различных редакциях одни и те же слова повторяются. Как их считать — за одно слово или за разные? 

Такие дубли искажают статистику, которая является важным инструментом наблюдения за языком, например, правильным часто считается наиболее употребительный вариант. 

Дополнительную сложность создает система обозначений, принятая редакторами: одни слова помещены в квадратные скобки, другие — в угловые, третьи вынесены в примечания. Включить эти сведения в корпус — нетривиальная задача. 

Как дальше будет развиваться корпус «Русская классика»? 

Б. О.: Во-первых, мы планируем увеличить количество текстов и авторов, поскольку русская классика не ограничивается двумя десятками писателей. Этот процесс продолжится до тех пор, пока в корпус не войдут все писатели первого, второго и третьего ряда, которым посвящали свое время отечественные литературоведы.

Во-вторых, будем улучшать разметку уже существующих материалов. Скажем, у автора есть произведение, занимающее промежуточное положение между комедией и трагедией, а мы, торопясь включить драматический текст в корпус, обозначили его просто как «драма». Имеет смысл специфицировать такие жанры более точно.

Кроме того, в загруженных в корпус текстах встречаются ошибки, возникающие в процессе обработки оцифрованных данных. Некоторые слова — например те, что стояли в скобках — могли потеряться из-за того, что скобки были неправильно прочитаны скриптом.

Как, на ваш взгляд, корпус русской классики меняет наше представление о русской литературе и литературном языке?

Б. О.: Наши классики — это мастера, которые обработали русский язык для нас. Он существует в современном виде благодаря писателям классической эпохи. «Русская классика» — это способ проникнуть в их лабораторию, узнать, что особенного есть в нашем русском языке благодаря этим писателям.

Что такое векторные модели и как можно их использоватьКомпьютерный лингвист Борис Орехов умеет превращать значение слова в последовательность чиселОднажды я создал инструмент, который умеет заменять в русском тексте слова на похожие по значению с помощью векторных моделей. Так появились образцы «векторных романов» — тексты из классической русской литературы, где все слова, которые поддаются такой операции, заменены на другие, не влияющие на сюжет.

Тогда возникает вопрос: где живет гениальность писателя? Испаряется ли она при замене слов или остается в тексте? 

Б. О.: На платформе «Арзамас» была игра «Толстой или компьютер», где нужно было угадать: какая из двух фраз оригинальная толстовская, а какая — с замененными словами при сохранении общего смысла. Если человек умеет это угадывать, значит, он чувствует язык классической русской литературы. Но чувствовать — это одно, а понимать — другое. Мне кажется, этому пониманию можно научиться, работая с корпусом «Русская классика».

Работы по пополнению корпуса «Русская классика» текстами Ф. М. Достоевского в 2024–2025 годах поддержаны Благотворительным фондом содействия образованию «ДАР».

, редактор Грамоты

Еще на эту тему

Александр Пушкин, главный инфлюенсер русского языка

Его влияние на то, как мы говорим и пишем, сохраняется спустя двести лет

все публикации

Лучшие программы-корректоры на основе ИИ

Роботы уже могут исправить большинство ошибок, но сами добавляют новые

Горячая десятка заимствований: что тут сложного?

Пользователи Грамоты часто ищут информацию об этих заимствованиях, которые еще не освоились в русском языке

Язык тела: как жесты помогают нам общаться

Они дополняют, уточняют и даже заменяют слова

Елочки или лапки? Как правильно использовать кавычки

Они нужны для оформления прямой речи, цитат, названий, а также слов, использованных иронически

Мария Каленчук: «Да, мы ориентируемся на живую речь!»

В издательстве «Грамота» вышел Большой словарь ударений

Кто эффективнее в изучении языка — человек или нейросеть?

«Язык опирается на врожденную систему знаний», — объясняет лингвист Наталия Слюсарь

Не только люди: с кем еще мы разговариваем по душам?

Лингвист Валерий Шульгинов напоминает, что до появления чат-ботов люди охотно общались со стихиями, куклами и техникой

Нейтральный язык эсперанто: благородная попытка объединить человечество

Был ли шанс у этого проекта, на который доктор Заменгоф потратил многие годы?

Что было написано на яблоке раздора? Тест на знание истории крылатых слов

Часто мы используем устойчивые выражения, точный смысл которых от нас ускользает

Как пишутся сложные топонимы: правила и исключения

Ново-Огарево отличается от Новосибирска, как Соль-Илецк от Сольвычегодска

Попадает в самое сердечко... Почему теперь так говорят?

Лингвист Ирина Фуфаева ищет причины экспансии этого диминутива в современной речи

Всё о чувствах и отношениях: почему язык психологии стал так популярен

Лингвисты, социологи и психологи обсуждают вред и пользу психотерапевтической волны в русском языке

Запретные слова: что думают лингвисты о нецензурной лексике как части русского языка

В издательстве МИФ вышла научно-популярная книга двух докторов филологических наук

«Слова года» полгода спустя: кто продолжает забег

Насколько точным был прошлогодний выбор Грамоты и как чувствуют себя «наши» неологизмы сегодня

Как устроены языковые манипуляции

Эти приемы используют публицисты, политики, телефонные мошенники и даже родственники

Что значит это региональное слово?

Не только «поребрик» и «мультифора» выдают малую родину говорящего

Высок как гора, застенчив как барышня: что фразеология сообщает о культурно-языковой картине мире

Лингвокультуролог Мария Ковшова о разных способах символизации реальности

1/6
Большой универсальный словарь русского языка (2 тома)
1 — 4 классы
Морковкин В.В., Богачева Г.Ф., Луцкая Н.М.
4.3
Подробнее об издании
От 2320 ₽
Купить на маркетплейсах:
Назовите ваше слово года!
Какие новые слова в 2024 году прочно вошли в вашу речь? На какие вы обратили внимание, какие стали чаще слышать вокруг? Участвуйте в выборе «Слова года» по версии Грамоты.
Отправить
Спасибо!
Мы получили ваш ответ и обязательно учтем его при составлении списка слов-кандидатов
Читать Грамоту дальше
Новые публикации Грамоты в вашей почте
Неверный формат email
Подписаться
Спасибо,
подписка оформлена.
Будем держать вас в курсе!