Семантические издания Толстого, Пушкина и Чехова — новый способ существования литературных текстов
Цифровые технологии сегодня позволяют превратить любое собрание сочинений в настоящую базу данных, чтобы увидеть многочисленные связи внутри текста и между текстами, выявить необычные закономерности.
«Семантическое издание — это представление текста в виде связанных данных. Для этого текст должен быть размечен, то есть его элементам приписана информация об их значении в виде организованных меток в машиночитаемом формате. Притом формат должен быть универсальным: то есть для разметки одних и тех же сущностей в разных текстах должны использоваться одни и те же метки»1.
В основе проекта Слово Толстого — электронная версия девяностотомного собрания сочинений Льва Толстого. Запуск проекта состоялся осенью 2022 года и стал результатом многолетней работы группы Tolstoy Digital под руководством Феклы Толстой, в которой участвовали Государственный музей Л. Н. Толстого, НИУ ВШЭ и компания ABBYY. Пользователю доступен поиск по корпусу текстов, а также многочисленные словарные и справочные материалы. В дальнейшем база будет пополнена книгами из личной библиотеки Толстого, письмами и дневниками самого писателя и членов его семьи и работами исследователей.
Семантическое издание полного собрания сочинений Чехова Chekhov Digital разрабатывает Южный федеральный университет совместно с Центром гуманитарных исследований НИУ ВШЭ. Ресурс позволяет использовать как обычный поиск по слову или фразе, так и расширенный — по году, тому, изданию, месту написания, по жанру или объему произведения и другим параметрам. Можно искать фрагменты текста по именам персонажей, по названиям животных или природным явлениям.
Проект Pushkin Digital основан на материалах академического полного собрания сочинений Пушкина, которые подготовлены в Пушкинском Доме — ИРЛИ РАН. Здесь вместо тегирования информации фокус сделан на комментировании и создании гипертекстуальности. Помимо обширного историко-литературного комментария доступно большое количество внешних ссылок, книг и статей, а также аудио- и видеоматериалов. Оцифрованы десятки рукописей, к ним дается специальная расшифровка, благодаря чему можно проследить ход работы писателя. В отдельном каталоге собраны иллюстрации художников к произведениям Пушкина.
Семантические издания полезны как для профессионалов, так и для всех, кто интересуется русской литературой, поэтому таких проектов будет становиться все больше. Например, обсуждаются перспективы объединения усилий для создания цифрового Достоевского. Подробнее о разнообразных проектах в этой области можно прочитать на портале «Горький».
Еще на
эту тему
Современные онлайн-ресурсы расширяют возможности исследователей русского языка
Инструменты, разработанные сотрудниками ИЛИ РАН, будут интересны и неспециалистам
Как цифровизация помогает сохранить языки коренных народов России
Голосовые помощники, цифровые учебники и онлайн-переводчики вносят вклад в создание языковой среды
Цифровой Чехов: как устроено семантическое издание и где искать 4500 писем Чехова
Новая технология для гуманитарных исследований