Цифровой Чехов: как устроено семантическое издание и где искать 4500 писем Чехова
На примере проекта Chekhov Digital онлайн-журнал «Системный Блокъ» рассказывает о семантическом издании и о том, чем оно полезно.
Проект Chekhov Digital посвящен изучению литературного наследия Чехова. Семантическое издание — это цифровая форма текстов, снабженных структурно-семантической разметкой, что позволяет проводить интеллектуальный анализ и систематизацию внутритекстовых компонентов.
Подобная разметка произведений Чехова осуществляется с использованием стандарта TEI. Структура каждого документа включает описание библиографических и небиблиографических метаданных. Корпус таких TEI-документов представляет труды писателя в виде единой семантической сети, которую можно использовать для последующего компьютерного анализа и надстройки интерактивной поисковой системы. Проект Chekhov Digital помогает исследователям изучать социальные связи Чехова и его обширную переписку — 4500 писем, написанных в 1875–1904 годах.
Часть сущностей локальной базы знаний Chekhov Digital автоматически связывается с внешней базой знаний «Викиданные», благодаря чему можно исследовать пересечения социальных сетей разных авторов. В рамках проекта также разрабатывается семантическое издание текстов Льва Толстого.
Еще на
эту тему
Слово «пожалуйста» может быть избыточным
Представляем некоторые публикации в третьем номере журнала «Русская речь» за 2025 год
Язык всегда найдет способ заполнить лакуны
Лингвист Мария Ровинская дала интервью каналу «Мослекторий»
В среднем человек ругается 250 тысяч раз за жизнь — как к этому относиться?
Константин Деревянко, Ярослав Скворцов и Владимир Легойда обсудили ненормативную лексику
Лингвист Алексей Шмелев: «У слова „столько“ есть полная парадигма единственного числа»
«Правмир» поговорил о русском языке и лингвистике с председателем Орфографической комиссии РАН
Евгений Головко о связи лингвистики с науками о человеке и обществе
Для антропологической лингвистики язык — прежде всего культурный маркер