Цифровой Чехов: как устроено семантическое издание и где искать 4500 писем Чехова
На примере проекта Chekhov Digital онлайн-журнал «Системный Блокъ» рассказывает о семантическом издании и о том, чем оно полезно.
Проект Chekhov Digital посвящен изучению литературного наследия Чехова. Семантическое издание — это цифровая форма текстов, снабженных структурно-семантической разметкой, что позволяет проводить интеллектуальный анализ и систематизацию внутритекстовых компонентов.
Подобная разметка произведений Чехова осуществляется с использованием стандарта TEI. Структура каждого документа включает описание библиографических и небиблиографических метаданных. Корпус таких TEI-документов представляет труды писателя в виде единой семантической сети, которую можно использовать для последующего компьютерного анализа и надстройки интерактивной поисковой системы. Проект Chekhov Digital помогает исследователям изучать социальные связи Чехова и его обширную переписку — 4500 писем, написанных в 1875–1904 годах.
Часть сущностей локальной базы знаний Chekhov Digital автоматически связывается с внешней базой знаний «Викиданные», благодаря чему можно исследовать пересечения социальных сетей разных авторов. В рамках проекта также разрабатывается семантическое издание текстов Льва Толстого.
Еще на
эту тему
На ток-шоу «Агора» филологи обсудили изменения в русском языке и его будущее
Споры о языке говорят о том, что он жив
Лингвист Борис Иомдин рассказал в подкасте «Покажи язык» про язык как средство разобщения
Коммуникативные неудачи могут возникать из-за различий в возрасте и опыте
Лингвист Александр Летучий написал книгу о сложностях русского синтаксиса
Автор показывает на примерах, как синтаксис связан с интонацией и со значением слов
Пособие «Русское правописание с комментариями» поможет разобраться со сложными правилами
Все книги выложены на сайте орфографического ресурса «Академос»
Как сохранить нивхский и другие малые языки? Интервью лингвиста Павла Гращенкова
Языки ценны не только как культурное наследие, но и как источник данных для науки