Цифровой Чехов: как устроено семантическое издание и где искать 4500 писем Чехова
На примере проекта Chekhov Digital онлайн-журнал «Системный Блокъ» рассказывает о семантическом издании и о том, чем оно полезно.
Проект Chekhov Digital посвящен изучению литературного наследия Чехова. Семантическое издание — это цифровая форма текстов, снабженных структурно-семантической разметкой, что позволяет проводить интеллектуальный анализ и систематизацию внутритекстовых компонентов.
Подобная разметка произведений Чехова осуществляется с использованием стандарта TEI. Структура каждого документа включает описание библиографических и небиблиографических метаданных. Корпус таких TEI-документов представляет труды писателя в виде единой семантической сети, которую можно использовать для последующего компьютерного анализа и надстройки интерактивной поисковой системы. Проект Chekhov Digital помогает исследователям изучать социальные связи Чехова и его обширную переписку — 4500 писем, написанных в 1875–1904 годах.
Часть сущностей локальной базы знаний Chekhov Digital автоматически связывается с внешней базой знаний «Викиданные», благодаря чему можно исследовать пересечения социальных сетей разных авторов. В рамках проекта также разрабатывается семантическое издание текстов Льва Толстого.
Еще на
эту тему
Что такое темематический язык и почему он так называется
На портале «Элементы» появились три новые лингвистические задачи
Бузинная матушка и добрый папа: когда книги говорят с ребенком на своем неповторимом языке
Празднуем Международный день детской книги
Мелет или мелит? Не трожь или не трогай? Изучаем глаголы со сложным характером
Ошибки нередко проливают свет на глубинные свойства языковой системы
Как заимствованные слова попадают в словарь русского языка? Интервью филолога Марины Приемышевой
«Периоды языковой моды проходят, а язык самоочищается»
«Мы получили сантехника Петю, которого не заткнуть»: эксперт по ИИ объяснил механизм работы нейросетей
Галлюцинации моделей иногда могут быть полезны