Цифровой Чехов: как устроено семантическое издание и где искать 4500 писем Чехова
На примере проекта Chekhov Digital онлайн-журнал «Системный Блокъ» рассказывает о семантическом издании и о том, чем оно полезно.
Проект Chekhov Digital посвящен изучению литературного наследия Чехова. Семантическое издание — это цифровая форма текстов, снабженных структурно-семантической разметкой, что позволяет проводить интеллектуальный анализ и систематизацию внутритекстовых компонентов.
Подобная разметка произведений Чехова осуществляется с использованием стандарта TEI. Структура каждого документа включает описание библиографических и небиблиографических метаданных. Корпус таких TEI-документов представляет труды писателя в виде единой семантической сети, которую можно использовать для последующего компьютерного анализа и надстройки интерактивной поисковой системы. Проект Chekhov Digital помогает исследователям изучать социальные связи Чехова и его обширную переписку — 4500 писем, написанных в 1875–1904 годах.
Часть сущностей локальной базы знаний Chekhov Digital автоматически связывается с внешней базой знаний «Викиданные», благодаря чему можно исследовать пересечения социальных сетей разных авторов. В рамках проекта также разрабатывается семантическое издание текстов Льва Толстого.
Еще на
эту тему
Как заимствованные слова попадают в словарь русского языка? Интервью филолога Марины Приемышевой
«Периоды языковой моды проходят, а язык самоочищается»
«Мы получили сантехника Петю, которого не заткнуть»: эксперт по ИИ объяснил механизм работы нейросетей
Галлюцинации моделей иногда могут быть полезны
«Касаемо»: простонародное слово стали воспринимать как изысканное
Ольга Северская рассказывает об употреблениях одного нелитературного слова на канале «Говорим по-русски!»
Блоги о языке и лингвистике: еще пять рекомендаций
Филологических историй много не бывает
Переводчик Наталья Мавлевич: «Перевод — это гарантированное счастье в любых жизненных обстоятельствах»
Детство, учителя, любовь к профессии, совпадения и открытия — в монологе на «Арзамасе»