В НГУ создали систему распознавания сложных архивных текстов

18 декабря 2025

Распознавание рукописных текстов — задача, где пересекаются лингвистика, история и машинное обучение. Как научить программу понимать сотни тысячи документов, созданных больше ста лет назад — да к тому же не всегда грамотными и аккуратными людьми? С этой задачей призвана справиться новая разработка специалистов Новосибирского государственного университета.

Магистрант факультета информационных технологий НГУ Степан Гудков под руководством профессора Владимира Барахнина создал программное обеспечение для автоматического распознавания книг решений волостных судов начала XX века. Эти толстые журналы, прошитые шнуром и скрепленные печатью, содержат записи о судебных разбирательствах среди крестьянского сословия России.

Эти документы — очень ценный материал по истории крестьянской жизни предреволюционной России. Они дают представление о повседневных заботах людей, их занятиях, характере, привычках. «Это фотографический портрет крестьянской России, которая потом ушла в течение XX века», — подчеркивает Алексей Кириллов, старший научный сотрудник Института истории СО РАН.

Обычные программы распознавания текста тут бессильны. Причин несколько, и все они связаны с особенностями языка того времени: дореволюционная орфография с ятями, ерами и фитами, которая отличается от современной; разнообразие почерков писарей в разных волостных книгах; многочисленные сокращения и диалектные особенности; низкая грамотность некоторых писарей, приводившая к нестандартным написаниям; сложная структура некоторых страниц, когда текст не следует разлиновке и заполняет страницу сплошным массивом.

Созданная в НГУ система работает поэтапно. Сначала алгоритмы машинного зрения разбивают изображение страницы на фрагменты и отдельные строки. Затем сверточные нейросети распознают символы и преобразуют их в текст. Но главная сложность начинается потом. Система должна научиться понимать контекст, сверять слова со словарями, предлагать варианты исправлений с учетом норм дореволюционного языка. Именно здесь необходимо участие специалистов-гуманитариев.

Планируется создать приложение, которое при встрече с незнакомыми словами будет подчеркивать их и предлагать наиболее вероятные варианты написания, а окончательное решение примет человек, знающий особенности языка эпохи.

Для понимания масштаба работы, которую новая разработка может оптимизировать, — по оценкам историков, в начале XX века волостные суды России выносили около миллиона решений в год. В архивах Сибири сохранилось несколько десятков тысяч таких документов, по всей стране — предположительно сотни тысяч.

По словам Алексея Кириллова, на подготовку двух книг с несколькими сотнями решений волостных судов ушло три года. Автоматизация способна ускорить процесс в несколько раз. В будущем планируется создать полноценную информационную систему с поисковыми интерфейсами, где каждый документ будет снабжен метаданными и доступен для контекстного поиска по селениям, персонам, категориям дел.

Разработка применима не только к судебным журналам, считают авторы. Ее можно адаптировать для распознавания любых рукописных архивных документов — писем, дневников, записей, созданных с середины XIX века до 1917 года, когда уже существовал современный русский язык, но действовала старая орфография.

Автоматизацией распознавания и обработки рукописей занимаются и другие коллективы. Владикавказский научный центр Российской академии наук (ВНЦ РАН) недавно сообщил, что начал сотрудничество с ведущими российскими ИТ-специалистами с целью расшифровки рукописей нартских сказаний с помощью искусственного интеллекта. А лаборатория цифровой лингвистики МИФИ работает над созданием машиночитаемой базы рукописей на церковнославянском языке.

Портал «Грамота.ру»

В НГУ создали систему распознавания сложных архивных текстов

Еще на эту тему

Маргиналы цифрового мира: можно ли улучшить распознавание редких языков

О чем мы можем узнать из средневековых рукописных текстов

Подлинную авторскую пунктуацию можно встретить только в рукописи

все публикации

Александр Потебня: «Язык есть средство не выражать уже готовую мысль, а создавать ее»

Скажи мне, кто твой друг? Опознайте слово по его поведению

От копирайта до копилефта: как менялось авторское право на тексты

Модные слова добавляют ярких красок в палитру общения

И стали они как боты? Человеческая речь может измениться под влиянием сгенерированных текстов

Возможно ли дешифровать письменность острова Пасхи?

Славист Афанасий Селищев о речевых особенностях первых лет советской власти

«Это роли не играет»: какие устойчивые словосочетания мы используем в речи

Названия стран и народов: реальность меняется, а языковая норма остается?

В Метасловаре Грамоты есть возможность проверять ударения при подготовке к ЕГЭ по русскому языку

Учитель Сергей Валюгин: «Грамотный язык сближается с искусством»

Семантические сдвиги: почему слова меняют смысл

Вышел в свет словарь «Традиционная пища Среднего Урала» под редакцией Елены Березович

Пять мифов о том, как устроены естественные языки

«Мне не зашло, а ему откликается»: сленговые конструкции для выражения эмоций

Должен ли извиняться этичный ИИ?

«Моя мама — копия ее мама»: что случилось с падежом

Как используется слово «фидбэк» в современном русском языке

Школьный жаргон XIX века: бонсюжешки ушли, а ерунда осталась

Составители «Академоса» рассказали о выборе слов для орфографического словаря и их кодификации